కంప్యూటర్లుప్రోగ్రామింగ్

UTF-8 - క్యారెక్టర్ ఎన్కోడింగ్

యూనికోడ్ వాస్తవంగా అన్ని ఇప్పటికే పాత్ర సమితికి మద్దతు. యూనీకోడ్ వర్ణ సమూహం ఎన్కోడింగ్ యొక్క ఉత్తమ రూపం UTF-8 ఎన్కోడింగ్ ఉంది. ఇది డేటా, సామర్థ్యం మరియు ప్రాసెసింగ్ సౌలభ్యం రూపుమాపే ప్రతిఘటన ASCII అనుకూలత మద్దతు. మొదటి అయితే మొదట విషయాలు.

రూపం కోడింగ్

బైట్ మరియు 32-బిట్ పదాలు - కంప్యూటర్లు నైరూప్య గణిత శాస్త్ర వస్తువులను మాత్రమే వంటి సంఖ్యలు, అలాగే నిల్వ యూనిట్లు కలయికలు మరియు నిర్వహణ స్థిర-పరిమాణం డేటా పనిచేస్తాయి. ఎలా ప్రస్తుత నిర్ణయించేటప్పుడు ఎన్కోడింగ్ ప్రామాణిక ఖాతాలోకి తీసుకోవాలి అక్షరాల సంఖ్య.

కంప్యూటర్ వ్యవస్థలో, పూర్ణ 8 బిట్స్ (1 బైట్), 16 లేదా 32 బిట్స్ మెమరీ కణాలలో నిల్వ. ప్రతి రూపం యూనికోడ్ ఎన్కోడింగ్ మెమరీ కణాల శ్రేణిని ఒక ప్రత్యేక చిహ్నం సంబంధిత పూర్ణాంకం ఇది నిర్వచిస్తుంది. ప్రామాణిక లో యూనీకోడ్ అక్షరాలు కోడింగ్ 8, 16 మరియు 32-బిట్ బ్లాక్స్ మూడు వేర్వేరు రూపాలు ఉన్నాయి. తదనుగుణంగా, UTF-8, UTF-16 మరియు UTF-32 అంటారు. పేరు UTF యూనికోడ్ ట్రాన్స్ఫర్మేషన్ ఫార్మాట్ ఉన్నచో. ఎన్కోడింగ్ అంటే మూడు రూపాలు ప్రతి సమాన ప్రాతినిధ్యం యూనికోడ్ పాత్ర పలు అనువర్తనాల్లో లాభాలున్నాయి ఉంది.

డేటా ఎన్క్రిప్షన్ యూనికోడ్ స్టాండర్డ్ లో అన్ని అక్షరాలు ప్రాతినిధ్యం ఉపయోగించవచ్చు. అందువలన, వారు పరిష్కారాలను పూర్తిగా అనుకూలంగా వివిధ కారణాల కోసం, కోడింగ్ వివిధ రూపాల్లో ఉపయోగిస్తున్నారు. ప్రతి కోడింగ్ బట్టబయలైన డేటా కోల్పోకుండా ఇతర రెండు ఏ లోకి మార్చబడతాయి.

nenalozheniya సూత్రం

రూపాలు యూనికోడ్ ఎన్కోడింగ్ ప్రతి కాని పాక్షిక అభిసరణ దృష్టిలో అభివృద్ధి. ఉదాహరణకు, Windows-932 కోడ్ ఒకటి లేదా రెండు బైట్లు అక్షరాలు ఏర్పరుస్తుంది. క్రమం పొడవు మొదటి బైట్ ఆధారపడి, రెండు-బైట్ మరియు ఒకే బైట్ విడిపోయిన ఒక సిరీస్లో ప్రముఖ బైట్ విలువలు. అయితే సింగిల్ బైట్ యొక్క విలువ మరియు వెనుకంజలో బైట్ క్రమం జరగడంతో. ఈ ఉదాహరణకు అర్థం పాత్ర శోధన D (కోడ్ 44) (కోడ్ 84 44) తప్పుగా రెండు-బైట్ కారెక్టర్ "D" క్రమం రెండవ భాగం ప్రవేశించడం పొందవచ్చు. ఇది క్రమం సరైనది తెలుసుకోవడానికి, కార్యక్రమం మునుపటి బైట్లు ఖాతాలోకి తీసుకోవాలి.

పరిస్థితి ఉంటే మొదలు మరియు చివర బైట్లు మ్యాచ్, సంక్లిష్టమైనది. ఈ సందిగ్ధత తొలగించడానికి చేయడానికి టెక్స్ట్ లేదా ప్రత్యేక కోడ్ క్రమం ప్రారంభంలో రాకముందే రివర్స్ లుక్ అప్ ఉంటుందని అర్థం. ఈ మాత్రమే అసమర్థంగా కానీ పూర్తి టెక్స్ట్ ఒకే ఒక తప్పు బైట్ చదవటానికి గడిచిపోయిన కారణంగా, సాధ్యం లోపాలు నుండి రక్షితం కాదు.

ఫార్మాట్ మార్పిడి యూనికోడ్ ఈ సమస్య తొలగిస్తుంది దీంతో వెనుకంజలో విలువ, మరియు నిల్వ ఒక యూనిట్ అదే సమాచారాన్ని కాదు కాబట్టి. ఈ శోధించడం మరియు పోలిక కారణంగా పాత్ర కోడ్ వివిధ ప్రాంతాల్లో యాదృచ్చికంగా తప్పుడు ఫలితాలు ఇవ్వడం ఎప్పుడూ ఆ అన్ని యూనీకోడ్ నిర్ధారిస్తుంది. కోడింగ్ రూపాలు సూత్రం nenalozheniya గమనించి వాస్తవం, ఇతర తూర్పు ఆసియా బహుళ బైట్ ఎన్కోడింగ్లని నుండి వారిని వేరుగా.

nonintersection మరొక కోణం యూనికోడ్ ఎన్కోడింగ్ లు ప్రతి పాత్ర ఒక స్పష్టంగా నిర్వచించబడిన సరిహద్దు కలిగి ఉంది. ఈ మునుపటి చిహ్నాలు నిరవధిక సంఖ్య స్కాన్ అవసరాన్ని తొలగిస్తుంది. ఈ ఫీచర్ కొన్నిసార్లు స్వీయ క్లోకింగ్ ఇన్ విత్ ఎన్కోడింగ్ అంటారు. కోడ్ యూనిట్ల డిస్టార్షన్ మాత్రమే ఒక పాత్ర యొక్క వక్రీకరణ ప్రవేశపెడుతుంది, మరియు పరిసర అక్షరాలు ఇంకా చెక్కుచెదరకుండా ఉన్నాయి. 8-బిట్ ఫార్మాట్ మార్పిడి, లేకపోతే బైట్, (బైనరీ కోడ్ లో) 10xxxxxx ప్రారంభించి పాయింటర్ పాయింట్ల చిహ్నం ప్రారంభంలో ఒక మూడు రివర్స్ మార్పిడిలను అవసరం కనుగొనేందుకు.

నిలకడ

యూనికోడ్ కన్సార్టియం పూర్తిగా ఎన్కోడింగ్లని అన్ని 3 రకాల మద్దతు. యూనికోడ్ పాత్ర ఎన్కోడింగ్ ప్రమాణాలు స్వరూపులుగా సమానంగా చెల్లుబాటు అయ్యే రూపాలు - ఇది UTF-8 మరియు యూనీకోడ్ అన్ని మార్పిడి ఫార్మాట్లకు వ్యతిరేకించటం లేదు ముఖ్యం.

బైట్ విన్యాసాన్ని

UTF-32 అక్షరాలు ప్రాతినిధ్యం యూనికోడ్ కోడ్ తో సమానంగా ఇది ఒక 32-bit కోడ్ యూనిట్, అవసరం. UTF-16 - రెండు 16-బిట్ యూనిట్లు ఒక. ఒక UTF-8 4 బైట్లు వరకు ఉపయోగిస్తుంది.

UTF-8 ఎన్కోడింగ్ బైట్ ఆధారిత ASCII ఆధారిత వ్యవస్థలు అనుకూలంగా ఉంటుంది. కాలం సాఫ్టువేరు మరియు సమాచార సాంకేతిక వృత్తిలో అత్యంత బైట్లు క్రమం లో అక్షరాలు ప్రాతినిధ్యం ఆధారపడింది. బహుళ నిభందనలకు నిలకడ మీద ఆధారపడి ASCII ఎన్కోడింగ్ మరియు ఉపయోగిస్తుంది గాని ప్రత్యేక నియంత్రణ అక్షరాలు తొలగిస్తుంది. యూనీకోడ్ అక్షరాలు, ఏ సమానమైన ASCII పాత్ర లేదా ఒక నియంత్రణ పాత్ర ప్రాతినిధ్యం 8- బిట్ కోడింగ్ ఉపయోగించి, పరిస్థితులు యూనికోడ్ చెయ్యవచ్చు స్వీకరించే ఒక సాధారణ మార్గం. ఈ క్రమంలో, మరియు అది UTF-8 ఎన్కోడింగ్ ఉంది.

వేరియబుల్ పొడవు

UTF-8 - వేరియబుల్ పొడవు కోడింగ్ 8-బిట్ నిల్వ యూనిట్లు కలిగి, ఎగువ బిట్స్ ప్రతి వ్యక్తి బైట్ క్రమం ఏ భాగం చెందిన సూచిస్తున్నాయి. కోడ్ క్రమంలో మొదటి మూలకానికి కేటాయించిన విలువలు ఒకటి పరిధి, మరొక - తదుపరి కోసం. ఈ disjointness ఎన్కోడింగ్ అందిస్తుంది.

ASCII

UTF-8 ఎన్కోడింగ్ పూర్తిగా మద్దతిస్తోంది ASCII సంకేతాలు (0x00-0x7F). ఈ యునికోడ్ అక్షరాలను U + 0000-U + 007F ఒకే బైట్ 0x00-0x7F UTF-8 లోకి మార్చబడుతుంది మరియు అందువలన ASCII నుండి వేరుచేసి చెప్పలేరు మారింది అర్థం. అంతేకాక, సందిగ్ధత నివారించేందుకు, విలువ ఏ యూనికోడ్ అక్షరాల ఒకే బైట్ ప్రాతినిధ్యం ఉపయోగించరు 0x00-0x7F. ఎన్కోడ్ చిహ్నాలు రెండు బైట్లు క్రమం ఉపయోగించి, ASCII కంటే ఇతర neideograficheskih. సింబల్స్ పరిధిలో U + 0800-U + ffff మూడు బైట్లు సూచించబడతాయి, మరియు కంటే U + ffff మరింత అదనపు సంకేతాలు నాలుగు బైట్లు అవసరం.

అప్లికేషన్ యొక్క గోళం

UTF-8 ఎన్కోడింగ్ సాధారణంగా HTML ప్రోటోకాల్లో ప్రాధాన్యత ఇచ్చిన, మరియు వంటి.

XML కోసం UTF-8 ఎన్కోడింగ్ పూర్తి మద్దతుతో మొదటి ప్రామాణికంగా ఉంది. స్టాండర్డ్స్ సంస్థలు కూడా అది సిఫార్సు చేస్తున్నాము. ASCII అక్షరాలు నుండి వివిధ అని URL చిరునామా మద్దతు సమస్య, కన్సార్టియం W3C మరియు IETF ఇంజనీరింగ్ సమూహం అన్ని కోడింగ్ ఒక ఒప్పందానికి వచ్చిన పరిష్కరించబడింది URL చిరునామాలను ప్రత్యేకంగా UTF-8 లో.

ASCII తో అనుకూలత కొత్త సాఫ్ట్వేర్ పరివర్తనం సౌకర్యాలు. UTF-8 JEdit, Emacs, BBEdit, ఎక్లిప్స్, మరియు Windows ఆపరేటింగ్ సిస్టమ్ "నోట్ప్యాడ్లో" సహా చాలా టెక్స్ట్ ఎడిటర్లు, పనిచేస్తుంటాడు. ఎన్కోడింగ్ లు కేవలం యూనికోడ్ యొక్క ఏ ఇతర రూపం సాధనం అటువంటి మద్దతు ప్రగల్భాలు కాదు.

కోడింగ్ ప్రయోజనం ఏమిటంటే బైట్లు క్రమంను కలిగి ఉంది. UTF-8 స్ట్రింగ్ తో C మరియు ఇతర ప్రోగ్రామింగ్ భాషలలో పని సులభం. ఈ ఎన్కోడింగ్ యొక్క మాత్రమే రూపం, లేబుల్స్ అవసరం లేదు క్రమంలో BOM లేదా XML ఒక ఎన్కోడింగ్ డిక్లరేషన్ బైట్లు.

స్వీయ సమకాలీకరణ

ఇతర బహుళ బైట్ కారెక్టర్ సెట్లు తో పోలిస్తే ప్రాసెసింగ్ 8-బిట్ చిహ్నాలు ఉపయోగించే ఒక వాతావరణంలో, UTF-8 క్రింది ప్రయోజనాలు ఉన్నాయి:

  • మొదటి బైట్ కోడ్ క్రమం దాని నిడివి గురించి సమాచారాన్ని కలిగి ఉంది. ఈ ప్రత్యక్ష శోధన సామర్థ్యాలను పెంచుతుంది.
  • ప్రారంభ బైట్ విలువలు యొక్క నిర్దిష్ట శ్రేణి పరిమితం చిహ్నం ప్రారంభంలో కనుగొనడంలో సరళీకృత.
  • తోబుట్టువుల ఖండన బైట్ విలువలు.

ప్రయోజనాలు సరిపోల్చండి

UTF-8 ఎన్కోడింగ్ కాంపాక్ట్ ఉంది. కాని తూర్పు ఆసియా అక్షరాలు ఎన్కోడ్ చేసే వాడినప్పుడు (చైనీస్, జపనీస్, కొరియన్, సంకేతాలు ఉపయోగించి చైనీస్ రచన) 3-బైట్ సన్నివేశాలను ఉపయోగించింది. కూడా UTF-8 ఎన్కోడింగ్ ప్రాసెసింగ్ వేగం కోడింగ్ యొక్క ఇతర రూపాలు తక్కువగా ఉంటుంది. ఒక బైనరీ సార్టింగ్ పంక్తులు యూనికోడ్ సార్టింగ్ బైనరీ అదే ఫలితం ఉత్పత్తి చేస్తుంది.

క్యారెక్టర్ ఎన్కోడింగ్ పథకం

క్యారెక్టర్ ఎన్కోడింగ్ పథకం ఎన్కోడింగ్ చిహ్నాలు రూపం మరియు ఒకే బైట్ స్థానం కోడ్ యూనిట్లు పద్ధతి వుంటారు. ఎన్కోడింగ్ పథకం యూనికోడ్ ప్రామాణిక ప్రారంభ బైట్ ఆర్డర్ మార్క్ (బిఒఎం, బైట్ ఆర్డర్ గుర్తు) ఉపయోగం అందిస్తుంది నిర్ణయించటానికి.

UTF-8 ఫీచర్ ట్యాగ్ లో BOM కోడింగ్ యొక్క రూపాలకు ఉపయోగం మాత్రమే సూచనగా మాత్రమే పరిమితమై ఉంది. ఎన్డియన్ UTF-8 గుర్తించడంలో సమస్యలు, దాని ఎన్కోడింగ్ యూనిట్ పరిమాణం ఒక బైట్ ఉంది. కోడింగ్ యొక్క ఈ రూపం కోసం BOM ఉపయోగించి అవసరం లేనివి, సిఫారసు ఉంది. బిఒఎం కోసం UTF-8 ఎన్కోడింగ్ బైట్ ఆర్డర్ మార్క్ లేదా సంతకం ఉపయోగించి ఇతర codings మార్చే టెక్స్ట్ సంభవించవచ్చు. 3 బైట్లు EF BB 16 16 BF 16 ఒక వరుస క్రమం.

UTF-8 ఎన్కోడింగ్ సెట్ ఎలా

కోడింగ్ HTML UTF-8 క్రింది కోడ్ తో ఇన్స్టాల్:

హెడ్

Meta http-equiv = "Content-Type" content = "టెక్స్ట్ / html; charset = utf-8" ˃

PHP లో UTF-8 ఎన్కోడింగ్ అవుట్పుట్ స్థాయి విలువ లోపం సెట్ తర్వాత శీర్షిక () ఫైల్ ప్రారంభంలో ఫంక్షన్ ఉపయోగించి సెట్:

˂? Php

error_reporting (-1);

శీర్షిక ( "Content-Type: text / html; charset = utf-8 ');

ఒక MySQL డేటాబేస్ UTF-8 ఎన్కోడింగ్ సెట్ కనెక్ట్ చెయ్యడానికి:

˂? Php

mysql_set_charset ( 'UTF8');

CSS ఫైల్ ఎన్కోడింగ్ UTF-8 అక్షరాలు క్రింది పేర్కొన్న ఉంది:

@charset "utf-8";

మీరు అన్ని రకాల ఫైళ్లు, BOM లేకుండా UTF-8 ఎన్కోడింగ్ ఎంచుకోండి సేవ్ చేసినప్పుడు, లేకపోతే సైట్ పనిచేయదు. UTF-8 కు ఎన్కోడింగ్ మార్చడానికి DreamWeave దీన్ని మెను ఐటెమ్ "శీర్షిక / ఎన్కోడింగ్ - - పేజీ గుణాలు మార్పులు" ఎంచుకోవాలి. పేజీ రీలోడ్ తరువాత, నుండి "కనెక్ట్ యూనికోడ్ సంతకం (బిఒఎం)» చెక్ మార్క్ తొలగించి మార్పులు వర్తిస్తాయి. ఒక పేజీ లేదా ఒక డేటాబేస్ లో ఏ టెక్స్ట్ కోడింగ్ మరొక రూపం పరిచయం, అది మళ్లీ నమోదు లేదా పునః ఎన్కోడ్ అవసరం. మీరు సాధారణ వ్యక్తీకరణలను తో పని చేసినప్పుడు, మార్పు u ఉపయోగించడానికి తప్పకుండా.

మీరు Windows యొక్క "నోట్ప్యాడ్లో" లో UTF-8 ఎన్కోడింగ్ లో ఫైల్ సేవ్ చేయవచ్చు. మెను ఐటెమ్ ఎంచుకోవడం తరువాత - ఎన్కోడింగ్ అవసరమైన రూపం ఇన్స్టాల్ మరియు UTF-8 లో ఫైల్ సేవ్ "ఫైల్గా సేవ్ ...".

మెను అంశం ద్వారా, UTF-8 కన్నా ఇతర సెట్ ఉంటే ఒక టెక్స్ట్ ఎడిటర్ నోట్ప్యాడ్లో ++ లలో, "BOM లేకుండా UTF-8 కు మార్చండి» పాత్ర మార్చడానికి మరియు UTF-8 లో సేవ్.

ప్రత్యామ్నాయం లేదు

రాజకీయ మరియు భాషా సరిహద్దులు చెరిపి ఇక్కడ ప్రపంచీకరణ సందర్భంలో, స్థానిక లక్షణాలు కలిగి పాత్ర సెట్లు, చిన్న ఉపయోగంలో లేవు. యూనికోడ్ అన్ని స్థానీకరణలను మద్దతిచ్చే ఏకాక్షరం సమితి. ఒక UTF-8 - ఇది యూనికోడ్ యొక్క సరైన అమలు, ఒక ఉదాహరణ:

  • ఇది ASCII ఎన్కోడింగ్ అనుకూలత సహా సాధనాలలో విస్తృత మద్దతు;
  • ఇది వక్రీకరణ డేటా నిరోధకతను;
  • సాధారణ మరియు చికిత్సలో ప్రభావవంతమైన;
  • ప్లాట్ఫారం స్వతంత్ర ఉంది.

UTF-8 చర్చ ఎన్కోడింగ్ లేదా వర్ణ సమూహం యొక్క ఏ రూపంలో గురించి ఉత్తమం రావడంతో, అది అర్ధం అవుతుంది.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 te.birmiss.com. Theme powered by WordPress.