కంప్యూటర్లు, ప్రోగ్రామింగ్
UTF-8 - క్యారెక్టర్ ఎన్కోడింగ్
యూనికోడ్ వాస్తవంగా అన్ని ఇప్పటికే పాత్ర సమితికి మద్దతు. యూనీకోడ్ వర్ణ సమూహం ఎన్కోడింగ్ యొక్క ఉత్తమ రూపం UTF-8 ఎన్కోడింగ్ ఉంది. ఇది డేటా, సామర్థ్యం మరియు ప్రాసెసింగ్ సౌలభ్యం రూపుమాపే ప్రతిఘటన ASCII అనుకూలత మద్దతు. మొదటి అయితే మొదట విషయాలు.
రూపం కోడింగ్
బైట్ మరియు 32-బిట్ పదాలు - కంప్యూటర్లు నైరూప్య గణిత శాస్త్ర వస్తువులను మాత్రమే వంటి సంఖ్యలు, అలాగే నిల్వ యూనిట్లు కలయికలు మరియు నిర్వహణ స్థిర-పరిమాణం డేటా పనిచేస్తాయి. ఎలా ప్రస్తుత నిర్ణయించేటప్పుడు ఎన్కోడింగ్ ప్రామాణిక ఖాతాలోకి తీసుకోవాలి అక్షరాల సంఖ్య.
కంప్యూటర్ వ్యవస్థలో, పూర్ణ 8 బిట్స్ (1 బైట్), 16 లేదా 32 బిట్స్ మెమరీ కణాలలో నిల్వ. ప్రతి రూపం యూనికోడ్ ఎన్కోడింగ్ మెమరీ కణాల శ్రేణిని ఒక ప్రత్యేక చిహ్నం సంబంధిత పూర్ణాంకం ఇది నిర్వచిస్తుంది. ప్రామాణిక లో యూనీకోడ్ అక్షరాలు కోడింగ్ 8, 16 మరియు 32-బిట్ బ్లాక్స్ మూడు వేర్వేరు రూపాలు ఉన్నాయి. తదనుగుణంగా, UTF-8, UTF-16 మరియు UTF-32 అంటారు. పేరు UTF యూనికోడ్ ట్రాన్స్ఫర్మేషన్ ఫార్మాట్ ఉన్నచో. ఎన్కోడింగ్ అంటే మూడు రూపాలు ప్రతి సమాన ప్రాతినిధ్యం యూనికోడ్ పాత్ర పలు అనువర్తనాల్లో లాభాలున్నాయి ఉంది.
డేటా ఎన్క్రిప్షన్ యూనికోడ్ స్టాండర్డ్ లో అన్ని అక్షరాలు ప్రాతినిధ్యం ఉపయోగించవచ్చు. అందువలన, వారు పరిష్కారాలను పూర్తిగా అనుకూలంగా వివిధ కారణాల కోసం, కోడింగ్ వివిధ రూపాల్లో ఉపయోగిస్తున్నారు. ప్రతి కోడింగ్ బట్టబయలైన డేటా కోల్పోకుండా ఇతర రెండు ఏ లోకి మార్చబడతాయి.
nenalozheniya సూత్రం
రూపాలు యూనికోడ్ ఎన్కోడింగ్ ప్రతి కాని పాక్షిక అభిసరణ దృష్టిలో అభివృద్ధి. ఉదాహరణకు, Windows-932 కోడ్ ఒకటి లేదా రెండు బైట్లు అక్షరాలు ఏర్పరుస్తుంది. క్రమం పొడవు మొదటి బైట్ ఆధారపడి, రెండు-బైట్ మరియు ఒకే బైట్ విడిపోయిన ఒక సిరీస్లో ప్రముఖ బైట్ విలువలు. అయితే సింగిల్ బైట్ యొక్క విలువ మరియు వెనుకంజలో బైట్ క్రమం జరగడంతో. ఈ ఉదాహరణకు అర్థం పాత్ర శోధన D (కోడ్ 44) (కోడ్ 84 44) తప్పుగా రెండు-బైట్ కారెక్టర్ "D" క్రమం రెండవ భాగం ప్రవేశించడం పొందవచ్చు. ఇది క్రమం సరైనది తెలుసుకోవడానికి, కార్యక్రమం మునుపటి బైట్లు ఖాతాలోకి తీసుకోవాలి.
పరిస్థితి ఉంటే మొదలు మరియు చివర బైట్లు మ్యాచ్, సంక్లిష్టమైనది. ఈ సందిగ్ధత తొలగించడానికి చేయడానికి టెక్స్ట్ లేదా ప్రత్యేక కోడ్ క్రమం ప్రారంభంలో రాకముందే రివర్స్ లుక్ అప్ ఉంటుందని అర్థం. ఈ మాత్రమే అసమర్థంగా కానీ పూర్తి టెక్స్ట్ ఒకే ఒక తప్పు బైట్ చదవటానికి గడిచిపోయిన కారణంగా, సాధ్యం లోపాలు నుండి రక్షితం కాదు.
ఫార్మాట్ మార్పిడి యూనికోడ్ ఈ సమస్య తొలగిస్తుంది దీంతో వెనుకంజలో విలువ, మరియు నిల్వ ఒక యూనిట్ అదే సమాచారాన్ని కాదు కాబట్టి. ఈ శోధించడం మరియు పోలిక కారణంగా పాత్ర కోడ్ వివిధ ప్రాంతాల్లో యాదృచ్చికంగా తప్పుడు ఫలితాలు ఇవ్వడం ఎప్పుడూ ఆ అన్ని యూనీకోడ్ నిర్ధారిస్తుంది. కోడింగ్ రూపాలు సూత్రం nenalozheniya గమనించి వాస్తవం, ఇతర తూర్పు ఆసియా బహుళ బైట్ ఎన్కోడింగ్లని నుండి వారిని వేరుగా.
nonintersection మరొక కోణం యూనికోడ్ ఎన్కోడింగ్ లు ప్రతి పాత్ర ఒక స్పష్టంగా నిర్వచించబడిన సరిహద్దు కలిగి ఉంది. ఈ మునుపటి చిహ్నాలు నిరవధిక సంఖ్య స్కాన్ అవసరాన్ని తొలగిస్తుంది. ఈ ఫీచర్ కొన్నిసార్లు స్వీయ క్లోకింగ్ ఇన్ విత్ ఎన్కోడింగ్ అంటారు. కోడ్ యూనిట్ల డిస్టార్షన్ మాత్రమే ఒక పాత్ర యొక్క వక్రీకరణ ప్రవేశపెడుతుంది, మరియు పరిసర అక్షరాలు ఇంకా చెక్కుచెదరకుండా ఉన్నాయి. 8-బిట్ ఫార్మాట్ మార్పిడి, లేకపోతే బైట్, (బైనరీ కోడ్ లో) 10xxxxxx ప్రారంభించి పాయింటర్ పాయింట్ల చిహ్నం ప్రారంభంలో ఒక మూడు రివర్స్ మార్పిడిలను అవసరం కనుగొనేందుకు.
నిలకడ
యూనికోడ్ కన్సార్టియం పూర్తిగా ఎన్కోడింగ్లని అన్ని 3 రకాల మద్దతు. యూనికోడ్ పాత్ర ఎన్కోడింగ్ ప్రమాణాలు స్వరూపులుగా సమానంగా చెల్లుబాటు అయ్యే రూపాలు - ఇది UTF-8 మరియు యూనీకోడ్ అన్ని మార్పిడి ఫార్మాట్లకు వ్యతిరేకించటం లేదు ముఖ్యం.
బైట్ విన్యాసాన్ని
UTF-32 అక్షరాలు ప్రాతినిధ్యం యూనికోడ్ కోడ్ తో సమానంగా ఇది ఒక 32-bit కోడ్ యూనిట్, అవసరం. UTF-16 - రెండు 16-బిట్ యూనిట్లు ఒక. ఒక UTF-8 4 బైట్లు వరకు ఉపయోగిస్తుంది.
UTF-8 ఎన్కోడింగ్ బైట్ ఆధారిత ASCII ఆధారిత వ్యవస్థలు అనుకూలంగా ఉంటుంది. కాలం సాఫ్టువేరు మరియు సమాచార సాంకేతిక వృత్తిలో అత్యంత బైట్లు క్రమం లో అక్షరాలు ప్రాతినిధ్యం ఆధారపడింది. బహుళ నిభందనలకు నిలకడ మీద ఆధారపడి ASCII ఎన్కోడింగ్ మరియు ఉపయోగిస్తుంది గాని ప్రత్యేక నియంత్రణ అక్షరాలు తొలగిస్తుంది. యూనీకోడ్ అక్షరాలు, ఏ సమానమైన ASCII పాత్ర లేదా ఒక నియంత్రణ పాత్ర ప్రాతినిధ్యం 8- బిట్ కోడింగ్ ఉపయోగించి, పరిస్థితులు యూనికోడ్ చెయ్యవచ్చు స్వీకరించే ఒక సాధారణ మార్గం. ఈ క్రమంలో, మరియు అది UTF-8 ఎన్కోడింగ్ ఉంది.
వేరియబుల్ పొడవు
UTF-8 - వేరియబుల్ పొడవు కోడింగ్ 8-బిట్ నిల్వ యూనిట్లు కలిగి, ఎగువ బిట్స్ ప్రతి వ్యక్తి బైట్ క్రమం ఏ భాగం చెందిన సూచిస్తున్నాయి. కోడ్ క్రమంలో మొదటి మూలకానికి కేటాయించిన విలువలు ఒకటి పరిధి, మరొక - తదుపరి కోసం. ఈ disjointness ఎన్కోడింగ్ అందిస్తుంది.
ASCII
UTF-8 ఎన్కోడింగ్ పూర్తిగా మద్దతిస్తోంది ASCII సంకేతాలు (0x00-0x7F). ఈ యునికోడ్ అక్షరాలను U + 0000-U + 007F ఒకే బైట్ 0x00-0x7F UTF-8 లోకి మార్చబడుతుంది మరియు అందువలన ASCII నుండి వేరుచేసి చెప్పలేరు మారింది అర్థం. అంతేకాక, సందిగ్ధత నివారించేందుకు, విలువ ఏ యూనికోడ్ అక్షరాల ఒకే బైట్ ప్రాతినిధ్యం ఉపయోగించరు 0x00-0x7F. ఎన్కోడ్ చిహ్నాలు రెండు బైట్లు క్రమం ఉపయోగించి, ASCII కంటే ఇతర neideograficheskih. సింబల్స్ పరిధిలో U + 0800-U + ffff మూడు బైట్లు సూచించబడతాయి, మరియు కంటే U + ffff మరింత అదనపు సంకేతాలు నాలుగు బైట్లు అవసరం.
అప్లికేషన్ యొక్క గోళం
UTF-8 ఎన్కోడింగ్ సాధారణంగా HTML ప్రోటోకాల్లో ప్రాధాన్యత ఇచ్చిన, మరియు వంటి.
XML కోసం UTF-8 ఎన్కోడింగ్ పూర్తి మద్దతుతో మొదటి ప్రామాణికంగా ఉంది. స్టాండర్డ్స్ సంస్థలు కూడా అది సిఫార్సు చేస్తున్నాము. ASCII అక్షరాలు నుండి వివిధ అని URL చిరునామా మద్దతు సమస్య, కన్సార్టియం W3C మరియు IETF ఇంజనీరింగ్ సమూహం అన్ని కోడింగ్ ఒక ఒప్పందానికి వచ్చిన పరిష్కరించబడింది URL చిరునామాలను ప్రత్యేకంగా UTF-8 లో.
ASCII తో అనుకూలత కొత్త సాఫ్ట్వేర్ పరివర్తనం సౌకర్యాలు. UTF-8 JEdit, Emacs, BBEdit, ఎక్లిప్స్, మరియు Windows ఆపరేటింగ్ సిస్టమ్ "నోట్ప్యాడ్లో" సహా చాలా టెక్స్ట్ ఎడిటర్లు, పనిచేస్తుంటాడు. ఎన్కోడింగ్ లు కేవలం యూనికోడ్ యొక్క ఏ ఇతర రూపం సాధనం అటువంటి మద్దతు ప్రగల్భాలు కాదు.
కోడింగ్ ప్రయోజనం ఏమిటంటే బైట్లు క్రమంను కలిగి ఉంది. UTF-8 స్ట్రింగ్ తో C మరియు ఇతర ప్రోగ్రామింగ్ భాషలలో పని సులభం. ఈ ఎన్కోడింగ్ యొక్క మాత్రమే రూపం, లేబుల్స్ అవసరం లేదు క్రమంలో BOM లేదా XML ఒక ఎన్కోడింగ్ డిక్లరేషన్ బైట్లు.
స్వీయ సమకాలీకరణ
ఇతర బహుళ బైట్ కారెక్టర్ సెట్లు తో పోలిస్తే ప్రాసెసింగ్ 8-బిట్ చిహ్నాలు ఉపయోగించే ఒక వాతావరణంలో, UTF-8 క్రింది ప్రయోజనాలు ఉన్నాయి:
- మొదటి బైట్ కోడ్ క్రమం దాని నిడివి గురించి సమాచారాన్ని కలిగి ఉంది. ఈ ప్రత్యక్ష శోధన సామర్థ్యాలను పెంచుతుంది.
- ప్రారంభ బైట్ విలువలు యొక్క నిర్దిష్ట శ్రేణి పరిమితం చిహ్నం ప్రారంభంలో కనుగొనడంలో సరళీకృత.
- తోబుట్టువుల ఖండన బైట్ విలువలు.
ప్రయోజనాలు సరిపోల్చండి
UTF-8 ఎన్కోడింగ్ కాంపాక్ట్ ఉంది. కాని తూర్పు ఆసియా అక్షరాలు ఎన్కోడ్ చేసే వాడినప్పుడు (చైనీస్, జపనీస్, కొరియన్, సంకేతాలు ఉపయోగించి చైనీస్ రచన) 3-బైట్ సన్నివేశాలను ఉపయోగించింది. కూడా UTF-8 ఎన్కోడింగ్ ప్రాసెసింగ్ వేగం కోడింగ్ యొక్క ఇతర రూపాలు తక్కువగా ఉంటుంది. ఒక బైనరీ సార్టింగ్ పంక్తులు యూనికోడ్ సార్టింగ్ బైనరీ అదే ఫలితం ఉత్పత్తి చేస్తుంది.
క్యారెక్టర్ ఎన్కోడింగ్ పథకం
క్యారెక్టర్ ఎన్కోడింగ్ పథకం ఎన్కోడింగ్ చిహ్నాలు రూపం మరియు ఒకే బైట్ స్థానం కోడ్ యూనిట్లు పద్ధతి వుంటారు. ఎన్కోడింగ్ పథకం యూనికోడ్ ప్రామాణిక ప్రారంభ బైట్ ఆర్డర్ మార్క్ (బిఒఎం, బైట్ ఆర్డర్ గుర్తు) ఉపయోగం అందిస్తుంది నిర్ణయించటానికి.
UTF-8 ఫీచర్ ట్యాగ్ లో BOM కోడింగ్ యొక్క రూపాలకు ఉపయోగం మాత్రమే సూచనగా మాత్రమే పరిమితమై ఉంది. ఎన్డియన్ UTF-8 గుర్తించడంలో సమస్యలు, దాని ఎన్కోడింగ్ యూనిట్ పరిమాణం ఒక బైట్ ఉంది. కోడింగ్ యొక్క ఈ రూపం కోసం BOM ఉపయోగించి అవసరం లేనివి, సిఫారసు ఉంది. బిఒఎం కోసం UTF-8 ఎన్కోడింగ్ బైట్ ఆర్డర్ మార్క్ లేదా సంతకం ఉపయోగించి ఇతర codings మార్చే టెక్స్ట్ సంభవించవచ్చు. 3 బైట్లు EF BB 16 16 BF 16 ఒక వరుస క్రమం.
UTF-8 ఎన్కోడింగ్ సెట్ ఎలా
కోడింగ్ HTML UTF-8 క్రింది కోడ్ తో ఇన్స్టాల్:
హెడ్
Meta http-equiv = "Content-Type" content = "టెక్స్ట్ / html; charset = utf-8" ˃
PHP లో UTF-8 ఎన్కోడింగ్ అవుట్పుట్ స్థాయి విలువ లోపం సెట్ తర్వాత శీర్షిక () ఫైల్ ప్రారంభంలో ఫంక్షన్ ఉపయోగించి సెట్:
˂? Php
error_reporting (-1);
శీర్షిక ( "Content-Type: text / html; charset = utf-8 ');
ఒక MySQL డేటాబేస్ UTF-8 ఎన్కోడింగ్ సెట్ కనెక్ట్ చెయ్యడానికి:
˂? Php
mysql_set_charset ( 'UTF8');
CSS ఫైల్ ఎన్కోడింగ్ UTF-8 అక్షరాలు క్రింది పేర్కొన్న ఉంది:
@charset "utf-8";
మీరు అన్ని రకాల ఫైళ్లు, BOM లేకుండా UTF-8 ఎన్కోడింగ్ ఎంచుకోండి సేవ్ చేసినప్పుడు, లేకపోతే సైట్ పనిచేయదు. UTF-8 కు ఎన్కోడింగ్ మార్చడానికి DreamWeave దీన్ని మెను ఐటెమ్ "శీర్షిక / ఎన్కోడింగ్ - - పేజీ గుణాలు మార్పులు" ఎంచుకోవాలి. పేజీ రీలోడ్ తరువాత, నుండి "కనెక్ట్ యూనికోడ్ సంతకం (బిఒఎం)» చెక్ మార్క్ తొలగించి మార్పులు వర్తిస్తాయి. ఒక పేజీ లేదా ఒక డేటాబేస్ లో ఏ టెక్స్ట్ కోడింగ్ మరొక రూపం పరిచయం, అది మళ్లీ నమోదు లేదా పునః ఎన్కోడ్ అవసరం. మీరు సాధారణ వ్యక్తీకరణలను తో పని చేసినప్పుడు, మార్పు u ఉపయోగించడానికి తప్పకుండా.
మీరు Windows యొక్క "నోట్ప్యాడ్లో" లో UTF-8 ఎన్కోడింగ్ లో ఫైల్ సేవ్ చేయవచ్చు. మెను ఐటెమ్ ఎంచుకోవడం తరువాత - ఎన్కోడింగ్ అవసరమైన రూపం ఇన్స్టాల్ మరియు UTF-8 లో ఫైల్ సేవ్ "ఫైల్గా సేవ్ ...".
మెను అంశం ద్వారా, UTF-8 కన్నా ఇతర సెట్ ఉంటే ఒక టెక్స్ట్ ఎడిటర్ నోట్ప్యాడ్లో ++ లలో, "BOM లేకుండా UTF-8 కు మార్చండి» పాత్ర మార్చడానికి మరియు UTF-8 లో సేవ్.
ప్రత్యామ్నాయం లేదు
రాజకీయ మరియు భాషా సరిహద్దులు చెరిపి ఇక్కడ ప్రపంచీకరణ సందర్భంలో, స్థానిక లక్షణాలు కలిగి పాత్ర సెట్లు, చిన్న ఉపయోగంలో లేవు. యూనికోడ్ అన్ని స్థానీకరణలను మద్దతిచ్చే ఏకాక్షరం సమితి. ఒక UTF-8 - ఇది యూనికోడ్ యొక్క సరైన అమలు, ఒక ఉదాహరణ:
- ఇది ASCII ఎన్కోడింగ్ అనుకూలత సహా సాధనాలలో విస్తృత మద్దతు;
- ఇది వక్రీకరణ డేటా నిరోధకతను;
- సాధారణ మరియు చికిత్సలో ప్రభావవంతమైన;
- ప్లాట్ఫారం స్వతంత్ర ఉంది.
UTF-8 చర్చ ఎన్కోడింగ్ లేదా వర్ణ సమూహం యొక్క ఏ రూపంలో గురించి ఉత్తమం రావడంతో, అది అర్ధం అవుతుంది.
Similar articles
Trending Now