SolosainaFandaharana

UTF-8 - toetra karazana litera

Unicode manohana Saika efa misy toetra rehetra milentika. Ny tsara indrindra amin'ny teny Encoding litera Unicode UTF-8 no karazana litera. Tsy manohana mifanentana amin'ny marika ASCII, fanoherana ny nanova ny tahirin-kevitra, ny fahombiazany sy ny mora ny fanodinana. Fa ny zavatra voalohany aloha.

Coding teny

Solosaina miasa tsy saro-takarina toy ny isa matematika zavatra, ary koa ny tsikombakomba ny vondrona ny fitehirizana sy manazava raikitra-habe tahiry - byte sy 32-bit teny. Encoding fenitra tsy maintsy tafiditra ao izany, rehefa mamaritra ny fomba hanolotra ny isan'ny mpandray anjara.

In KAJIMIRINDRA, ny integers voatahiry ao amin'ny sela fahatsiarovana ny 8 potika (1 byte), 16 na 32 potika. Tsirairay dia mamaritra endrika Unicode karazana litera iray, izay filaharan'ireo fahatsiarovana sela dia integer mifanitsy amin'ny famantarana manokana. Ao amin'ny faneva misy telo samy hafa endrika Unicode Coding tarehin-tsoratra 8, 16 ary 32-bit biriky. Araka izany, izy ireo dia fantatra amin'ny anarana hoe UTF-8, UTF-16 sy ny UTF-32. Name UTF mijoro ho Unicode Transformation Format. Ny tsirairay amin'ireo telo endrika Encoding dia mitovy fomba fanehoana toetra Unicode dia manana tombony amin'ny fampiharana isan-karazany.

Data encryption Azo ampiasaina hisolo tena mpandray anjara rehetra ao amin'ny Unicode Standard. Noho izany, izy ireo mifanaraka tanteraka amin'ny vahaolana ho antony isan-karazany, amin'ny fampiasana samihafa ampy Coding. Coding tsirairay dia afaka unambiguously hiova fo ho any amin'ny hafa ny roa tsy misy very ny tahirin-kevitra.

nenalozheniya toro lalana

Tsirairay ny endrika Unicode karazana litera nitranga rehefa heverina ny tsy hifanindry amin'ny ampahany. Ohatra, Windows-932 tsy ampy ny endri-tsoratra ny iray na roa oktety ny fehezan-dalàna. Ny halavan'ny filaharana dia miankina voalohany byte, ka ny tari-dalan'ny byte soatoavina ao amin'ny andian-dahatsoratra roa-byte sy ny tokan-tena byte disjoint. Na izany aza, ny vidin'ny iray byte sy tanatin 'byte mety mifanojo filaharany. Midika ohatra fa ny toetra fikarohana D (kaody 44) amin'izay hahitanareo, satria diso niditra tao amin'ny ampahany faharoa ny filaharan'ireo byte roa-toetra "D" (fehezan-84 44). Mba hahitana izay filaharany marina, ny fandaharam-potoana dia tokony tafiditra ao ny oktety teo aloha.

Ny toe-draharaha dia sarotra atao, raha tanatin 'ny fitarihana sy ny oktety lalao. Midika izany fa mba hanesorana ny MANJAVOZAVO ho mifanohitra lookup alohan'ny hahatrarana ny fanombohan'ny ny lahatsoratra na ny manam-paharoa kaody filaharany. Tsy vitan'ny hoe tsy mahomby, fa tsy azo atao voaaro amin'ny fahadisoana, satria iray ihany no diso byte ny lahatsoratra feno lasa unreadable.

Format fiovam-po Unicode fialana olana izany, satria zava-dehibe ny ny mpitarika, tanatin ', ary ny andia-tafika tokana ny fitehirizana dia tsy mitovy vaovao. Izany miantoka fa Unicode rehetra noho ny mitady sy ny fampitahana, tsy manome vokatra diso noho ny kisendrasendra ny faritra samihafa ao amin'ny fehezan-dalàna toetra. Ny zava-misy fa ireo karazana Coding mitandrina ny fitsipika nenalozheniya, mampiavaka azy ireo amin'ny hafa Azia Atsinanana multi-byte encodings.

Lafiny iray hafa nonintersection Unicode encodings dia ny hoe mpandray anjara tsirairay dia manana sisintany voafaritra mazava tsara. Izany manala fa ilaina ny banjino tsy voafetra ny isan'ny marika teo aloha. Io endri-javatra indraindray antsoina hoe tena clocking karazana litera. Nanova ny fehezan-dalàna dia mampiditra ny vondrona nanova ny toetra iray ihany, sy ny manodidina endri-tsoratra mbola simba. Tamin'ny 8-bit endrika fiovam-po, raha manondro manondro ny byte, manomboka amin'ny 10xxxxxx (in mimari-droa kaody) mba hahita ny fanombohan'ny ny marika dia takiana ho an'ny olona telo mivadika fiovana.

tapaka

Unicode Consortium manohana tanteraka ny 3 endrika encodings. Zava-dehibe tsy mba manohitra ny UTF-8 sy Unicode, toy ny rehetra, ny fiovam-po endrika - koa manan-kery ampy hita vatana amin'ny Unicode toetra-Encoding fenitra.

Byte-fironana

Mba maneho UTF-32 ny tarehin-tsoratra dia mila 32-bit fehezan-dalàna vondrona, izay mifanojo amin'ny Unicode fehezan-dalàna. UTF-16 - iray na roa 16-bit vondrona. A UTF-8 mampiasa hatramin'ny 4 oktety.

UTF-8 karazana litera dia natao ho mifanaraka amin'ny byte-mirona ascii-monina rafitra. Ny ankamaroan'ireo rindrambaiko ny efa misy sy ny fampiharana ny teknolojia vaovao nandritra ny fotoana ela niankinanao tamin'ny fanehoana ny tarehin-tsoratra ao amin'ny fisesin-oktety. Multiple protocols dia miankina amin'ny tapaka ny marika ASCII karazana litera , ary tsy mankeny na mampiasa ny endri-tsoratra fanaraha-maso manokana. Fomba tsotra mampifanaraka ny toe-javatra Unicode atao, amin'ny fampiasana 8-bit Coding ho misolo tena Unicode endri-tsoratra, izay mitovy toetra marika ASCII na ny fanaraha-maso toetra. Araka izany, ka dia UTF-8 karazana litera.

miova halavan'ny

UTF-8 - Coding ny halavan'ny miova, ahitana 8-bit fitehirizana vondrona, ny ambony potika izay manondro ny ho aiza tany ny filaharan'ireo tsirairay an'i byte. Iray ny soatoavina isan-karazany anjaran'ny singa voalohany amin'ny fehezan-dalàna filaharana, iray hafa - ny manaraka. Izany dia manome karazana litera disjointness.

marika ASCII

UTF-8 karazana litera dia manohana tanteraka marika ASCII kaody (0x00-0x7F). Midika izany fa ny tarehin-tsoratra Unicode U + 0000-U + 007F no niova fo ho tokan-tena byte 0x00-0x7F UTF-8, ka lasa indistinguishable amin'ny marika ASCII. Ankoatra izany, mba tsy MANJAVOZAVO, fa sarobidy 0x00-0x7F tsy nampiasa intsony ao amin'ny iray Unicode byte fanehoana ny tarehin-tsoratra. To isa marika neideograficheskih hafa ankoatra ny marika ASCII, amin'ny fampiasana fisesin-oktety roa. Sariohatra miainga U + 0800-U + FFFF no mifanitsy amin'ny telo oktety, ary mari-pamantarana fanampiny maherin'ny U + FFFF mitaky oktety efatra.

sehatra ny fampiharana

UTF-8 karazana litera matetika no omena ao amin'ny HTML safidin'ny protocole, sy ny toy izany.

XML no lasa fitsipika voalohany amin'ny fanohanana feno UTF-8 karazana litera. Fenitra fikambanana ihany koa ny fahazoan-dalana izany. Support olana ao amin'ny adiresy URL izay hafa noho ny ascii-endri-tsoratra, dia tapa-kevitra rehefa ny consortium W3C sy ny vondrona injeniera IETF tonga fifanarahana eo amin'ny Coding rehetra URL adiresy manokana ao amin'ny UTF-8.

Mifanentana amin'ny marika ASCII manamora ny tetezamita ho any amin'ny rindrambaiko vaovao. Amin'ny UTF-8 andinin-teny tena miasa tonia, anisan'izany JEdit, Emacs, BBEdit, Eclipse, ary "kahie" ny Windows miasa rafitra. Tsy misy hafa amin'ny teny Encoding Unicode dia tsy afaka mirehareha ny fanohanana toy izany ny fitaovana.

Coding fa tombontsoa dia ahitana fisesin-oktety. Amin'ny UTF-8 tady dia mora ny miasa ao amin'ny C sy ny fandaharana hafa fiteny. Izany no hany endriky ny karazana litera, ny mba tsy mitaky oktety Bom marika na karazana litera fanambarana amin'ny XML.

tena synchronization

Ao amin'ny tontolo iainana izay mampiasa 8-bit fanehoana an'ohatra ny fanodinana raha oharina amin'ny hafa multi-toetra byte milentika, UTF-8 dia manana tombony ireto:

  • Ny dingana voalohany dia ahitana byte fehezan-dalàna vaovao momba ny lavany. Izany dia mampitombo ny fahombiazan'ny ny fikarohana mivantana.
  • Simplified nahita ny fiandohan'ny mariky ny fanombohana byte dia voafetra ny raikitra ny soatoavina isan-karazany.
  • No fihaonan-dalana byte soatoavina.

Ampitahao ny soa

UTF-8 karazana litera dia voalamina tsara. Fa rehefa ampiasaina ho an'ny Azia Atsinanana Encoding tarehin-tsoratra (sinoa, japoney, koreanina, Shinoa mampiasa soratra famantarana) Nampiasa 3-byte sequences. Koa UTF-8 karazana litera dia ambany noho ny hafa endrika Coding fikarakarana ny hafainganam-pandeha. Ny manavaka mimari-droa mitovy andalana mamokatra vokatra toy ny mimari-droa manavaka Unicode.

Ny toetra karazana litera rafitra

Ny rafitra dia ahitana karazana litera toetra karazana litera sy ny fomba fanehoana an'ohatra amin'ny endrika ho an'ny tokan-tena byte toerana vondrona fehezan-dalàna. Mba hamaritana ny karazana litera dia manome rafitra Unicode fenitra ny fampiasana voalohany mba byte marika (Bom, mba Byte marika).

Rehefa Bom amin'ny UTF-8 endri-javatra tenifototra dia voafetra ihany momba ny fampiasana ny endriky ny Coding. Olana eo amin'ny famaritana ny endian UTF-8 manana, ho toy ny karazana litera iray tarika haben'ny byte. Mampiasa ny Bom noho izany endriky ny Coding dia tsy ilaina na kevitra. Bom mety hitranga ao amin'ny andinin-teny mba hiova fo amin'ny hafa mba codings mampiasa byte marika na sonia ho an'ny UTF-8 karazana litera. Dia fisesin-3 oktety EF BB 16 16 BF 16.

Ahoana no nametraka ny UTF-8 Encoding

Ny HTML Coding UTF-8 no nametraka ny manaraka code:

Head

Meta http-equiv = "Content-Type" votoaty = "text / html; charset = UTF-8" ˃

Ao amin'ny PHP UTF-8 karazana litera dia apetraka amin'ny fampiasana ny lohapejy () miasa amin'ny fanombohan'ny fametrahana ny antontan-taratasy, rehefa zava-dehibe ny Output anivon'ny fahadisoana:

˂? Fi

error_reporting (-1);

lohapejy ( "Content-Type: lahatsoratra / html; charset = UTF-8 ');

To mifandray amin'ny banky angona MySQL UTF-8 karazana litera dia napetraka:

˂? Fi

mysql_set_charset ( 'utf8');

Ny rakitra CSS-karazana litera dia UTF-8 tarehin-tsoratra dia faritana toy izao manaraka izao:

@charset "UTF-8";

Rehefa afa-tsy ny antontan-taratasy rehetra mifidy karazana UTF-8 karazana litera tsy misy Bom, raha izany, ny toerana dia tsy miasa. Raha te hanao izany amin'ny DreamWeave mila mifidy ny sakafo zavatra "fanovana - Page Properties - Title / Encoding" hanova ny karazana litera ho UTF-8. Arahin'ny reloading ny pejy, hanala ny maso marika amin'ny "Connect Unicode sonia (Bom)» sy hampihatra ny fiovana. Raha misy lahatsoratra eo amin'ny pejy na tao amin'ny banky angona dia nampidirana ny Coding endrika hafa, dia ilaina ny indray hiditra na indray isa. Rehefa miasa miaraka amin'ny fanehoana tsy tapaka, aza hadinoina ny mampiasa ny Modifier enao.

Azonao atao ihany koa afa-tsy ny rakitra ao amin'ny UTF-8 karazana litera ao amin'ny "kahie" ny Windows. Rehefa avy fisafidianana ny sakafo zavatra "Fichier - Save As ..." ny hametraka ny ilaina endriky ny karazana litera sy afa-tsy ny antontan-taratasy ao amin'ny UTF-8.

Ao amin'ny lahatsoratra tonian-dahatsoratra kahie ++, Raha toa ka hafa noho ny UTF-8, ny sakafo amin'ny alalan'ny zavatra "Hanova ny UTF-8 tsy Bom» hanova ny toetra sy afa-UTF-8.

tsy misy hafa

Ao amin'ny teny manodidina ny fanatontoloana, izay ara-politika sy ara-pitenenana sisin dia voafafa, ny toetra milentika eo an-toerana izay manana toetra, dia ny fampiasana kely. Unicode dia litera iray izay manohana localizations rehetra. A UTF-8 - ohatra ny tokony fametrahana ny Unicode, izay:

  • Tsy manohana ny fitaovana isan-karazany, anisan'izany ny mifanentana amin'ny marika ASCII karazana litera;
  • Tsy mahatohitra ny nanova angona;
  • tsotra sy mahomby eo amin'ny fitsaboana;
  • ny sehatra tsy miankina.

Noho ny fahatongavan'ny ny UTF-8 ny adihevitra momba ny endriky ny karazana litera na ny litera no tsara, dia lasa dikany.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 mg.birmiss.com. Theme powered by WordPress.