Pretvornik Besedilo v Unicode

S tem brezplačnim spletnim orodjem pretvorite besedilo v zaporedja pobega Unicode ali dekodirajte zaporedja Unicode nazaj v berljivo besedilo. Idealno za razvijalce, ki se ukvarjajo z internacionalizacijo, odpravljanjem napak pri kodiranju znakov ali ravnanjem s posebnimi znaki v kodi. Podpira vse znake Unicode, vključno z emojiji, simboli in nelatinskimi pisavami.

Pogosto zastavljena vprašanja

Unicode je univerzalni standard kodiranja znakov, ki vsakemu znaku v vseh pisnih sistemih, simbolih in emojijih dodeljuje edinstveno številko (kodno točko). Pretvarjanje v zaporedja pobega Unicode (kot je \u0041 za 'A') je uporabno, kadar morate predstaviti posebne znake v kodi, JSON, URL-jih ali pri odpravljanju težav s kodiranjem v mednarodnih aplikacijah.

Vnesite ali prilepite besedilo v vnosno polje in kliknite "Pretvori". Orodje bo vsak znak pretvorilo v obliko zaporedja pobega Unicode (\uXXXX za znake BMP ali \u{XXXXXX} za druge znake). Na primer, "Hello" postane "\u0048\u0065\u006C\u006C\u006F". Ta oblika se pogosto uporablja v jezikih JavaScript, JSON in številnih programskih jezikih.

Da! V vnosno polje prilepite zaporedja pobega Unicode (kot sta \u0048 ali \u{1F600}) in kliknite 'Convert'. Orodje samodejno zazna zaporedja Unicode in jih pretvori nazaj v berljive znake. To je koristno pri odpravljanju napak v kodi, branju kodiranih podatkov JSON ali delu z internacionalizirano vsebino.

Unicode je nabor znakov, ki znakom dodeljuje številke (kodne točke), UTF-8 pa je kodiranje, ki določa, kako se te številke shranjujejo kot bajti. Izstopna zaporedja Unicode neposredno predstavljajo kodno točko (\u0041), medtem ko kodiranje UTF-8 predstavlja, kako je ta znak shranjen v pomnilniku. To orodje deluje s kodnimi točkami Unicode in njihovimi zaporedji pobega.

Da! Ta pretvornik Unicode podpira vse znake Unicode, vključno z emojiji, matematičnimi simboli, valutnimi znaki, nelatinskimi pisavami (kitajsko, arabsko, cirilico itd.) in posebnimi znaki. Emojiji in znaki zunaj osnovne večjezične ravnine so lahko predstavljeni z razširjenimi zaporedji pobega, kot je \u{1F600} za emojija smejočega se obraza.

Zaporedja escape Unicode uporabite, kadar morate v izvorno kodo vključiti posebne znake, ki se morda ne bodo pravilno prikazali v urejevalniku, kadar želite zagotoviti združljivost med različnimi sistemi, kadar delate z JSON, ki zahteva pobegle znake, ali kadar morate predstaviti znake, ki jih ni na tipkovnici. Posebej uporabni so pri internacionalizaciji in obdelavi uporabniškega vnosa iz različnih jezikov.

Format \uXXXX (4 šestmestne številke) je tradicionalni format JavaScript/JSON, ki pokriva osnovno večjezično ravnino (BMP) - kodne točke od U+0000 do U+FFFF, kar vključuje večino običajnih znakov. Format \u{XXXXXX} (ES6+ JavaScript) uporablja oglate oklepaje in spremenljivo dolžino hex za predstavitev katere koli kodne točke Unicode do U+10FFFF, vključno z emojiji in redkimi znaki. Starejši sistemi za znake po U+FFFF uporabljajo nadomestne pare (dve zaporedji \uXXXX).

Kodna točka Unicode je abstraktno število, dodeljeno znaku (na primer U+0041 za 'A'), medtem ko je UTF-8 način kodiranja tega števila kot bajtov za shranjevanje. Znaki ASCII (U+0000 do U+007F) uporabljajo 1 bajt UTF-8, evropski znaki potrebujejo 2 bajta, azijski znaki 3 bajte, emojiji pa 4 bajte. Izbežniki Unicode neposredno prikazujejo kodno točko, medtem ko UTF-8 prikazuje dejansko predstavitev bajtov, ki se uporablja v datotekah in omrežjih.

Kompleksni emojiji pogosto uporabljajo več kodnih točk, združenih z zaporedji Zero Width Joiner (ZWJ). Na primer, družinski emojiji združujejo emojije oseba + ZWJ + oseba + ZWJ + otrok. Dodatne kodne točke dodajajo tudi modifikatorji odtenka kože. Poleg tega so lahko znaki zunaj BMP (U+10000 do U+10FFFF) predstavljeni kot nadomestni pari UTF-16, ki se v starejših okoljih JSON ali JavaScript prikazujejo kot dve zaporedji \uXXXX.

Večina sodobnih jezikov podpira pobege Unicode: Java (\uXXXXXX), C/C++ (\uXXXX in \UXXXXXXXX), C# (\uXXXXXX), Ruby (\uXXXX) in PHP (\u{XXXXXX}). Sintaksa se med jeziki nekoliko razlikuje - nekateri uporabljajo velike črke \U za razširjena območja, drugi uporabljajo oglate oklepaje. Natančno obliko vedno preverite v dokumentaciji svojega jezika, vendar osnovne kodne točke Unicode ostajajo enake na vseh platformah.