Prevodník Text na Unicode
Pomocou tohto bezplatného online nástroja môžete konvertovať text na escape sekvencie Unicode alebo dekódovať sekvencie Unicode späť na čitateľný text. Ideálne pre vývojárov, ktorí pracujú s internacionalizáciou, ladia problémy s kódovaním znakov alebo pracujú so špeciálnymi znakmi v kóde. Podporuje všetky znaky Unicode vrátane emotikonov, symbolov a nelatinkových písiem.
Často kladené otázky
Unicode je univerzálny štandard kódovania znakov, ktorý každému znaku priraďuje jedinečné číslo (kódový bod) vo všetkých systémoch písania, symboloch a emotikonoch. Konverzia na escape sekvencie Unicode (napríklad \u0041 pre znak "A") je užitočná, keď potrebujete reprezentovať špeciálne znaky v kóde, JSON, URL alebo pri ladení problémov s kódovaním v medzinárodných aplikáciách.
Zadajte alebo vložte text do vstupného poľa a kliknite na tlačidlo "Konvertovať". Nástroj prevedie každý znak do jeho formátu escape sekvencie Unicode (\uXXXX pre znaky BMP alebo \u{XXXXXX} pre ostatné znaky). Napríklad z textu "Hello" sa stane text "\u0048\u0065\u006C\u006C\u006F". Tento formát sa bežne používa v JavaScripte, JSON a mnohých programovacích jazykoch.
Áno! Do vstupného poľa vložte escape sekvencie Unicode (napríklad \u0048 alebo \u{1F600}) a kliknite na tlačidlo "Konvertovať". Nástroj automaticky rozpozná sekvencie Unicode a prevedie ich späť na čitateľné znaky. To je užitočné pri ladení kódu, čítaní kódovaných údajov JSON alebo pri práci s internacionalizovaným obsahom.
Unicode je znaková sada, ktorá priraďuje čísla (kódové body) znakom, zatiaľ čo UTF-8 je kódovanie, ktoré určuje, ako sa tieto čísla ukladajú ako bajty. Únikové sekvencie Unicode predstavujú priamo kódový bod (\u0041), zatiaľ čo kódovanie UTF-8 predstavuje spôsob, akým je tento znak uložený v pamäti. Tento nástroj pracuje s kódovými bodmi Unicode a ich reprezentáciami escape sekvencií.
Áno! Tento konvertor Unicode podporuje všetky znaky Unicode vrátane emotikonov, matematických symbolov, menových znakov, nelatinkových písiem (čínština, arabčina, cyrilika atď.) a špeciálnych znakov. Emodži a znaky mimo základnej viacjazyčnej roviny môžu byť reprezentované pomocou rozšírených escape sekvencií, ako napríklad \u{1F600} pre emodži usmievajúcej sa tváre.
Používajte escape sekvencie Unicode, keď potrebujete do zdrojového kódu zahrnúť špeciálne znaky, ktoré sa nemusia správne zobraziť v editore, keď zabezpečujete kompatibilitu medzi rôznymi systémami, keď pracujete s JSON, ktorý vyžaduje escapované znaky, alebo keď potrebujete reprezentovať znaky, ktoré sa nenachádzajú na klávesnici. Sú užitočné najmä pri internacionalizácii a spracovaní vstupov používateľov z rôznych jazykov.
Formát \uXXXX (4 šestnástkové číslice) je tradičný formát JavaScript/JSON, ktorý pokrýva základnú viacjazyčnú rovinu (BMP) - kódové body U+0000 až U+FFFF, čo zahŕňa väčšinu bežných znakov. Formát \u{XXXXXX} (ES6+ JavaScript) používa kučeravé zátvorky a hexadecimálne znaky s premenlivou dĺžkou na reprezentáciu ľubovoľného kódového bodu Unicode až do U+10FFFF vrátane emotikonov a zriedkavých znakov. Pre znaky nad U+FFFF staršie systémy používajú náhradné páry (dve sekvencie \uXXXX).
Kódový bod Unicode je abstraktné číslo priradené znaku (napríklad U+0041 pre "A"), zatiaľ čo UTF-8 je spôsob, akým je toto číslo zakódované ako bajty na ukladanie. Znaky ASCII (U+0000 až U+007F) používajú 1 bajt UTF-8, európske znaky potrebujú 2 bajty, ázijské znaky 3 bajty a emotikony 4 bajty. Escapes Unicode zobrazujú priamo kódový bod, zatiaľ čo UTF-8 zobrazuje skutočnú reprezentáciu bajtov používanú v súboroch a sieťach.
Zložité emotikony často používajú viacero kódových bodov kombinovaných prostredníctvom sekvencií Zero Width Joiner (ZWJ). Napríklad rodinné emotikony kombinujú emotikony osoba + ZWJ + osoba + ZWJ + dieťa. Modifikátory tónu pleti tiež pridávajú ďalšie kódové body. Okrem toho znaky mimo BMP (U+10000 až U+10FFFF) môžu byť reprezentované ako náhradné páry UTF-16, ktoré sa v starších prostrediach JSON alebo JavaScript zobrazujú ako dve sekvencie \uXXXX.
Väčšina moderných jazykov podporuje escapes Unicode: JavaScript/JSON (\uXXXX), Python (\uXXXX a \UXXXXXX), Java (\uXXXX), C/C++ (\uXXXX a \UXXXXXX), C# (\uXXXX), Ruby (\uXXXX) a PHP (\u{XXXXXX}). Syntax sa v jednotlivých jazykoch mierne líši - niektoré používajú veľké písmená \U pre rozšírené rozsahy, iné používajú kučeravé zátvorky. Presný formát si vždy overte v dokumentácii svojho jazyka, ale základné kódové body Unicode zostávajú rovnaké na všetkých platformách.
