Převodník Text na Unicode
Pomocí tohoto bezplatného online nástroje můžete převádět text na escape sekvence Unicode nebo dekódovat sekvence Unicode zpět na čitelný text. Ideální pro vývojáře, kteří pracují s internacionalizací, ladí problémy s kódováním znaků nebo pracují se speciálními znaky v kódu. Podporuje všechny znaky Unicode včetně emotikonů, symbolů a nelatinkových písem.
Často kladené otázky
Unicode je univerzální standard kódování znaků, který každému znaku přiřazuje jedinečné číslo (kódový bod) ve všech systémech psaní, symbolech a emoji. Převod na escape sekvence Unicode (například \u0041 pro 'A') je užitečný, když potřebujete reprezentovat speciální znaky v kódu, JSON, URL nebo když ladíte problémy s kódováním v mezinárodních aplikacích.
Zadejte nebo vložte text do vstupního pole a klikněte na tlačítko "Převést". Nástroj převede každý znak do jeho formátu escape sekvence Unicode (\uXXXX pro znaky BMP nebo \u{XXXXXX} pro ostatní). Například z "Hello" se stane "\u0048\u0065\u006C\u006C\u006F". Tento formát se běžně používá v jazycích JavaScript, JSON a mnoha dalších programovacích jazycích.
Ano! Do vstupního pole vložte escape sekvence Unicode (například \u0048 nebo \u{1F600}) a klikněte na tlačítko 'Convert'. Nástroj automaticky rozpozná sekvence Unicode a převede je zpět na čitelné znaky. To je užitečné při ladění kódu, čtení kódovaných dat JSON nebo při práci s internacionalizovaným obsahem.
Unicode je znaková sada, která znakům přiřazuje čísla (kódové body), zatímco UTF-8 je kódování, které určuje, jak jsou tato čísla uložena jako bajty. Únikové sekvence Unicode představují přímo kódový bod (\u0041), zatímco kódování UTF-8 představuje způsob, jakým je daný znak uložen v paměti. Tento nástroj pracuje s kódovými body Unicode a jejich reprezentací pomocí escape sekvencí.
Ano! Tento převodník Unicode podporuje všechny znaky Unicode včetně emoji, matematických symbolů, měnových znaků, nelatinkových písem (čínština, arabština, cyrilice atd.) a speciálních znaků. Emodži a znaky mimo základní vícejazyčnou rovinu mohou být reprezentovány pomocí rozšířených escape sekvencí, jako je \u{1F600} pro emodži šklebícího se obličeje.
Escapovací sekvence Unicode použijte, pokud potřebujete do zdrojového kódu zahrnout speciální znaky, které se v editoru nemusí zobrazit správně, pokud chcete zajistit kompatibilitu mezi různými systémy, pokud pracujete s JSON, který vyžaduje escapované znaky, nebo pokud potřebujete reprezentovat znaky, které nejsou na klávesnici. Jsou užitečné zejména při internacionalizaci a zpracování uživatelských vstupů z různých jazyků.
Formát \uXXXX (4 šestnáctkové číslice) je tradiční formát JavaScript/JSON, který pokrývá základní vícejazyčnou rovinu (BMP) - kódové body U+0000 až U+FFFF, což zahrnuje většinu běžných znaků. Formát \u{XXXXXX} (ES6+ JavaScript) používá kudrnaté závorky a hexadecimální znaky proměnné délky, které reprezentují jakýkoli kódový bod Unicode až do U+10FFFF, včetně emoji a vzácných znaků. Pro znaky nad U+FFFF používají starší systémy náhradní páry (dvě sekvence \uXXXX).
Kódový bod Unicode je abstraktní číslo přiřazené znaku (například U+0041 pro 'A'), zatímco UTF-8 je způsob, jakým je toto číslo zakódováno jako bajty pro ukládání. Znaky ASCII (U+0000 až U+007F) používají 1 bajt UTF-8, evropské znaky potřebují 2 bajty, asijské znaky 3 bajty a emoji 4 bajty. Escapované znaky Unicode zobrazují přímo kódový bod, zatímco UTF-8 zobrazuje skutečnou reprezentaci bajtů používanou v souborech a sítích.
Složité emotikony často používají více kódových bodů kombinovaných pomocí sekvencí ZWJ (Zero Width Joiner). Například rodinné emodži kombinují emodži osoba + ZWJ + osoba + ZWJ + dítě. Modifikátory odstínu pleti také přidávají další kódové body. Kromě toho mohou být znaky mimo BMP (U+10000 až U+10FFFF) reprezentovány jako náhradní páry UTF-16, které se ve starších prostředích JSON nebo JavaScript zobrazují jako dvě sekvence \uXXXX.
Většina moderních jazyků podporuje escapování Unicode: JavaScript/JSON (\uXXXX), Python (\uXXXX a \UXXXXXX), Java (\uXXXX), C/C++ (\uXXXX a \UXXXXXX), C# (\uXXXX), Ruby (\uXXXX) a PHP (\u{XXXXXX}). Syntaxe se v jednotlivých jazycích mírně liší - některé používají pro rozšířené rozsahy velká písmena \U, jiné kudrnaté závorky. Přesný formát vždy zjistíte v dokumentaci k jazyku, ale základní kódové body Unicode zůstávají na všech platformách stejné.
