Question 1

Co je to Unicode a proč ho musím převádět?

Accepted Answer

Unicode je univerzální standard kódování znaků, který každému znaku přiřazuje jedinečné číslo (kódový bod) ve všech systémech psaní, symbolech a emoji. Převod na escape sekvence Unicode (například \u0041 pro 'A') je užitečný, když potřebujete reprezentovat speciální znaky v kódu, JSON, URL nebo když ladíte problémy s kódováním v mezinárodních aplikacích.

Question 2

Jak převedu text na escape sekvence Unicode?

Accepted Answer

Zadejte nebo vložte text do vstupního pole a klikněte na tlačítko "Převést". Nástroj převede každý znak do jeho formátu escape sekvence Unicode (\uXXXX pro znaky BMP nebo \u{XXXXXX} pro ostatní). Například z "Hello" se stane "\u0048\u0065\u006C\u006C\u006F". Tento formát se běžně používá v jazycích JavaScript, JSON a mnoha dalších programovacích jazycích.

Question 3

Lze dekódovat escape sekvence Unicode zpět na text?

Accepted Answer

Ano! Do vstupního pole vložte escape sekvence Unicode (například \u0048 nebo \u{1F600}) a klikněte na tlačítko 'Convert'. Nástroj automaticky rozpozná sekvence Unicode a převede je zpět na čitelné znaky. To je užitečné při ladění kódu, čtení kódovaných dat JSON nebo při práci s internacionalizovaným obsahem.

Question 4

Jaký je rozdíl mezi Unicode a UTF-8?

Accepted Answer

Unicode je znaková sada, která znakům přiřazuje čísla (kódové body), zatímco UTF-8 je kódování, které určuje, jak jsou tato čísla uložena jako bajty. Únikové sekvence Unicode představují přímo kódový bod (\u0041), zatímco kódování UTF-8 představuje způsob, jakým je daný znak uložen v paměti. Tento nástroj pracuje s kódovými body Unicode a jejich reprezentací pomocí escape sekvencí.

Question 5

Podporuje tento nástroj emotikony a speciální symboly?

Accepted Answer

Ano! Tento převodník Unicode podporuje všechny znaky Unicode včetně emoji, matematických symbolů, měnových znaků, nelatinkových písem (čínština, arabština, cyrilice atd.) a speciálních znaků. Emodži a znaky mimo základní vícejazyčnou rovinu mohou být reprezentovány pomocí rozšířených escape sekvencí, jako je \u{1F600} pro emodži šklebícího se obličeje.

Question 6

Kdy mám v kódu používat escape sekvence Unicode?

Accepted Answer

Escapovací sekvence Unicode použijte, pokud potřebujete do zdrojového kódu zahrnout speciální znaky, které se v editoru nemusí zobrazit správně, pokud chcete zajistit kompatibilitu mezi různými systémy, pokud pracujete s JSON, který vyžaduje escapované znaky, nebo pokud potřebujete reprezentovat znaky, které nejsou na klávesnici. Jsou užitečné zejména při internacionalizaci a zpracování uživatelských vstupů z různých jazyků.

Question 7

Jaký je rozdíl mezi formáty \uXXXX a \u{XXXXXX} Unicode escape?

Accepted Answer

Formát \uXXXX (4 šestnáctkové číslice) je tradiční formát JavaScript/JSON, který pokrývá základní vícejazyčnou rovinu (BMP) - kódové body U+0000 až U+FFFF, což zahrnuje většinu běžných znaků. Formát \u{XXXXXX} (ES6+ JavaScript) používá kudrnaté závorky a hexadecimální znaky proměnné délky, které reprezentují jakýkoli kódový bod Unicode až do U+10FFFF, včetně emoji a vzácných znaků. Pro znaky nad U+FFFF používají starší systémy náhradní páry (dvě sekvence \uXXXX).

Question 8

Jak se liší kódové body Unicode od bajtů UTF-8?

Accepted Answer

Kódový bod Unicode je abstraktní číslo přiřazené znaku (například U+0041 pro 'A'), zatímco UTF-8 je způsob, jakým je toto číslo zakódováno jako bajty pro ukládání. Znaky ASCII (U+0000 až U+007F) používají 1 bajt UTF-8, evropské znaky potřebují 2 bajty, asijské znaky 3 bajty a emoji 4 bajty. Escapované znaky Unicode zobrazují přímo kódový bod, zatímco UTF-8 zobrazuje skutečnou reprezentaci bajtů používanou v souborech a sítích.

Question 9

Proč se některé emoji zobrazují jako dvě escape sekvence Unicode?

Accepted Answer

Složité emotikony často používají více kódových bodů kombinovaných pomocí sekvencí ZWJ (Zero Width Joiner). Například rodinné emodži kombinují emodži osoba + ZWJ + osoba + ZWJ + dítě. Modifikátory odstínu pleti také přidávají další kódové body. Kromě toho mohou být znaky mimo BMP (U+10000 až U+10FFFF) reprezentovány jako náhradní páry UTF-16, které se ve starších prostředích JSON nebo JavaScript zobrazují jako dvě sekvence \uXXXX.

Question 10

Které programovací jazyky podporují escape sekvence Unicode?

Accepted Answer

Většina moderních jazyků podporuje escapování Unicode: JavaScript/JSON (\uXXXX), Python (\uXXXX a \UXXXXXX), Java (\uXXXX), C/C++ (\uXXXX a \UXXXXXX), C# (\uXXXX), Ruby (\uXXXX) a PHP (\u{XXXXXX}). Syntaxe se v jednotlivých jazycích mírně liší - některé používají pro rozšířené rozsahy velká písmena \U, jiné kudrnaté závorky. Přesný formát vždy zjistíte v dokumentaci k jazyku, ale základní kódové body Unicode zůstávají na všech platformách stejné.

Převodník Text na Unicode

Často kladené otázky