Konvertering av Unicode till Text

Konvertera text till Unicode-escape-sekvenser eller avkoda Unicode-sekvenser tillbaka till läsbar text med detta kostnadsfria onlineverktyg. Perfekt för utvecklare som arbetar med internationalisering, felsöker problem med teckenkodning eller hanterar specialtecken i kod. Stöder alla Unicode-tecken, inklusive emojis, symboler och icke-latinska skript.

Vanliga frågor och svar

Unicode är en universell standard för teckenkodning som tilldelar ett unikt nummer (kodpunkt) till varje tecken i alla skrivsystem, symboler och emojis. Att konvertera till Unicode-escape-sekvenser (som \u0041 för "A") är användbart när du behöver representera specialtecken i kod, JSON, URL:er eller när du felsöker kodningsproblem i internationella applikationer.

Skriv eller klistra in din text i inmatningsfältet och klicka på "Konvertera". Verktyget konverterar varje tecken till dess Unicode escape sequence-format (\uXXXX för BMP-tecken eller \u{XXXXXX} för andra). Till exempel blir "Hello" "\u0048\u0065\u006C\u006C\u006F". Det här formatet används ofta i JavaScript, JSON och många programmeringsspråk.

Ja, det gör du! Klistra in Unicode-escape-sekvenser (t.ex. \u0048 eller \u{1F600}) i inmatningsfältet och klicka på "Konvertera". Verktyget upptäcker automatiskt Unicode-sekvenser och konverterar dem tillbaka till läsbara tecken. Detta är användbart vid felsökning av kod, läsning av kodade JSON-data eller arbete med internationaliserat innehåll.

Unicode är den teckenuppsättning som tilldelar siffror (kodpunkter) till tecken, medan UTF-8 är en kodning som avgör hur dessa siffror lagras som byte. Unicode-escape-sekvenser representerar kodpunkten direkt (\u0041), medan UTF-8-kodningen representerar hur tecknet lagras i minnet. Det här verktyget arbetar med Unicode-kodpunkter och deras escape-sekvensrepresentationer.

Ja, det gör den! Denna Unicode-omvandlare stöder alla Unicode-tecken, inklusive emojis, matematiska symboler, valutatecken, icke-latinska skript (kinesiska, arabiska, kyrilliska osv.) och specialtecken. Emojis och tecken utanför Basic Multilingual Plane kan representeras med utökade escape-sekvenser som \u{1F600} för emojin med det flinande ansiktet.

Använd Unicode-escape-sekvenser när du behöver inkludera specialtecken i källkod som kanske inte visas korrekt i din editor, när du vill säkerställa kompatibilitet mellan olika system, när du arbetar med JSON som kräver escape-tecken eller när du behöver representera tecken som inte finns på ditt tangentbord. De är särskilt användbara för internationalisering och hantering av användarinmatning från olika språk.

\uXXXX-formatet (4 hex-siffror) är det traditionella JavaScript/JSON-formatet som täcker Basic Multilingual Plane (BMP) - kodpunkterna U+0000 till U+FFFF, vilket inkluderar de vanligaste tecknen. Formatet \u{XXXXXX} (ES6+ JavaScript) använder hakparenteser och hex med variabel längd för att representera alla Unicode-kodpunkter upp till U+10FFFF, inklusive emojis och sällsynta tecken. För tecken bortom U+FFFFFF använder äldre system surrogatpar (två \uXXXX-sekvenser).

En Unicode-kodpunkt är det abstrakta nummer som tilldelas ett tecken (t.ex. U+0041 för "A"), medan UTF-8 är hur numret kodas som byte för lagring. ASCII-tecken (U+0000 till U+007F) använder 1 UTF-8-byte, europeiska tecken behöver 2 byte, asiatiska tecken behöver 3 byte och emojis behöver 4 byte. Unicode-escapes visar kodpunkten direkt, medan UTF-8 visar den faktiska byte-representationen som används i filer och nätverk.

Komplexa emojis använder ofta flera kodpunkter som kombineras genom ZWJ-sekvenser (Zero Width Joiner). Familje-emojis kombinerar till exempel person + ZWJ + person + ZWJ + barn-emojis. Hudtonmodifierare lägger också till extra kodpunkter. Dessutom kan tecken utanför BMP (U+10000 till U+10FFFF) representeras som UTF-16-surrogatpar, vilket visas som två \uXXXX-sekvenser i äldre JSON- eller JavaScript-miljöer.

De flesta moderna språk stöder Unicode-escapes: JavaScript/JSON (\uXXXX), Python (\uXXXX och \UXXXXXXXX), Java (\uXXXX), C/C++ (\uXXXX och \UXXXXXXXX), C# (\uXXXX), Ruby (\uXXXX) och PHP (\u{XXXXXX}). Syntaxen varierar något mellan olika språk - vissa använder versaler \U för utökade intervall, andra använder hakparenteser. Kontrollera alltid dokumentationen för ditt språk för det exakta formatet, men de underliggande Unicode-kodpunkterna är desamma på alla plattformar.