Tekst til Unicode Converter
Konverter tekst til Unicode escape-sekvenser eller afkod Unicode-sekvenser tilbage til læsbar tekst med dette gratis online-værktøj. Perfekt til udviklere, der arbejder med internationalisering, fejlfinding af tegnkodningsproblemer eller håndtering af specialtegn i kode. Understøtter alle Unicode-tegn, herunder emojis, symboler og ikke-latinske scripts.
Ofte stillede spørgsmål
Unicode er en universel standard for tegnkodning, der tildeler et unikt nummer (kodepunkt) til hvert tegn på tværs af alle skriftsystemer, symboler og emojis. Konvertering til Unicode escape-sekvenser (som \u0041 for 'A') er nyttig, når du skal repræsentere specialtegn i kode, JSON, URL'er eller ved fejlfinding af kodningsproblemer i internationale applikationer.
Skriv eller indsæt din tekst i inputfeltet, og klik på "Konverter". Værktøjet konverterer hvert tegn til dets Unicode escape sequence-format (\uXXXX for BMP-tegn eller \u{XXXXXX} for andre). For eksempel bliver 'Hello' til '\u0048\u0065\u006C\u006C\u006F'. Dette format bruges ofte i JavaScript, JSON og mange programmeringssprog.
Ja, det gør du! Indsæt Unicode escape-sekvenser (som \u0048 eller \u{1F600}) i inputfeltet, og klik på 'Konverter'. Værktøjet registrerer automatisk Unicode-sekvenser og konverterer dem tilbage til læsbare tegn. Det er nyttigt, når man fejlsøger kode, læser kodede JSON-data eller arbejder med internationaliseret indhold.
Unicode er det tegnsæt, der tildeler tal (kodepunkter) til tegn, mens UTF-8 er en kodning, der bestemmer, hvordan disse tal gemmes som bytes. Unicode escape-sekvenser repræsenterer kodepunktet direkte (\u0041), mens UTF-8-kodning repræsenterer, hvordan det pågældende tegn gemmes i hukommelsen. Dette værktøj arbejder med Unicode-kodepunkter og deres escape-sekvensrepræsentationer.
Ja, det gør den! Denne Unicode-konverter understøtter alle Unicode-tegn, herunder emojis, matematiske symboler, valutategn, ikke-latinske skrifttegn (kinesisk, arabisk, kyrillisk osv.) og specialtegn. Emojis og tegn uden for Basic Multilingual Plane kan repræsenteres med udvidede escape-sekvenser som \u{1F600} for emojien med det grinende ansigt.
Brug Unicode escape-sekvenser, når du skal inkludere specialtegn i kildekode, som måske ikke vises korrekt i din editor, når du skal sikre kompatibilitet på tværs af forskellige systemer, når du arbejder med JSON, der kræver escape-tegn, eller når du skal repræsentere tegn, der ikke findes på dit tastatur. De er især nyttige til internationalisering og håndtering af brugerinput fra forskellige sprog.
\uXXXX-formatet (4 hexcifre) er det traditionelle JavaScript/JSON-format, der dækker Basic Multilingual Plane (BMP) - kodepunkterne U+0000 til U+FFFF, som omfatter de mest almindelige tegn. \u{XXXXXX}-formatet (ES6+ JavaScript) bruger krøllede parenteser og hex med variabel længde til at repræsentere ethvert Unicode-kodepunkt op til U+10FFFF, inklusive emojis og sjældne tegn. For tegn over U+FFFF bruger ældre systemer surrogatpar (to \uXXXX-sekvenser).
Et Unicode-kodepunkt er det abstrakte nummer, der er tildelt et tegn (som U+0041 for 'A'), mens UTF-8 er den måde, hvorpå dette nummer kodes som bytes til lagring. ASCII-tegn (U+0000 til U+007F) bruger 1 UTF-8-byte, europæiske tegn har brug for 2 bytes, asiatiske tegn har brug for 3 bytes, og emojis har brug for 4 bytes. Unicode escapes viser kodepunktet direkte, mens UTF-8 viser den faktiske byte-repræsentation, der bruges i filer og netværk.
Komplekse emojis bruger ofte flere kodepunkter kombineret gennem ZWJ-sekvenser (Zero Width Joiner). For eksempel kombinerer familie-emojis person + ZWJ + person + ZWJ + børne-emojis. Hudtonemodifikatorer tilføjer også ekstra kodepunkter. Derudover kan tegn uden for BMP (U+10000 til U+10FFFF) repræsenteres som UTF-16-surrogatpar, der vises som to \uXXXX-sekvenser i ældre JSON- eller JavaScript-miljøer.
De fleste moderne sprog understøtter Unicode escapes: JavaScript/JSON (\uXXXX), Python (\uXXXX og \UXXXXXX), Java (\uXXXX), C/C++ (\uXXXX og \UXXXXXX), C# (\uXXXX), Ruby (\uXXXX) og PHP (\u{XXXXXX}). Syntaksen varierer lidt fra sprog til sprog - nogle bruger store bogstaver \U til udvidede områder, andre bruger krøllede parenteser. Tjek altid dit sprogs dokumentation for det nøjagtige format, men de underliggende Unicode-kodepunkter forbliver de samme på tværs af alle platforme.
