Converter Tekst naar Unicode
Converteer tekst naar Unicode escape-sequenties of decodeer Unicode-sequenties terug naar leesbare tekst met deze gratis online tool. Perfect voor ontwikkelaars die werken met internationalisatie, problemen met tekencodering debuggen of speciale tekens in code verwerken. Ondersteunt alle Unicode-tekens, inclusief emoji's, symbolen en niet-Latijnse scripts.
Veelgestelde vragen
Unicode is een universele tekencoderingsstandaard die een uniek nummer (codepunt) toewijst aan elk teken in alle schrijfsystemen, symbolen en emoji's. Converteren naar Unicode escape-reeksen (zoals \u0041 voor 'A') is handig wanneer je speciale tekens moet weergeven in code, JSON, URL's of bij het debuggen van coderingsproblemen in internationale toepassingen.
Typ of plak je tekst in het invoerveld en klik op 'Converteren'. De tool converteert elk teken naar de Unicode escape sequence-indeling (\uXXXX voor BMP-tekens of \u{XXXXXX} voor andere). Hallo' wordt bijvoorbeeld '\u0048\u0065\u006C\u006C\u006F'. Deze indeling wordt veel gebruikt in JavaScript, JSON en veel programmeertalen.
Ja! Plak Unicode escape-reeksen (zoals \u0048 of \u{1F600}) in het invoerveld en klik op 'Converteren'. De tool detecteert automatisch Unicode-reeksen en converteert ze terug naar leesbare tekens. Dit is handig bij het debuggen van code, het lezen van gecodeerde JSON-gegevens of het werken met geïnternationaliseerde inhoud.
Unicode is de tekenset die nummers (codepunten) toekent aan tekens, terwijl UTF-8 een codering is die bepaalt hoe die nummers worden opgeslagen als bytes. Unicode escape-reeksen geven het codepunt direct weer (\u0041), terwijl UTF-8 codering weergeeft hoe dat teken in het geheugen wordt opgeslagen. Dit gereedschap werkt met Unicode-codepunten en hun escape-sequenties.
Ja! Deze Unicode-converter ondersteunt alle Unicode-tekens, inclusief emoji's, wiskundige symbolen, valutatekens, niet-Latijnse scripts (Chinees, Arabisch, Cyrillisch, enz.) en speciale tekens. Emoji's en tekens buiten het Basis Meertalig Vlak kunnen worden weergegeven met uitgebreide escape-reeksen zoals \u{1F600} voor de grijnzend gezicht emoji.
Gebruik Unicode escape-reeksen wanneer je speciale tekens moet opnemen in broncode die mogelijk niet correct wordt weergegeven in je editor, wanneer je zorgt voor compatibiliteit tussen verschillende systemen, wanneer je werkt met JSON waarvoor je ontsnapte tekens nodig hebt of wanneer je tekens moet weergeven die niet op je toetsenbord voorkomen. Ze zijn vooral handig voor internationalisatie en het verwerken van gebruikersinvoer in verschillende talen.
De \uXXXX-indeling (4 hexadecimale cijfers) is de traditionele JavaScript/JSON-indeling die het Basic Multilingual Plane (BMP) dekt - codepunten U+0000 tot U+FFFF, waaronder de meest voorkomende tekens vallen. De \u{XXXXXX}-indeling (ES6+ JavaScript) gebruikt accolades en hex met variabele lengte om elk Unicode-codepunt tot U+10FFFF weer te geven, inclusief emoji's en zeldzame tekens. Voor tekens voorbij U+FFFF gebruiken oudere systemen surrogaatparen (twee \uXXXX-reeksen).
Een Unicode-codepunt is het abstracte nummer dat aan een teken is toegewezen (zoals U+0041 voor 'A'), terwijl UTF-8 aangeeft hoe dat nummer wordt gecodeerd als bytes voor opslag. ASCII-tekens (U+0000 tot U+007F) gebruiken 1 UTF-8 byte, Europese tekens hebben 2 bytes nodig, Aziatische tekens hebben 3 bytes nodig en emoji's hebben 4 bytes nodig. Unicode-escapes geven het codepunt direct weer, terwijl UTF-8 de werkelijke byte-weergave weergeeft die in bestanden en netwerken wordt gebruikt.
Complexe emoji's gebruiken vaak meerdere codepunten gecombineerd door middel van Zero Width Joiner (ZWJ)-reeksen. Bijvoorbeeld, familie-emoji's combineren persoon + ZWJ + persoon + ZWJ + kind-emoji's. Huidtintmodifiers voegen ook extra codepunten toe. Daarnaast kunnen tekens buiten de BMP (U+10000 tot U+10FFFF) worden weergegeven als UTF-16 surrogaatparen, die worden weergegeven als twee uXXXX-reeksen in oudere JSON- of JavaScript-omgevingen.
De meeste moderne talen ondersteunen Unicode-escapes: JavaScript/JSON (\uXXXX), Python (\uXXXXXX en \UXXXXXX), Java (\uXXXX), C/C++XX (\uXXXXXX en \UXXXXXX), C# (\uXXXX), Ruby (\uXXXX), en PHP (\u{XXXXXX}). De syntaxis verschilt enigszins tussen talen - sommige gebruiken hoofdletters \U voor uitgebreide bereiken, andere gebruiken accolades. Controleer altijd de documentatie van je taal voor de exacte indeling, maar de onderliggende Unicode-codepunten blijven hetzelfde op alle platforms.
