Text zu Unicode Konverter

Konvertieren Sie mit diesem kostenlosen Online-Tool Text in Unicode-Escape-Sequenzen oder dekodieren Sie Unicode-Sequenzen zurück in lesbaren Text. Perfekt für Entwickler, die mit Internationalisierung arbeiten, Probleme mit der Zeichenkodierung beheben oder Sonderzeichen im Code behandeln. Unterstützt alle Unicode-Zeichen, einschließlich Emojis, Symbole und nicht-lateinische Schriftzeichen.

Häufig gestellte Fragen

Unicode ist ein universeller Zeichencodierungsstandard, der jedem Zeichen in allen Schriftsystemen, Symbolen und Emojis eine eindeutige Nummer (Codepunkt) zuweist. Die Konvertierung in Unicode-Escape-Sequenzen (z. B. \u0041 für "A") ist nützlich, wenn Sie Sonderzeichen in Code, JSON oder URLs darstellen müssen oder wenn Sie Kodierungsprobleme in internationalen Anwendungen beheben wollen.

Geben Sie Ihren Text in das Eingabefeld ein und klicken Sie auf "Konvertieren". Das Tool konvertiert jedes Zeichen in sein Unicode-Escape-Sequenz-Format (\uXXXX für BMP-Zeichen oder \u{XXXXXX} für andere). So wird zum Beispiel aus "Hallo" "\u0048\u0065\u006C\u006C\u006F". Dieses Format wird üblicherweise in JavaScript, JSON und vielen Programmiersprachen verwendet.

Ja! Fügen Sie Unicode-Escape-Sequenzen (wie \u0048 oder \u{1F600}) in das Eingabefeld ein und klicken Sie auf "Konvertieren". Das Tool erkennt automatisch Unicode-Sequenzen und konvertiert sie in lesbare Zeichen zurück. Dies ist hilfreich beim Debuggen von Code, beim Lesen kodierter JSON-Daten oder bei der Arbeit mit internationalisierten Inhalten.

Unicode ist der Zeichensatz, der den Zeichen Zahlen (Codepunkte) zuordnet, während UTF-8 eine Kodierung ist, die bestimmt, wie diese Zahlen als Bytes gespeichert werden. Unicode-Escape-Sequenzen stellen den Codepunkt direkt dar (\u0041), während die UTF-8-Kodierung angibt, wie das Zeichen im Speicher gespeichert wird. Dieses Tool arbeitet mit Unicode-Codepunkten und ihren Escape-Sequenz-Darstellungen.

Ja! Dieser Unicode-Konverter unterstützt alle Unicode-Zeichen, einschließlich Emojis, mathematische Symbole, Währungszeichen, nicht-lateinische Schriftzeichen (Chinesisch, Arabisch, Kyrillisch usw.) und Sonderzeichen. Emojis und Zeichen außerhalb der Basic Multilingual Plane können mit erweiterten Escape-Sequenzen wie \u{1F600} für das Grinse-Emoji dargestellt werden.

Verwenden Sie Unicode-Escape-Sequenzen, wenn Sie Sonderzeichen in den Quellcode einfügen müssen, die in Ihrem Editor möglicherweise nicht korrekt angezeigt werden, wenn Sie die Kompatibilität zwischen verschiedenen Systemen sicherstellen müssen, wenn Sie mit JSON arbeiten, das escapierte Zeichen erfordert, oder wenn Sie Zeichen darstellen müssen, die nicht auf Ihrer Tastatur vorhanden sind. Sie sind besonders nützlich für die Internationalisierung und den Umgang mit Benutzereingaben in verschiedenen Sprachen.

Das Format \uXXXX (4 Hexadezimalziffern) ist das traditionelle JavaScript/JSON-Format, das die Basic Multilingual Plane (BMP) abdeckt - die Codepunkte U+0000 bis U+FFFF, die die meisten gängigen Zeichen umfassen. Das Format \u{XXXXXX} (ES6+ JavaScript) verwendet geschweifte Klammern und Hexadezimalzahlen variabler Länge, um jeden Unicode-Codepunkt bis U+10FFFF darzustellen, einschließlich Emojis und seltener Zeichen. Für Zeichen, die über U+FFFF hinausgehen, verwenden ältere Systeme Surrogatpaare (zwei \uXXXX-Sequenzen).

Ein Unicode-Codepunkt ist die abstrakte Nummer, die einem Zeichen zugewiesen wird (z. B. U+0041 für "A"), während UTF-8 angibt, wie diese Nummer für die Speicherung in Bytes kodiert wird. Für ASCII-Zeichen (U+0000 bis U+007F) wird 1 UTF-8-Byte benötigt, für europäische Zeichen 2 Bytes, für asiatische Zeichen 3 Bytes und für Emojis 4 Bytes. Unicode-Escapes zeigen den Codepunkt direkt an, während UTF-8 die tatsächliche Byte-Darstellung zeigt, die in Dateien und Netzwerken verwendet wird.

Komplexe Emojis verwenden oft mehrere Codepunkte, die durch Zero Width Joiner (ZWJ)-Sequenzen kombiniert werden. Familien-Emojis zum Beispiel kombinieren Person + ZWJ + Person + ZWJ + Kinder-Emojis. Hautton-Modifikatoren fügen ebenfalls zusätzliche Codepunkte hinzu. Außerdem können Zeichen außerhalb des BMP (U+10000 bis U+10FFFF) als UTF-16-Surrogatpaare dargestellt werden, die in älteren JSON- oder JavaScript-Umgebungen als zwei \uXXXX-Sequenzen erscheinen.

Die meisten modernen Sprachen unterstützen Unicode-Escapes: JavaScript/JSON (\uXXXX), Python (\uXXXX und \UXXXXXXXX), Java (\uXXXX), C/C++ (\uXXXX und \UXXXXXXXX), C# (\uXXXX), Ruby (\uXXXX) und PHP (\u{XXXXXX}). Die Syntax variiert leicht zwischen den Sprachen - einige verwenden Großbuchstaben \U für erweiterte Bereiche, andere verwenden geschweifte Klammern. Schauen Sie immer in der Dokumentation Ihrer Sprache nach, um das genaue Format herauszufinden, aber die zugrunde liegenden Unicode-Codepunkte sind auf allen Plattformen gleich.