Convertitore da Testo a Unicode
Convertite il testo in sequenze di escape Unicode o decodificate le sequenze Unicode in testo leggibile con questo strumento online gratuito. Perfetto per gli sviluppatori che lavorano con l'internazionalizzazione, il debug di problemi di codifica dei caratteri o la gestione di caratteri speciali nel codice. Supporta tutti i caratteri Unicode, comprese le emoji, i simboli e le scritture non latine.
Domande frequenti
Unicode è uno standard universale di codifica dei caratteri che assegna un numero unico (punto di codice) a ogni carattere in tutti i sistemi di scrittura, simboli ed emoji. La conversione in sequenze di escape Unicode (come \u0041 per 'A') è utile quando si devono rappresentare caratteri speciali nel codice, in JSON, negli URL o quando si devono risolvere problemi di codifica in applicazioni internazionali.
Digitare o incollare il testo nel campo di immissione e fare clic su "Converti". Lo strumento convertirà ogni carattere nel formato della sequenza di escape Unicode (\uXXXX per i caratteri BMP o \u{XXXXXX} per gli altri). Ad esempio, 'Hello' diventa '\u0048\u0065\u006C\u006C\u006F'. Questo formato è comunemente usato in JavaScript, JSON e in molti linguaggi di programmazione.
Sì! Incollate le sequenze di escape Unicode (come \u0048 o \u{1F600}) nel campo di input e fate clic su "Converti". Lo strumento rileva automaticamente le sequenze Unicode e le converte in caratteri leggibili. Questo è utile quando si esegue il debug del codice, si leggono dati JSON codificati o si lavora con contenuti internazionalizzati.
Unicode è il set di caratteri che assegna numeri (punti di codice) ai caratteri, mentre UTF-8 è una codifica che determina il modo in cui tali numeri vengono memorizzati come byte. Le sequenze di escape Unicode rappresentano direttamente il punto di codice (\u0041), mentre la codifica UTF-8 rappresenta il modo in cui il carattere viene memorizzato. Questo strumento lavora con i punti di codice Unicode e le loro rappresentazioni di sequenze di escape.
Sì! Questo convertitore Unicode supporta tutti i caratteri Unicode, comprese le emoji, i simboli matematici, i segni di valuta, le scritture non latine (cinese, arabo, cirillico, ecc.) e i caratteri speciali. Le emoji e i caratteri che non rientrano nel piano multilingue di base possono essere rappresentati con sequenze di escape estese, come \u{1F600} per l'emoji della faccina sorridente.
Utilizzate le sequenze di escape Unicode quando dovete includere caratteri speciali nel codice sorgente che potrebbero non essere visualizzati correttamente nell'editor, quando dovete garantire la compatibilità tra sistemi diversi, quando lavorate con JSON che richiede caratteri di escape o quando dovete rappresentare caratteri che non sono presenti sulla vostra tastiera. Sono particolarmente utili per l'internazionalizzazione e per gestire l'input dell'utente da lingue diverse.
Il formato \uXXXX (4 cifre esadecimali) è il formato JavaScript/JSON tradizionale che copre il piano multilingue di base (BMP) - punti di codice da U+0000 a U+FFFF, che comprende i caratteri più comuni. Il formato \u{XXXXXX} (ES6+ JavaScript) utilizza le parentesi graffe e la lunghezza esadecimale variabile per rappresentare qualsiasi punto di codice Unicode fino a U+10FFFF, comprese le emoji e i caratteri rari. Per i caratteri oltre U+FFFF, i sistemi più vecchi utilizzano coppie surrogate (due sequenze \uXXXX).
Un punto di codice Unicode è il numero astratto assegnato a un carattere (come U+0041 per 'A'), mentre UTF-8 è il modo in cui quel numero viene codificato in byte per la memorizzazione. I caratteri ASCII (da U+0000 a U+007F) usano 1 byte UTF-8, i caratteri europei hanno bisogno di 2 byte, quelli asiatici di 3 byte e le emoji di 4 byte. Gli escape Unicode mostrano direttamente il punto di codice, mentre UTF-8 mostra la rappresentazione effettiva dei byte utilizzata nei file e nelle reti.
Le emoji complesse spesso utilizzano più punti di codice combinati attraverso sequenze ZWJ (Zero Width Joiner). Ad esempio, le emoji famiglia combinano persona + ZWJ + persona + ZWJ + emoji bambino. Anche i modificatori del tono della pelle aggiungono ulteriori punti di codice. Inoltre, i caratteri al di fuori del BMP (da U+10000 a U+10FFFF) possono essere rappresentati come coppie surrogate UTF-16, mostrando due sequenze \uXXXX in ambienti JSON o JavaScript più vecchi.
La maggior parte dei linguaggi moderni supporta gli escape Unicode: JavaScript/JSON (\uXXXX), Python (\uXXXX e \UXXXXXX), Java (\uXXXX), C/C++ (\uXXXX e \UXXXXXX), C# (\uXXXX), Ruby (\uXXXX) e PHP (\u{XXXXXX}). La sintassi varia leggermente da un linguaggio all'altro: alcuni usano il carattere maiuscolo \U per gli intervalli estesi, altri usano le parentesi graffe. Controllare sempre la documentazione del proprio linguaggio per conoscere il formato esatto, ma i punti di codice Unicode sottostanti rimangono gli stessi su tutte le piattaforme.
