Text to Unicode Convertor

Convertiți text în secvențe de scăpare Unicode sau decodați secvențele Unicode înapoi în text lizibil cu acest instrument online gratuit. Perfect pentru dezvoltatorii care lucrează cu internaționalizarea, depanarea problemelor de codificare a caracterelor sau manipularea caracterelor speciale în cod. Suportă toate caracterele Unicode, inclusiv emojis, simboluri și scripturi non-latine.

Întrebări frecvente

Unicode este un standard universal de codificare a caracterelor care atribuie un număr unic (punct de cod) fiecărui caracter din toate sistemele de scriere, simboluri și emoji. Conversia în secvențe de scăpare Unicode (cum ar fi \u0041 pentru "A") este utilă atunci când trebuie să reprezentați caractere speciale în cod, JSON, URL-uri sau când depanați probleme de codificare în aplicații internaționale.

Introduceți sau lipiți textul în câmpul de introducere și faceți clic pe "Convert". Instrumentul va converti fiecare caracter în formatul său de secvență de scăpare Unicode (\uXXXX pentru caracterele BMP sau \u{XXXXXX} pentru celelalte). De exemplu, "Hello" devine "\u0048\u0065\u006C\u006C\u006F". Acest format este utilizat în mod obișnuit în JavaScript, JSON și în multe limbaje de programare.

Da! Lipiți secvențe Unicode escape (precum \u0048 sau \u{1F600}) în câmpul de introducere și faceți clic pe "Conversie". Instrumentul detectează automat secvențele Unicode și le convertește înapoi în caractere lizibile. Acest lucru este util la depanarea codului, la citirea datelor JSON codificate sau la lucrul cu conținut internaționalizat.

Unicode este setul de caractere care atribuie numere (puncte de cod) caracterelor, în timp ce UTF-8 este o codificare care determină modul în care aceste numere sunt stocate ca octeți. Secvențele de scăpare Unicode reprezintă direct punctul de cod (\u0041), în timp ce codificarea UTF-8 reprezintă modul în care acel caracter este stocat în memorie. Acest instrument lucrează cu punctele de cod Unicode și cu reprezentările secvențelor lor de scăpare.

Da! Acest convertor Unicode acceptă toate caracterele Unicode, inclusiv emoji, simboluri matematice, semne monetare, scripturi non-latine (chineză, arabă, chirilică etc.) și caractere speciale. Emoji-urile și caracterele din afara planului multilingv de bază pot fi reprezentate cu secvențe de scăpare extinse, cum ar fi \u{1F600} pentru emoji-ul cu față zâmbitoare.

Utilizați secvențele de scăpare Unicode atunci când trebuie să includeți caractere speciale în codul sursă care ar putea să nu se afișeze corect în editorul dvs., atunci când asigurați compatibilitatea între diferite sisteme, atunci când lucrați cu JSON care necesită caractere scăpate sau atunci când trebuie să reprezentați caractere care nu sunt pe tastatură. Acestea sunt utile în special pentru internaționalizare și pentru gestionarea datelor introduse de utilizator din limbi diferite.

Formatul \uXXXX (4 cifre hexagonale) este formatul JavaScript/JSON tradițional care acoperă planul multilingv de bază (BMP) - punctele de cod U+0000 până la U+FFFF, care include majoritatea caracterelor comune. Formatul \u{XXXXXX} (ES6+ JavaScript) utilizează paranteze crețe și hexagonale cu lungime variabilă pentru a reprezenta orice punct de cod Unicode până la U+10FFFF, inclusiv emoji și caractere rare. Pentru caracterele care depășesc U+FFFF, sistemele mai vechi utilizează perechi surogat (două secvențe \uXXXX).

Un punct de cod Unicode este numărul abstract atribuit unui caracter (cum ar fi U+0041 pentru "A"), în timp ce UTF-8 este modul în care numărul respectiv este codificat sub formă de octeți pentru stocare. Caracterele ASCII (de la U+0000 la U+007F) utilizează 1 octet UTF-8, caracterele europene necesită 2 octeți, caracterele asiatice necesită 3 octeți, iar emoji-urile necesită 4 octeți. Scapările Unicode arată direct punctul de cod, în timp ce UTF-8 arată reprezentarea reală a octeților utilizată în fișiere și rețele.

Emoji-urile complexe utilizează adesea mai multe puncte de cod combinate prin secvențe Zero Width Joiner (ZWJ). De exemplu, emoji-urile de familie combină emoji-uri persoană + ZWJ + persoană + ZWJ + copil. Modificatorii tonului pielii adaugă, de asemenea, puncte de cod suplimentare. În plus, caracterele din afara BMP (de la U+10000 la U+10FFFF) pot fi reprezentate ca perechi surogat UTF-16, care apar ca două secvențe \uXXXX în mediile JSON sau JavaScript mai vechi.

Majoritatea limbajelor moderne acceptă scăpări Unicode: JavaScript/JSON (\uXXXX), Python (\uXXXX și \UXXXXXXXX), Java (\uXXXX), C/C++ (\uXXXX și \UXXXXXXXX), C# (\uXXXX), Ruby (\uXXXX) și PHP (\u{XXXXXX}). Sintaxa variază ușor de la o limbă la alta - unele utilizează \U cu majuscule pentru intervalele extinse, altele utilizează paranteze curly. Verificați întotdeauna documentația limbajului dvs. pentru formatul exact, dar punctele de cod Unicode de bază rămân aceleași pe toate platformele.