Tekst to Unicode konverter
Selle tasuta veebipõhise tööriistaga saate teisendada teksti Unicode'i põgenemisjoonisteks või dekodeerida Unicode'i jadasid tagasi loetavaks tekstiks. Ideaalne vahend arendajatele, kes töötavad rahvusvahelistumise, tähemärkide kodeerimisega seotud probleemide kõrvaldamise või koodis olevate erimärkide käsitlemise jaoks. Toetab kõiki Unicode-märke, sealhulgas emotikone, sümboleid ja mitte-ladina kirjaviise.
Korduma kippuvad küsimused
Unicode on universaalne tähemärkide kodeerimise standard, mis määrab igale tähemärgile unikaalse numbri (koodipunkti) kõigis kirjasüsteemides, sümbolites ja emotikonides. Unicode'i põgenemisjada (nagu \u0041 'A' jaoks) on kasulik, kui teil on vaja esitada erimärke koodis, JSONis, URL-ides või rahvusvahelistes rakendustes kodeerimisprobleemide kõrvaldamisel.
Sisestage või kleepige oma tekst sisestusväljale ja klõpsake nuppu "Konverteeri". Tööriist teisendab iga tähemärgi Unicode'i põgenemisjärjekorra formaati (\uXXXX BMP-märkide puhul või \u{XXXXXX} teiste märkide puhul). Näiteks 'Hello' muutub '\u0048\u0065\u006C\u006C\u006F'. Seda formaati kasutatakse tavaliselt JavaScriptis, JSONis ja paljudes programmeerimiskeeltes.
Jah! Sisestage Unicode põgenemiskombinatsioonid (nagu \u0048 või \u{1F600}) sisestusväljale ja klõpsake nuppu "Konverteeri". Tööriist tuvastab Unicode'i järjestused automaatselt ja teisendab need tagasi loetavateks märkideks. See on kasulik koodi silumisel, kodeeritud JSON-andmete lugemisel või töötamisel rahvusvahelistunud sisuga.
Unicode on tähemärkide kogum, mis omistab märkidele numbrid (koodpunktid), UTF-8 on kodeering, mis määrab, kuidas need numbrid baitidena salvestatakse. Unicode'i põgenemiskombinatsioonid kujutavad koodipunkti otse (\u0041), samas kui UTF-8 kodeering näitab, kuidas see märk mällu salvestatakse. See tööriist töötab Unicode'i koodipunktide ja nende põgenemisjada esitusviisidega.
Jah! See Unicode-konverter toetab kõiki Unicode-märke, sealhulgas emotikone, matemaatilisi sümboleid, valuutamärke, mitte-ladina kirjaviise (hiina, araabia, kirillitsat jne) ja erimärke. Emojisid ja märke, mis ei kuulu mitmekeelsele põhitasandile, võib esitada laiendatud põgenemisjärjega, näiteks \u{1F600} irvitava näo emoji jaoks.
Kasutage Unicode escape-järjendeid, kui teil on vaja lisada erimärke lähtekoodi, mida teie redaktoris ei pruugi õigesti kuvada, kui soovite tagada ühilduvuse eri süsteemides, kui töötate JSONiga, mis nõuab eskabeeritud märke, või kui teil on vaja esitada märke, mida teie klaviatuuril ei ole. Need on eriti kasulikud rahvusvahelistumisel ja eri keelte kasutajasisendite käsitlemisel.
Formaat \uXXXXXX (4 kuuekohalist numbrit) on traditsiooniline JavaScript/JSON-vorming, mis hõlmab põhilist mitmekeelset tasandit (BMP) - koodpunktid U+0000 kuni U+FFFF, mis hõlmab enamikku levinud tähemärke. Formaat \u{XXXXXX} (ES6+ JavaScript) kasutab kõveraid sulgusid ja muutuva pikkusega heksakoode, et esitada mis tahes Unicode'i koodipunkte kuni U+10FFFF, sealhulgas emotikone ja harvaesinevaid märke. Tähemärkide jaoks, mis ületavad U+FFFF, kasutavad vanemad süsteemid asenduspaare (kaks \uXXXXXX järjestust).
Unicode'i koodipunkt on märkidele määratud abstraktne number (näiteks U+0041 tähise "A" jaoks), UTF-8 on aga see, kuidas see number on salvestamiseks baitidena kodeeritud. ASCII-märgid (U+0000 kuni U+007F) kasutavad 1 UTF-8 baiti, Euroopa tähemärgid vajavad 2 baiti, Aasia tähemärgid 3 baiti ja emotikonid 4 baiti. Unicode escapes näitab otse koodipunkti, UTF-8 aga failides ja võrkudes kasutatavat tegelikku baitide esitust.
Keerukates emotikonides kasutatakse sageli mitmeid koodipunkte, mis on ühendatud Zero Width Joiner (ZWJ) jadade abil. Näiteks perekonna emojid kombineerivad isiku + ZWJ + isiku + ZWJ + lapse emojid. Nahatooni modifikaatorid lisavad samuti täiendavaid koodipunkte. Lisaks sellele võib BMP-väliseid märke (U+10000 kuni U+10FFFF) esitada UTF-16 asendusmärkide paaridena, mis vanemates JSON- või JavaScript-keskkondades kuvatakse kahe \uXXXXXX-järjena.
Enamik kaasaegseid keeli toetab Unicode escapes: JavaScript/JSON (\uXXXX), Python (\uXXXX ja \UXXXXXXXX), Java (\uXXXXXX), C/C++ (\uXXXX ja \UXXXXXXXX), C# (\uXXXXXX), Ruby (\uXXXXXX) ja PHP (\u{XXXXXX}). Süntaks erineb keeltes pisut - mõned kasutavad laiendatud vahemike jaoks suurtähest \U, teised kasutavad kõveraid sulgusid. Kontrollige alati oma keele dokumentatsiooni täpset vormingut, kuid aluseks olevad Unicode'i koodipunktid on kõigil platvormidel samad.
