Teksti to Unicode muunnin
Muunna teksti Unicode-pakosekvensseiksi tai purkaa Unicode-sekvenssit takaisin luettavaksi tekstiksi tämän ilmaisen online-työkalun avulla. Täydellinen työkalu kehittäjille, jotka työskentelevät kansainvälistämisen parissa, korjaavat merkkien koodausongelmia tai käsittelevät erikoismerkkejä koodissa. Tukee kaikkia Unicode-merkkejä, mukaan lukien emojit, symbolit ja muut kuin latinalaiset kirjoitusmerkit.
Usein kysytyt kysymykset
Unicode on yleismaailmallinen merkkien koodausstandardi, joka antaa jokaiselle merkille yksilöllisen numeron (koodipisteen) kaikissa kirjoitusjärjestelmissä, symboleissa ja hymiöissä. Unicode-pakosekvenssien muuntaminen (kuten \u0041 'A:lle') on hyödyllistä, kun sinun on esitettävä erikoismerkkejä koodissa, JSONissa, URL-osoitteissa tai debugattaessa koodausongelmia kansainvälisissä sovelluksissa.
Kirjoita tai liitä teksti syöttökenttään ja napsauta 'Muunna'. Työkalu muuntaa jokaisen merkin sen Unicode escape sequence -muotoon (\uXXXXXX BMP-merkeille tai \u{XXXXXX} muille). Esimerkiksi sanasta 'Hello' tulee '\u0048\u0065\u006C\u006C\u006F'. Tätä muotoa käytetään yleisesti JavaScriptissä, JSONissa ja monissa ohjelmointikielissä.
Kyllä! Liitä Unicode-ulkosekvenssit (kuten \u0048 tai \u{1F600}) syöttökenttään ja napsauta 'Muunna'. Työkalu tunnistaa Unicode-jaksot automaattisesti ja muuntaa ne takaisin luettaviksi merkeiksi. Tämä on hyödyllistä koodin debuggauksessa, koodattujen JSON-tietojen lukemisessa tai työskentelyssä kansainvälistetyn sisällön kanssa.
Unicode on merkistö, joka määrittää merkkien numerot (koodipisteet), kun taas UTF-8 on koodaus, joka määrittää, miten nämä numerot tallennetaan tavuina. Unicode-ulkosekvenssit edustavat suoraan koodipistettä (\u0041), kun taas UTF-8-koodaus edustaa sitä, miten kyseinen merkki tallennetaan muistiin. Tämä työkalu toimii Unicode-koodipisteiden ja niiden pakosekvenssien esitysten kanssa.
Kyllä! Tämä Unicode-muunnin tukee kaikkia Unicode-merkkejä, mukaan lukien emojit, matemaattiset symbolit, valuuttamerkit, muut kuin latinalaiset kirjoitusmerkit (kiinalaiset, arabialaiset, kyrilliset jne.) ja erikoismerkit. Emojit ja monikielisen perustason ulkopuoliset merkit voidaan esittää laajennetuilla pakosekvensseillä, kuten \u{1F600} virnistelevien kasvojen emojille.
Käytä Unicode escape-jaksoja, kun haluat sisällyttää lähdekoodiin erikoismerkkejä, jotka eivät ehkä näy oikein editorissa, kun haluat varmistaa yhteensopivuuden eri järjestelmien välillä, kun työskentelet JSON:n kanssa, joka vaatii suojattuja merkkejä, tai kun haluat esittää merkkejä, joita ei ole näppäimistölläsi. Ne ovat erityisen hyödyllisiä kansainvälistämisessä ja eri kielten käyttäjäsyötteiden käsittelyssä.
\uXXXXXX-muoto (4 heksanumeroa) on perinteinen JavaScript/JSON-muoto, joka kattaa monikielisen perustason (Basic Multilingual Plane, BMP) - koodipisteet U+0000 - U+FFFF, joka sisältää yleisimmät merkit. Muodossa \u{XXXXXX} (ES6+ JavaScript) käytetään kiharaisia sulkuja ja muuttuvan pituisia heksanumeroita kaikkien Unicode-koodipisteiden esittämiseen U+10FFFF:ään asti, mukaan lukien emojit ja harvinaiset merkit. U+FFFF:n ylittäviin merkkeihin käytetään vanhemmissa järjestelmissä korvikepareja (kaksi \uXXXXXX-sekvenssiä).
Unicode-koodipiste on abstrakti numero, joka on annettu merkille (kuten U+0041 merkille 'A'), kun taas UTF-8 on tapa, jolla kyseinen numero koodataan tavuiksi tallennusta varten. ASCII-merkit (U+0000 - U+007F) käyttävät 1 UTF-8-tavua, eurooppalaiset merkit 2 tavua, aasialaiset merkit 3 tavua ja emojit 4 tavua. Unicode escape -merkki näyttää suoraan koodipisteen, kun taas UTF-8 näyttää tiedostoissa ja verkoissa käytettävän tavu esityksen.
Monimutkaisissa hymiöissä käytetään usein useita koodipisteitä, jotka on yhdistetty Zero Width Joiner (ZWJ) -jaksojen avulla. Esimerkiksi perhe-emojissa yhdistyvät henkilö + ZWJ + henkilö + ZWJ + lapsi-emojit. Ihonsävyn muokkaajat lisäävät myös ylimääräisiä koodipisteitä. Lisäksi BMP:n ulkopuoliset merkit (U+10000 - U+10FFFF) voidaan esittää UTF-16-surrogaattipareina, jotka näkyvät kahtena \uXXXXXX-sekvenssinä vanhemmissa JSON- tai JavaScript-ympäristöissä.
Useimmat nykyaikaiset kielet tukevat Unicode-sekvenssejä: JavaScript/JSON (\uXXXX), Python (\uXXXX ja \UXXXXXXXX), Java (\uXXXXXX), C/C++ (\uXXXX ja \UXXXXXXXX), C# (\uXXXX), Ruby (\uXXXX) ja PHP (\u{XXXXXX}). Syntaksi vaihtelee hieman eri kielten välillä - jotkut käyttävät isoa \U-kirjainta laajennetuille alueille, toiset taas käyttävät sulkeita. Tarkista aina kielesi dokumentaatiosta tarkka muoto, mutta taustalla olevat Unicode-koodipisteet ovat samat kaikilla alustoilla.
