Teksts uz Unicode Pārveidotājs
Konvertējiet tekstu uz Unicode escape sekvencēm vai atšifrējiet Unicode sekvences atpakaļ uz lasāmu tekstu, izmantojot šo bezmaksas tiešsaistes rīku. Ideāli piemērots izstrādātājiem, kas strādā ar internacionalizāciju, atkodē rakstzīmju kodēšanas problēmas vai apstrādā īpašas rakstzīmes kodā. Atbalsta visas Unicode rakstzīmes, tostarp emocijzīmes, simbolus un nelatīņu rakstus.
Biežāk uzdotie jautājumi
Unicode ir universāls rakstzīmju kodēšanas standarts, kas katrai rakstzīmei piešķir unikālu numuru (kodu punktu) visās rakstības sistēmās, simbolos un emocijzīmēs. Konvertēšana uz Unicode escape sekvencēm (piemēram, \u0041, kas apzīmē "A") ir noderīga, ja nepieciešams atveidot īpašas rakstzīmes kodos, JSON, URL vai atkodējot kodēšanas problēmas starptautiskās lietojumprogrammās.
Ievades laukā ievadiet vai ielīmējiet tekstu un noklikšķiniet uz "Konvertēt". Šis rīks katru rakstzīmi konvertēs uz Unicode evakuācijas sekvences formātu (\uXXXXXX BMP rakstzīmēm vai \u{XXXXXX} citām rakstzīmēm). Piemēram, "Hello" kļūst par "\u0048\u0065\u006C\u006C\u006F". Šo formātu parasti izmanto JavaScript, JSON un daudzās programmēšanas valodās.
Jā! Ievades laukā ielīmējiet Unicode escape sekvences (piemēram, \u0048 vai \u{1F600}) un noklikšķiniet uz "Konvertēt". Rīks automātiski atpazīst Unicode sekvences un pārvērš tās atpakaļ lasāmās rakstzīmēs. Tas ir noderīgi, atkļūdošanas laikā atkļūdošanai, lasot kodētus JSON datus vai strādājot ar internacionalizētu saturu.
Unicode ir rakstzīmju kopa, kas rakstzīmēm piešķir ciparus (kodu punktus), savukārt UTF-8 ir kodējums, kas nosaka, kā šie cipari tiek saglabāti baitu veidā. Unicode evakuācijas sekvences tieši attēlo koda punktu (\u0041), savukārt UTF-8 kodējums attēlo, kā šī rakstzīme tiek saglabāta atmiņā. Šis rīks darbojas ar Unicode kodu punktiem un to escape sekvenču atveidojumiem.
Jā! Šis Unicode pārveidotājs atbalsta visas Unicode rakstzīmes, tostarp emodži, matemātiskos simbolus, valūtas zīmes, nelatīņu rakstus (ķīniešu, arābu, kirilicas u. c.) un īpašās rakstzīmes. Emodži un rakstzīmes, kas nav iekļautas daudzvalodu pamatplaknē, var attēlot ar paplašinātām evakuācijas sekvencēm, piemēram, \u{1F600} smaidošas sejas emodži.
Izmantojiet Unicode escape sekvences, ja avota kodā ir jāiekļauj īpašas rakstzīmes, kas var netikt pareizi attēlotas redaktorā, ja jānodrošina dažādu sistēmu savietojamība, ja strādājat ar JSON, kam nepieciešamas izvadītas rakstzīmes, vai ja nepieciešams atveidot rakstzīmes, kuras nav pieejamas tastatūrā. Tās ir īpaši noderīgas internacionalizācijai un lietotāju ievades apstrādei no dažādām valodām.
\uXXXXXX formāts (4 sešciparu cipari) ir tradicionālais JavaScript/JSON formāts, kas aptver pamata daudzvalodu plakni (BMP) - kodu punkti no U+0000 līdz U+FFFF, kas ietver lielāko daļu izplatīto rakstzīmju. Formātā \u{XXXXXX} (ES6+ JavaScript) tiek izmantoti loka iekavās ietvarie un mainīga garuma sešciparu zīmes, lai atveidotu jebkuru Unicode kodu punktu līdz U+10FFFF, tostarp emodži un retās rakstzīmes. Rakstzīmēm, kas pārsniedz U+FFFFFF, vecākās sistēmas izmanto surogātu pārus (divas \uXXXX secības).
Unicode koda punkts ir abstrakts skaitlis, kas piešķirts rakstzīmei (piemēram, U+0041 - "A"), savukārt UTF-8 ir veids, kā šis skaitlis tiek kodēts kā baiti glabāšanai. ASCII rakstzīmēm (no U+0000 līdz U+007F) izmanto 1 UTF-8 baitu, Eiropas rakstzīmēm - 2 baitus, Āzijas rakstzīmēm - 3 baitus, bet emodžiem - 4 baitus. Unicode escapes norāda tieši kodu punktu, bet UTF-8 norāda faktisko baitu atveidojumu, ko izmanto failos un tīklos.
Sarežģītās emocijzīmēs bieži tiek izmantoti vairāki koda punkti, kas apvienoti ar nulles platuma savienotāja (ZWJ) sekvencēm. Piemēram, ģimenes emotikoni apvieno personas + ZWJ + personas + ZWJ + bērna emotikoni. Arī ādas toņu modifikatori pievieno papildu kodu punktus. Turklāt rakstzīmes ārpus BMP (U+10000 līdz U+10FFFF) var attēlot kā UTF-16 aizstājēju pārus, kas vecākās JSON vai JavaScript vidēs tiek parādīti kā divas \uXXXX sekvences.
Lielākā daļa mūsdienu valodu atbalsta Unicode escapes: JavaScript/JSON (\uXXXXXXXX), Python (\uXXXXXX un \UXXXXXXXXXX), Java (\uXXXXXX), C/C++ (\uXXXXXX un \UXXXXXXXX), C# (\uXXXXXX), Ruby (\uXXXXXX) un PHP (\u{XXXXXX}). Sintakse dažādās valodās nedaudz atšķiras - dažās valodās paplašinātiem diapazoniem izmanto lielo burtu \U, citās - loka iekavās. Lai uzzinātu precīzu formātu, vienmēr pārbaudiet savas valodas dokumentāciju, taču pamatā esošie Unicode koda punkti visās platformās ir vienādi.
