Tekstas į Unicode Konverteris
Konvertuokite tekstą į "Unicode" pabėgimo sekas arba iššifruokite "Unicode" sekas atgal į skaitomą tekstą naudodami šį nemokamą internetinį įrankį. Puikiai tinka programuotojams, dirbantiems su internacionalizacija, derinantiems simbolių kodavimo problemas arba tvarkantiems specialius simbolius kode. Palaikomi visi "Unicode" simboliai, įskaitant emotikonus, simbolius ir nelotyniškus rašmenis.
Dažnai užduodami klausimai
"Unicode" yra universalus simbolių kodavimo standartas, pagal kurį kiekvienam simboliui visose rašto sistemose, simboliams ir emodžiams priskiriamas unikalus numeris (kodo taškas). Konvertavimas į "Unicode" pabėgimo sekas (pvz., \u0041, reiškiantis "A") naudingas, kai reikia pateikti specialiuosius simbolius kode, JSON, URL adresuose arba derinant kodavimo problemas tarptautinėse programose.
Įveskite arba įklijuokite tekstą į įvesties lauką ir spustelėkite "Konvertuoti". Įrankis konvertuos kiekvieną simbolį į jo "Unicode" pabėgimo sekos formatą (\uXXXX, jei tai BMP simboliai, arba \u{XXXXXX}, jei tai kiti simboliai). Pavyzdžiui, "Hello" tampa "\u0048\u0065\u006C\u006C\u006F". Šis formatas paprastai naudojamas "JavaScript", JSON ir daugelyje programavimo kalbų.
Taip! Į įvesties laukelį įklijuokite Unicode escape sekas (pvz., \u0048 arba \u{1F600}) ir spustelėkite "Konvertuoti". Įrankis automatiškai aptinka "Unicode" sekas ir konvertuoja jas atgal į skaitomus simbolius. Tai naudinga derinant kodą, skaitant užkoduotus JSON duomenis arba dirbant su internacionalizuotu turiniu.
"Unicode" yra simbolių rinkinys, kuriame simboliams priskiriami skaičiai (kodo taškai), o UTF-8 yra koduotė, nustatanti, kaip šie skaičiai saugomi baitų pavidalu. Unikodo pabėgimo sekos tiesiogiai nurodo kodo tašką (\u0041), o UTF-8 kodavimas nurodo, kaip tas simbolis saugomas atmintyje. Ši priemonė veikia su "Unicode" kodų taškais ir jų pabėgimo sekų atvaizdais.
Taip! Šis "Unicode" konverteris palaiko visus "Unicode" simbolius, įskaitant emotikonus, matematinius simbolius, valiutos ženklus, nelotyniškus rašmenis (kinų, arabų, kirilicos ir kt.) ir specialiuosius simbolius. Emodžiai ir simboliai, kurie nėra įtraukti į pagrindinę daugiakalbę plokštumą, gali būti pateikiami naudojant išplėstines pabėgimo sekas, pavyzdžiui, \u{1F600}, skirtas besišypsančiam veido emodžiui.
Naudokite "Unicode" pabėgimo sekas, kai reikia įtraukti specialius simbolius į pradinį kodą, kuris gali būti neteisingai rodomas jūsų redaktoriuje, kai reikia užtikrinti skirtingų sistemų suderinamumą, kai dirbate su JSON, kuriam reikia pabėgimo simbolių, arba kai reikia atvaizduoti simbolius, kurių nėra jūsų klaviatūroje. Jie ypač naudingi internacionalizuojant ir tvarkant naudotojo įvestį skirtingomis kalbomis.
\uXXXX formatas (4 šešiaženkliai skaitmenys) yra tradicinis "JavaScript/JSON" formatas, apimantis pagrindinę daugiakalbę plokštumą (BMP) - kodų taškus nuo U+0000 iki U+FFFF, į kuriuos įeina dauguma įprastų simbolių. Formate \u{XXXXXX} (ES6+ "JavaScript") naudojami lenktiniai skliaustai ir kintamo ilgio šešiaženkliai, kad būtų galima atvaizduoti bet kurį "Unicode" kodo tašką iki U+10FFFF, įskaitant emotikonus ir retus simbolius. Ženklams, viršijantiems U+FFFF, senesnėse sistemose naudojamos surogatinės poros (dvi \uXXXX sekos).
"Unicode" kodo taškas yra abstraktus skaičius, priskirtas simboliui (pvz., U+0041, reiškiantis "A"), o UTF-8 - tai, kaip šis skaičius koduojamas kaip baitai saugojimui. ASCII ženklams (nuo U+0000 iki U+007F) naudojamas 1 UTF-8 baitas, Europos ženklams - 2 baitai, Azijos ženklams - 3 baitai, o emotikonams - 4 baitai. Unicode escapes tiesiogiai rodo kodo tašką, o UTF-8 rodo faktinį baitų atvaizdavimą, naudojamą failuose ir tinkluose.
Sudėtinguose emotikonuose dažnai naudojami keli kodo taškai, sujungti nulinio pločio jungtuku (ZWJ). Pavyzdžiui, šeimos emotikonai sujungia asmens + ZWJ + asmens + ZWJ + asmens + ZWJ + vaiko emotikonus. Odos atspalvio modifikatoriai taip pat prideda papildomų kodo taškų. Be to, už BMP ribų esantys ženklai (nuo U+10000 iki U+10FFFFFF) gali būti pateikiami kaip UTF-16 surogatinės poros, senesnėse JSON arba "JavaScript" aplinkose rodomos kaip dvi \uXXXX sekos.
Dauguma šiuolaikinių kalbų palaiko "Unicode" pabėgimo simbolius: JavaScript/JSON (\uXXXXXX), Python (\uXXXXXX ir \UXXXXXXXXXX), Java (\uXXXXXX), C/C++ (\uXXXXXX ir \UXXXXXXXX), C# (\uXXXXXX), Ruby (\uXXXXXX) ir PHP (\u{XXXXXX}). Įvairių kalbų sintaksė šiek tiek skiriasi - kai kuriose kalbose išplėstiniams intervalams žymėti vartojamos didžiosios raidės \U, kitose - lenktiniai skliaustai. Tikslaus formato visada ieškokite savo kalbos dokumentuose, tačiau pagrindiniai "Unicode" kodo taškai visose platformose išlieka tokie patys.
