Преобразувател от Текст в Уникод

Конвертирайте текст в Unicode escape sequences или декодирайте Unicode sequences обратно в четлив текст с този безплатен онлайн инструмент. Идеален за разработчици, които работят с интернационализация, отстраняват проблеми с кодирането на символи или обработват специални символи в кода. Поддържа всички символи на Unicode, включително емотикони, символи и нелатински скриптове.

Често задавани въпроси

Уникод е универсален стандарт за кодиране на символи, който присвоява уникален номер (кодова точка) на всеки символ във всички системи за писане, символи и емоджита. Конвертирането към Unicode escape sequences (като \u0041 за "A") е полезно, когато трябва да представяте специални символи в код, JSON, URL адреси или когато отстранявате проблеми с кодирането в международни приложения.

Въведете или поставете текста си в полето за въвеждане и щракнете върху "Convert". Инструментът ще преобразува всеки символ в неговия формат на Unicode escape sequence (\uXXXX за BMP символи или \u{XXXXXX} за други). Например, "Hello" става "\u0048\u0065\u006C\u006C\u006F". Този формат се използва често в JavaScript, JSON и много езици за програмиране.

Да! Поставете Unicode escape sequences (като \u0048 или \u{1F600}) в полето за въвеждане и щракнете върху "Convert". Инструментът автоматично открива Unicode последователностите и ги преобразува обратно в четливи символи. Това е полезно при отстраняване на грешки в кода, четене на кодирани JSON данни или работа с интернационализирано съдържание.

Unicode е набор от символи, който приписва числа (кодови точки) на символите, а UTF-8 е кодиране, което определя как тези числа се съхраняват като байтове. Ескейп последователностите на Unicode представят директно кодовата точка (\u0041), докато кодирането на UTF-8 представя как този символ се съхранява в паметта. Този инструмент работи с кодовите точки на Unicode и техните представяния с escape секвенции.

Да! Този конвертор на Unicode поддържа всички символи на Unicode, включително емоджита, математически символи, валутни знаци, нелатински шрифтове (китайски, арабски, кирилица и др.) и специални символи. Емоджитата и символите извън основната многоезична равнина могат да бъдат представени с разширени escape последователности като \u{1F600} за емоджито с усмихнато лице.

Използвайте Unicode escape sequences, когато трябва да включите специални символи в изходния код, които може да не се показват правилно в редактора, когато осигурявате съвместимост между различни системи, когато работите с JSON, който изисква ескейп символи, или когато трябва да представите символи, които не са налични на клавиатурата ви. Те са особено полезни при интернационализация и обработка на потребителски вход от различни езици.

Форматът \uXXXX (4 шестнайсетични цифри) е традиционният формат на JavaScript/JSON, който покрива основната многоезична равнина (BMP) - кодови точки от U+0000 до U+FFFF, което включва най-често срещаните символи. Форматът \u{XXXXXX} (ES6+ JavaScript) използва къдрави скоби и шестнайсетични символи с променлива дължина, за да представи всяка кодова точка на Unicode до U+10FFFF, включително емотикони и редки символи. За знаци над U+FFFF по-старите системи използват заместващи двойки (две последователности \uXXXX).

Кодовата точка на Уникод е абстрактният номер, присвоен на даден символ (например U+0041 за "A"), а UTF-8 е начинът, по който този номер се кодира като байтове за съхранение. ASCII символите (от U+0000 до U+007F) използват 1 байт UTF-8, европейските символи се нуждаят от 2 байта, азиатските символи - от 3 байта, а емоджитата - от 4 байта. Ескейповете на Unicode показват директно кодовата точка, докато UTF-8 показва действителното представяне на байтовете, използвано във файловете и мрежите.

В сложните емоджита често се използват множество кодови точки, комбинирани чрез последователности с нулева ширина (Zero Width Joiner - ZWJ). Например семейните емотикони комбинират емотикони лице + ZWJ + лице + ZWJ + дете. Модификаторите на цвета на кожата също добавят допълнителни кодови точки. Освен това символите извън BMP (U+10000 до U+10FFFF) могат да бъдат представени като сурогатни двойки UTF-16, които се показват като две последователности \uXXXX в по-стари среди на JSON или JavaScript.

Повечето съвременни езици поддържат ескейпове Unicode: JavaScript/JSON (\uXXXX), Python (\uXXXX и \UXXXXXX), Java (\uXXXX), C/C++ (\uXXXX и \UXXXXXX), C# (\uXXXX), Ruby (\uXXXX) и PHP (\u{XXXXXX}). Синтаксисът се различава леко между езиците - някои използват главни букви \U за разширени диапазони, други използват къдрави скоби. Винаги проверявайте документацията на езика за точния формат, но основните кодови точки на Unicode остават едни и същи за всички платформи.