Текст в Юнікод Конвертер
Конвертуйте текст в екранні послідовності Unicode або декодуйте послідовності Unicode назад в читабельний текст за допомогою цього безкоштовного онлайн-інструменту. Ідеально підходить для розробників, які працюють з інтернаціоналізацією, налагоджують проблеми з кодуванням символів або обробляють спеціальні символи в коді. Підтримує всі символи Unicode, включно зі смайликами, символами та нелатинськими шрифтами.
Поширені запитання
Юнікод - це універсальний стандарт кодування символів, який призначає унікальний номер (кодову точку) кожному символу в усіх системах письма, символах і смайликах. Перетворення в Юнікод захисних послідовностей (наприклад, \u0041 для 'A') корисно, коли вам потрібно представити спеціальні символи в коді, JSON, URL-адресах або при налагодженні проблем з кодуванням у міжнародних програмах.
Введіть або вставте текст у поле введення і натисніть "Перетворити". Інструмент перетворить кожен символ у відповідний формат екранної послідовності Unicode (\uXXXX для символів BMP або \u{XXXXXX} для інших). Наприклад, 'Hello' стане '\u0048\u0065\u006C\u006C\u006F'. Цей формат широко використовується в JavaScript, JSON і багатьох мовах програмування.
Так! Вставте у поле вводу екранну послідовність Unicode (наприклад, \u0048 або \u{1F600}) і натисніть кнопку "Перетворити". Інструмент автоматично виявить послідовності Unicode і перетворить їх назад у читабельні символи. Це корисно при налагодженні коду, читанні закодованих даних JSON або роботі з інтернаціоналізованим вмістом.
Юнікод - це набір символів, який присвоює символам номери (кодові точки), тоді як UTF-8 - це кодування, яке визначає, як ці номери зберігаються у вигляді байтів. Евакуаційні послідовності Unicode представляють безпосередньо кодову точку (\u0041), тоді як кодування UTF-8 показує, як цей символ зберігається у пам'яті. Цей інструмент працює з кодовими точками Unicode і їхніми представленнями у вигляді екранних послідовностей.
Так! Цей конвертер Unicode підтримує всі символи Unicode, включаючи емодзі, математичні символи, валютні знаки, нелатинські шрифти (китайський, арабський, кирилицю тощо) та спеціальні символи. Емодзі та символи за межами базової багатомовної площини можуть бути представлені за допомогою розширених екранованих послідовностей, таких як \u{1F600} для емодзі з усміхненим обличчям.
Використовуйте екрановані послідовності Unicode, коли вам потрібно включити у вихідний код спеціальні символи, які можуть неправильно відображатися у вашому редакторі, для забезпечення сумісності між різними системами, при роботі з JSON, який вимагає екранованих символів, або коли вам потрібно представити символи, яких немає на вашій клавіатурі. Вони особливо корисні для інтернаціоналізації та обробки даних, введених користувачами з різних мов.
Формат \uXXXX (4 шістнадцяткові цифри) - це традиційний формат JavaScript/JSON, який охоплює базову багатомовну площину (BMP) - кодові точки від U+0000 до U+FFFF, що включає найпоширеніші символи. Формат \u{XXXXXX} (ES6+ JavaScript) використовує фігурні дужки і шістнадцяткові числа змінної довжини для представлення будь-якої кодової точки Unicode до U+10FFFF, включаючи емодзі і рідкісні символи. Для символів за межами U+FFFF старіші системи використовують сурогатні пари (дві послідовності \uXXXX).
Кодова точка Unicode - це абстрактний номер, присвоєний символу (наприклад, U+0041 для "A"), тоді як UTF-8 - це спосіб кодування цього номера в байти для зберігання. Символи ASCII (від U+0000 до U+007F) використовують 1 байт UTF-8, європейські символи потребують 2 байти, азійські символи - 3 байти, а емодзі - 4 байти. Ескейпи Unicode показують безпосередньо кодову точку, тоді як UTF-8 показує фактичне представлення байт, що використовується у файлах і мережах.
Складні емодзі часто використовують кілька кодових точок, об'єднаних за допомогою послідовностей Zero Width Joiner (ZWJ). Наприклад, сімейні емодзі складаються з емодзі "людина" + ZWJ + людина + ZWJ + емодзі "дитина". Модифікатори тону шкіри також додають додаткові кодові точки. Крім того, символи за межами BMP (від U+10000 до U+10FFFF) можуть бути представлені як сурогатні пари UTF-16, що відображаються як дві послідовності \uXXXX в старих середовищах JSON або JavaScript.
Більшість сучасних мов підтримують екранування Unicode: JavaScript/JSON (\uXXXX), Python (\uXXXX і \uXXXXXXXX), Java (\uXXXX), C/C++ (\uXXXX і \uXXXXXXXX), C# (\uXXXX), Ruby (\uXXXX) і PHP (\u{XXXXXX}). Синтаксис дещо відрізняється у різних мовах - деякі використовують велику літеру \U для розширених діапазонів, інші - фігурні дужки. Завжди перевіряйте точний формат у документації до вашої мови, але основні кодові точки Unicode залишаються однаковими на всіх платформах.
