Konverter Teks ke Unicode

Konversi teks ke urutan escape Unicode atau dekode urutan Unicode kembali ke teks yang dapat dibaca dengan alat online gratis ini. Sempurna untuk pengembang yang bekerja dengan internasionalisasi, men-debug masalah pengodean karakter, atau menangani karakter khusus dalam kode. Mendukung semua karakter Unicode termasuk emoji, simbol, dan skrip non-Latin.

Pertanyaan yang Sering Diajukan

Unicode adalah standar pengodean karakter universal yang memberikan nomor unik (titik kode) untuk setiap karakter di semua sistem penulisan, simbol, dan emoji. Mengonversi ke urutan pelarian Unicode (seperti \u0041 untuk 'A') berguna ketika Anda perlu merepresentasikan karakter khusus dalam kode, JSON, URL, atau ketika men-debug masalah pengodean dalam aplikasi internasional.

Ketik atau tempelkan teks Anda ke dalam bidang input dan klik 'Konversi'. Alat ini akan mengonversi setiap karakter ke format urutan pelarian Unicode (\uXXXX untuk karakter BMP atau \u{XXXXXX} untuk karakter lainnya). Sebagai contoh, 'Hello' menjadi '\u0048\u0065\u006C\u006C\u006F'. Format ini umumnya digunakan dalam JavaScript, JSON, dan banyak bahasa pemrograman.

Ya! Rekatkan urutan pelarian Unicode (seperti \u0048 atau \u{1F600}) ke dalam bidang input dan klik 'Konversi'. Alat ini secara otomatis mendeteksi urutan Unicode dan mengonversinya kembali menjadi karakter yang dapat dibaca. Hal ini sangat membantu ketika men-debug kode, membaca data JSON yang disandikan, atau bekerja dengan konten yang di-internasionalisasi.

Unicode adalah set karakter yang menetapkan angka (titik kode) ke karakter, sedangkan UTF-8 adalah pengkodean yang menentukan bagaimana angka-angka tersebut disimpan sebagai byte. Urutan pelarian Unicode mewakili titik kode secara langsung (\u0041), sedangkan pengodean UTF-8 mewakili bagaimana karakter tersebut disimpan dalam memori. Alat ini bekerja dengan titik kode Unicode dan representasi urutan pelariannya.

Ya! Konverter Unicode ini mendukung semua karakter Unicode termasuk emoji, simbol matematika, tanda mata uang, skrip non-Latin (Cina, Arab, Sirilik, dll.), dan karakter khusus. Emoji dan karakter di luar Bidang Multibahasa Dasar dapat diwakili dengan urutan pelarian yang diperluas seperti \u{1F600} untuk emoji wajah menyeringai.

Gunakan urutan escape Unicode ketika Anda perlu menyertakan karakter khusus dalam kode sumber yang mungkin tidak ditampilkan dengan benar di editor Anda, ketika memastikan kompatibilitas di berbagai sistem, ketika bekerja dengan JSON yang membutuhkan karakter yang dilewatkan, atau ketika Anda perlu merepresentasikan karakter yang tidak ada di keyboard Anda. Karakter-karakter ini sangat berguna untuk internasionalisasi dan menangani input pengguna dari berbagai bahasa.

Format \uXXXX (4 digit heksa) adalah format JavaScript/JSON tradisional yang mencakup Bidang Multibahasa Dasar (BMP) - titik kode U+0000 hingga U+FFFF, yang mencakup sebagian besar karakter umum. Format \u{XXXXXX} (ES6+ JavaScript) menggunakan tanda kurung kurawal dan hex dengan panjang variabel untuk merepresentasikan titik kode Unicode apa pun hingga U+10FFFF, termasuk emoji dan karakter langka. Untuk karakter di luar U+FFFF, sistem yang lebih lama menggunakan pasangan pengganti (dua urutan \uXXXX).

Titik kode Unicode adalah angka abstrak yang ditetapkan untuk sebuah karakter (seperti U+0041 untuk 'A'), sedangkan UTF-8 adalah bagaimana angka tersebut dikodekan sebagai byte untuk penyimpanan. Karakter ASCII (U+0000 hingga U+007F) menggunakan 1 byte UTF-8, karakter Eropa membutuhkan 2 byte, karakter Asia membutuhkan 3 byte, dan emoji membutuhkan 4 byte. Unicode escapes menunjukkan titik kode secara langsung, sedangkan UTF-8 menunjukkan representasi byte aktual yang digunakan dalam file dan jaringan.

Emoji yang kompleks sering kali menggunakan beberapa titik kode yang digabungkan melalui urutan Zero Width Joiner (ZWJ). Misalnya, emoji keluarga menggabungkan emoji orang + ZWJ + orang + ZWJ + anak. Pengubah warna kulit juga menambahkan titik kode tambahan. Selain itu, karakter di luar BMP (U+10000 hingga U+10FFFF) dapat direpresentasikan sebagai pasangan pengganti UTF-16, yang ditampilkan sebagai dua urutan \uXXXX di lingkungan JSON atau JavaScript yang lebih lama.

Sebagian besar bahasa modern mendukung pelarian Unicode: JavaScript/JSON (\uXXXX), Python (\uXXXX dan \UXXXXXX), Java (\uXXXX), C/C++ (\uXXXX dan \UXXXXXX), C# (\uXXXX), Ruby (\uXXXX), dan PHP (\u{XXXXXX}). Sintaksnya sedikit berbeda antar bahasa - beberapa menggunakan huruf besar \U untuk rentang yang diperluas, yang lain menggunakan kurung kurawal. Selalu periksa dokumentasi bahasa Anda untuk mengetahui format yang tepat, tetapi poin kode Unicode yang mendasarinya tetap sama di semua platform.