Conversor de Texto a Unicode
Convierta texto en secuencias de escape Unicode o descodifique secuencias Unicode para volver a convertirlas en texto legible con esta herramienta en línea gratuita. Perfecta para desarrolladores que trabajan con internacionalización, depuración de problemas de codificación de caracteres o manejo de caracteres especiales en código. Admite todos los caracteres Unicode, incluidos emojis, símbolos y alfabetos no latinos.
Preguntas frecuentes
Unicode es un estándar universal de codificación de caracteres que asigna un número único (punto de código) a cada carácter en todos los sistemas de escritura, símbolos y emojis. Convertir a secuencias de escape Unicode (como \u0041 para 'A') es útil cuando se necesita representar caracteres especiales en código, JSON, URLs, o cuando se depuran problemas de codificación en aplicaciones internacionales.
Escriba o pegue el texto en el campo de entrada y haga clic en "Convertir". La herramienta convertirá cada carácter a su formato de secuencia de escape Unicode (\uXXXX para caracteres BMP o \u{XXXXXX} para otros). Por ejemplo, "Hola" se convierte en "\u0048\u0065\u006C\u006C\u006F". Este formato se utiliza habitualmente en JavaScript, JSON y muchos lenguajes de programación.
Sí. Pegue secuencias de escape Unicode (como \u0048 o \u{1F600}) en el campo de entrada y haga clic en "Convertir". La herramienta detecta automáticamente las secuencias Unicode y las convierte en caracteres legibles. Esto resulta útil cuando se depura código, se leen datos JSON codificados o se trabaja con contenidos internacionalizados.
Unicode es el conjunto de caracteres que asigna números (puntos de código) a los caracteres, mientras que UTF-8 es una codificación que determina cómo se almacenan esos números en forma de bytes. Las secuencias de escape de Unicode representan el punto de código directamente (\u0041), mientras que la codificación UTF-8 representa cómo se almacena ese carácter en la memoria. Esta herramienta trabaja con puntos de código Unicode y sus representaciones de secuencias de escape.
Sí. Este conversor Unicode admite todos los caracteres Unicode, incluidos emojis, símbolos matemáticos, signos monetarios, alfabetos no latinos (chino, árabe, cirílico, etc.) y caracteres especiales. Los emojis y los caracteres fuera del Plano Básico Multilingüe pueden representarse con secuencias de escape extendidas como \u{1F600} para el emoji de la cara sonriente.
Utilice secuencias de escape Unicode cuando necesite incluir caracteres especiales en el código fuente que podrían no mostrarse correctamente en su editor, para garantizar la compatibilidad entre distintos sistemas, cuando trabaje con JSON que requiera caracteres escapados o cuando necesite representar caracteres que no están en su teclado. Son especialmente útiles para la internacionalización y el manejo de entradas de usuario de diferentes idiomas.
El formato \uXXXX (4 dígitos hexadecimales) es el formato tradicional JavaScript/JSON que cubre el Plano Básico Multilingüe (BMP) - puntos de código U+0000 a U+FFFF, que incluye los caracteres más comunes. El formato \u{XXXXXX} (ES6+ JavaScript) utiliza llaves y hexadecimales de longitud variable para representar cualquier punto de código Unicode hasta U+10FFFF, incluidos emojis y caracteres poco comunes. Para caracteres posteriores a U+FFFF, los sistemas más antiguos utilizan pares sustitutos (dos secuencias \uXXXX).
Un punto de código Unicode es el número abstracto asignado a un carácter (como U+0041 para "A"), mientras que UTF-8 es la forma en que ese número se codifica en bytes para su almacenamiento. Los caracteres ASCII (U+0000 a U+007F) utilizan 1 byte UTF-8, los caracteres europeos necesitan 2 bytes, los caracteres asiáticos necesitan 3 bytes y los emojis necesitan 4 bytes. Los escapes Unicode muestran directamente el punto de código, mientras que UTF-8 muestra la representación en bytes real utilizada en archivos y redes.
Los emojis complejos suelen utilizar varios puntos de código combinados mediante secuencias Zero Width Joiner (ZWJ). Por ejemplo, los emojis familiares combinan emojis de persona + ZWJ + persona + ZWJ + niño. Los modificadores del tono de piel también añaden puntos de código adicionales. Además, los caracteres fuera del BMP (U+10000 a U+10FFFF) pueden representarse como pares sustitutos UTF-16, mostrándose como dos secuencias \uXXXX en entornos JSON o JavaScript más antiguos.
La mayoría de los lenguajes modernos admiten escapes Unicode: JavaScript/JSON (\uXXXX), Python (\uXXXX y \UXXXXXXXX), Java (\uXXXX), C/C++ (\uXXXX y \UXXXXXXXX), C# (\uXXXX), Ruby (\uXXXX) y PHP (\u{XXXXXX}). La sintaxis varía ligeramente de un lenguaje a otro: algunos utilizan \U en mayúsculas para los rangos extendidos, mientras que otros utilizan llaves. Consulte siempre la documentación de su idioma para conocer el formato exacto, pero los puntos de código Unicode subyacentes son los mismos en todas las plataformas.
