Conversor de Texto para Unicode

Converta texto em sequências de escape Unicode ou decodifique sequências Unicode de volta para texto legível com esta ferramenta on-line gratuita. Perfeita para desenvolvedores que trabalham com internacionalização, depuração de problemas de codificação de caracteres ou manipulação de caracteres especiais no código. É compatível com todos os caracteres Unicode, inclusive emojis, símbolos e scripts não latinos.

Perguntas frequentes

O Unicode é um padrão universal de codificação de caracteres que atribui um número exclusivo (ponto de código) a cada caractere em todos os sistemas de escrita, símbolos e emojis. A conversão para sequências de escape Unicode (como \u0041 para 'A') é útil quando você precisa representar caracteres especiais em código, JSON, URLs ou ao depurar problemas de codificação em aplicativos internacionais.

Digite ou cole seu texto no campo de entrada e clique em "Convert" (Converter). A ferramenta converterá cada caractere em seu formato de sequência de escape Unicode (\uXXXX para caracteres BMP ou \u{XXXXXX} para outros). Por exemplo, "Hello" se torna "\u0048\u0065\u006C\u006C\u006F". Esse formato é comumente usado em JavaScript, JSON e muitas linguagens de programação.

Sim! Cole as sequências de escape Unicode (como \u0048 ou \u{1F600}) no campo de entrada e clique em 'Convert'. A ferramenta detecta automaticamente as sequências Unicode e as converte de volta em caracteres legíveis. Isso é útil ao depurar código, ler dados JSON codificados ou trabalhar com conteúdo internacionalizado.

Unicode é o conjunto de caracteres que atribui números (pontos de código) aos caracteres, enquanto UTF-8 é uma codificação que determina como esses números são armazenados como bytes. As sequências de escape Unicode representam o ponto de código diretamente (\u0041), enquanto a codificação UTF-8 representa como esse caractere é armazenado na memória. Essa ferramenta trabalha com pontos de código Unicode e suas representações de sequência de escape.

Sim! Esse conversor de Unicode é compatível com todos os caracteres Unicode, incluindo emojis, símbolos matemáticos, sinais de moeda, scripts não latinos (chinês, árabe, cirílico etc.) e caracteres especiais. Emojis e caracteres fora do Plano multilíngue básico podem ser representados com sequências de escape estendidas, como \u{1F600} para o emoji de rosto sorridente.

Use as sequências de escape Unicode quando precisar incluir caracteres especiais no código-fonte que podem não ser exibidos corretamente no seu editor, ao garantir a compatibilidade entre sistemas diferentes, ao trabalhar com JSON que requer caracteres de escape ou quando precisar representar caracteres que não estão no seu teclado. Eles são especialmente úteis para internacionalização e tratamento de entradas de usuários de diferentes idiomas.

O formato \uXXXX (4 dígitos hexadecimais) é o formato JavaScript/JSON tradicional que abrange o Basic Multilingual Plane (BMP) - pontos de código U+0000 a U+FFFF, que inclui os caracteres mais comuns. O formato \u{XXXXXX} (ES6+ JavaScript) usa chaves e hexadecimais de comprimento variável para representar qualquer ponto de código Unicode até U+10FFFF, inclusive emojis e caracteres raros. Para caracteres além de U+FFFF, os sistemas mais antigos usam pares substitutos (duas sequências \uXXXX).

Um ponto de código Unicode é o número abstrato atribuído a um caractere (como U+0041 para 'A'), enquanto o UTF-8 é como esse número é codificado como bytes para armazenamento. Os caracteres ASCII (U+0000 a U+007F) usam 1 byte UTF-8, os caracteres europeus precisam de 2 bytes, os caracteres asiáticos precisam de 3 bytes e os emojis precisam de 4 bytes. Os escapes Unicode mostram o ponto de código diretamente, enquanto o UTF-8 mostra a representação real de bytes usada em arquivos e redes.

Os emojis complexos geralmente usam vários pontos de código combinados por meio de sequências ZWJ (Zero Width Joiner). Por exemplo, os emojis de família combinam emojis de pessoa + ZWJ + pessoa + ZWJ + criança. Os modificadores de tom de pele também adicionam pontos de código extras. Além disso, os caracteres fora do BMP (U+10000 a U+10FFFF) podem ser representados como pares substitutos UTF-16, aparecendo como duas sequências \uXXXX em ambientes JSON ou JavaScript mais antigos.

A maioria das linguagens modernas oferece suporte a escapes Unicode: JavaScript/JSON (\uXXXX), Python (\uXXXX e \UXXXXXXXX), Java (\uXXXX), C/C++ (\uXXXX e \UXXXXXXXX), C# (\uXXXX), Ruby (\uXXXX) e PHP (\u{XXXXXX}). A sintaxe varia um pouco entre as linguagens - algumas usam \U maiúsculo para intervalos estendidos, outras usam chaves. Sempre verifique a documentação de seu idioma para saber o formato exato, mas os pontos de código Unicode subjacentes permanecem os mesmos em todas as plataformas.