Convertisseur Texte en Unicode
Convertissez du texte en séquences d'échappement Unicode ou décodez des séquences Unicode en texte lisible grâce à cet outil en ligne gratuit. Parfait pour les développeurs qui travaillent sur l'internationalisation, le débogage des problèmes d'encodage de caractères ou la manipulation de caractères spéciaux dans le code. Prend en charge tous les caractères Unicode, y compris les emojis, les symboles et les écritures non latines.
Questions fréquemment posées
Unicode est une norme universelle de codage des caractères qui attribue un numéro unique (point de code) à chaque caractère dans tous les systèmes d'écriture, symboles et emojis. La conversion en séquences d'échappement Unicode (comme \u0041 pour "A") est utile lorsque vous devez représenter des caractères spéciaux dans du code, du JSON, des URL, ou lorsque vous déboguez des problèmes de codage dans des applications internationales.
Tapez ou collez votre texte dans le champ de saisie et cliquez sur "Convertir". L'outil convertira chaque caractère dans son format de séquence d'échappement Unicode (\uXXXX pour les caractères BMP ou \u{XXXXXX} pour les autres). Par exemple, "Hello" devient "\u0048\u0065\u006C\u006C\u006F". Ce format est couramment utilisé en JavaScript, JSON et dans de nombreux langages de programmation.
Oui ! Collez les séquences d'échappement Unicode (comme \u0048 ou \u{1F600}) dans le champ de saisie et cliquez sur "Convertir". L'outil détecte automatiquement les séquences Unicode et les convertit en caractères lisibles. Ceci est utile pour déboguer du code, lire des données JSON encodées ou travailler avec du contenu internationalisé.
Unicode est le jeu de caractères qui attribue des nombres (points de code) aux caractères, tandis qu'UTF-8 est un encodage qui détermine comment ces nombres sont stockés sous forme d'octets. Les séquences d'échappement Unicode représentent directement le point de code (\u0041), tandis que l'encodage UTF-8 représente la manière dont ce caractère est stocké en mémoire. Cet outil fonctionne avec les points de code Unicode et leurs séquences d'échappement.
Oui ! Ce convertisseur Unicode prend en charge tous les caractères Unicode, y compris les emojis, les symboles mathématiques, les signes monétaires, les écritures non latines (chinois, arabe, cyrillique, etc.) et les caractères spéciaux. Les emojis et les caractères en dehors du plan multilingue de base peuvent être représentés par des séquences d'échappement étendues comme \u{1F600} pour l'emoji visage souriant.
Utilisez les séquences d'échappement Unicode lorsque vous devez inclure des caractères spéciaux dans un code source susceptible de ne pas s'afficher correctement dans votre éditeur, pour assurer la compatibilité entre différents systèmes, lorsque vous travaillez avec du JSON qui nécessite des caractères échappés, ou lorsque vous devez représenter des caractères qui ne figurent pas sur votre clavier. Ils sont particulièrement utiles pour l'internationalisation et la gestion des entrées des utilisateurs dans différentes langues.
Le format \uXXXX (4 chiffres hexagonaux) est le format JavaScript/JSON traditionnel qui couvre le plan multilingue de base (BMP) - points de code U+0000 à U+FFFF, ce qui inclut la plupart des caractères courants. Le format \u{XXXXXX} (JavaScript ES6+) utilise des accolades et des hexagones de longueur variable pour représenter tous les points de code Unicode jusqu'à U+10FFFF, y compris les emojis et les caractères rares. Pour les caractères au-delà de U+FFFF, les anciens systèmes utilisent des paires de substituts (deux séquences \uXXXX).
Un point de code Unicode est le numéro abstrait attribué à un caractère (comme U+0041 pour "A"), tandis que l'UTF-8 est la manière dont ce numéro est codé sous forme d'octets pour le stockage. Les caractères ASCII (U+0000 à U+007F) utilisent 1 octet UTF-8, les caractères européens 2 octets, les caractères asiatiques 3 octets et les emojis 4 octets. Les échappements Unicode indiquent directement le point de code, tandis que l'UTF-8 indique la représentation réelle par octet utilisée dans les fichiers et les réseaux.
Les émojis complexes utilisent souvent plusieurs points de code combinés par des séquences ZWJ (Zero Width Joiner). Par exemple, les émojis familiaux combinent les émojis personne + ZWJ + personne + ZWJ + enfant. Les modificateurs de teint de peau ajoutent également des points de code supplémentaires. En outre, les caractères en dehors du BMP (U+10000 à U+10FFFF) peuvent être représentés comme des paires de substituts UTF-16, apparaissant sous la forme de deux séquences \uXXXX dans les anciens environnements JSON ou JavaScript.
La plupart des langages modernes prennent en charge les échappements Unicode : JavaScript/JSON (\uXXXX), Python (\uXXXX et \UXXXXXXXX), Java (\uXXXX), C/C++ (\uXXXX et \UXXXXXXXX), C# (\uXXXX), Ruby (\uXXXX), et PHP (\u{XXXXXX}). La syntaxe varie légèrement d'un langage à l'autre - certains utilisent la majuscule \U pour les plages étendues, d'autres utilisent des accolades. Consultez toujours la documentation de votre langage pour connaître le format exact, mais les points de code Unicode sous-jacents restent les mêmes sur toutes les plateformes.
