텍스트에서 유니코드로 변환기
이 무료 온라인 도구로 텍스트를 유니코드 이스케이프 시퀀스로 변환하거나 유니코드 시퀀스를 다시 읽을 수 있는 텍스트로 디코딩하세요. 국제화 작업, 문자 인코딩 문제 디버깅, 코드 내 특수 문자 처리 작업을 하는 개발자에게 적합합니다. 이모티콘, 기호, 비라틴 스크립트를 포함한 모든 유니코드 문자를 지원합니다.
자주 묻는 질문
유니코드는 모든 문자 체계, 기호 및 이모티콘에 걸쳐 모든 문자에 고유 번호(코드 포인트)를 할당하는 범용 문자 인코딩 표준입니다. 유니코드 이스케이프 시퀀스(예: 'A'의 경우 \u0041)로 변환하는 것은 코드, JSON, URL에서 특수 문자를 표현해야 하거나 해외 애플리케이션에서 인코딩 문제를 디버깅할 때 유용합니다.
입력 필드에 텍스트를 입력하거나 붙여넣고 '변환'을 클릭합니다. 이 도구는 각 문자를 해당 유니코드 이스케이프 시퀀스 형식(BMP 문자의 경우 \uXXXX, 그 외의 경우 \u{XXXXXX})으로 변환합니다. 예를 들어, 'Hello'는 '\u0048\u0065\u006C\u006C\u006F'가 됩니다. 이 형식은 JavaScript, JSON 및 여러 프로그래밍 언어에서 일반적으로 사용됩니다.
예! 유니코드 이스케이프 시퀀스(예: \u0048 또는 \u{1F600})를 입력 필드에 붙여넣고 '변환'을 클릭합니다. 이 도구는 유니코드 시퀀스를 자동으로 감지하여 읽을 수 있는 문자로 다시 변환합니다. 코드를 디버깅하거나 인코딩된 JSON 데이터를 읽거나 국제화된 콘텐츠로 작업할 때 유용합니다.
유니코드는 문자에 숫자(코드 포인트)를 할당하는 문자 집합이고, UTF-8은 이러한 숫자가 바이트로 저장되는 방식을 결정하는 인코딩입니다. 유니코드 이스케이프 시퀀스는 코드 포인트를 직접 나타내는 반면(\u0041), UTF-8 인코딩은 해당 문자가 메모리에 저장되는 방식을 나타냅니다. 이 도구는 유니코드 코드 포인트 및 이스케이프 시퀀스 표현과 함께 작동합니다.
예! 이 유니코드 변환기는 이모티콘, 수학 기호, 통화 기호, 비라틴 문자(중국어, 아랍어, 키릴 문자 등) 및 특수 문자를 포함한 모든 유니코드 문자를 지원합니다. 기본 다국어 평면 이외의 이모티콘과 문자는 웃는 얼굴 이모티콘의 경우 \u{1F600}과 같은 확장 이스케이프 시퀀스를 사용하여 표현할 수 있습니다.
편집기에서 제대로 표시되지 않을 수 있는 특수 문자를 소스 코드에 포함해야 할 때, 여러 시스템에서 호환성을 보장해야 할 때, 이스케이프 문자가 필요한 JSON으로 작업할 때, 키보드에 없는 문자를 표현해야 할 때 유니코드 이스케이프 시퀀스를 사용하세요. 특히 국제화 및 다양한 언어의 사용자 입력을 처리할 때 유용합니다.
uXXXX 형식(4자리 16진수)은 기본 다국어 평면(BMP)을 포괄하는 기존 JavaScript/JSON 형식으로, 코드 포인트 U+0000에서 U+FFFF까지이며 대부분의 일반 문자를 포함합니다. u{XXXXXX} 형식(ES6+ JavaScript)은 중괄호와 가변 길이 16진수를 사용하여 이모티콘과 희귀 문자를 포함한 U+10FFFF까지의 모든 유니코드 코드 포인트를 표현합니다. U+FFFF를 초과하는 문자의 경우 구형 시스템에서는 대리 쌍(두 개의 \uXXXX 시퀀스)을 사용합니다.
유니코드 코드 포인트는 문자에 할당된 추상적인 숫자(예: 'A'의 경우 U+0041)이며, UTF-8은 해당 숫자를 저장용 바이트 단위로 인코딩하는 방식입니다. ASCII 문자(U+0000~U+007F)는 1바이트, 유럽 문자는 2바이트, 아시아 문자는 3바이트, 이모티콘은 4바이트가 필요합니다. 유니코드 이스케이프는 코드 포인트를 직접 표시하는 반면, UTF-8은 파일과 네트워크에서 사용되는 실제 바이트 표현을 표시합니다.
복잡한 이모티콘은 종종 제로 너비 조인너(ZWJ) 시퀀스를 통해 여러 코드 포인트를 결합하여 사용합니다. 예를 들어, 가족 이모티콘은 사람 + ZWJ + 사람 + ZWJ + 어린이 이모티콘을 결합합니다. 피부톤 수정자도 추가 코드 포인트를 추가합니다. 또한 BMP 외부의 문자(U+10000 ~ U+10FFFF)는 UTF-16 대리 쌍으로 표시될 수 있으며, 이전 JSON 또는 JavaScript 환경에서는 두 개의 \uXXXX 시퀀스로 표시됩니다.
대부분의 최신 언어는 유니코드 이스케이프를 지원합니다: JavaScript/JSON(\uXXXX), Python(\uXXXX 및 \UXXXXXX), Java(\uXXXX), C/C++(\uXXXX 및 \UXXXXXX), C#(\uXXXX), Ruby(\uXXXX) 및 PHP(\u{XXXXXX}). 구문은 언어마다 약간씩 다릅니다. 일부 언어에서는 대문자 \U를 사용하여 범위를 확장하고, 다른 언어에서는 중괄호를 사용합니다. 정확한 형식은 항상 해당 언어의 설명서를 확인하시기 바라며, 기본 유니코드 코드 포인트는 모든 플랫폼에서 동일하게 유지됩니다.
