Konwerter Tekst na Unicode
Konwertuj tekst na sekwencje specjalne Unicode lub dekoduj sekwencje Unicode z powrotem na czytelny tekst za pomocą tego bezpłatnego narzędzia online. Idealne dla programistów pracujących z internacjonalizacją, debugujących problemy z kodowaniem znaków lub obsługujących znaki specjalne w kodzie. Obsługuje wszystkie znaki Unicode, w tym emoji, symbole i skrypty niełacińskie.
Często zadawane pytania
Unicode to uniwersalny standard kodowania znaków, który przypisuje unikalny numer (punkt kodowy) każdemu znakowi we wszystkich systemach pisma, symbolach i emoji. Konwersja na sekwencje specjalne Unicode (takie jak \u0041 dla "A") jest przydatna, gdy trzeba reprezentować znaki specjalne w kodzie, JSON, adresach URL lub podczas debugowania problemów z kodowaniem w aplikacjach międzynarodowych.
Wpisz lub wklej tekst w polu wprowadzania i kliknij "Konwertuj". Narzędzie przekonwertuje każdy znak na format sekwencji ucieczki Unicode (\uXXXX dla znaków BMP lub \u{XXXXXX} dla innych). Na przykład "Hello" staje się "\u0048\u0065\u006C\u006C\u006F". Format ten jest powszechnie używany w JavaScript, JSON i wielu językach programowania.
Tak! Wklej sekwencje specjalne Unicode (takie jak \u0048 lub \u{1F600}) do pola wprowadzania i kliknij "Konwertuj". Narzędzie automatycznie wykrywa sekwencje Unicode i konwertuje je z powrotem na czytelne znaki. Jest to pomocne podczas debugowania kodu, odczytywania zakodowanych danych JSON lub pracy z umiędzynarodowioną zawartością.
Unicode to zestaw znaków, który przypisuje liczby (punkty kodowe) do znaków, podczas gdy UTF-8 to kodowanie, które określa sposób przechowywania tych liczb jako bajtów. Sekwencje specjalne Unicode reprezentują bezpośrednio punkt kodowy (\u0041), podczas gdy kodowanie UTF-8 reprezentuje sposób przechowywania tego znaku w pamięci. To narzędzie działa z punktami kodowymi Unicode i ich reprezentacjami sekwencji ucieczki.
Tak! Ten konwerter Unicode obsługuje wszystkie znaki Unicode, w tym emoji, symbole matematyczne, znaki walutowe, skrypty niełacińskie (chiński, arabski, cyrylica itp.) oraz znaki specjalne. Emoji i znaki spoza podstawowej płaszczyzny wielojęzycznej mogą być reprezentowane za pomocą rozszerzonych sekwencji specjalnych, takich jak \u{1F600} dla emoji uśmiechniętej twarzy.
Używaj sekwencji specjalnych Unicode, gdy musisz dołączyć znaki specjalne do kodu źródłowego, który może nie wyświetlać się poprawnie w edytorze, gdy chcesz zapewnić kompatybilność między różnymi systemami, gdy pracujesz z JSON, który wymaga ucieczki znaków lub gdy musisz reprezentować znaki, które nie są wyświetlane na klawiaturze. Są one szczególnie przydatne w przypadku internacjonalizacji i obsługi danych wprowadzanych przez użytkowników w różnych językach.
Format \uXXXX (4 cyfry szesnastkowe) to tradycyjny format JavaScript/JSON, który obejmuje podstawową płaszczyznę wielojęzyczną (BMP) - punkty kodowe od U+0000 do U+FFFF, które obejmują większość popularnych znaków. Format \u{XXXXXX} (ES6+ JavaScript) wykorzystuje nawiasy klamrowe i szesnastkowe o zmiennej długości do reprezentowania dowolnego punktu kodowego Unicode do U+10FFFF, w tym emoji i rzadkich znaków. W przypadku znaków powyżej U+FFFF starsze systemy używają par zastępczych (dwie sekwencje \uXXXX).
Punkt kodowy Unicode to abstrakcyjny numer przypisany do znaku (jak U+0041 dla "A"), podczas gdy UTF-8 to sposób, w jaki ten numer jest kodowany jako bajty do przechowywania. Znaki ASCII (od U+0000 do U+007F) używają 1 bajtu UTF-8, znaki europejskie potrzebują 2 bajtów, znaki azjatyckie 3 bajtów, a emoji 4 bajtów. Ucieczki Unicode pokazują bezpośrednio punkt kodowy, podczas gdy UTF-8 pokazuje rzeczywistą reprezentację bajtów używaną w plikach i sieciach.
Złożone emotikony często wykorzystują wiele punktów kodowych połączonych za pomocą sekwencji Zero Width Joiner (ZWJ). Na przykład emoji rodziny łączą osobę + ZWJ + osobę + ZWJ + emoji dziecka. Modyfikatory odcienia skóry również dodają dodatkowe punkty kodowe. Ponadto znaki spoza BMP (od U+10000 do U+10FFFF) mogą być reprezentowane jako pary zastępcze UTF-16, wyświetlane jako dwie sekwencje \uXXXX w starszych środowiskach JSON lub JavaScript.
Większość nowoczesnych języków obsługuje znaki specjalne Unicode: JavaScript/JSON (\uXXXX), Python (\uXXXX i \UXXXXXX), Java (\uXXXX), C/C++ (\uXXXX i \UXXXXXX), C# (\uXXXX), Ruby (\uXXXX) i PHP (\u{XXXXXX}). Składnia różni się nieznacznie między językami - niektóre używają wielkich liter \U dla rozszerzonych zakresów, inne używają nawiasów klamrowych. Dokładny format należy zawsze sprawdzać w dokumentacji danego języka, ale podstawowe punkty kodowe Unicode pozostają takie same na wszystkich platformach.
