تحويل النص إلى يونيكود

قم بتحويل النص إلى تسلسلات هروب Unicode أو فك تشفير تسلسلات Unicode إلى نص قابل للقراءة باستخدام هذه الأداة المجانية عبر الإنترنت. مثالية للمطورين الذين يعملون مع التدويل، أو تصحيح مشاكل ترميز الأحرف، أو التعامل مع الأحرف الخاصة في التعليمات البرمجية. تدعم جميع أحرف Unicode بما في ذلك الرموز التعبيرية والرموز والنصوص غير اللاتينية.

الأسئلة المتداولة

يونيكود هو معيار ترميز عالمي للأحرف يعيّن رقمًا فريدًا (نقطة رمزية) لكل حرف في جميع أنظمة الكتابة والرموز والرموز التعبيرية. يكون التحويل إلى تسلسلات الهروب إلى Unicode (مثل \u0041 لرمز "A") مفيدًا عندما تحتاج إلى تمثيل أحرف خاصة في الرمز أو JSON أو عناوين URL أو عند تصحيح مشكلات الترميز في التطبيقات الدولية.

اكتب أو الصق النص في حقل الإدخال وانقر على 'تحويل'. ستقوم الأداة بتحويل كل حرف إلى تنسيق تسلسل الهروب الخاص به (\uXXXXXX لأحرف BMP أو \u{XXXXXX} للأحرف الأخرى). على سبيل المثال، "Hello" تصبح "\u0048\u0065\u006C\u006C\u006C\u006F". يشيع استخدام هذا التنسيق في JavaScript وJSON والعديد من لغات البرمجة.

نعم! الصق تسلسلات الهروب من Unicode (مثل \u0048 أو \u{1F600}) في حقل الإدخال وانقر على "تحويل". تقوم الأداة تلقائيًا باكتشاف تسلسلات Unicode وتحويلها إلى أحرف قابلة للقراءة. هذا مفيد عند تصحيح الأخطاء البرمجية أو قراءة بيانات JSON المشفرة أو العمل مع محتوى مدوَّل.

Unicode هو مجموعة الأحرف التي تعين الأرقام (نقاط الرمز) للأحرف، بينما UTF-8 هو ترميز يحدد كيفية تخزين هذه الأرقام على هيئة بايت. تمثل تسلسلات الهروب من Unicode نقطة الرمز مباشرةً (\u0041)، بينما يمثل ترميز UTF-8 كيفية تخزين هذا الحرف في الذاكرة. تعمل هذه الأداة مع نقاط ترميز Unicode وتمثيلات تسلسل الهروب الخاصة بها.

نعم! يدعم محول Unicode هذا جميع أحرف Unicode بما في ذلك الرموز التعبيرية والرموز الرياضية وعلامات العملات والرموز غير اللاتينية (الصينية والعربية والسيريلية وغيرها) والأحرف الخاصة. يمكن تمثيل الرموز التعبيرية والرموز خارج المستوى الأساسي متعدد اللغات بتسلسلات هروب موسعة مثل \u{1F600} للرموز التعبيرية للوجه المبتسم.

استخدم تسلسلات الهروب من Unicode عندما تحتاج إلى تضمين أحرف خاصة في الشيفرة المصدرية التي قد لا تُعرض بشكل صحيح في المحرر الخاص بك، أو عند ضمان التوافق عبر أنظمة مختلفة، أو عند العمل مع JSON الذي يتطلب أحرفًا هاربة، أو عندما تحتاج إلى تمثيل أحرف غير موجودة على لوحة المفاتيح. وهي مفيدة بشكل خاص للتدويل والتعامل مع مدخلات المستخدم من لغات مختلفة.

تنسيق \u_uXXXXXX (4 أرقام سداسية عشرية) هو تنسيق JavaScript/JSON التقليدي الذي يغطي المستوى الأساسي متعدد اللغات (BMP) - نقاط الرموز من U+0000 إلى U+FFFFFF، والتي تتضمن معظم الأحرف الشائعة. أما تنسيق \u{XXXXXX} (ES6+ JavaScript) فيستخدم أقواسًا معقوفة وسداسي سداسي عشري متغير الطول لتمثيل أي نقطة كود يونيكود حتى U+10FFFF، بما في ذلك الرموز التعبيرية والأحرف النادرة. بالنسبة للأحرف التي تتجاوز U+FFFFFF، تستخدم الأنظمة القديمة أزواجًا بديلة (تسلسلين \u+FFXXXX).

نقطة كود Unicode هي الرقم المجرد المخصص للحرف (مثل U+0041 لـ "A")، بينما UTF-8 هو كيفية ترميز هذا الرقم على هيئة بايت للتخزين. تستخدم أحرف ASCII (من U+0000 إلى U+007F) بايت UTF-8 واحد، بينما تحتاج الأحرف الأوروبية إلى 2 بايت، والأحرف الآسيوية إلى 3 بايت، والرموز التعبيرية إلى 4 بايت. تُظهر أحرف الهروب من Unicode نقطة الرمز مباشرة، بينما يُظهر UTF-8 تمثيل البايت الفعلي المستخدم في الملفات والشبكات.

وغالبًا ما تستخدم الرموز التعبيرية المعقدة نقاط رموز متعددة مدمجة من خلال تسلسلات "وصلة العرض الصفرية" (ZWJ). على سبيل المثال، تجمع الرموز التعبيرية العائلية بين شخص + ZWJ + شخص + ZWJ + رموز تعبيرية للأطفال. تضيف مُعدِّلات لون البشرة أيضًا نقاط رمز إضافية. بالإضافة إلى ذلك، قد يتم تمثيل الأحرف خارج BMP (U+10000 إلى U+10FFFFFF) كأزواج بديلة UTF-16، والتي تظهر على شكل تسلسلين \uXXXXXX في بيئات JSON أو JavaScript القديمة.

تدعم معظم اللغات الحديثة تهجئات Unicode: JavaScript/JSON (\uXXXXXXXX)، وPython (\uXXXXXXXX و \UXXXXXXXX)، وJava (\uXXXXXX)، وC/C++ (\uXXXXXX و \UXXXXXXXX)، وC# (\uXXXXXX)، وRuby (\uXXXX)، وPHP (\u{XXXXXX}). يختلف بناء الجملة قليلاً بين اللغات - فبعضها يستخدم حرف \U كبير للنطاقات الممتدة، والبعض الآخر يستخدم الأقواس المتعرجة. تحقق دائمًا من وثائق لغتك لمعرفة التنسيق الدقيق، ولكن تظل نقاط كود يونيكود الأساسية هي نفسها في جميع المنصات.