Κείμενο σε Unicode μετατροπέας
Μετατρέψτε κείμενο σε ακολουθίες διαφυγής Unicode ή αποκωδικοποιήστε ακολουθίες Unicode πίσω σε αναγνώσιμο κείμενο με αυτό το δωρεάν online εργαλείο. Ιδανικό για προγραμματιστές που ασχολούνται με τη διεθνοποίηση, την αποσφαλμάτωση προβλημάτων κωδικοποίησης χαρακτήρων ή το χειρισμό ειδικών χαρακτήρων στον κώδικα. Υποστηρίζει όλους τους χαρακτήρες Unicode, συμπεριλαμβανομένων των emojis, των συμβόλων και των μη λατινικών γραφικών χαρακτήρων.
Συχνές ερωτήσεις
Το Unicode είναι ένα παγκόσμιο πρότυπο κωδικοποίησης χαρακτήρων που αποδίδει έναν μοναδικό αριθμό (σημείο κωδικοποίησης) σε κάθε χαρακτήρα σε όλα τα συστήματα γραφής, τα σύμβολα και τα emojis. Η μετατροπή σε ακολουθίες διαφυγής Unicode (όπως \u0041 για το 'A') είναι χρήσιμη όταν πρέπει να αναπαραστήσετε ειδικούς χαρακτήρες σε κώδικα, JSON, URL ή κατά τον εντοπισμό προβλημάτων κωδικοποίησης σε διεθνείς εφαρμογές.
Πληκτρολογήστε ή επικολλήστε το κείμενό σας στο πεδίο εισαγωγής και κάντε κλικ στο 'Μετατροπή'. Το εργαλείο θα μετατρέψει κάθε χαρακτήρα στη μορφή ακολουθίας διαφυγής Unicode (\uXXXX για χαρακτήρες BMP ή \u{XXXXXX} για άλλους). Για παράδειγμα, το 'Hello' γίνεται '\u0048\u0065\u006C\u006C\u006F'. Αυτή η μορφή χρησιμοποιείται συνήθως στη JavaScript, στο JSON και σε πολλές γλώσσες προγραμματισμού.
Ναι! Επικολλήστε ακολουθίες διαφυγής Unicode (όπως \u0048 ή \u{1F600}) στο πεδίο εισαγωγής και κάντε κλικ στο 'Μετατροπή'. Το εργαλείο ανιχνεύει αυτόματα τις ακολουθίες Unicode και τις μετατρέπει πίσω σε αναγνώσιμους χαρακτήρες. Αυτό είναι χρήσιμο κατά την αποσφαλμάτωση κώδικα, την ανάγνωση κωδικοποιημένων δεδομένων JSON ή την εργασία με διεθνοποιημένο περιεχόμενο.
Ο Unicode είναι το σύνολο χαρακτήρων που αποδίδει αριθμούς (σημεία κώδικα) στους χαρακτήρες, ενώ ο UTF-8 είναι μια κωδικοποίηση που καθορίζει τον τρόπο με τον οποίο οι αριθμοί αυτοί αποθηκεύονται ως bytes. Οι ακολουθίες διαφυγής Unicode αντιπροσωπεύουν το σημείο κωδικού απευθείας (\u0041), ενώ η κωδικοποίηση UTF-8 αντιπροσωπεύει τον τρόπο με τον οποίο ο χαρακτήρας αποθηκεύεται στη μνήμη. Αυτό το εργαλείο λειτουργεί με τα σημεία κωδικού Unicode και τις αναπαραστάσεις των ακολουθιών διαφυγής τους.
Ναι! Αυτός ο μετατροπέας Unicode υποστηρίζει όλους τους χαρακτήρες Unicode, συμπεριλαμβανομένων των emojis, των μαθηματικών συμβόλων, των νομισματικών συμβόλων, των μη λατινικών γραφών (κινέζικα, αραβικά, κυριλλικά κ.λπ.) και των ειδικών χαρακτήρων. Τα emojis και οι χαρακτήρες εκτός του βασικού πολυγλωσσικού επιπέδου μπορούν να αναπαρασταθούν με εκτεταμένες ακολουθίες διαφυγής όπως \u{1F600} για το emoji με το χαμογελαστό πρόσωπο.
Χρησιμοποιήστε ακολουθίες διαφυγής Unicode όταν πρέπει να συμπεριλάβετε ειδικούς χαρακτήρες στον πηγαίο κώδικα που ενδέχεται να μην εμφανίζονται σωστά στον επεξεργαστή σας, όταν εξασφαλίζετε συμβατότητα σε διαφορετικά συστήματα, όταν εργάζεστε με JSON που απαιτεί διαφυγόντες χαρακτήρες ή όταν πρέπει να αναπαραστήσετε χαρακτήρες που δεν υπάρχουν στο πληκτρολόγιό σας. Είναι ιδιαίτερα χρήσιμοι για τη διεθνοποίηση και το χειρισμό εισόδου χρηστών από διαφορετικές γλώσσες.
Η μορφή \uXXXXXX (4 δεκαεξαδικά ψηφία) είναι η παραδοσιακή μορφή JavaScript/JSON που καλύπτει το Βασικό Πολυγλωσσικό Επίπεδο (BMP) - σημεία κωδικού U+0000 έως U+FFFF, το οποίο περιλαμβάνει τους περισσότερους κοινούς χαρακτήρες. Η μορφή \u{XXXXXX} (ES6+ JavaScript) χρησιμοποιεί καμπύλες αγκύλες και δεκαεξαδικό αριθμό μεταβλητού μήκους για την αναπαράσταση οποιουδήποτε σημείου κώδικα Unicode μέχρι το U+10FFFF, συμπεριλαμβανομένων των emojis και των σπάνιων χαρακτήρων. Για χαρακτήρες πέραν του U+FFFF, τα παλαιότερα συστήματα χρησιμοποιούν υποκατάστατα ζεύγη (δύο ακολουθίες \uXXXXXX).
Ένα σημείο κωδικού Unicode είναι ο αφηρημένος αριθμός που αποδίδεται σε έναν χαρακτήρα (όπως το U+0041 για το 'A'), ενώ το UTF-8 είναι ο τρόπος με τον οποίο αυτός ο αριθμός κωδικοποιείται σε bytes για αποθήκευση. Οι χαρακτήρες ASCII (U+0000 έως U+007F) χρησιμοποιούν 1 byte UTF-8, οι ευρωπαϊκοί χαρακτήρες χρειάζονται 2 bytes, οι ασιατικοί χαρακτήρες χρειάζονται 3 bytes και τα emojis χρειάζονται 4 bytes. Τα Unicode escapes δείχνουν απευθείας το σημείο κώδικα, ενώ το UTF-8 δείχνει την πραγματική αναπαράσταση byte που χρησιμοποιείται σε αρχεία και δίκτυα.
Τα σύνθετα emojis χρησιμοποιούν συχνά πολλαπλά σημεία κωδικών που συνδυάζονται μέσω ακολουθιών Zero Width Joiner (ZWJ). Για παράδειγμα, τα οικογενειακά emojis συνδυάζουν person + ZWJ + person + ZWJ + child emojis. Οι τροποποιητές του τόνου του δέρματος προσθέτουν επίσης επιπλέον σημεία κώδικα. Επιπλέον, οι χαρακτήρες εκτός του BMP (U+10000 έως U+10FFFF) μπορούν να αναπαρασταθούν ως ζεύγη υποκατάστατων UTF-16, εμφανιζόμενοι ως δύο ακολουθίες \uXXXX σε παλαιότερα περιβάλλοντα JSON ή JavaScript.
Οι περισσότερες σύγχρονες γλώσσες υποστηρίζουν Unicode escapes: \uXXXX), Python (\uXXXX και \UXXXXXXXX), Java (\uXXXXXX), C/C++ (\uXXXX και \UXXXXXXXX), C# (\uXXXX), Ruby (\uXXXX) και PHP (\u{XXXXXX}). Η σύνταξη διαφέρει ελαφρώς μεταξύ των γλωσσών - ορισμένες χρησιμοποιούν κεφαλαία \U για εκτεταμένες περιοχές, άλλες χρησιμοποιούν τεθλασμένες αγκύλες. Ελέγχετε πάντα την τεκμηρίωση της γλώσσας σας για την ακριβή μορφή, αλλά τα υποκείμενα σημεία κώδικα Unicode παραμένουν τα ίδια σε όλες τις πλατφόρμες.
