Système Unicode en Java

Système Unicode en Java
Les langages de programmation suivent un ensemble de normes pour le codage des caractères. Ces normes représentent les langues écrites et définissent certaines règles qui doivent être suivies afin de coder des caractères appartenant à ces langues écrites. Tout comme les autres langages de programmation, Java a également une norme de codage de caractère qui est appelée système Unicode. Ce message jette la lumière sur le système Java Unicode.

Qu'est-ce qu'un système Unicode?

Unicode System est une norme mondiale utilisée pour coder des caractères 16 bits. Ce système peut représenter presque toutes les langues renommées du monde.

Pourquoi Unicode System?

Avant l'émergence du système Unicode, il y avait de nombreuses normes utilisées pour les caractères de codage. C'étaient:

  1. Ascii
    ASCII, abréviation du code standard américain pour l'information, l'interchange est l'une des normes les plus anciennes et les plus courantes pour les caractères de codage et comprend des lettres A-Z (majuscules et minuscules tous les deux) et le numéro 0-9, et certains symboles de base.
  2. ISO 8859-1
    ISO 8859-1 est une norme qui a été développée pour la langue d'Europe occidentale qui comprend 128 caractères ASCII ainsi que 128 caractères supplémentaires.
  3. Koi-8
    KOI-8 est une norme développée à l'origine pour le russe qui permet le codage de caractères 8 bits et comprend des alphabets latins et des alphabets russes (majuscules et minuscules tous les deux).
  4. GB 18030 et Big-5
    GB 18030 et Big-5 sont des normes qui ont été développées pour les Chinois. GB18030 représente les 20 902 caractères Han et les symboles DBC supplémentaires, en attendant, BIG5, représente des caractères chinois conventionnels.

Dans les normes susmentionnées, le problème qui s'est produit était qu'une valeur de code spécifique a été utilisée pour représenter divers caractères en plusieurs langues. De plus, un jeu de caractères plus grand codage pour différentes langues variant des longueurs telles que 1 octet, 2 octets ou plus.

Ainsi, afin de résoudre ce problème, le système Unicode pour les langues a été développé. Chaque caractère de ce système maintient 2 octets, par conséquent, dans Java 2, l'octet est utilisé pour chaque caractère.

Conclusion

Unicode System est une norme globale utilisée pour le codage des caractères de caractères 16 bits. Il est né comme une solution aux problèmes qui se sont produits dans les normes de langue précédemment développées. Java utilise ce système conçu pour contenir 2 octets pour chaque personnage. Cet article traite du système Java Unicode en profondeur.