turrier.fr

Source : ct|04.05.09

< Tutoriels Informatique, Multimédia, Chinois

Norme iso-8859, GB2312 et UFT8

L'ensemble des langues du monde entier comprennent plus de 100.000 caractères : Europe (Latin, Arménien,Cyrillique, Grec...), Afrique (Ethiopien...), Inde (Bengali, Singhalais, Tamoul...), Extrême-Orient (Chinois, Japonais, Coréen...), Asie centrale (Mongol, Tibétain...), Moyen-Orient (Arabe, Hebreu, Syriaque...), Philippines, Amériques, Asie du Sud-est (Khmer, Thai...), Ecritures anciennes (Grec, Gothique, Phénicien, Perse...).

Les 256 premiers caractères, comprenant les caractères latins, sont des caractères "classiques".

caractères ascii

Les autres caractères sont des caractères "étendus".

caractères étendus

Les normes et les jeux de caractères

Pour coder les caractères, il existe différentes normes. Les normes Ascii et Unicode sont les plus fréquemment rencontrées.

La norme ascii ( où chaque caractère est représenté par 1 octet) permet de représenter seulement les caractères classiques. La norme unicode ( où chaque caractère est représenté par 2 octets au moins) est nécessaire pour représenter les caractères étendus.

Pour permettre aux navigateurs internet de reconnaître et d'afficher l'ensemble des caractères des différentes langues, plusieurs jeux de caractères (charset) peuvent être utilisés. Les jeux de caractères suivants, il en existe d'autres, sont fréquemment rencontrés :
- Le jeu de caractères iso-8859-1;
- Le jeu de caractères GB2312;
- Le jeu de caractères UFT-8.

Le jeu de caractères iso-8859-1

Avec le jeu de caractères iso-8859-1, les caractères latins peuvent être représentés avec 1 octet ou avec 2 octets chacun (au choix ). Les caractères étendus doivent être représentés avec 2 octets chacun.
Le jeu de caractères iso-8859-1 permet aux navigateurs d'afficher parfaitement les caractères latins. Avec ce jeu de caractères, les caractères étendus, notamment les caractères chinois (idéogrammes), sont également affichés avec Internet Explorer, mais parfois avec des aspects non homogènes.

La balise meta correspondant à ce jeu de caractères est la suivante :

<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />

Le jeu de caractères GB2312

Avec le jeu de caractères GB2312, un caractère latin peut être représenté avec 1 octet ou avec 2 octets chacun (au choix ). Les caractères étendus doivent être représentés avec 2 octets chacun.
Le jeu de caractères GB2312 permet aux navigateurs d'afficher parfaitement les caractères chinois. Avec ce jeu de caractères, les autres caractères, notamment les caractères latins, sont également affichés, mais certains ( le c avec cedille ou l'accent circonflexe, par exemple) le sont plus ou moins correctement.

La balise meta correspondant à cette norme est la suivante :

<meta http-equiv="Content-Type" content="text/html; charset=GB2312" />

Le jeu de caractères UFT-8

Le jeu de caractères UFT-8 ( Unicode Transformation Format 8 bits ) permet aux navigateurs d'afficher parfaitement tous les caractères. Avec ce jeu de caractères les caractères latins classiques sont représentés avec un seul octet chacun, comme en ascii. Les autres caractères sont représentés chacun avec un nombre d'octets pouvant varier de un à quatre. Ce jeu de caractères est plus compliqué à utiliser, compte tenu de la taille variable pouvant être attribuée aux différents caractères.

Conclusion

La norme iso-8859-1 est adaptée pour les pages web contenant une majorité de caractères latins, et accessoirement quelques caractères étendus, après avoir vérifié que ces derniers s'affichent correctement. La norme GB2312 est adaptée pour les pages web contenant des caractères latins et aussi de nombreux idéogrammes chinois. La norme UFT-8 est a envisager quand il n'existe pas de solution plus simple.


Valid XHTML 1.0 Transitional

© http://turrier.fr (2007)