Jeux de caractères HTML


Pour afficher correctement une page HTML, le navigateur doit savoir quel jeu de caractères (encodage) utiliser :

Exemple

<meta charset="UTF-8">

Jeux de caractères HTML

La spécification HTML5 encourage les développeurs Web à utiliser le jeu de caractères UTF-8 !

Ça n'a pas toujours été le cas. Le codage des caractères pour le premier Web était ASCII.

Plus tard, de HTML 2.0 à HTML 4.01, ISO-8859-1 a été considéré comme le jeu de caractères standard.

Avec XML et HTML5, UTF-8 est enfin arrivé et a résolu de nombreux problèmes d'encodage de caractères.


Au début : ASCII

Les données informatiques sont stockées sous forme de codes binaires (01000101) dans l'électronique.

Pour normaliser le stockage de texte, le code standard américain pour l'échange d'informations (ASCII) a été créé. Il a défini un nombre binaire unique pour chaque caractère stockable pour prendre en charge les nombres de 0 à 9, l'alphabet majuscule et minuscule (az, AZ) et les caractères spéciaux comme ! $ + - ( ) @ < > , .

Puisque l'ASCII utilisait 7 bits pour le caractère, il ne pouvait représenter que 128 caractères différents.

La plus grande faiblesse d'ASCII était qu'il excluait les lettres non anglaises.

L'ASCII est toujours utilisé aujourd'hui, en particulier dans les grands systèmes informatiques centraux.

Pour un examen plus approfondi, veuillez étudier notre Référence ASCII complète .


Sous Windows : Windows-1252

Windows-1252 était le jeu de caractères par défaut dans Windows, jusqu'à Windows 95.

C'est une extension de l'ASCII, avec des caractères internationaux ajoutés.

Il utilise un octet complet (8 bits) pour représenter 256 caractères différents.

Étant donné que Windows-1252 est la valeur par défaut de Windows, il est pris en charge par tous les navigateurs.

Pour un examen plus approfondi, veuillez étudier : The Complete Windows-1252 Reference .



En HTML 4 : ISO-8859-1

Le jeu de caractères le plus souvent utilisé dans HTML 4 était ISO-8859-1.

ISO-8859-1 est une extension de l'ASCII, avec des caractères internationaux ajoutés.

Exemple

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

En HTML 4, un jeu de caractères différent de l'ISO-8859-1 peut être spécifié dans la balise <meta> :

Exemple

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Tous les processeurs HTML 4 prennent également en charge UTF-8 :

Exemple

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

Lorsqu'un navigateur détecte ISO-8859-1, il utilise normalement par défaut Windows-1252, car Windows-1252 a 32 caractères internationaux supplémentaires.

Pour un examen plus approfondi, veuillez étudier : The Complete ISO-8859-1 Reference


En HTML5 : Unicode UTF-8

La spécification HTML5 encourage les développeurs Web à utiliser le jeu de caractères UTF-8.

Exemple

<meta charset="UTF-8">

Un jeu de caractères différent de UTF-8 peut être spécifié dans la balise <meta> :

Exemple

<meta charset="ISO-8859-1">

Le consortium Unicode a développé les normes UTF-8 et UTF-16, car les jeux de caractères ISO-8859 sont limités et non compatibles avec un environnement multilingue.

La norme Unicode couvre (presque) tous les caractères, ponctuations et symboles du monde.

Tous les processeurs HTML5 et XML prennent en charge UTF-8, UTF-16, Windows-1252 et ISO-8859.

Pour un examen plus approfondi, veuillez étudier : The Complete Unicode Reference .