Il existe plusieurs codages régulièrement utilisés en informatique pour coder les caractères.
L'American Standard Code for Information Interchange ou code ASCII est codé
sur 7 bits avec 1 bit de parité et permet donc de coder 128 codes (27).
Un code est associé
arbitrairement à chaque caractère. Par exemple, le caractère '0' est codé 48,
le code 97 correspond au
caractère 'a' et le code 10 correspond au retour à la ligne.
Très vite ce code a été complété avec le code de l'American National Standard Institute ou
code ANSI codé sur 8 bits. Les 128 premiers codes (de 0 à 127)
sont identiques au code ASCII. Les 128 codes suivants
permettent les extensions multilingues. Ce code
est aussi connu sous le nom ISO-latin-1 ou ISO-8859-1.
L'UTF-16 est défini par Unicode, chaque caractère
est codé sur 16 bits. En Java, le type primitif char utilise le codage
UTF-16. L'apostrophe différentie les constantes de type
char des caractères composants les identificateurs et les mots clés.
'\uXXXX' représente le caractère Unicode XXXX où XXXX est une valeur exprimée en hexadécimal.
Exemple:
char c;
c = 'a'; // La variable c est affectée à la valeur 'a'
c = '\u00e9'; // ... est affectée au caractère Unicode e9, é