Accueil [fr] | [fr] | [fr]
L'univers de l'Espace
Reine de Saba










XML et le syllabaire éthiopien

Quelques propos passionnants sur l’écriture éthiopienne et le rôle d’internet

Nota : par respect à l’égard de ce Monsieur très expert, nous le nommons Jean-François, voici ces propos que nous conservons sous x.

Cette lettre fait suite à ma visite de tout à l’heure...., où je vous ai parlé de l’exclusion dont l’écriture éthiopienne était affligée à l’égard du formalisme XML,.... je ne veux pas attendre pour vous expliquer plus avant le problème que j’évoquais. D’autant moins qu’en préparant ma réponse je viens de constater... que la réglementation avait changé en 2008 ! (le 26 nov. 2008, pour être précis). Mon étude datait de 2007...

Selon la nouvelle règle, le problème dont je vous parlais a disparu. Et je constate que la dernière version de Mac OS (10.6.2) suit la nouvelle règle (ce que ne faisait pas la version précédente 10.5), ainsi que la bibliothèque libxml2. De sorte qu’une action politique est inutile en matière réglementaire, mais peut-être pas auprès des éditeurs de logiciels. Car évidemment, certains systèmes en usage mettront encore quelque temps avant d’entériner les nouvelles règles ! C’est le cas par exemple du populaire navigateur Firefox, dans sa version 3.5.7 pour Mac.

Voici de quoi il est question : le formalisme XML distingue deux grandes classes de mots, ceux qu’on peut employer comme noms (noms de balises, noms d’attributs) et ceux qu’on ne peut employer que comme valeurs (contenus textuels, valeurs d’attributs).


Le syllabaire éthiopien ne peut être employé que pour la seconde classe, celle des valeurs, pas pour celle des noms. On peut écrire où ኢትዮጵያ et አዲስ አበባ sont valeurs des attributs ’nom’ et ’capitale’ maiz pas <ኢትዮጵያ>አዲስ አበባ où ኢትዮጵያ serait le nom d’une balise. Cette dernière écriture provoque immédiatement une erreur de traitement.


Or ceci n’est pas normal, car justement les régulateurs de XML ont clairement énoncé leur désir d’inclure tout ce qui est "raisonnable" :


Almost all characters are permitted in names, except those which either are or reasonably could be used as delimiters. The intention is to be inclusive rather than exclusive, so that writing systems not yet encoded in Unicode can be used in XML names. [http://www.w3.org/TR/xml/#sec-common-syn]


Selon la nouvelle règle, le syllabaire éthiopien tout entier (plage Unicode U+1200 – U+137F) fait partie de la catégorie "NameStartChar" des caractères utilisables en début de nom, et a fortiori dans le corps des noms. Par conséquent, l’erreur mentionnée ci-dessus ne devrait pas se produire (et effectivement, avec le navigateur Safari sur MacOS 10.6, elle ne se produit pas, mais elle arrive encore avec Firefox).

Or, dans la version antérieure de la règle (2006) http://www.w3.org/TR/2006/REC-xml-20060816/#CharClasses il était question de quatre classes de caractères * les caractères de base (BaseChar) * les idéogrammes (Ideographic) * les diacritiques (CombiningChar) * les chiffres (Digit) * les extensions (Extenders) et, par une aberration étrange, aucun caractère du syllabaire éthiopien n’appartenait à l’une de ces classes ! Pour tout logiciel de traitement, il était donc légitime de refuser l’écriture éthiopienne dans les noms. Cette aberration a disparu de la norme, mais il faut le temps que la nouvelle se répande.

Voila donc un exemple patent de progrès technique ! Racontez cette histoire à vos amis éthiopiens, elle devrait leur faire plaisir. Et si certains rencontrent sur leur chemin l’erreur dont je vous parlais, si elle persiste après mise à jour de leur système, ils peuvent légitimement protester auprès de leur fournisseur de logiciel !

Je me réjouis de notre rencontre de cet après-midi, puisque, outre le plaisir de faire votre connaissance, elle m’a donné l’occasion de rectifier ma doctrine sur un point qui me tient à cœur.

À une prochaine fois.... Bien cordialement, J-F.

Espace Reine de Saba - 30 rue Pradier - 75019 Paris - Tél / Fax : 01 43 57 93 92 - Contact