Le Francophones-HOWTO : Linux la langue franaise

crit par Guylhem Aznar, guylhem()metalab.unc.edu

v3.2.2 ; Décembre 2001

Copyright 1997, 1998, 1999, Guylhem Aznar ; librement distribuable selon les termes du GNU Free Documentation License, http://www.fsf.org/licenses/fdl.html. Toutes les marques citées appartiennent à leurs propriétaires respectifs.



Présentation


Introduction

Ce document a été rédigé pour aider à configurer un ordinateur doté du système d'exploitation Linux pour des utilisateurs francophones.

Il y est expliqué par exemple comment configurer périphériques et applications afin de prendre en compte les particularités et les spécificités de notre langue...

Toutefois, ce document ne traite pas de l'installation du système d'exploitation Linux ; il est implicitement supposé que vous ayez correctement installé une distribution de Linux, RedHat, Debian ou Suse, cette liste n'étant pas exhaustive, et que vous vous apprêtiez maintenant à mieux la configurer ; veuillez donc vous référer à d'autres HOWTOs pour l'installation.

Les adresses électroniques ont été volontairement supprimées ou modifiées en remplaçant les « a enroulés » par des « (à) » afin d'éviter les publipostages très gênants.

Si quelque terme employé vous semble un peu obscur, je vous invite à vous reporter au lexique (« Vocabulaire : un petit lexique »), expliquant certains mots tels 8 bits, AZERTY ou QWERTY, qui sont employés tout au long de ce document.


Fichiers utilisés dans ce HOWTO

Tous les fichiers cités dans ce HOWTO, sont disponibles sous licence GPL sur ma page

Je vous recommande de télécharger tous ces fichiers pour les utiliser selon les exemples proposés.


Les Français ne sont pas les seuls francophones !


a) Différentes versions

Pour chaque manipulation dépendant du pays concerné, un certain nombre de versions peuvent être proposées :

  • une canadienne normalisée (cn)

  • une belge wallonne (be)

  • une française (fr)

  • une québécoise (qc)

  • une suisse romande (sf)

  • une états-unienne internationale (usx)


b) Les états-uniens : raccourcis claviers

La version états-unienne internationale permet à tous les francophones utilisant un clavier « 7 bits » aussi nommé « QWERTY » de bénéficier de l'étendue des caractères 8 bits.

Est disponible aussi une version pour ceux qui utilisent un clavier « Happy Hacking ».


c) Le Luxembourg : comme la France

Le Grand Duché du Luxembourg utilisant les conventions françaises, j'invite les lecteurs luxembourgeois à se reporter aux exemples français.


d) Le Canada : 3 claviers

Il est classique de parler des claviers « canadien international », surtout destinés aux anglophones (qui leur préfèrent toutefois les claviers QWERTY standard) et les claviers « canadien français », aux lettres accentuées.

Mais, de nouveaux claviers dits « canadiens normalisés » ont fait leur apparition récemment pour fusionner les modèles « canadien international », non concerné par le cadre du Francophones HOWTO, et « canadien français ».

Ces nouveaux claviers répondent aux normes CAN/CSA Z243.200-92 et ISO 9995-7 ; ils sont prévus pour être utilisés dans n'importe quelle langue, en remplaçant par exemple les intitulés des touches par des pictogrammes : « Del », en anglais, qui se traduisait par « Suppr » en français devient ainsi trois barres obliques fines orientées sud-ouest/nord-est.

Plus d'explications sont disponibles sur le site de l'Office de la Langue Française.

Toutefois je n'ai pas pu réussir à me procurer un tel clavier ; mes fichiers de configuration sont donc uniquement basés sur les (illustrations) et les normes théoriques, et non les normes pratiques.

Par exemple, si j'ai compris que la touche « Control » de droite est utilisée comme une « AltGr » mais sert à obtenir encore d'autres caractères, je n'ai aucune idée du comportement de ces touches lorsque seule l'autre a une sérigraphie prévue...

Si on peut m'envoyer un tel clavier, et surtout son pilote, je promets de mettre les fichiers de configuration à jour :-)


Attention


a) ROOT

Certaines manipulations recommandées par ce document ne peuvent être effectuées que sous le compte privilégié « root » ; la plus grande prudence est alors de rigueur car toute action inadéquate peut mettre en péril le contenu des disques.

Sauvegarder les fichiers existants, par exemple en les copiant sous le même nom suivi du préfixe .old, avant de les modifier ou remplacer.


b) CHERCHER

Le paquetage GNU nommé find offre un programme appelé locate, grâce auquel l'utilisateur peut retrouver le nom complet, chemin de répertoires, d'un fichier dont il ne connaît que le nom.

Certaines distributions Linux fournissent cela en /usr/bin/locate.

En tant que root, lancer updatedb invoque un find/ sur les disques montés et place les noms de tous les fichiers sous forme hash dans /usr/lib/locate/find.codes (ou /var/lib/slocate/slocate.db pour slocate, utilisé dans les distributions modernes.)

locate permet ensuite de localiser l'un d'eux :

       (guylhem@victis:guylhem)$ locate noms_des_fichiers_à_retrouver

Les problèmes


Présentation

Le problème de tout utilisateur francophone après l'installation de Linux est de lui faire comprendre qu'il utilise des normes différentes des standards par défaut états-uniens..

Cela a des conséquences sur :

  • la police de caractères donc les caractères spéciaux que l'on utilise, accentués comme ou bien ligaturés comme , voire « e dans l'o » qui vient d'apparaître sous Linux grâce à la norme ISO-8859-15 aussi nommée latin-9

  • la correspondance entre la sérigraphie des cabochons ou « touches » du clavier sur lesquelles vous appuyez, et les codes que Linux renvoie, celui-ci supposant un clavier QWERTY états-unien par défaut

  • le format de page pris en charge par les programmes que vous utilisez pour imprimer, différent entre les tats-Unis; (14×8,5 pouces pour du papier dit légal) et l'Europe (29,7×21 cm pour des feuilles a4)

  • le format des dates et de l'heure, la position des jours et des mois étant variable selon les régions de la francophonie

  • le format de la monnaie, aussi variable selon les francophones

  • la langue utilisée pour les messages d'erreur


Solutions

Tout est préconfiguré pour un états-unien : bien que ceux-ci ne représentent pas la majorité de la population mondiale, ils ont été précurseurs en informatique.

Il faut donc se faire reconnaître comme une « exception » par les différents programmes, par des options ou des variables à exporter voire dans les pires des cas une modification du code source suivie d'une recompilation.

Heureusement, la philosophie GNU de Linux rend le système très ouvert à des modifications de toutes sortes et comme vous allez le découvrir au fil de ce document, et il est assez simple d'obtenir un résultat très correct.


Aider

Pour le moment, le futur de l'internationalisation de Linux porte sur la traduction des messages d'erreur, des programmes comme KDE ou GNOME, des pages de manuel et de la documentation, alors si vous vous sentez l'âme d'un traducteur, n'hésitez pas à contacter l'équipe de traduction des HOWTOs ; pour cela, adressez-vous à ric Dumas dumas(à)freenix.fr ou dumas(à)linux.eu.org.


Le vocabulaire : petit lexique

Tout d'abord, un mot sur le vocabulaire employé :


8 bits

Des caractères sont dits « 8 bits » s'ils correspondent à des accents ou à des signes spéciaux comme « § », non inclus dans le standard ASCII « 7 bits ».

Ce standard, sans accents ni caractères spéciaux, correspond aux 128 (27) premiers caractères des 256 (28), de 0 à 255.

Pour des raisons historiques (place disponible, inutilité pour les états uniens) seuls les 128 (27) premiers caractères ont été normalisés par l'ASCII : par exemple le A qui est le 65e caractère de la table ASCII s'écrit 0100 0001 en notation binaire.

Pour les caractères situés hors de la norme ASCII, différentes « normes » ou « standards » incompatibles, comme l'Unicode, l'iso-8859, le latin, le cp (...) fixent ces correspondances.

Par exemple, dans le standard ASCII étendu par l'iso-8859-1, le 224ème caractère équivalent noté « eb » en hexadécimal correspond à « ë ».


La police de caractères

Une police de caractères est une correspondance entre des codes informatiques et des caractères (alphanumériques...) affichables par l'ordinateur.

La police de caractères est l'ensemble des représentations graphiques des caractères d'un standard.


Les polices de caractères

Il existe plusieurs polices de caractères 8 bits pouvant répondre au besoins des francophones.

Je vous recommande de lire à ce sujet l'excellent site de Roman Czyborra qui a fait une thèse sur ce sujet et qui vous donnera une explication fort détaillée

Pour résumer, il est nécessaire de choisir une police de caractères pour que tous les caractères français soient disponibles.

Voici la liste des polices dites « ISO 8859 », mais attention, il existe leurs équivalents en « code page » pour windows (comme cp1252).

  • ISO 8859-1 : latin 1 : langues d'Europe de l'ouest, Afrikaans, Swahili. Le Swahili, n'utilise aucun caractère accentué (comme l'Anglais, le Malais et l'Indonésien), donc n'importe quel version fait l'affaire. Pour l'Afrikaans, je ne sais plus exactement quel était le choix initial (c'est-à-dire où avait été rangé le 'n au départ), mais il ne me semble pas que ce soit dans Latin 1. Dans la pratique, bien sûr, les Afrikaaner utilisent Latin 1 ; la même chose se passe pour un certain nombre des cas qui suivent.

  • ISO 8859-2 : latin 2 : langues d'Europe centrale et orientale. Dans les faits : Polonais, Tchèque, Slovaque, Slovène, Croate, Hongrois, Roumain, probablement aussi le Sorbe ou Sorabe (Wende en allemand). Officiellement, je crois que l'Albanais s'écrit aussi en Latin-2, mais comme dans les faits c'est identique au Latin 1... Il y a un problème pour le Roumain, car le Latin 2 contient formellement les caractères avec une cédille, quand en roumain on utilise une virgule souscrite.

  • ISO 8859-3 : latin 3 : Espéranto et Maltais. Initialement, c'était prévu pour les langues d'Europe du Sud, y compris le Turc, les langues d'Espagne (donc Catalan, Basque), le Français. Mais dans la pratique, c'est limité à ces deux langues.

  • ISO 8859-4 : latin 4 : langues baltes (incomplet). Pas utilisé dans la pratique, remplacé par Latin 7 (iso-8859-13), ou plutôt en pratique la codepage 1257 Windows. Pour l'Este ou Estonien, on peut aussi utiliser Latin 9.

  • ISO 8859-9 : latin 5 (comme latin 1, moins l'Islandais, plus le Turc). Usage : le Turc et peut-être l'Azéri, mais il manque le schwa, un « e » renversé. Codage officiel aux Pays-Bas du fait des Turcs qui y habitent.

  • ISO 8859-10 : latin 6 : langues nordiques, sauf le Lapon Skolt. Pas utilisé dans la pratique : ne servirait que pour les langues sames (ou lapones), mais il manque des caractères, et le public concerné est de toute manière assez limité.

  • ISO 8859-11 : Thai. Pas encore officiellement adopté.

  • ISO 8859-12 : Indien (n'existe pas encore). Prévu pour le devanagari, pour écrire l'Hindi, la langue principale de l'Inde, et aussi un grand nombre d'autres langues indiennes, dont le Sanskrit.

  • ISO 8859-13 : latin 7 : langues baltes. Plus exactement : couvre les langues du pourtour de la mer Baltique, donc aussi le Polonais, l'Allemand et les langues de scandinavie. Mais dans la pratique il est réduit en utilisation aux langues baltes et à l'Este ou Estonien.

  • ISO 8859-14 : latin 8 : langues celtes. Pour le Breton, le Gaélique et les dialectes parlées au Pays de Galles et en Irlande.

  • ISO 8859-15 : latin 9 : comme latin 1, en y comblant quelques manques. Pour le Français, le Finnois (en concurrence avec Latin 1) et l'Este ou Estonien (en concurrence avec Latin 7).

De cette longue liste, il convient de ne retenir que :

  • ISO 8859-1 latin 1 : police ouest-européenne utilisée par la majorité des systèmes UNIX, elle permet de disposer de tous les caractères Français sauf les « o e liés », l'euro et l'y tréma majuscule