Le multilinguisme sur le Web Château Royal, Laval 17 octobre 2000 François Yergeau
2 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Aperçu Introduction Codage de texte HTML HTTP Planification d'un site mλ Structure de répertoires
3 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Aperçu (suite) Noms de fichiers Codages des fichiers Images Accessibilité Respect des normes
4 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Caractéristiques du Web Réseau hétérogène d'ordinateurs, reliés par 3 concepts : hypertexte (HTML) = texte + liens protocole de transport léger (HTTP) adresses universelles (URL) Fondé sur des normes
5 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Caractéristiques (suite) Le Web est une grande application d'ampleur mondiale Toutes les parties doivent fonctionner ensemble ~6000 langues dans le monde L'application doit être multilingue
6 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Des normes Normes importantes pour : Interopérabilité minimale Terrain dentente entre parties Correction (formelle) Internet : beaucoup de texte codé Li18n dInternet est donc en grande partie une affaire de texte codé
7 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Codage de texte : objets Texte formé de caractères Caractères doivent être saisis, transmis, traités et affichés Le texte codé est au centre : la saisie le produit ; laffichage le consomme ; le traitement le transforme ; la transmission le déplace.
8 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Quest-ce qui peut clocher ? Codage mal identifié
9 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Normes de JdC codés 7 bits : ISO 646 (ASCII + variantes) 8 bits : IBM EBCDIC (plusieurs variantes) Pages de code DOS & Windows ISO 8859-x Série ASMO (arabe) ISCII (écritures indiennes, ×9) JIS X 202 (kanas japanais) ...
10 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Normes de JdC codés 16 bits ou plus : JIS X 0208, 0212 (japonais) KS C 5601 (coréen) GB 2312 (chinois simplifié) Big5 (chinois traditionnel) CNS (chinois) ISO (Unicode) ...
11 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Le paramètre « charset » MIME MIME : Multipurpose Internet Mail Extensions En-têtes MIME indique format,… Le paramètre « charset » Indique le codage des caractères Complet des octets aux caractères Utilisé par protocoles pour lidentification des codages
12 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 HTML HTML 2.0, 3.2 basés sur ISO (Latin 1). « World Wide » ? En réalité, autres JdC utilisés, pas de standard, problèmes de compatibilité I18n dans RFC 2070 puis HTML 4.0, basée sur Unicode
14 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Architecture HTTP Architecture simple requête- réponse Utilise des mécanismes à la MIME pour étiquetage et éléments de protocole Comprend la négociation de contenu
15 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 HTTP Négociation ServeurClient GET HTTP/1.1 [ACCEPT_LANGUAGE:fr,nl,ru] HTTP/ Le document suit Content-Type: text/html; charset=ISO Content-Language: ru [...]
16 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Préférences linguistiques
17 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Site international L'accessibilité globale ne rend pas un site international Un site international a besoin de : TRADUCTION du contenu LOCALISATION du contenu, c.-à-d. adaptation à la culture du visiteur
18 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Planification Quelles langues ? Étude de marché ? Site existant : refonte ou ajout dune couche linguistique ? Localiser par pays/région ou essayer de rester culturellement neutre ?
19 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Planification (suite) Variables : Coût Durée de développement Ressources humaines : Gestion Rédaction Traduction Graphisme Intégration HTML Webmestre Soutien clientèle Consultants
20 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Structure
21 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Structure (suite) Organisation par contenu : Facilite l'administration du site Facilite les mises à jour Organisation par langues : Semble logique, mais moins recommandable Force la ségrégation ou la copie d'images ou autre qui résident dans le répertoire de la page
22 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Noms de fichiers Insérez code de langue ISO entre nom et extension : index.fr.html Attention à l'intuition ! Ne traduisez pas ! langues/iso639.htm
23 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Négociation de langue Une telle organisation permet la négociation de langue HTTP Permet aussi de ne pas tout traduire si désiré, puisqu'il y a repli intelligent : si pas xx, alors yy, sinon zz, sinon langue par défaut
24 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Seul mécanisme ou supplément à la négociation Choix à faire : Sur chaque page (site à encadrés) Sur page d'accueil (interdit la navigation) Mélange Sélecteurs de langue
25 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Sélecteurs de langue Drapeaux Liste (sites distribués) Erreur ! Boutons
26 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Images textuelles Sélecteurs de langue
27 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Codage des fichiers Utiliser un JdC approprié normes ISO standards de facto Unicode ! Avec serveur approprié, plusieurs JdC Il faut identifier le JdC !
28 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Documents auto-étiquetés 8 Ne marche pas toujours 8Transcodage 8Codages complexes non- ASCII
29 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Codage des fichiers Ne pas utiliser dentités (é) ou références numériques (é), surtout faussement mauvais affichage problèmes moteurs de recherche complique lédition Outils multilingues plus agiles
30 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Balisage de langue Le balisage de langue aide à: lever les ambiguïtés sur les glyphes contrôler la césure, les guillemets, lespacement, les ligatures permettre la synthèse de parole, le Braille, etc (accessibilité, cf WAI). contrôler la classification, la recherche et le tri
31 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Balises de langue La plupart des éléments HTML admettent lattribut LANG Valeur de LANG selon RFC 1766: frISO 639 en-USISO i-cherokeeregistre IANA x-machin« expérimental »
32 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Images Images sont attrayantes, mais... Traduction + chère, - rapide Éviter pour en-tête et paragraphes Utiliser les CSS
33 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Images : aspects culturels Adaptation : sens de lecture interprétation des couleurs, des symboles
34 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Accessibilité Le W3C publie des directives pour favoriser l'accès au Web par les handicapés Obligation légale ? De toute façon, de bon conseil
35 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Respect des normes Rendez vos pages traitables : indexables par moteurs de recherche traduisibles par machine utilisables par éditeurs standards Rendez vos pages durables, ré- utilisables (WAP), accessibles
36 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Respect des normes Rendez vos pages universelles, indépendantes de : la taille de l'écran la marque ou la version du fureteur Demandez-vous si ça fonctionne sur divers systèmes Validez :
37 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 En résumé Respect des langues Respect des cultures Respect des normes Accessibilité
38 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 La première « autoroute » numérique ! Claude Chappe Né a Brûlon (200 km de Paris) en 1763 Créateur du premier réseau télégraphique optique international Message transmis le 2 mars 1791 sur 16 km: « LAssemblée Nationale récompensera les expériences utiles au public ». Durée de transmission: 6 minutes 20 secondes
39 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Bruxelles Une leçon dhistoire... Amsterdam Paris Mayence Strasbourg Lyon Brest Bordeau x Bayonne Toulon Venise En stations 4800 km 27 grandes villes reliées
40 © Alis Technologies Tous droits réservés François Yergeau, 17 octobre 2000 Q&R