GETA, laboratoire CLIPS, IMAG Université Joseph Fourier

GETA, laboratoire CLIPS, IMAG Université Joseph Fourier
Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université Joseph Fourier 18 mai 2004

Données personnelles Avant la thèse (1992-2000) : Thèse (2001-2004) :
Ingénieur dans le secteur privé depuis 1988 Avant la thèse ( ) : Étude de la langue laotienne puis de ses problèmes d’informatisation, de 1992 à 1998 Acteur de l’informatisation du laotien depuis 1998 Traitements de textes, claviers virtuels, polices… Thèse ( ) : Prise de recul par rapport à cette expérience Élaboration de méthodes générales pour l’informatisation Mise en œuvre

Plan de la présentation
Introduction I. Réduire les coûts de développements II. Travailler avec les populations linguistiques III. Exemple de difficulté technique IV. Approche projet Conclusion et perspectives

Quelques ordres de grandeur

Langues bien et mal dotées informatiquement
Langues Très bien dotées informatiquement Quelques dizaines de langues-τ Allemand, anglais, français, japonais, russe… Informatisation rentable => éditeurs de logiciels Apple, IBM, Microsoft, Xerox… 6809 langues Langues Peu ou Moyennement dotées Plus de 6000 langues-π et µ Informatisation pas ou peu rentable => autres Groupes de locuteurs créés spontanément Projets de développement…

Quelles sont les difficultés ?
Besoin de développer des logiciels et des ressources En informatique multilingue Au niveau des systèmes d’exploitation Encodage des caractères Méthodes de saisie Affichage Au niveau des interfaces de programmation Éditeurs de texte Tri lexicographique En traitement automatique des langues naturelles Au niveau applicatif Traduction automatisée Reconnaissance optique des caractères Gestion de dictionnaires Au niveau des ressources Dictionnaires d’usage et dictionnaires bilingues

C’est avant tout un problème d’informatique
Quelles sont les difficultés ? Contexte souvent peu propice Ressources limitées Manque de moyens Manque de formation Difficultés dues à la langue Langue peu décrite (dictionnaire, grammaire) Langue à orthographe non stabilisée Langue de tradition orale Politiques d’assimilation des minorités ethniques Manque de motivation des populations Faible pénétration de l’informatique Approche le plus souvent inadéquate Sociopolitique (réunions, rapports, peu de technique) Économique (limité à de l’équipement) C’est avant tout un problème d’informatique

Un large mouvement pour la protection des langues
ONU/UNESCO : préservation du patrimoine linguistique Déclaration du Millénaire (2000) Déclaration universelle sur la diversité culturelle (2001) Recommandation concernant la promotion et l’usage du multilinguisme et l’accès universel au cyberespace (2003) Union Européenne : protection des minorités linguistiques de l’Union Résolution Arfé (1981) Résolution Kuijpers (1987) Charte des langues régionales ou minoritaires (adoption 1992, entrée en vigueur 1998)

Un domaine de recherche dynamique
Travaux généraux sur l’informatisation des langues « minoritaires » Ateliers dans plusieurs conférences (LREC, TALN…) Éditeurs de logiciel, SIL International (polices de caractères, outils) Consortium Unicode (standardisation des systèmes d’écritures) Initiatives portant sur des groupes de langues Numéro spécial d’Elsnews , consacré à l’informatisation des langues minoritaires d’Europe SALTMIL : groupe d’intérêt spécial pour les langues « minoritaires » Bureau européen pour les langues les moins répandues Réseau Mercator de recherche et d’information sur les langues régionales et minoritaires de l’Union Européenne Intérêt des organisateurs de conférences pour ce sujet 12 articles acceptés : COLING, Papillon, PAN-Asia, Journées Montoises d’Informatique Théorique, Burma Studies, Digital GMS…

Un domaine de recherche dynamique
Travaux sur des langues ou des groupes de langues-π : standardisation (éthiopien), bibliothèques audio (abkhazien, bats, laz), dictionnaire (abkhazien-géorgien) Carnegie-Mellon : traduction automatique (mapudungun, inupiaq et siona) Projets MULTEXT et dérivés : outils d’annotation de corpus (catalan, occitan, suédois, bulgare, estonien, hongrois, roumain, slovène, tchèque, bambara, kikongo, et swahili) Projet DART : localisation de Mozilla (breton, irlandais, gaélique d’Écosse et gallois) Lancaster / Oxford : projet de corpus des minorités vivant au Royaume-Uni (hindi, penjabi, somali, turc, ourdou) Canada : polices de caractères (inuktitut) IXA : base de données lexicales et correcteur d’orthographe (basque) MIT2 : standardisation orthographique et ROC (créole haïtien)

Quelques idées pour commencer
S’intégrer à des environnements génériques Réutiliser le code lorsque c’est possible Recourir à Internet pour rapprocher les acteurs Recourir à la mutualisation Recycler les dictionnaires existants Idées banales pour des informaticiens Domaines de compétences spécifiques nécessaires : génie logiciel génie linguiciel C’est aussi et peut-être surtout du TALN

Première partie de la présentation
Introduction I. Optimiser les coûts de développements II. Travailler avec les populations linguistiques III. Exemple de difficulté technique IV. Approche projet Conclusion et perspectives

Logiciel pour langue-π
« S’intégrer à des environnements génériques » PARTIE GÉNÉRIQUE DU LOGICIEL PARTIE SPÉCIFIQUE ILG/LS Logiciel pour langue-π

Créer un traitement de texte laotien à partir de Word
LaoWord : DLL intégrée dans l’environnement Word Temps de développement : 2500 heures << temps de développement d’un traitement de textes Fonctionnalités ajoutées à Word pour le laotien Choix entre 4 dispositions de clavier courantes Saisie et changements de police indépendants de la police utilisée Tri lexicographique des tableaux Sélection du texte par syllabes entières Lexique laotien-français Transcriptions phonétiques Fonctions de mise en forme spécifiques (ligatures, réglage de hauteur) Intégration à Excel ou à PowerPoint estimée à quelques dizaines d’heures

Caractère abstrait (‘n’)
« Réutiliser le code lorsque c’est possible » Passer de LaoWord à BanglaWord Gestion multi-claviers Code touche → caractère abstrait Un tableau par répartition clavier Gestion multi-polices Caractère abstrait → caractère(s) réel(s) Un tableau par police de caractères n ນ Code 110 Police Lao France Clavier Lao US ນ o ນ Caractère abstrait (‘n’) Code 111 Police Laos Standard Clavier Duang Jan

Ensemble des caractères abstraits pour le laotien
La saisie de texte dans LaoWord 150 heures (générique) DLL + HOOK (entrée) DLL + HOOK (sortie) TABLEAU LAO FRANCE TABLEAU DUANG JAN TABLEAU POLICE LAO 1 TABLEAU POLICE LAO 2 TABLEAU POLICE LAO 3 Ensemble des caractères abstraits pour le laotien Saisie LaoWord 100 heures (1 police) + ≈ 3 heures par police

Ensemble des caractères abstraits pour le bengali
Extension à la saisie du bengali en Unicode 8 heures (réutilisation) DLL + HOOK (entrée) DLL + HOOK (sortie) TABLEAU BANGLA BIJOY TABLEAU BANGLA UNICODE Ensemble des caractères abstraits pour le bengali Saisie BanglaWord 10 heures (1 police)

Gain obtenus pour la saisie grâce à la réutilisation
Coût la 1ère fois (laotien : LaoWord) Coût les fois suivantes (bengali : BanglaWord) Gain 250 h 18 h 92,8 % 5 millions de locuteurs au Laos 300 millions de locuteurs au Bengladesh

Environnements génériques + réutilisation
Logiciel 1 Complément langue 1 Word Laotien Logiciel 2 Complément langue 2 Open Office Bengali Logiciel 3 Complément langue 3 Excel Khmer Logiciel 4 Complément langue 4 Power Point Birman Environnement générique Complément linguistique

Économie = (nL*tL*rL*(nE-1)+nE*tE*rE*(nL-1)) / (nL*nE*(tL+tE))
Formule du gain de réutilisation Économie = (nL*tL*rL*(nE-1)+nE*tE*rE*(nL-1)) / (nL*nE*(tL+tE)) nL / nE = nombre de langues / d’environnements tL / tE = temps de développement du code linguistique / générique rL / rE = taux de réutilisation du code linguistique / générique Si nE=4, tL=1000 heures, tE=500 heures, rL=rE=95 % Nb langues Économie Économie (en heures) 2 63,33 % 7 600 (4 400 au lieu de ) 5 72,83 % 21 850 (8 150 au lieu de ) 10 76,00 % 45 600 ( au lieu de ) 100 78,85 % ( au lieu de ) 1000 79,14 % ( au lieu de )

Deuxième partie de la présentation
Introduction I. Optimiser les coûts de développements II. Travailler avec les populations linguistiques III. Exemple de difficulté technique IV. Approche projet Conclusion et perspectives

Construction collaborative d’un dictionnaire
Principes Mutualisation : chacun contribue à quelques articles dans son dictionnaire personnel, et on intègre ensuite Par exemple 500 contributeurs fournissant chacun 100 mots Intégration des articles contrôlée par des linguistes Échange (ex. fourniture d’une contribution contre un service) Facilitation : pour toucher plus de personnes Construction du dictionnaire sur Internet Couplage avec un service en ligne d’aide à la traduction Avantages Prise en charge par les populations linguistiques Connaissant leurs langues Impliquées dans l’informatisation de leurs langues Évolution permanente du dictionnaire

Mise en œuvre pour la langue laotienne (LaoLex)

Le service d’aide à la traduction en ligne

Page de saisie d’une nouvelle entrée (1)

Page de saisie d’une nouvelle entrée (2)
Introduction I II III IV Concl.

Révision d’une entrée de dictionnaire

Premier bilan de ce travail collaboratif
Contributeurs 12 étudiants et 1 enseignant de l’INALCO Quelques visiteurs Nombre d’articles à ce jour Une centaine de mots dans le dictionnaire général Plusieurs centaines dans les dictionnaires personnels Temps passé : ≈ 60 jours Travail à temps partiel : ≈ 5 % du temps pendant ≈ 6 mois Pas encore de promotion sur le web

Troisième partie de la présentation
Introduction I. Réutiliser le code et le savoir-faire II. Travailler avec les populations linguistiques III. Exemple de difficulté technique IV. Approche projet Conclusion et perspectives

Comment traduire mot à mot un texte non segmenté ?
Segmentation et traduction dans LaoLex Comment traduire mot à mot un texte non segmenté ? (problème commun à environ 30 systèmes d’écriture en Asie du Sud-Est)

Algorithmes de segmentation et de traduction
On segmente le texte en syllabes ສະບາຍດີທຸກໆທ່ານ → ສະ-ບາຍ-ດີ-ທຸກ-ໆ-ທ່ານ On regroupe les syllabes pour former des mots contenus dans le dictionnaire (algorithme de « plus longue chaîne d’abord ») ສະ-ບາຍ-ດີ-ທຸກ-ໆ-ທ່ານ → ສະບາຍດີ-ທຸກ-ໆ-ທ່ານ On présente le résultat ສະບາຍດີ (bonjour) ທຸກ (tout, tous) ໆ (?) ທ່ານ (personne)

ລາ ໄປ ເມືອ ລ + າ ໄ + ປ ມ + ເ ືອ C V V C C V C V C V C V
La reconnaissance des syllabes est complexe Forme générale des syllabes laotiennes = C [C] [A] V [C] Formes et positions problématiques des voyelles ລາ ໄປ ເມືອ ລ + າ ໄ + ປ ມ + ເ ືອ l a aï p m üa C V V C C V C V C V C V la paï müa

Le nombre des syllabes peut être contraignant
Birman : Forme générale : (C ou CS) [L] V [C ou ◌. ou ◌X [ ◌< ] [ ◌; ou :]] Cardinaux des constituants : |C| = 33, |CS| = 20, |L| = 15, |V| = 35 Majorant : (33+20)x16x35x(34+2)x2x3 = syllabes Khmer : Forme générale : (C [CS [CS]] [D1] ou CS [CS]) V [C [CS] [D2]] ou VI ou L Cardinaux des constituants : |C| = 33, |CS| = 32, |V| = 33, |VI| = 14, |L| = 10 Majorant : (33x33x33x4+32x33)x33x(34x33x3) = syllabes Laotien : Forme générale : (C ou GC) [A] V [CF] Cardinaux des constituants : |C| = 27, |A| = 4, |GC| = 36, |V| = 38 et |CF| = 8 Majorant : (27+36)x5x38x9 = syllabes Siamois (thaï) : Cardinaux des constituants : |C| = 44, |GC| = 140, |A| = 4, |V| = 41, |CF| = 38 Majorant : (44+140)x5x41x39 = syllabes

Représentation par une grammaire
Reconnaissance des syllabes : un problème dur ! Syllabes = CC :t + CCA : a CF + CCA :k CFO + CCA ( : y + : u + : b + : n + : 5 + : 6 ) CFO + :g CC :t + :g CCA : a CF + :g CCA CFO + :c CC :t + :c CCA : a CF + :c CCA CFO + :3 CC :t + CCA : q CF + :3 CCA CFO + :g CC :kt + CCA :va CF + CCA : = + CCA :v CF + :g CCA ( : y + : u ) CFO + :g CC : ap + CCA :Pa CF + :g CCA :p + CCA :P CF + :g CCA ( : bv + : nv ) CFO + CC : q;t + CCA :;a CF + CCA : q; + CCA :; CF + ( :w + :. ) CCA + :g CCA : qk + CCA : e ; CCA = CC + CC Acc ; CC = GC + CI ; GC = :s ( :' + :p + :o + :, + :] + : ^ + :; ) + CI :; ; CI = :d + :0 + :7 + : ' + :9 + :l + :- + :p + :f + :8 + :4 + :m + :o + :[ + :x + :z + :/ + :r + :2 + :, + :1 + :i + :] + :; + :s + :v + :I + :È + :É ; CFO = CF + {} ; CF = :d + :f + :[ + : ' + :o + :, + :p + :; ; Acc = : j + : h + : H + : J ; Représentation par une grammaire

Mise en œuvre des grammaires de syllabes
Analyseur syntaxique Code C++ généré directement à partir de la grammaire des syllabes par un compilateur de grammaire hors contexte Testé sur le laotien (LaoLex, LaoWord…) Un peu lent (0,5 s pour un double-clic, Windows 95, 133 MHz) Automate d’états finis L’ensemble des syllabes étant fini, le langage est régulier Calcul de l’automate minimal en 3 étapes : Calcul d’une expression régulière à partir de la grammaire, Calcul d’un automate non déterministe à partir de l’expression régulière, Calcul de l’automate minimal à partir de l’automate non déterministe. Testé sur le laotien et sur le khmer Instantané dans tous les cas Sera intégré prochainement dans un « GMSLex » et un « GMSWord »

Mise au point des grammaires de syllabes
Sylla : Outil pour la mise au point des automates de reconnaissance de syllabes Réduit le temps de développement d’environ 80 % (60 h au lieu de 300 en moyenne) Permet aux populations linguistiques de réaliser leur modèle de syllabes Utilisé pour : birman, khmer, laotien et thaï (encore 25 systèmes de ce type à faire)

Quatrième partie de la présentation
Introduction I. Réutiliser le code et le savoir-faire II. Travailler avec les populations linguistiques III. Informatiser un groupe de langue IV. Approche projet Conclusion et perspectives

Informatiser un groupe de langues
Disposer d’outils pour mesurer : Le niveau d’informatisation de départ Le niveau d’informatisation obtenu Choisir de ce que l’on veut informatiser : Les langues Les services Réaliser le projet Définition de l’architecture logicielle Définition de l’organigramme des tâches

Outil de mesure du niveau d’informatisation
Indice-σ Mesure la satisfaction des utilisateurs de logiciels et, incidemment, le niveau d’informatisation de la langue Définitions : Langues-π : indice-σ < 10 Langues-µ : 10 < indice-σ < 14 Langues-τ : indice-σ > 14 Exemples : birman : 5,46 / 20 khmer : 6,14 / 20 laotien : 8,68 / 20 (< 10/20  langues-π)

Tableau de l’indice-σ pour le khmer

Quels services informatiser ?
Classes de services Criticités (*) A Traitement de textes, services de base (saisie, affichage, impression, recherche, sélection, tri) 16 B Traitement de textes, services avancé (correcteurs d’orthographe, de grammaire, de style) 6 C Synthèse et reconnaissance de la parole 8 D Traduction automatisée 14 E Reconnaissance optique de caractères F Dictionnaires bilingues et d’usage 15 (*) : Moyennes des valeurs constatées sur trois langues (birman, khmer et laotien)

Critères de choix des langues :
Pour quelles langues ? Critères de choix des langues : Nombre de locuteurs, Caractère officiel ou national de la langue, Caractère central de la langue, Intérêt des populations pour des moyens informatiques dans leur langue, Motivation des bailleurs pour l'informatisation d'une langue, Niveau d'informatisation de la langue (indice-σ), Existence d’une grammaire et d’un dictionnaire, Existence d'une langue proche bien informatisée, Présence d’un bilinguisme permettant de faciliter la communication.

Pour quelles langues ? Exemple : Famille nigéro-congolaise,
Nombre de locuteurs > , Indice-σ < 7, Langue officielle ou nationale, Existence d’un dictionnaire papier.

Architecture et organisation en tâches
Grands éditeurs de logiciels Logiciels pour langues-τ PLATE-FORME D'ACCUEIL POUR DES COMPLÉMENTS LINGUISTIQUES LOGICIEL DE BASE Grands éditeurs de logiciels Compléments pour présenter une interface standard COMPLÉMENT GÉNÉRAL IG/L Groupes de développement Faible diversité COMPLÉMENT LINGUISTIQUE GÉNÉRIQUE ILG/LS GÉNÉRATION COMPLÉMENT LINGUISTIQUE SPÉCIFIQUE OUTILS LINGUICIELS COMPLÉMENT POUR LANGUE-π Populations linguistiques Grande diversité

Informatisation d’un groupe de langues
Groupe de travail sur le recensement de la situation (intérêt des populations, état d'informatisation, langues proches bien informatisées...) et des besoins en compléments et outils (travail par groupes de langues, en particulier pour les compléments linguistiques génériques). Objectif : Rédaction de spécifications techniques utilisables par des informaticiens pour les compléments et les outils. Publication du planning général incluant les étapes avec la liste des langues retenues pour chacune d’elles. Cent langues, six ans T0 - 1 T0+1 T0+2 T0+3 T0+4 T0+5 T0+6 Travaux amont Préparation du projet NU Développement d’un site web et des moyens de communication Travaux généraux, recensement, spécifications Travaux avec Unicode et les éditeurs de logiciel GROUPE 1 Recensement de la situation linguistique et choix des langues GROUPE 2 Recensement du besoin en compléments et outils Spécification des compléments et outils Travaux pour les langues insuffisamment décrites PL Traitement du texte Développement des compléments généraux EL Développement des compléments linguistiques génériques GD Développement d’outils pour linguistes Développement des compléments linguistiques spécifiques Aides à la traduction Construction des ressources linguistiques Ressources linguistiques Groupe de travail sur la complétion du standard Unicode, des polices de caractères, et des classes d'édition de texte. Objectif : Régler définitivement les problèmes de saisie, d'affichage et d'impression et obtenir des logiciels de base intégrant tous les systèmes d'écriture existants. Diffusion des spécifications des compléments linguistiques génériques et des outils pour linguistes. Appel d'offres pour leur réalisation. Invitation des universités et instituts de langues à répondre en consortiums en fonction de leurs compétences. Objectif : Développement des compléments linguistiques génériques et des outils pour linguistes. Groupes de travail pour les langues insuffisamment décrites. Objectif : Création de groupes de linguistes et réalisation de dictionnaires et de grammaires pour des étapes ultérieures. Diffusion des outils linguiciels et lancement des projets de réalisation des compléments linguistiques spécifiques et des ressources linguistiques. Accompagnement des projets de compléments linguistiques spécifiques (participation des différents acteurs intéressés : projets multilingues...). Objectif : Développement des compléments linguistiques spécifiques. Diffusion des spécifications des compléments généraux. Objectif : Intégration de l’interface IG/L aux logiciels de base. NU=Nations Unies (exemple), PL=Populations Linguistiques EL=Éditeurs de Logiciels, GD=Groupes de Développement

Conclusion et perspectives
Introduction I. Langues mal dotées informatiquement II. Réutiliser le code et le savoir-faire III. Informatiser un groupe de langue IV. Approche projet Conclusion et perspectives

Apports de la thèse Une méthode pour mesurer le niveau d’informatisation Indice de criticité et note par service d’informatisation Définition des langues peu, moyennement et très bien dotées Une méthodologie de développement Architecture en modules réutilisables Utilisation des environnements génériques pour langues-τ Recours à Internet Distribution OpenSource (LaoUniKey) Implication des populations linguistiques avec réalisation d’outils adaptés (Sylla, LaoLex) Sites web collaboratifs Première analyse de la question de la motivation des populations linguistiques à contribuer à l’informatisation de leurs langues 10 14 π μ τ 20

Apports de la thèse Étude en largeur et en profondeur des problèmes d’informatisation Contexte sociopolitique, projets existants Annexes voulues complètes pour servir de point d’entrée pour des recherches ultérieures Contribution à l’informatisation de quelques langues Le laotien : traitement de textes complet, aide à la traduction, dictionnaire Le birman, le khmer et le siamois (thaï) : modèles syllabiques Le bengali : saisie Unicode Mise en évidence qu’il s’agit d’un problème de TALN, et donc d’informatique

Perspectives personnelles
Généraliser les fonctionnalités obtenues à la trentaine de systèmes d’écriture sous-informatisés d’Asie du Sud-Est

Perspectives personnelles
Participer activement aux projets d’informatisation de l’Union Européenne et des Nations Unies Appliquer les méthodes présentées à la traduction automatique du laotien Adaptation directe de la maquette Ariane anglais-thaï (générique) Appui sur UNL (générique) + maquette anglais-thaï (réutilisation) Évaluation des grammaires statiques de B. Vauquois (outils) Évaluation de méthodes d’apprentissage utilisant un corpus UNL Poursuivre une recherche de fond sur les méthodes Élaboration d’outils linguiciels Réduction des temps de développements

18 mai 2004

GETA, laboratoire CLIPS, IMAG Université Joseph Fourier

Présentations similaires

Présentation au sujet: "GETA, laboratoire CLIPS, IMAG Université Joseph Fourier"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

GETA, laboratoire CLIPS, IMAG Université Joseph Fourier

Présentations similaires

Présentation au sujet: "GETA, laboratoire CLIPS, IMAG Université Joseph Fourier"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back