La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

Présentations similaires


Présentation au sujet: "18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université"— Transcription de la présentation:

1 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université Joseph Fourier

2 INTROIIIIIIIVCONC p. 2 Ingénieur dans le secteur privé depuis 1988 Avant la thèse ( ) : Étude de la langue laotienne puis de ses problèmes dinformatisation, de 1992 à 1998 Acteur de linformatisation du laotien depuis 1998 Traitements de textes, claviers virtuels, polices… Thèse ( ) : Prise de recul par rapport à cette expérience Élaboration de méthodes générales pour linformatisation Mise en œuvre Données personnelles

3 INTROIIIIIIIVCONC p. 3 Plan de la présentation Introduction I.Réduire les coûts de développements II.Travailler avec les populations linguistiques III.Exemple de difficulté technique IV.Approche projet Conclusion et perspectives

4 INTROIIIIIIIVCONC p. 4 Quelques ordres de grandeur

5 INTROIIIIIIIVCONC p. 5 Langues bien et mal dotées informatiquement 6809 langues Langues Très bien dotées informatiquement Quelques dizaines de langues-τ Allemand, anglais, français, japonais, russe… Informatisation rentable => éditeurs de logiciels Apple, IBM, Microsoft, Xerox… Langues Peu ou Moyennement dotées Plus de 6000 langues-π et µ Informatisation pas ou peu rentable => autres Groupes de locuteurs créés spontanément Projets de développement…

6 INTROIIIIIIIVCONC p. 6 Besoin de développer des logiciels et des ressources En informatique multilingue Au niveau des systèmes dexploitation Encodage des caractères Méthodes de saisie Affichage Au niveau des interfaces de programmation Éditeurs de texte Tri lexicographique En traitement automatique des langues naturelles Au niveau applicatif Traduction automatisée Reconnaissance optique des caractères Gestion de dictionnaires Au niveau des ressources Dictionnaires dusage et dictionnaires bilingues Quelles sont les difficultés ?

7 INTROIIIIIIIVCONC p. 7 Contexte souvent peu propice Ressources limitées Manque de moyens Manque de formation Difficultés dues à la langue Langue peu décrite (dictionnaire, grammaire) Langue à orthographe non stabilisée Langue de tradition orale Politiques dassimilation des minorités ethniques Manque de motivation des populations Faible pénétration de linformatique Approche le plus souvent inadéquate Sociopolitique (réunions, rapports, peu de technique) Économique (limité à de léquipement) Quelles sont les difficultés ? Cest avant tout un problème dinformatique

8 INTROIIIIIIIVCONC p. 8 ONU/UNESCO : préservation du patrimoine linguistique Déclaration du Millénaire (2000) Déclaration universelle sur la diversité culturelle (2001) Recommandation concernant la promotion et lusage du multilinguisme et laccès universel au cyberespace (2003) Union Européenne : protection des minorités linguistiques de lUnion Résolution Arfé (1981) Résolution Kuijpers (1987) Charte des langues régionales ou minoritaires (adoption 1992, entrée en vigueur 1998) Un large mouvement pour la protection des langues

9 INTROIIIIIIIVCONC p. 9 Travaux généraux sur linformatisation des langues « minoritaires » Ateliers dans plusieurs conférences (LREC, TALN…) Éditeurs de logiciel, SIL International (polices de caractères, outils) Consortium Unicode (standardisation des systèmes décritures) Initiatives portant sur des groupes de langues Numéro spécial dElsnews, consacré à linformatisation des langues minoritaires dEurope SALTMIL : groupe dintérêt spécial pour les langues « minoritaires » Bureau européen pour les langues les moins répandues Réseau Mercator de recherche et dinformation sur les langues régionales et minoritaires de lUnion Européenne Intérêt des organisateurs de conférences pour ce sujet 12 articles acceptés : COLING, Papillon, PAN-Asia, Journées Montoises dInformatique Théorique, Burma Studies, Digital GMS… Un domaine de recherche dynamique

10 INTROIIIIIIIVCONC p. 10 Travaux sur des langues ou des groupes de langues-π : standardisation (éthiopien), bibliothèques audio (abkhazien, bats, laz), dictionnaire (abkhazien-géorgien) Carnegie-Mellon : traduction automatique (mapudungun, inupiaq et siona) Projets MULTEXT et dérivés : outils dannotation de corpus (catalan, occitan, suédois, bulgare, estonien, hongrois, roumain, slovène, tchèque, bambara, kikongo, et swahili) Projet DART : localisation de Mozilla (breton, irlandais, gaélique dÉcosse et gallois) Lancaster / Oxford : projet de corpus des minorités vivant au Royaume-Uni (hindi, penjabi, somali, turc, ourdou) Canada : polices de caractères (inuktitut) IXA : base de données lexicales et correcteur dorthographe (basque) MIT2 : standardisation orthographique et ROC (créole haïtien) Un domaine de recherche dynamique

11 INTROIIIIIIIVCONC p. 11 Sintégrer à des environnements génériques Réutiliser le code lorsque cest possible Recourir à Internet pour rapprocher les acteurs Recourir à la mutualisation Recycler les dictionnaires existants Quelques idées pour commencer Domaines de compétences spécifiques nécessaires : génie logiciel génie linguiciel Idées banales pour des informaticiens Cest aussi et peut-être surtout du TALN

12 INTROIIIIIIIVCONC p. 12 Première partie de la présentation Introduction I.Optimiser les coûts de développements II.Travailler avec les populations linguistiques III.Exemple de difficulté technique IV.Approche projet Conclusion et perspectives

13 INTROIIIIIIIVCONC p. 13 « Sintégrer à des environnements génériques » PARTIE GÉNÉRIQUE DU LOGICIEL PARTIE SPÉCIFIQUE DU LOGICIEL I LG/LS Logiciel pour langue-π

14 INTROIIIIIIIVCONC p. 14 LaoWord : DLL intégrée dans lenvironnement Word Temps de développement : 2500 heures << temps de développement dun traitement de textes Fonctionnalités ajoutées à Word pour le laotien Choix entre 4 dispositions de clavier courantes Saisie et changements de police indépendants de la police utilisée Tri lexicographique des tableaux Sélection du texte par syllabes entières Lexique laotien-français Transcriptions phonétiques Fonctions de mise en forme spécifiques (ligatures, réglage de hauteur) Intégration à Excel ou à PowerPoint estimée à quelques dizaines dheures Créer un traitement de texte laotien à partir de Word

15 INTROIIIIIIIVCONC p. 15 Gestion multi-polices Caractère abstrait caractère(s) réel(s) Un tableau par police de caractères « Réutiliser le code lorsque cest possible » n o Clavier Lao US Clavier Duang Jan Caractère abstrait (n) Code 110 Police Lao France Code 111 Police Laos Standard Gestion multi-claviers Code touche caractère abstrait Un tableau par répartition clavier Passer de LaoWord à BanglaWord

16 INTROIIIIIIIVCONC p. 16 La saisie de texte dans LaoWord TABLEAU LAO FRANCE TABLEAU POLICE LAO 2 Ensemble des caractères abstraits pour le laotien TABLEAU POLICE LAO 3 TABLEAU POLICE LAO 1 Saisie LaoWord DLL + HOOK (entrée)DLL + HOOK (sortie) 150 heures (générique) 100 heures (1 police) + 3 heures par police TABLEAU DUANG JAN

17 INTROIIIIIIIVCONC p. 17 Extension à la saisie du bengali en Unicode TABLEAU BANGLA BIJOY TABLEAU BANGLA UNICODE Ensemble des caractères abstraits pour le bengali Saisie BanglaWord DLL + HOOK (entrée)DLL + HOOK (sortie) 8 heures (réutilisation) 10 heures (1 police)

18 INTROIIIIIIIVCONC p. 18 Gain obtenus pour la saisie grâce à la réutilisation Coût la 1 ère fois (laotien : LaoWord) Coût les fois suivantes (bengali : BanglaWord) Gain 250 h18 h92,8 % 5 millions de locuteurs au Laos 300 millions de locuteurs au Bengladesh

19 INTROIIIIIIIVCONC p. 19 Environnements génériques + réutilisation Logiciel 2 Logiciel 3 Complément langue 2 Complément langue 3 Logiciel 1 Complément langue 1 Logiciel 4 Complément langue 4 Word Open Office Excel Power Point Laotien Bengali Khmer Birman Environnement générique Complément linguistique

20 INTROIIIIIIIVCONC p. 20 nL / nE = nombre de langues / denvironnements tL / tE = temps de développement du code linguistique / générique rL / rE = taux de réutilisation du code linguistique / générique Formule du gain de réutilisation Nb languesÉconomieÉconomie (en heures) 263,33 %7 600(4 400 au lieu de ) 572,83 %21 850(8 150 au lieu de ) 1076,00 %45 600( au lieu de ) 10078,85 % ( au lieu de ) ,14 % ( au lieu de ) Si nE =4, tL=1000 heures, tE=500 heures, rL=rE=95 % Économie = (nL*tL*rL*(nE-1)+nE*tE*rE*(nL-1)) / (nL*nE*(tL+tE))

21 INTROIIIIIIIVCONC p. 21 Deuxième partie de la présentation Introduction I.Optimiser les coûts de développements II.Travailler avec les populations linguistiques III.Exemple de difficulté technique IV.Approche projet Conclusion et perspectives

22 INTROIIIIIIIVCONC p. 22 Construction collaborative dun dictionnaire Principes Mutualisation : chacun contribue à quelques articles dans son dictionnaire personnel, et on intègre ensuite Par exemple 500 contributeurs fournissant chacun 100 mots Intégration des articles contrôlée par des linguistes Échange (ex. fourniture dune contribution contre un service) Facilitation : pour toucher plus de personnes Construction du dictionnaire sur Internet Couplage avec un service en ligne daide à la traduction Avantages Prise en charge par les populations linguistiques Connaissant leurs langues Impliquées dans linformatisation de leurs langues Évolution permanente du dictionnaire

23 INTROIIIIIIIVCONC p. 23 Mise en œuvre pour la langue laotienne (LaoLex)

24 INTROIIIIIIIVCONC p. 24 Le service daide à la traduction en ligne

25 INTROIIIIIIIVCONC p. 25 Le service daide à la traduction en ligne

26 INTROIIIIIIIVCONC p. 26 Page de saisie dune nouvelle entrée (1)

27 INTROIIIIIIIVCONC p. 27 Page de saisie dune nouvelle entrée (2) IntroductionIII IIIIVConcl.

28 INTROIIIIIIIVCONC p. 28 Révision dune entrée de dictionnaire

29 INTROIIIIIIIVCONC p. 29 Contributeurs 12 étudiants et 1 enseignant de lINALCO Quelques visiteurs Nombre darticles à ce jour Une centaine de mots dans le dictionnaire général Plusieurs centaines dans les dictionnaires personnels Temps passé : 60 jours Travail à temps partiel : 5 % du temps pendant 6 mois Pas encore de promotion sur le web Premier bilan de ce travail collaboratif

30 INTROIIIIIIIVCONC p. 30 Troisième partie de la présentation Introduction I.Réutiliser le code et le savoir-faire II.Travailler avec les populations linguistiques III.Exemple de difficulté technique IV. Approche projet Conclusion et perspectives

31 INTROIIIIIIIVCONC p. 31 Segmentation et traduction dans LaoLex Comment traduire mot à mot un texte non segmenté ? (problème commun à environ 30 systèmes décriture en Asie du Sud-Est)

32 INTROIIIIIIIVCONC p. 32 On segmente le texte en syllabes On regroupe les syllabes pour former des mots contenus dans le dictionnaire (algorithme de « plus longue chaîne dabord ») On présente le résultat (bonjour) (tout, tous) (?) (personne) Algorithmes de segmentation et de traduction

33 INTROIIIIIIIVCONC p. 33 La reconnaissance des syllabes est complexe C V C V C V Forme générale des syllabes laotiennes = C [C] [A] V [C] Formes et positions problématiques des voyelles m üa aï p l a V C C V C V müa paï la

34 INTROIIIIIIIVCONC p. 34 Le nombre des syllabes peut être contraignant Birman : Forme générale : (C ou CS) [L] V [C ou. ou X [ < ] [ ; ou : ]] Cardinaux des constituants : |C| = 33, |CS| = 20, |L| = 15, |V| = 35 Majorant : (33+20)x16x35x(34+2)x2x3 = syllabes Khmer : Forme générale : (C [CS [CS]] [D1] ou CS [CS]) V [C [CS] [D2]] ou VI ou L Cardinaux des constituants : |C| = 33, |CS| = 32, |V| = 33, |VI| = 14, |L| = 10 Majorant : (33x33x33x4+32x33)x33x(34x33x3) = syllabes Laotien : Forme générale : (C ou GC) [A] V [CF] Cardinaux des constituants : |C| = 27, |A| = 4, |GC| = 36, |V| = 38 et |CF| = 8 Majorant : (27+36)x5x38x9 = syllabes Siamois (thaï) : Forme générale : (C ou GC) [A] V [CF] Cardinaux des constituants : |C| = 44, |GC| = 140, |A| = 4, |V| = 41, |CF| = 38 Majorant : (44+140)x5x41x39 = syllabes

35 INTROIIIIIIIVCONC p. 35 Reconnaissance des syllabes : un problème dur ! Représentation par une grammaire Syllabes =CC : t + CCA : a CF + CCA : k CFO + CCA ( : y + : u + : b + : n + : 5 + : 6 ) CFO + : g CC : t + : g CCA : a CF + : g CCA CFO + : c CC : t + : c CCA : a CF + : c CCA CFO + : 3 CC : t + CCA : q CF + : 3 CCA CFO + : g CC : kt + CCA : va CF + CCA : = + CCA : v CF + : g CCA ( : y + : u ) CFO + : g CC : ap + CCA : Pa CF + : g CCA : p + CCA : P CF + : g CCA ( : bv + : nv ) CFO + CC : q;t + CCA : ;a CF + CCA : q; + CCA : ; CF + ( : w + :. ) CCA + : g CCA : qk + CCA : e ; CCA = CC + CC Acc ; CC = GC + CI ; GC = : s ( : ' + : p + : o + :, + : ] + : ^ + : ; ) + CI : ; ; CI = : d + : 0 + : 7 + : ' + : 9 + : l + : - + : p + : f + : 8 + : 4 + : m + : o + : [ + : x + : z + : / + : r + : 2 + :, + : 1 + : i + : ] + : ; + : s + : v + : I + : È + : É ; CFO = CF + {} ; CF = : d + : f + : [ + : ' + : o + :, + : p + : ; ; Acc = : j + : h + : H + : J ;

36 INTROIIIIIIIVCONC p. 36 Mise en œuvre des grammaires de syllabes Analyseur syntaxique Code C++ généré directement à partir de la grammaire des syllabes par un compilateur de grammaire hors contexte Testé sur le laotien (LaoLex, LaoWord…) Un peu lent (0,5 s pour un double-clic, Windows 95, 133 MHz) Automate détats finis Lensemble des syllabes étant fini, le langage est régulier Calcul de lautomate minimal en 3 étapes : Calcul dune expression régulière à partir de la grammaire, Calcul dun automate non déterministe à partir de lexpression régulière, Calcul de lautomate minimal à partir de lautomate non déterministe. Testé sur le laotien et sur le khmer Instantané dans tous les cas Sera intégré prochainement dans un « GMSLex » et un « GMSWord »

37 INTROIIIIIIIVCONC p. 37 Mise au point des grammaires de syllabes Sylla : Outil pour la mise au point des automates de reconnaissance de syllabes Réduit le temps de développement denviron 80 % (60 h au lieu de 300 en moyenne) Permet aux populations linguistiques de réaliser leur modèle de syllabes Utilisé pour : birman, khmer, laotien et thaï (encore 25 systèmes de ce type à faire)

38 INTROIIIIIIIVCONC p. 38 Quatrième partie de la présentation Introduction I.Réutiliser le code et le savoir-faire II.Travailler avec les populations linguistiques III.Informatiser un groupe de langue IV.Approche projet Conclusion et perspectives

39 INTROIIIIIIIVCONC p. 39 Disposer doutils pour mesurer : Le niveau dinformatisation de départ Le niveau dinformatisation obtenu Choisir de ce que lon veut informatiser : Les langues Les services Réaliser le projet Définition de larchitecture logicielle Définition de lorganigramme des tâches Informatiser un groupe de langues

40 INTROIIIIIIIVCONC p. 40 Indice-σ Mesure la satisfaction des utilisateurs de logiciels et, incidemment, le niveau dinformatisation de la langue Définitions : Langues-π : indice-σ < 10 Langues-µ : 10 < indice-σ < 14 Langues-τ : indice-σ > 14 Exemples : birman :5,46 / 20 khmer :6,14 / 20 laotien :8,68 / 20 (< 10/20 langues-π) Outil de mesure du niveau dinformatisation

41 INTROIIIIIIIVCONC p. 41 Tableau de lindice-σ pour le khmer

42 INTROIIIIIIIVCONC p. 42 Classes de servicesCriticités (*) A Traitement de textes, services de base (saisie, affichage, impression, recherche, sélection, tri) 16 B Traitement de textes, services avancé (correcteurs dorthographe, de grammaire, de style) 6 CSynthèse et reconnaissance de la parole8 DTraduction automatisée14 EReconnaissance optique de caractères16 FDictionnaires bilingues et dusage15 (*) : Moyennes des valeurs constatées sur trois langues (birman, khmer et laotien) Quels services informatiser ?

43 INTROIIIIIIIVCONC p. 43 Critères de choix des langues : Nombre de locuteurs, Caractère officiel ou national de la langue, Caractère central de la langue, Intérêt des populations pour des moyens informatiques dans leur langue, Motivation des bailleurs pour l'informatisation d'une langue, Niveau d'informatisation de la langue (indice-σ), Existence dune grammaire et dun dictionnaire, Existence d'une langue proche bien informatisée, Présence dun bilinguisme permettant de faciliter la communication. Pour quelles langues ?

44 INTROIIIIIIIVCONC p. 44 Pour quelles langues ? Exemple : Famille nigéro-congolaise, Nombre de locuteurs > , Indice-σ < 7, Langue officielle ou nationale, Existence dun dictionnaire papier.

45 INTROIIIIIIIVCONC p. 45 Architecture et organisation en tâches COMPLÉMENT LINGUISTIQUE GÉNÉRIQUE I G/L OUTILS LINGUICIELS COMPLÉMENT GÉNÉRAL COMPLÉMENT LINGUISTIQUE SPÉCIFIQUE I LG/LS GÉNÉRATION PLATE-FORME D'ACCUEIL POUR DES COMPLÉMENTS LINGUISTIQUES Grands éditeurs de logiciels Logiciels pour langues-τ Grands éditeurs de logiciels Compléments pour présenter une interface standard Groupes de développement Faible diversité Populations linguistiques Grande diversité LOGICIEL DE BASE COMPLÉMENT POUR LANGUE- π

46 INTROIIIIIIIVCONC p. 46 Informatisation dun groupe de langues NU=Nations Unies (exemple), PL=Populations Linguistiques EL=Éditeurs de Logiciels, GD=Groupes de Développement Groupe de travail sur le recensement de la situation (intérêt des populations, état d'informatisation, langues proches bien informatisées...) et des besoins en compléments et outils (travail par groupes de langues, en particulier pour les compléments linguistiques génériques). Objectif : Rédaction de spécifications techniques utilisables par des informaticiens pour les compléments et les outils. Publication du planning général incluant les étapes avec la liste des langues retenues pour chacune delles. Groupes de travail pour les langues insuffisamment décrites. Objectif : Création de groupes de linguistes et réalisation de dictionnaires et de grammaires pour des étapes ultérieures. Groupe de travail sur la complétion du standard Unicode, des polices de caractères, et des classes d'édition de texte. Objectif : Régler définitivement les problèmes de saisie, d'affichage et d'impression et obtenir des logiciels de base intégrant tous les systèmes d'écriture existants. Diffusion des spécifications des compléments linguistiques génériques et des outils pour linguistes. Appel d'offres pour leur réalisation. Invitation des universités et instituts de langues à répondre en consortiums en fonction de leurs compétences. Objectif : Développement des compléments linguistiques génériques et des outils pour linguistes. Diffusion des spécifications des compléments généraux. Objectif : Intégration de linterface I G/L aux logiciels de base. Diffusion des outils linguiciels et lancement des projets de réalisation des compléments linguistiques spécifiques et des ressources linguistiques. Accompagnement des projets de compléments linguistiques spécifiques (participation des différents acteurs intéressés : projets multilingues...). Objectif : Développement des compléments linguistiques spécifiques.

47 INTROIIIIIIIVCONC p. 47 Conclusion et perspectives Introduction I.Langues mal dotées informatiquement II.Réutiliser le code et le savoir-faire III.Informatiser un groupe de langue IV.Approche projet Conclusion et perspectives

48 INTROIIIIIIIVCONC p. 48 Apports de la thèse Une méthode pour mesurer le niveau dinformatisation Indice de criticité et note par service dinformatisation Définition des langues peu, moyennement et très bien dotées Une méthodologie de développement Architecture en modules réutilisables Utilisation des environnements génériques pour langues- τ Recours à Internet Distribution OpenSource (LaoUniKey) Implication des populations linguistiques avec réalisation doutils adaptés (Sylla, LaoLex) Sites web collaboratifs Première analyse de la question de la motivation des populations linguistiques à contribuer à linformatisation de leurs langues π μτ 200

49 INTROIIIIIIIVCONC p. 49 Apports de la thèse Étude en largeur et en profondeur des problèmes dinformatisation Contexte sociopolitique, projets existants Annexes voulues complètes pour servir de point dentrée pour des recherches ultérieures Contribution à linformatisation de quelques langues Le laotien : traitement de textes complet, aide à la traduction, dictionnaire Le birman, le khmer et le siamois (thaï) : modèles syllabiques Le bengali : saisie Unicode Mise en évidence quil sagit dun problème de TALN, et donc dinformatique

50 INTROIIIIIIIVCONC p. 50 Perspectives personnelles Généraliser les fonctionnalités obtenues à la trentaine de systèmes décriture sous-informatisés dAsie du Sud-Est

51 INTROIIIIIIIVCONC p. 51 Participer activement aux projets dinformatisation de lUnion Européenne et des Nations Unies Appliquer les méthodes présentées à la traduction automatique du laotien Adaptation directe de la maquette Ariane anglais-thaï (générique) Appui sur UNL (générique) + maquette anglais-thaï (réutilisation) Évaluation des grammaires statiques de B. Vauquois (outils) Évaluation de méthodes dapprentissage utilisant un corpus UNL Poursuivre une recherche de fond sur les méthodes Élaboration doutils linguiciels Réduction des temps de développements Perspectives personnelles

52 18 mai 2004p. 52


Télécharger ppt "18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université"

Présentations similaires


Annonces Google