GETA, laboratoire CLIPS, IMAG Université Joseph Fourier

Slides:



Advertisements
Présentations similaires
Association européenne pour l’élaboration de tests et l’évaluation en langues
Advertisements

Société pour lEducation, la Formation et la Recherche Interculturelles.
Conférence « Compétences Informatiques » 10 avril 2006
Panorama réglementaire Textes internationaux
Partenariat entre les secteurs public, privé et la société civile
La démocratie locale participative
ATELIER DE CONCERTATION DES POINTS FOCAUX SUR LES SYNERGIES ENTRE LES CONVENTIONS ISSUES DE RIO BURKINA FASO Marrakech - 27 au 31 janvier 2003.
1 TCHAD ATELIER PARIS21 SUR LUTILISATION DES STATISTIQUES DANS LES POLITIQUES DE LUTTE CONTRE LA PAUVRETE ET DE DEVELOPPEMENT Yaoundé 09-11/12/02 Producteurs.
.EU EST-IL EUROPÉEN .EU EST-IL EUROPÉEN ?.
Christoph Pelzer Culture Direction Générale du
Echanges de Données Informatisées LABOratoires-commanditaires 4. De la réflexion à la mise en œuvre du projet Programme de formation 2007.
1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III.
REPUBLIQUE DU NIGER MINISTERE DE LECONOMIE ET DES FINANCES SYSTEME DE GESTION DES FINANCES PUBLIQUES Dakar, décembre Introduction 2 – Historique.
Renforcement des industries créatives dans 5 pays ACP pilotes Bureau international du travail (BIT) Genève Conférence des Nations Unies sur le commerce.
PARECC « METHODES ET TECHNIQUES DE MONTAGE DE DOSSIERS DE FINANCEMENT DES PROJETS ET PROGRAMMES DE DEVELOPPEMENT ET D’ACCCES DES COLLECTIVITES LOCALES.
ÉTAT DES LIEUX AU LIBAN PATRIMOINE VIVANT MÉDITERRANÉEN (MEDLIHER)
TIC et enseignement supérieur: les acquis du SMSI, les défis de la mise en oeuvre. Jean-Michel HUBERT.
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
Girard Pia & Laffont Caroline
Par Aline Mahot et Charlyne Routier
Dématérialisation des échanges entre les commanditaires et les laboratoires Etude de faisabilité Table ronde EDI laboratoires 17 septembre 2002.
1 Article 1 – Loi du 9 janvier 1978 « Linformatique doit être au service de chaque citoyen « « Elle ne doit porter atteinte ni à lidentité de lhomme, ni.
Interopérabilité des logiciels du circuit hospitalier du médicament, enfin ! Pour une démarche de normalisation opérationnelle. O. Boux CHU Strasbourg.
Avis de lAQIISTI sur la formation infirmière en systèmes et technologies de linformation: composante essentielle au développement de la pratique infirmière.
Expertise et formation du lméca ESIA / Université de Savoie
MASTER 2 PRO CILA : COMMERCE INTERNATIONAL ET LANGUES APPLIQUÉES
Organisation du système d’information comptable et de gestion
Introduction à la Décentralisation Atelier dinitiation de lAssemblée régionale de Mopti.
29e CONFÉRENCE INTERNATIONALE DES COMMISSAIRES À LA PROTECTION DES DONNÉES ET DE LA VIE PRIVÉE 29 th INTERNATIONAL CONFERENCE OF DATA PROTECTION AND PRIVACY.
Charte africaine des droits de lhomme Defense Institute of International Legal Studies Regional Defense Combating Terrorism Fellowship Program.
Les défenseurs des Droits de lHomme A un sens plus compréhensible possible, le Défenseur des Droits de lhomme est toute personne ou groupe de personnes.
Des ressources pour l'enseignement en langue des signes aux élèves sourds Patrice DALLE • IRIT-UPS (Toulouse 3) •
La composante humaine du système d'information (Réfs : chap 8.1 p 231)
Karin Lundgren-Cayrol
Présentation du port de Bejaia
1 forbidden to use without authorization of the author Bruxelles, le 28 nov Marc MORSA Direction générale Appui Stratégique 100eme Session de la.
Tous les mercredis du 3 octobre au 19 décembre 2012
Les Produits de Qualité Liée à lOrigine et aux Traditions en Méditerrannée Quality Food Products Linked to Geographical Origin and Traditions in the Mediterranean.
La recherche internationale sur les conditions critiques démergence dune langue en situation minoritaire par Linda Cardinal, Université dOttawa.
Universté de la Manouba
Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
D.Delaunay-Verneuil - Technologies et handicap dans un centre de documentation (2008)1 CRÉATION DUN PÔLE DEXPERTISE « TECHNOLOGIES ET HANDICAP » DANS UN.
Fondé à Strasbourg en 1949 La plus ancienne organisation européenne et, géographiquement, la plus étendue (47 Etats membres) Coopération intergouvernementale.
Présenté par: MOUBEYI SIKA Claude Boris Encadré par: M. ZERRAD.
6èmes Conférences Scientifiques sous-régionales du REMAO Parakou, le 06 août 2004 L’initiative « Faire Reculer le Paludisme » : les défis Roch A. HOUNGNIHIN,
La Charte africaine sur les droits de l’homme et des peuples
Instance Permanente des NU pour les questions Autochtones Présenté Par Hassan Id BALKASSM Congrès Mondial des Peuples Autochtones Francophones Agadir 2-6.
U.F.R des Langues vivantes La licence « Langues & Interculturalité »
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Médiation interculturelle pour les communautés roms
Pistes de réflexion sur la mise en place de partenariats inter-universitaires Les défis La définition des objectifs Les obstacles à surmonter Les facteurs.
Département fédéral de l’intérieur DFI Office fédéral de la statistique OFS Rapport sur le développement durable 2012 – Le système d’indicateurs MONET.
Direction de la normalisation terminologique (DNT) Mai 2010 La terminologie : une passion, des métiers !
Human Knowledge La nouvelle génération de moteurs sémantiques.
 L’informatique ne cesse de se développer. Elle est devenue une science à part entière, fondamentale et appliquée.  En effet, elle intervient de plus.
Jacques MOISAN Groupe des Mathématiques COLLOQUE E-PREP 6 mai 2002 LE CONTEXTE LA MISE EN ŒUVRE PRÉCONISATIONS L’AVENIR L’ÉQUIPEMENT LES PRATIQUES L’ACTION.
1 L’Internet au service des PME Paris (France), 8-9 février 1999 Atelier de Travail 1 Comment inciter les PME à utiliser les services offerts par Internet.
INTÉGRATION LANGUE – MATIÈRE À L’ULG État des lieux et pistes de réflexion Véronique Doppagne Institut Supérieur des Langues Vivantes CDS, “Enseigner l’anglais.
Directeur du GRSP du Centre Directeur de la DRASS du Centre
5 domaines spécifiques au C2I Niveau 1
Bibliothèque(s) Virtuelle(s) Expériences en Provence-Alpes-Côte d’Azur Stéphane Ipert Directeur du Centre de Conservation du Livre, Arles.
Le Traitement Automatique des Langues (TAL)
LES ENSEIGNEMENTS GENERAUX LIES A LA SPECIALITE Les ateliers rédactionnels JOURNÉE DU 16/05/
La délocalisation en Europe de l’Est
Société de l’information et régions Politique régionale 1 Les stratégies régionales pour la société de l ’information Jean-Bernard Benhaiem,
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
ENSEIGNER LA GRAMMAIRE DANS UNE PERSPECTIVE COMMUNICATIVE OU ACTIONNELLE Zagreb - décembre 2015 Français sur objectifs spécifiques Français sur objectifs.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
Le GDS EcoInfo Présentation des offres de service du GDS Réunion Admin06 du 20/09/2012 Eric Drezet.
Transcription de la présentation:

GETA, laboratoire CLIPS, IMAG Université Joseph Fourier Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université Joseph Fourier 18 mai 2004

Données personnelles Avant la thèse (1992-2000) : Thèse (2001-2004) : Ingénieur dans le secteur privé depuis 1988 Avant la thèse (1992-2000) : Étude de la langue laotienne puis de ses problèmes d’informatisation, de 1992 à 1998 Acteur de l’informatisation du laotien depuis 1998 Traitements de textes, claviers virtuels, polices… Thèse (2001-2004) : Prise de recul par rapport à cette expérience Élaboration de méthodes générales pour l’informatisation Mise en œuvre

Plan de la présentation Introduction I. Réduire les coûts de développements II. Travailler avec les populations linguistiques III. Exemple de difficulté technique IV. Approche projet Conclusion et perspectives

Quelques ordres de grandeur

Langues bien et mal dotées informatiquement Langues Très bien dotées informatiquement Quelques dizaines de langues-τ Allemand, anglais, français, japonais, russe… Informatisation rentable => éditeurs de logiciels Apple, IBM, Microsoft, Xerox… 6809 langues Langues Peu ou Moyennement dotées Plus de 6000 langues-π et µ Informatisation pas ou peu rentable => autres Groupes de locuteurs créés spontanément Projets de développement…

Quelles sont les difficultés ? Besoin de développer des logiciels et des ressources En informatique multilingue Au niveau des systèmes d’exploitation Encodage des caractères Méthodes de saisie Affichage Au niveau des interfaces de programmation Éditeurs de texte Tri lexicographique En traitement automatique des langues naturelles Au niveau applicatif Traduction automatisée Reconnaissance optique des caractères Gestion de dictionnaires Au niveau des ressources Dictionnaires d’usage et dictionnaires bilingues

C’est avant tout un problème d’informatique Quelles sont les difficultés ? Contexte souvent peu propice Ressources limitées Manque de moyens Manque de formation Difficultés dues à la langue Langue peu décrite (dictionnaire, grammaire) Langue à orthographe non stabilisée Langue de tradition orale Politiques d’assimilation des minorités ethniques Manque de motivation des populations Faible pénétration de l’informatique Approche le plus souvent inadéquate Sociopolitique (réunions, rapports, peu de technique) Économique (limité à de l’équipement) C’est avant tout un problème d’informatique

Un large mouvement pour la protection des langues ONU/UNESCO : préservation du patrimoine linguistique Déclaration du Millénaire (2000) Déclaration universelle sur la diversité culturelle (2001) Recommandation concernant la promotion et l’usage du multilinguisme et l’accès universel au cyberespace (2003) Union Européenne : protection des minorités linguistiques de l’Union Résolution Arfé (1981) Résolution Kuijpers (1987) Charte des langues régionales ou minoritaires (adoption 1992, entrée en vigueur 1998)

Un domaine de recherche dynamique Travaux généraux sur l’informatisation des langues « minoritaires » Ateliers dans plusieurs conférences (LREC, TALN…) Éditeurs de logiciel, SIL International (polices de caractères, outils) Consortium Unicode (standardisation des systèmes d’écritures) Initiatives portant sur des groupes de langues Numéro spécial d’Elsnews , consacré à l’informatisation des langues minoritaires d’Europe SALTMIL : groupe d’intérêt spécial pour les langues « minoritaires » Bureau européen pour les langues les moins répandues Réseau Mercator de recherche et d’information sur les langues régionales et minoritaires de l’Union Européenne Intérêt des organisateurs de conférences pour ce sujet 12 articles acceptés : COLING, Papillon, PAN-Asia, Journées Montoises d’Informatique Théorique, Burma Studies, Digital GMS…

Un domaine de recherche dynamique Travaux sur des langues ou des groupes de langues-π InitiativeB@bel : standardisation (éthiopien), bibliothèques audio (abkhazien, bats, laz), dictionnaire (abkhazien-géorgien) Carnegie-Mellon : traduction automatique (mapudungun, inupiaq et siona) Projets MULTEXT et dérivés : outils d’annotation de corpus (catalan, occitan, suédois, bulgare, estonien, hongrois, roumain, slovène, tchèque, bambara, kikongo, et swahili) Projet DART : localisation de Mozilla (breton, irlandais, gaélique d’Écosse et gallois) Lancaster / Oxford : projet de corpus des minorités vivant au Royaume-Uni (hindi, penjabi, somali, turc, ourdou) Canada : polices de caractères (inuktitut) IXA : base de données lexicales et correcteur d’orthographe (basque) MIT2 : standardisation orthographique et ROC (créole haïtien)

Quelques idées pour commencer S’intégrer à des environnements génériques Réutiliser le code lorsque c’est possible Recourir à Internet pour rapprocher les acteurs Recourir à la mutualisation Recycler les dictionnaires existants Idées banales pour des informaticiens Domaines de compétences spécifiques nécessaires : génie logiciel génie linguiciel C’est aussi et peut-être surtout du TALN

Première partie de la présentation Introduction I. Optimiser les coûts de développements II. Travailler avec les populations linguistiques III. Exemple de difficulté technique IV. Approche projet Conclusion et perspectives

Logiciel pour langue-π « S’intégrer à des environnements génériques » PARTIE GÉNÉRIQUE DU LOGICIEL PARTIE SPÉCIFIQUE ILG/LS Logiciel pour langue-π

Créer un traitement de texte laotien à partir de Word LaoWord : DLL intégrée dans l’environnement Word Temps de développement : 2500 heures << temps de développement d’un traitement de textes Fonctionnalités ajoutées à Word pour le laotien Choix entre 4 dispositions de clavier courantes Saisie et changements de police indépendants de la police utilisée Tri lexicographique des tableaux Sélection du texte par syllabes entières Lexique laotien-français Transcriptions phonétiques Fonctions de mise en forme spécifiques (ligatures, réglage de hauteur) Intégration à Excel ou à PowerPoint estimée à quelques dizaines d’heures

Caractère abstrait (‘n’) « Réutiliser le code lorsque c’est possible » Passer de LaoWord à BanglaWord Gestion multi-claviers Code touche → caractère abstrait Un tableau par répartition clavier Gestion multi-polices Caractère abstrait → caractère(s) réel(s) Un tableau par police de caractères n ນ Code 110 Police Lao France Clavier Lao US ນ o ນ Caractère abstrait (‘n’) Code 111 Police Laos Standard Clavier Duang Jan

Ensemble des caractères abstraits pour le laotien La saisie de texte dans LaoWord 150 heures (générique) DLL + HOOK (entrée) DLL + HOOK (sortie) TABLEAU LAO FRANCE TABLEAU DUANG JAN TABLEAU POLICE LAO 1 TABLEAU POLICE LAO 2 TABLEAU POLICE LAO 3 Ensemble des caractères abstraits pour le laotien Saisie LaoWord 100 heures (1 police) + ≈ 3 heures par police

Ensemble des caractères abstraits pour le bengali Extension à la saisie du bengali en Unicode 8 heures (réutilisation) DLL + HOOK (entrée) DLL + HOOK (sortie) TABLEAU BANGLA BIJOY TABLEAU BANGLA UNICODE Ensemble des caractères abstraits pour le bengali Saisie BanglaWord 10 heures (1 police)

Gain obtenus pour la saisie grâce à la réutilisation Coût la 1ère fois (laotien : LaoWord) Coût les fois suivantes (bengali : BanglaWord) Gain 250 h 18 h 92,8 % 5 millions de locuteurs au Laos 300 millions de locuteurs au Bengladesh

Environnements génériques + réutilisation Logiciel 1 Complément langue 1 Word Laotien Logiciel 2 Complément langue 2 Open Office Bengali Logiciel 3 Complément langue 3 Excel Khmer Logiciel 4 Complément langue 4 Power Point Birman Environnement générique Complément linguistique

Économie = (nL*tL*rL*(nE-1)+nE*tE*rE*(nL-1)) / (nL*nE*(tL+tE)) Formule du gain de réutilisation Économie = (nL*tL*rL*(nE-1)+nE*tE*rE*(nL-1)) / (nL*nE*(tL+tE)) nL / nE = nombre de langues / d’environnements tL / tE = temps de développement du code linguistique / générique rL / rE = taux de réutilisation du code linguistique / générique Si nE=4, tL=1000 heures, tE=500 heures, rL=rE=95 % Nb langues Économie Économie (en heures) 2 63,33 % 7 600 (4 400 au lieu de 12 000) 5 72,83 % 21 850 (8 150 au lieu de 30 000) 10 76,00 % 45 600 (14 400 au lieu de 60 000) 100 78,85 % 473 100 (126 900 au lieu de 600 000) 1000 79,14 % 4 748 100 (1 251 900 au lieu de 6 000 000)

Deuxième partie de la présentation Introduction I. Optimiser les coûts de développements II. Travailler avec les populations linguistiques III. Exemple de difficulté technique IV. Approche projet Conclusion et perspectives

Construction collaborative d’un dictionnaire Principes Mutualisation : chacun contribue à quelques articles dans son dictionnaire personnel, et on intègre ensuite Par exemple 500 contributeurs fournissant chacun 100 mots Intégration des articles contrôlée par des linguistes Échange (ex. fourniture d’une contribution contre un service) Facilitation : pour toucher plus de personnes Construction du dictionnaire sur Internet Couplage avec un service en ligne d’aide à la traduction Avantages Prise en charge par les populations linguistiques Connaissant leurs langues Impliquées dans l’informatisation de leurs langues Évolution permanente du dictionnaire

Mise en œuvre pour la langue laotienne (LaoLex)

Le service d’aide à la traduction en ligne

Le service d’aide à la traduction en ligne

Page de saisie d’une nouvelle entrée (1)

Page de saisie d’une nouvelle entrée (2) Introduction I II III IV Concl.

Révision d’une entrée de dictionnaire

Premier bilan de ce travail collaboratif Contributeurs 12 étudiants et 1 enseignant de l’INALCO Quelques visiteurs Nombre d’articles à ce jour Une centaine de mots dans le dictionnaire général Plusieurs centaines dans les dictionnaires personnels Temps passé : ≈ 60 jours Travail à temps partiel : ≈ 5 % du temps pendant ≈ 6 mois Pas encore de promotion sur le web

Troisième partie de la présentation Introduction I. Réutiliser le code et le savoir-faire II. Travailler avec les populations linguistiques III. Exemple de difficulté technique IV. Approche projet Conclusion et perspectives

Comment traduire mot à mot un texte non segmenté ? Segmentation et traduction dans LaoLex Comment traduire mot à mot un texte non segmenté ? (problème commun à environ 30 systèmes d’écriture en Asie du Sud-Est)

Algorithmes de segmentation et de traduction On segmente le texte en syllabes ສະບາຍດີທຸກໆທ່ານ → ສະ-ບາຍ-ດີ-ທຸກ-ໆ-ທ່ານ On regroupe les syllabes pour former des mots contenus dans le dictionnaire (algorithme de « plus longue chaîne d’abord ») ສະ-ບາຍ-ດີ-ທຸກ-ໆ-ທ່ານ → ສະບາຍດີ-ທຸກ-ໆ-ທ່ານ On présente le résultat ສະບາຍດີ (bonjour) ທຸກ (tout, tous) ໆ (?) ທ່ານ (personne)

ລາ ໄປ ເມືອ ລ + າ ໄ + ປ ມ + ເ ືອ C V V C C V C V C V C V La reconnaissance des syllabes est complexe Forme générale des syllabes laotiennes = C [C] [A] V [C] Formes et positions problématiques des voyelles ລາ ໄປ ເມືອ ລ + າ ໄ + ປ ມ + ເ ືອ l a aï p m üa C V V C C V C V C V C V la paï müa

Le nombre des syllabes peut être contraignant Birman : Forme générale : (C ou CS) [L] V [C ou ◌. ou ◌X [ ◌< ] [ ◌; ou :]] Cardinaux des constituants : |C| = 33, |CS| = 20, |L| = 15, |V| = 35 Majorant : (33+20)x16x35x(34+2)x2x3 = 6 410 880 syllabes Khmer : Forme générale : (C [CS [CS]] [D1] ou CS [CS]) V [C [CS] [D2]] ou VI ou L Cardinaux des constituants : |C| = 33, |CS| = 32, |V| = 33, |VI| = 14, |L| = 10 Majorant : (33x33x33x4+32x33)x33x(34x33x3)+14+10 = 16 084 538 736 syllabes Laotien : Forme générale : (C ou GC) [A] V [CF] Cardinaux des constituants : |C| = 27, |A| = 4, |GC| = 36, |V| = 38 et |CF| = 8 Majorant : (27+36)x5x38x9 = 95 760 syllabes Siamois (thaï) : Cardinaux des constituants : |C| = 44, |GC| = 140, |A| = 4, |V| = 41, |CF| = 38 Majorant : (44+140)x5x41x39 = 1 471 080 syllabes

Représentation par une grammaire Reconnaissance des syllabes : un problème dur ! Syllabes = CC :t + CCA :   a CF + CCA :k CFO + CCA ( :   y + :   u + :   b + :   n + :   5 + :   6 ) CFO + :g CC :t + :g CCA :   a CF + :g CCA CFO + :c CC :t + :c CCA :   a CF + :c CCA CFO + :3 CC :t + CCA :   q CF + :3 CCA CFO + :g CC :kt + CCA :va CF + CCA : = + CCA :v CF + :g CCA ( :   y + :    u ) CFO + :g CC : ap + CCA :Pa CF + :g CCA :p + CCA :P CF + :g CCA ( :   bv + :   nv ) CFO + CC : q;t + CCA :;a CF + CCA : q; + CCA :; CF + ( :w + :. ) CCA + :g CCA : qk + CCA : e ; CCA = CC + CC Acc ; CC = GC + CI ; GC = :s ( :' + :p + :o + :, + :] + : ^ + :; ) + CI :; ; CI = :d + :0 + :7 + : ' + :9 + :l + :- + :p + :f + :8 + :4 + :m + :o + :[ + :x + :z + :/ + :r + :2 + :, + :1 + :i + :] + :; + :s + :v + :I + :È + :É ; CFO = CF + {} ; CF = :d + :f + :[ + : ' + :o + :, + :p + :; ; Acc = :  j + :   h + :   H + :   J ; Représentation par une grammaire

Mise en œuvre des grammaires de syllabes Analyseur syntaxique Code C++ généré directement à partir de la grammaire des syllabes par un compilateur de grammaire hors contexte Testé sur le laotien (LaoLex, LaoWord…) Un peu lent (0,5 s pour un double-clic, Windows 95, 133 MHz) Automate d’états finis L’ensemble des syllabes étant fini, le langage est régulier Calcul de l’automate minimal en 3 étapes : Calcul d’une expression régulière à partir de la grammaire, Calcul d’un automate non déterministe à partir de l’expression régulière, Calcul de l’automate minimal à partir de l’automate non déterministe. Testé sur le laotien et sur le khmer Instantané dans tous les cas Sera intégré prochainement dans un « GMSLex » et un « GMSWord »

Mise au point des grammaires de syllabes Sylla : Outil pour la mise au point des automates de reconnaissance de syllabes Réduit le temps de développement d’environ 80 % (60 h au lieu de 300 en moyenne) Permet aux populations linguistiques de réaliser leur modèle de syllabes Utilisé pour : birman, khmer, laotien et thaï (encore 25 systèmes de ce type à faire)

Quatrième partie de la présentation Introduction I. Réutiliser le code et le savoir-faire II. Travailler avec les populations linguistiques III. Informatiser un groupe de langue IV. Approche projet Conclusion et perspectives

Informatiser un groupe de langues Disposer d’outils pour mesurer : Le niveau d’informatisation de départ Le niveau d’informatisation obtenu Choisir de ce que l’on veut informatiser : Les langues Les services Réaliser le projet Définition de l’architecture logicielle Définition de l’organigramme des tâches

Outil de mesure du niveau d’informatisation Indice-σ Mesure la satisfaction des utilisateurs de logiciels et, incidemment, le niveau d’informatisation de la langue Définitions : Langues-π : indice-σ < 10 Langues-µ : 10 < indice-σ < 14 Langues-τ : indice-σ > 14 Exemples : birman : 5,46 / 20 khmer : 6,14 / 20 laotien : 8,68 / 20 (< 10/20  langues-π)

Tableau de l’indice-σ pour le khmer

Quels services informatiser ? Classes de services Criticités (*) A Traitement de textes, services de base (saisie, affichage, impression, recherche, sélection, tri) 16 B Traitement de textes, services avancé (correcteurs d’orthographe, de grammaire, de style) 6 C Synthèse et reconnaissance de la parole 8 D Traduction automatisée 14 E Reconnaissance optique de caractères F Dictionnaires bilingues et d’usage 15 (*) : Moyennes des valeurs constatées sur trois langues (birman, khmer et laotien)

Critères de choix des langues : Pour quelles langues ? Critères de choix des langues : Nombre de locuteurs, Caractère officiel ou national de la langue, Caractère central de la langue, Intérêt des populations pour des moyens informatiques dans leur langue, Motivation des bailleurs pour l'informatisation d'une langue, Niveau d'informatisation de la langue (indice-σ), Existence d’une grammaire et d’un dictionnaire, Existence d'une langue proche bien informatisée, Présence d’un bilinguisme permettant de faciliter la communication.

Pour quelles langues ? Exemple : Famille nigéro-congolaise, Nombre de locuteurs > 500 000, Indice-σ < 7, Langue officielle ou nationale, Existence d’un dictionnaire papier.

Architecture et organisation en tâches Grands éditeurs de logiciels Logiciels pour langues-τ PLATE-FORME D'ACCUEIL POUR DES COMPLÉMENTS LINGUISTIQUES LOGICIEL DE BASE Grands éditeurs de logiciels Compléments pour présenter une interface standard COMPLÉMENT GÉNÉRAL IG/L Groupes de développement Faible diversité COMPLÉMENT LINGUISTIQUE GÉNÉRIQUE ILG/LS GÉNÉRATION COMPLÉMENT LINGUISTIQUE SPÉCIFIQUE OUTILS LINGUICIELS COMPLÉMENT POUR LANGUE-π Populations linguistiques Grande diversité

Informatisation d’un groupe de langues Groupe de travail sur le recensement de la situation (intérêt des populations, état d'informatisation, langues proches bien informatisées...) et des besoins en compléments et outils (travail par groupes de langues, en particulier pour les compléments linguistiques génériques). Objectif : Rédaction de spécifications techniques utilisables par des informaticiens pour les compléments et les outils. Publication du planning général incluant les étapes avec la liste des langues retenues pour chacune d’elles. Cent langues, six ans T0 - 1 T0+1 T0+2 T0+3 T0+4 T0+5 T0+6 Travaux amont Préparation du projet NU Développement d’un site web et des moyens de communication Travaux généraux, recensement, spécifications Travaux avec Unicode et les éditeurs de logiciel GROUPE 1 Recensement de la situation linguistique et choix des langues GROUPE 2 Recensement du besoin en compléments et outils Spécification des compléments et outils Travaux pour les langues insuffisamment décrites PL Traitement du texte Développement des compléments généraux EL Développement des compléments linguistiques génériques GD Développement d’outils pour linguistes Développement des compléments linguistiques spécifiques Aides à la traduction Construction des ressources linguistiques Ressources linguistiques Groupe de travail sur la complétion du standard Unicode, des polices de caractères, et des classes d'édition de texte. Objectif : Régler définitivement les problèmes de saisie, d'affichage et d'impression et obtenir des logiciels de base intégrant tous les systèmes d'écriture existants. Diffusion des spécifications des compléments linguistiques génériques et des outils pour linguistes. Appel d'offres pour leur réalisation. Invitation des universités et instituts de langues à répondre en consortiums en fonction de leurs compétences. Objectif : Développement des compléments linguistiques génériques et des outils pour linguistes. Groupes de travail pour les langues insuffisamment décrites. Objectif : Création de groupes de linguistes et réalisation de dictionnaires et de grammaires pour des étapes ultérieures. Diffusion des outils linguiciels et lancement des projets de réalisation des compléments linguistiques spécifiques et des ressources linguistiques. Accompagnement des projets de compléments linguistiques spécifiques (participation des différents acteurs intéressés : projets multilingues...). Objectif : Développement des compléments linguistiques spécifiques. Diffusion des spécifications des compléments généraux. Objectif : Intégration de l’interface IG/L aux logiciels de base. NU=Nations Unies (exemple), PL=Populations Linguistiques EL=Éditeurs de Logiciels, GD=Groupes de Développement

Conclusion et perspectives Introduction I. Langues mal dotées informatiquement II. Réutiliser le code et le savoir-faire III. Informatiser un groupe de langue IV. Approche projet Conclusion et perspectives

Apports de la thèse Une méthode pour mesurer le niveau d’informatisation Indice de criticité et note par service d’informatisation Définition des langues peu, moyennement et très bien dotées Une méthodologie de développement Architecture en modules réutilisables Utilisation des environnements génériques pour langues-τ Recours à Internet Distribution OpenSource (LaoUniKey) Implication des populations linguistiques avec réalisation d’outils adaptés (Sylla, LaoLex) Sites web collaboratifs Première analyse de la question de la motivation des populations linguistiques à contribuer à l’informatisation de leurs langues 10 14 π μ τ 20

Apports de la thèse Étude en largeur et en profondeur des problèmes d’informatisation Contexte sociopolitique, projets existants Annexes voulues complètes pour servir de point d’entrée pour des recherches ultérieures Contribution à l’informatisation de quelques langues Le laotien : traitement de textes complet, aide à la traduction, dictionnaire Le birman, le khmer et le siamois (thaï) : modèles syllabiques Le bengali : saisie Unicode Mise en évidence qu’il s’agit d’un problème de TALN, et donc d’informatique

Perspectives personnelles Généraliser les fonctionnalités obtenues à la trentaine de systèmes d’écriture sous-informatisés d’Asie du Sud-Est

Perspectives personnelles Participer activement aux projets d’informatisation de l’Union Européenne et des Nations Unies Appliquer les méthodes présentées à la traduction automatique du laotien Adaptation directe de la maquette Ariane anglais-thaï (générique) Appui sur UNL (générique) + maquette anglais-thaï (réutilisation) Évaluation des grammaires statiques de B. Vauquois (outils) Évaluation de méthodes d’apprentissage utilisant un corpus UNL Poursuivre une recherche de fond sur les méthodes Élaboration d’outils linguiciels Réduction des temps de développements

18 mai 2004