L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie: une voie d’optimisation de ressources 1
1. Situation et caracteristiques de la langue Euskara 2. UZEI centre de terminologie Euskalterm 3. Les outils et ressources de base Lemmatisateur, IDITE,… 4. Elaboration d’un dictionnaire Example 5. Futur Ressources en collaboration 2
Euskara Biscaye Gipuzkoa Araba Álava Labourd Soule Basse Navarre Sous-ministère de la Politique linguistique. Ministère de la Culture. Gouvernement Basque © Situation et caracteristiques de la langue
Euskara La langue basque a 15 cas de base et 22 variantes. Par rapport à l'espagnol, par exemple, un nom en espagnol a 2 variables, et en basque, 275. Dans un adjectif en espagnol vous pouvez avoir 4 variables et en basque 825. La langue basque ne fait pas de distinction entre les sexes. Actuellement, en processus de normalisation 4 1. Situation et caracteristiques de la langue
UZEI -UZEI, est une organisation à but non lucratif créée en 1977 standardisationmodernisation LexicographieTerminologie Les technologies de la langue Localisation et traduction 5 2. UZEI centre de terminologie
Standardisation Modernisation UZEI 6 2. UZEI centre de terminologie
La banque publique de termes 7 2. UZEI centre de terminologie
Outils de base 8 Lemmatisateur: application informatique analysant les formes d’un texte à partir de l’information d’un dictionnaire. La base de l’application est la morphologie à deux niveaux, Le dictionnaire est une base de données du lexique (euLEX) qui a environ entrées. 3. Les outils et ressources de base
Outils pour la désambiguïsation analyseur morphologique EUROVOC grammaire texte désambiguisation statistique HMM désambiguïsation par des règles MG SFST compilateur automates compilés morphotactiquerègles linguistiques es texte analysé et désambiguïsé 9 Lemmatisateur euLEX 3. Les outils et ressources de base
10 euLEX: base de données lexicales euLEX 3. Les outils et ressources de base
11 Analyse morphologique
12 Correcteur du lexique de l’euskera IDITE L'Académie de la langue basque utilise cet outil pour garantir le respect de ses propres règles d'utilisation 3. Les outils et ressources de base
13 3. Les outils et ressources de base Correcteur du lexique de l’euskera IDITE
UN EXEMPLE DE SUCCÈS: LA CRÉATION D’UN DICTIONNAIRE DE TRADUCTION A PARTIR D’UNE MT 14 Si nous pouvons analyser et étiqueter morphologiquement les textes en euskera et en espagnol, et si nous savons qu’une grande quantité de termes sont “multimots” (composés par plusieurs mots), nous pouvons obtenir des candidats à des termes multimots par l’usage de patrons de placement du lexique. 4. Elaboration d’un dictionnaire
base de données des documents traduits Elaboration d’un dictionnaire
Extraction de MT -MT unités de traduction -Entre 31/07/2008 y 31/07/2011 -Entité financière base de données de mémoires de traduction Analyse morphologique Espagnol et basque Elaboration d’un dictionnaire
17 Analyse morphologique 4. Elaboration d’un dictionnaire
+NC +SPS +NC +SPS +NC +NC +SPS +NC +SPC +NC +NC +SPC +NC +SPS +NC +NC +SPC +NC +SPC +NC +NC +AQ +SPS +DA +NC +NC +AQ +SPC +DA +NC +NC +AQ +SPS +NC +SPS +NC +NC +AQ +SPS +NC +SPC +NC +NC +AQ +SPC +NC +SPS +NC +NC +AQ +SPC +NC +SPC +NC +NC +SPS +DA +NC +SPS +NC +NC +SPS +DA +NC +SPC +NC Modèles basques de placements de lexique Modèles espagnols de placements de lexique 18 Identification de modèles de placement du lexique 4. Elaboration d’un dictionnaire
Résultats Elaboration d’un dictionnaire
830 entrées (en éiminant les inconsistances/ un même terme traduit de différentes manières) 849 entrées entrées devant être révisées par un terminologue Nous éliminons ceux qui ont un indice de confiance inférieure a 30% paires de possibles termes unités de traduction unités de traduction (documents complets) Création de MT Elaboration d’un dictionnaire
21 Capital fixe Creation brute Utilisation du capital Modèle néoclassique Equipement public Investissement en infraestructures Croissance économique Classification basée sur la fréquence des termes
22
23 Capital fiixe Utilisation du capital Modèle néoclassique Equipement public investissements en infrastructures Croissance économique Sciences sociales
24
Pour la fin de l’année 2012, la Banque Publique de Mémoires de Traduction (BPMT) du Gouvernement Basque, qu’UZEI est en train de développer, sera en marche. Cette Banque stockera les traductions réalisées par les différentes entités administratives du Pays Basque. Ce projet aurait été irréalisable sans les outils que nous avons mentionnés, car celui-ci devait remplir deux conditions fondamentales: 1. Respecter la Loi de Protection de Données. – En menant à bien différentes stratégies, nous pouvons éliminer dans des documents lemmatisés, les données et noms d’entités. 2. Publier les MT qui respectent des critères minimum de qualité. – Nous pouvons détecter le lexique non normalisé ainsi que les inconsistances de traduction dans des documents lemmatisés. A partir de cette Banque, des MTs “ad hoc” pourront être créées pour alimenter des traducteurs automatiques. 25 OUTILS DE COLLABORATION 5. Futur
L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie : une voie d’optimisation de ressources 1. Situation et caracteristiques de la langue Euskara 2. UZEI centre de terminologie Euskalterm 3. Les outils et ressources de base Lemmatisateur, IDITE,… 4. Elaboration d’un dictionnaire Example 5. Futur Ressources en collaboration 26
27 Imanol Urbieta - Tusen takk
28