La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie: une voie d’optimisation de ressources 1.

Présentations similaires


Présentation au sujet: "L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie: une voie d’optimisation de ressources 1."— Transcription de la présentation:

1 L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie: une voie d’optimisation de ressources 1

2 1. Situation et caracteristiques de la langue Euskara 2. UZEI centre de terminologie Euskalterm 3. Les outils et ressources de base Lemmatisateur, IDITE,… 4. Elaboration d’un dictionnaire Example 5. Futur Ressources en collaboration 2

3 Euskara Biscaye Gipuzkoa Araba Álava Labourd Soule Basse Navarre Sous-ministère de la Politique linguistique. Ministère de la Culture. Gouvernement Basque ©2005 3 1. Situation et caracteristiques de la langue

4 Euskara La langue basque a 15 cas de base et 22 variantes. Par rapport à l'espagnol, par exemple, un nom en espagnol a 2 variables, et en basque, 275. Dans un adjectif en espagnol vous pouvez avoir 4 variables et en basque 825. La langue basque ne fait pas de distinction entre les sexes. Actuellement, en processus de normalisation 4 1. Situation et caracteristiques de la langue

5 UZEI -UZEI, est une organisation à but non lucratif créée en 1977 standardisationmodernisation LexicographieTerminologie Les technologies de la langue Localisation et traduction 5 2. UZEI centre de terminologie

6 Standardisation Modernisation UZEI 6 2. UZEI centre de terminologie

7 La banque publique de termes 7 2. UZEI centre de terminologie

8 Outils de base 8 Lemmatisateur: application informatique analysant les formes d’un texte à partir de l’information d’un dictionnaire. La base de l’application est la morphologie à deux niveaux, Le dictionnaire est une base de données du lexique (euLEX) qui a environ 125.000 entrées. 3. Les outils et ressources de base

9 Outils pour la désambiguïsation analyseur morphologique EUROVOC grammaire texte désambiguisation statistique HMM désambiguïsation par des règles MG SFST compilateur automates compilés morphotactiquerègles linguistiques es texte analysé et désambiguïsé 9 Lemmatisateur euLEX 3. Les outils et ressources de base

10 10 euLEX: base de données lexicales euLEX 3. Les outils et ressources de base

11 11 Analyse morphologique

12 12 Correcteur du lexique de l’euskera IDITE L'Académie de la langue basque utilise cet outil pour garantir le respect de ses propres règles d'utilisation 3. Les outils et ressources de base

13 13 3. Les outils et ressources de base Correcteur du lexique de l’euskera IDITE

14 UN EXEMPLE DE SUCCÈS: LA CRÉATION D’UN DICTIONNAIRE DE TRADUCTION A PARTIR D’UNE MT 14 Si nous pouvons analyser et étiqueter morphologiquement les textes en euskera et en espagnol, et si nous savons qu’une grande quantité de termes sont “multimots” (composés par plusieurs mots), nous pouvons obtenir des candidats à des termes multimots par l’usage de patrons de placement du lexique. 4. Elaboration d’un dictionnaire

15 base de données des documents traduits 15 4. Elaboration d’un dictionnaire

16 Extraction de MT -MT -21.491 unités de traduction -Entre 31/07/2008 y 31/07/2011 -Entité financière base de données de mémoires de traduction Analyse morphologique Espagnol et basque 16 4. Elaboration d’un dictionnaire

17 17 Analyse morphologique 4. Elaboration d’un dictionnaire

18 +NC +SPS +NC +SPS +NC +NC +SPS +NC +SPC +NC +NC +SPC +NC +SPS +NC +NC +SPC +NC +SPC +NC +NC +AQ +SPS +DA +NC +NC +AQ +SPC +DA +NC +NC +AQ +SPS +NC +SPS +NC +NC +AQ +SPS +NC +SPC +NC +NC +AQ +SPC +NC +SPS +NC +NC +AQ +SPC +NC +SPC +NC +NC +SPS +DA +NC +SPS +NC +NC +SPS +DA +NC +SPC +NC Modèles basques de placements de lexique Modèles espagnols de placements de lexique 18 Identification de modèles de placement du lexique 4. Elaboration d’un dictionnaire

19 Résultats 19 4. Elaboration d’un dictionnaire

20 830 entrées (en éiminant les inconsistances/ un même terme traduit de différentes manières) 849 entrées 2.109 entrées devant être révisées par un terminologue Nous éliminons ceux qui ont un indice de confiance inférieure a 30% 6.101 paires de possibles termes 21.491 unités de traduction 42.675 unités de traduction (documents complets) Création de MT 20 4. Elaboration d’un dictionnaire

21 21 Capital fixe Creation brute Utilisation du capital Modèle néoclassique Equipement public Investissement en infraestructures Croissance économique Classification basée sur la fréquence des termes

22 22

23 23 Capital fiixe Utilisation du capital Modèle néoclassique Equipement public investissements en infrastructures Croissance économique Sciences sociales

24 24

25 Pour la fin de l’année 2012, la Banque Publique de Mémoires de Traduction (BPMT) du Gouvernement Basque, qu’UZEI est en train de développer, sera en marche. Cette Banque stockera les traductions réalisées par les différentes entités administratives du Pays Basque. Ce projet aurait été irréalisable sans les outils que nous avons mentionnés, car celui-ci devait remplir deux conditions fondamentales: 1. Respecter la Loi de Protection de Données. – En menant à bien différentes stratégies, nous pouvons éliminer dans des documents lemmatisés, les données et noms d’entités. 2. Publier les MT qui respectent des critères minimum de qualité. – Nous pouvons détecter le lexique non normalisé ainsi que les inconsistances de traduction dans des documents lemmatisés. A partir de cette Banque, des MTs “ad hoc” pourront être créées pour alimenter des traducteurs automatiques. 25 OUTILS DE COLLABORATION 5. Futur

26 L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie : une voie d’optimisation de ressources 1. Situation et caracteristiques de la langue Euskara 2. UZEI centre de terminologie Euskalterm 3. Les outils et ressources de base Lemmatisateur, IDITE,… 4. Elaboration d’un dictionnaire Example 5. Futur Ressources en collaboration 26

27 27 Imanol Urbieta - iurbieta@uzei.com Tusen takk

28 28


Télécharger ppt "L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie: une voie d’optimisation de ressources 1."

Présentations similaires


Annonces Google