Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parGabrielle Lafont Modifié depuis plus de 9 années
1
L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie: une voie d’optimisation de ressources 1
2
1. Situation et caracteristiques de la langue Euskara 2. UZEI centre de terminologie Euskalterm 3. Les outils et ressources de base Lemmatisateur, IDITE,… 4. Elaboration d’un dictionnaire Example 5. Futur Ressources en collaboration 2
3
Euskara Biscaye Gipuzkoa Araba Álava Labourd Soule Basse Navarre Sous-ministère de la Politique linguistique. Ministère de la Culture. Gouvernement Basque ©2005 3 1. Situation et caracteristiques de la langue
4
Euskara La langue basque a 15 cas de base et 22 variantes. Par rapport à l'espagnol, par exemple, un nom en espagnol a 2 variables, et en basque, 275. Dans un adjectif en espagnol vous pouvez avoir 4 variables et en basque 825. La langue basque ne fait pas de distinction entre les sexes. Actuellement, en processus de normalisation 4 1. Situation et caracteristiques de la langue
5
UZEI -UZEI, est une organisation à but non lucratif créée en 1977 standardisationmodernisation LexicographieTerminologie Les technologies de la langue Localisation et traduction 5 2. UZEI centre de terminologie
6
Standardisation Modernisation UZEI 6 2. UZEI centre de terminologie
7
La banque publique de termes 7 2. UZEI centre de terminologie
8
Outils de base 8 Lemmatisateur: application informatique analysant les formes d’un texte à partir de l’information d’un dictionnaire. La base de l’application est la morphologie à deux niveaux, Le dictionnaire est une base de données du lexique (euLEX) qui a environ 125.000 entrées. 3. Les outils et ressources de base
9
Outils pour la désambiguïsation analyseur morphologique EUROVOC grammaire texte désambiguisation statistique HMM désambiguïsation par des règles MG SFST compilateur automates compilés morphotactiquerègles linguistiques es texte analysé et désambiguïsé 9 Lemmatisateur euLEX 3. Les outils et ressources de base
10
10 euLEX: base de données lexicales euLEX 3. Les outils et ressources de base
11
11 Analyse morphologique
12
12 Correcteur du lexique de l’euskera IDITE L'Académie de la langue basque utilise cet outil pour garantir le respect de ses propres règles d'utilisation 3. Les outils et ressources de base
13
13 3. Les outils et ressources de base Correcteur du lexique de l’euskera IDITE
14
UN EXEMPLE DE SUCCÈS: LA CRÉATION D’UN DICTIONNAIRE DE TRADUCTION A PARTIR D’UNE MT 14 Si nous pouvons analyser et étiqueter morphologiquement les textes en euskera et en espagnol, et si nous savons qu’une grande quantité de termes sont “multimots” (composés par plusieurs mots), nous pouvons obtenir des candidats à des termes multimots par l’usage de patrons de placement du lexique. 4. Elaboration d’un dictionnaire
15
base de données des documents traduits 15 4. Elaboration d’un dictionnaire
16
Extraction de MT -MT -21.491 unités de traduction -Entre 31/07/2008 y 31/07/2011 -Entité financière base de données de mémoires de traduction Analyse morphologique Espagnol et basque 16 4. Elaboration d’un dictionnaire
17
17 Analyse morphologique 4. Elaboration d’un dictionnaire
18
+NC +SPS +NC +SPS +NC +NC +SPS +NC +SPC +NC +NC +SPC +NC +SPS +NC +NC +SPC +NC +SPC +NC +NC +AQ +SPS +DA +NC +NC +AQ +SPC +DA +NC +NC +AQ +SPS +NC +SPS +NC +NC +AQ +SPS +NC +SPC +NC +NC +AQ +SPC +NC +SPS +NC +NC +AQ +SPC +NC +SPC +NC +NC +SPS +DA +NC +SPS +NC +NC +SPS +DA +NC +SPC +NC Modèles basques de placements de lexique Modèles espagnols de placements de lexique 18 Identification de modèles de placement du lexique 4. Elaboration d’un dictionnaire
19
Résultats 19 4. Elaboration d’un dictionnaire
20
830 entrées (en éiminant les inconsistances/ un même terme traduit de différentes manières) 849 entrées 2.109 entrées devant être révisées par un terminologue Nous éliminons ceux qui ont un indice de confiance inférieure a 30% 6.101 paires de possibles termes 21.491 unités de traduction 42.675 unités de traduction (documents complets) Création de MT 20 4. Elaboration d’un dictionnaire
21
21 Capital fixe Creation brute Utilisation du capital Modèle néoclassique Equipement public Investissement en infraestructures Croissance économique Classification basée sur la fréquence des termes
22
22
23
23 Capital fiixe Utilisation du capital Modèle néoclassique Equipement public investissements en infrastructures Croissance économique Sciences sociales
24
24
25
Pour la fin de l’année 2012, la Banque Publique de Mémoires de Traduction (BPMT) du Gouvernement Basque, qu’UZEI est en train de développer, sera en marche. Cette Banque stockera les traductions réalisées par les différentes entités administratives du Pays Basque. Ce projet aurait été irréalisable sans les outils que nous avons mentionnés, car celui-ci devait remplir deux conditions fondamentales: 1. Respecter la Loi de Protection de Données. – En menant à bien différentes stratégies, nous pouvons éliminer dans des documents lemmatisés, les données et noms d’entités. 2. Publier les MT qui respectent des critères minimum de qualité. – Nous pouvons détecter le lexique non normalisé ainsi que les inconsistances de traduction dans des documents lemmatisés. A partir de cette Banque, des MTs “ad hoc” pourront être créées pour alimenter des traducteurs automatiques. 25 OUTILS DE COLLABORATION 5. Futur
26
L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie : une voie d’optimisation de ressources 1. Situation et caracteristiques de la langue Euskara 2. UZEI centre de terminologie Euskalterm 3. Les outils et ressources de base Lemmatisateur, IDITE,… 4. Elaboration d’un dictionnaire Example 5. Futur Ressources en collaboration 26
27
27 Imanol Urbieta - iurbieta@uzei.com Tusen takk
28
28
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.