Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Marché Publicitaire de la Presse Professionnelle
Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
Licence pro MPCQ : Cours
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
International Telecommunication Union Accra, Ghana, June 2009 Relationship between contributions submitted as input by the African region to WTSA-08,
Les numéros 70 –
Les numéros
Les identités remarquables
Le, la, les words Possessive Adjectives MINE!!. 2 My in french is mon, ma,mes... Le word/ begins with a vowel: Mon La word: Ma Les word: Mes.
Xavier Mouranche Registre e-MUST Evaluation en Médecine dUrgence des Stratégies Thérapeutiques de lInfarctus du Myocarde.
Introduction à la logique
CERTIFICATION 2011.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.
Révision (p. 130, texte) Nombres (1-100).
La législation formation, les aides des pouvoirs publics
1 7 Langues niveaux débutant à avancé. 2 Allemand.
SERABEC Simulation sauvetage aérien avec un Hercule C130. Départ de St-Honoré le 4 octobre Durée de vol 3 heures. Premier vol en Hercule pour les.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
La méthodologie………………………………………………………….. p3 Les résultats
Application des algorithmes génétiques
Jack Jedwab Association détudes canadiennes Le 27 septembre 2008 Sondage post-Olympique.
Jack Jedwab Directeur général Association détudes canadiennes Octobre 2011 Jack Jedwab Directeur général Association détudes canadiennes Octobre 2011 Est-ce.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Présentation générale
L’indicateur de développement humain
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Le drapeau canadien comme symbole de fierté nationale : une question de valeurs partagées Jack Jedwab Association détudes canadiennes 28 novembre 2012.
Le Concours de Conaissance Francais I novembre 2012.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
Titre : Implémentation des éléments finis sous Matlab
Les nombres.
Les quartiers Villeray – La Petite-Patrie et les voisinages
Mai 2001FRANCOROIII - Challenge Recherche Locale Guidée Par Le Coût Des Contraintes Gavranovic Haris Univerzitet U Sarajevu IMAG, Grenoble.
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
CLL11 : chlorambucil (CLB) versus CLB + rituximab (R)
Logiciel gratuit à télécharger à cette adresse :
Les chiffres & les nombres
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
RACINES CARREES Définition Développer avec la distributivité Produit 1
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Titre : Implémentation des éléments finis en Matlab
Jean-Marc Léger Président Léger Marketing Léger Marketing Les élections présidentielles américaines.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Influenza: le modèle épidémiologique belge 29 Mai 2009
Les Nombres 0 – 100 en français.
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
Aire d’une figure par encadrement
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Certains droits réservés pour plus d’infos, cliquer sur l’icône.
Nom:____________ Prénom: ___________
LES COURSES SUR PISTE.
Annexe Résultats provinciaux comparés à la moyenne canadienne
1 Mise en œuvre d'un outil d'aide au développement d'une JVM modulaire pour système embarqué Rodolphe Loué Projet SOLIDOR.
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Bienvenue.
Transcription de la présentation:

Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse, 27 septembre 2005

2 Bases lexicales multilingues (BDLM) 3 catégories principales 1. Structure en fourche 1 langue source n langues cibles ex. JMDict, FeM JA FR DE EN JMDict FR MS EN FeM

3 Bases lexicales multilingues (BDLM) 2. Structure pivot naturel n langues sources n langues cibles une langue naturelle comme pivot ex. Projet EuroWordNet FR DE EN ET CS ES NL IT Problème : phénomène contrastif river (en) fleuve (fr) rivière (fr) ? ?

4 Bases lexicales multilingues (BDLM) 3. Structure pivot artificiel n langues sources n langues cibles un langage artificiel comme pivot ex. Projet Papillon LO VT TH JA FR DE EN MS river (en) fleuve (fr) rivière (fr) ? ? river (en) fleuve (fr) rivière (fr) Avantage - Phénomènes contrastifs correctement traités

5 Bases lexicales multilingues (BDLM) 3. Structure pivot artificiel n langues sources n langues cibles un langage artificiel comme pivot ex. Projet Papillon LO VT TH JA FR DE EN MS Problème - Comment définir le pivot ? Peut-on construire automatiquement une base à pivot artificielle à partir d'informations existantes

6 Papillon : Base lexicale multilingue But : Construction collaborative dune grande BDLM Dico Ja lexie 1 Dico Fr lexie affection 1 (tendresse) lexie affection 2 (maladie) lexie maladie 1 Dico En lexie affection 1 axie Dico Th lexie 1 lexie disease 1 axie = interlingue lexie = sens de mot

7 Papillon : construction des données 1 Phase damorçage2 Phase de contribution L1 L3 L2 L3 L1 L2 L3 L1 L4 L2 L5 L3 L4 L5 Données récupérées Amorçage Ré-amorçage Base papillon Serveur papillon L1 L4 L2 Axie L3 L5 Modifications/ Ajouts/ Suppressions Validation Contributions Intégration

8 Papillon : construction des données 1 Phase damorçage L1 L3 L2 L3 L1 L2 L3 Données récupérées Amorçage Axie V1 L1 L3 L2 Base papillon Serveur papillon 2 Phase de contribution

9 Papillon : construction des données 1 Phase damorçage2 Phase de contribution L1 L3 L2 L3 L1 L2 L3 L1 L4 L2 L5 L3 L4 L5 Données récupérées Amorçage Ré-amorçage Base papillon Serveur papillon L1 L4 L2 Axie V2 L3 L5

10 Papillon : construction des données Modifications/ Ajouts/ Suppressions Validation Contributions Intégration Base papillon Serveur papillon 1 Phase damorçage2 Phase de contribution L1 L4 L2 Axie V3 L3 L5

11 Papillon : construction des données 1 Phase damorçage L1 L3 L2 L3 L1 L2 L3 L1 L4 L2 L5 L3 L4 L5 Données récupérées Amorçage Ré-amorçage Base papillon Serveur papillon L1 L4 L2 Axie L3 L5 Modifications/ Ajouts/ Suppressions Validation Contributions Intégration 2 Phase de contribution

12 Objectif de la thèse Amorçage automatique dune BDLM à pivot Qualité raisonnable Utilisable par humain ou machine Correspond aux objectifs du lexicologue et aux ressources disponibles L2 L1 L4 L3 ressources existantesBDLM à pivot mot axie lexie BD mnl Dicos bl

13 Plan 1. Bases lexicales multilingues 2. Structuration dune base daxies Travaux existants Proposition pour la structuration daxies Expérimentation 3. Évaluation de la qualité dune base daxies Proposition des mesures Expérimentation

14 Problèmes de la construction des BDLM Manque de ressources disponibles Non cohérence des ressources disponibles : format de données, richesse des informations, etc. Mise en correspondance de lexies de différentes langues Nécessité pour lexicologue de faire des compromis entre les ressources existantes et la qualité de BDLM créée

15 Trois volets de problèmes damorçage des BDLM 1. Construction initiale des lexies et des axies Récupération de données existantes Intégration des données Création des lexies et des axies à partir des données récupérées 2. Amélioration incrémentale par humain 3. Évaluation de la qualité de BDLM produite

16 Trois volets de problèmes damorçage des BDLM 1. Construction initiale des lexies et des axies Récupération de données existantes Récupdic [Haï, 1998] Intégration des données Création des lexies et des axies à partir des données récupérées 2. Amélioration incrémentale par humain 3. Évaluation de la qualité de BDLM produite

17 Exemples des travaux existants pour la structuration des lexies & axies 1. Méthode de transfert et consultation inverse de dictionnaires bilingues [Tanaka & Umemura,1994] 2. Comparaison de vecteurs conceptuels pour distinguer des lexies [Chauché,1990; Lafourcade,2002]

18 Méthode de transfert et consultation inverse de dictionnaires bilingues (1/5) But : Construire des liens traductionnels entre trois langues Ressources nécessaires : BDLM Résultat Monolingue langue 1 Monolingue langue 3 Monolingue langue 2 Bilingue L 3-> L 2 Bilingue L 2-> L 1 Bilingue L 2-> L 3 Bilingue L1-> L 2 [Tanaka & Umemura,1994]

19 Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5) Méthode de transfert kyousou JPEN FR [Tanaka & Umemura,1994]

20 Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5) Méthode de transfert competition contest race kyousou JPEN FR [Tanaka & Umemura,1994]

21 Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5) Méthode de transfert competition contest race compétition concours course race hâte kyousou JPEN FR [Tanaka & Umemura,1994] On obtient toutes les relations traductionnelles possibles pour chaque entrée de la langue source

22 Méthode de transfert et consultation inverse de dictionnaires bilingues (3/5) Méthode de consultation inverse 1 fois match competition contest race ancestry haste compétition concours course race hâte kyousou JPEN FR ? ? On garde : mot dont la traduction est en commun avec mot source On enlève : mot dont aucune traduction nest en commun avec mot source [Tanaka & Umemura,1994]

23 Méthode de transfert et consultation inverse de dictionnaires bilingues (4/5) Méthode de consultation inverse 2 fois match competition contest race ancestry compétition concours course race kyougi kyousou jinshu senzo JPEN FR [Tanaka & Umemura,1994]

24 Avantage Facile à construire Limitations Nécessite plusieurs dicos bilingues Ne fonctionne pas au niveau des lexies Méthode de transfert et consultation inverse de dictionnaires bilingues (5/5)

25 Exemples des travaux existants pour la structuration des lexies & axies 1. Méthode de transfert et consultation inverse de dictionnaires bilingues [Tanaka & Umemura,1994] 2. Comparaison de vecteurs conceptuels pour distinguer des lexies [Chauché,1990; Lafourcade,2002]

26 Méthode de comparaison de vecteurs conceptuels (1/5) [Chauché 1990, Lafourcade, 2002] lexie Idée : associer un vecteur à chaque lexie, qui code le sens donné par la définition Vecteur : combinaison des vecteurs dun ensemble de concepts de base (V(C i )) C i = un concept feuille dun thésaurus P.ex : 873 concepts feuilles du thésaurus Larousse V(C i ) =

27 Méthode de comparaison de vecteurs conceptuels (2/5) Calcul récursif des vecteurs des lexies { V(C i ) }, { mot-concepts} Ensemble initial de VC pour les mots indexés « bootstrap » : combinaison linéaire des concepts, selon l'index VC associés aux lexies 1ère itération VC associés aux mots-vedettes combinaison linéaire des vecteurs des lexies pour chaque mot-vedette n-ième itération

28 Méthode de comparaison de vecteurs conceptuels (3/5) Comment calculer le vecteur pour une lexie ? P. ex. lexie de « ranger » Définition : « disposer à sa place dans l'ordre » Mots importants : « disposer », « place », « ordre » analyse morpho-syntaxique BD : VC pour les mots « disposer », « place », « ordre »,... VC pour la lexie combinaison linéaire des vecteurs des mots de la définition

29 Méthode de comparaison de vecteurs conceptuels (4/5) [Chauché 1990, Lafourcade, 2002] X Y D A ("profit", "profit" ) = 0 D A ("profit", "benefit" ) = 10 D A ("profit", "joy" ) = 39 D A ("profit", "sadness" ) = 65 Comparer la distance thématique entre lexies Distance angulaire entre 2 vecteurs (D A ) D A (X,Y) = angle (X,Y) ; 0 D A (X,Y) 90

30 Méthode de comparaison de vecteurs conceptuels (5/5) Avantages Fonctionne au niveau lexie Relativement efficace Limitations Nécessite analyseur morpho-syntaxique Besoin dun index mot-concepts pour initialiser des VC Les VC doivent utiliser les mêmes ensembles de concepts pour pouvoir comparer

31 Discussion Chaque méthode nécessite des ressources lexicales spécifiques Chaque méthode a des avantages et des limitations différents Des méthodes peuvent être complémentaires Il est préférable de pouvoir réutiliser ces méthodes existantes

32 Notre proposition Avantages dépasser limitations dutilisation de méthode adaptabilité à de nombreuses situations possibles 1N32 algorithmes de structuration daxies existantes … Composer arbitrairement les algorithmes de structuration daxies pour créer un BDLM de meilleure qualité possible selon les ressources disponibles N 3

33 Notre contribution Idée : appliquer des techniques de génie logiciel Réalisation : Jeminie : canevas logiciel (framework) modulaire et adaptable Conception Développement Système de structuration automatique des BDLM Évaluation des BDLM +

34 Jeminie Trois fonctions principales 1. Préparation des données 2. Production et filtrage daxies 3. Évaluation de la qualité de la base daxies produites Trois types dutilisateur 1. Linguiste 2. Programmeur 3. Utilisateur de base de données

35 Jeminie : architecture globale linguiste M1 Noyau de programme M2 Mn Interpréteur de processus processus de structuration Persistance O/R Base de données utilisateur programmeur

36 Jeminie : architecture globale linguiste M1 Noyau de programme M2 Mn Interpréteur de processus processus / mesure de qualtié Persistance O/R Base de données utilisateur Interpréteur de mesure de qualité programmeur - Modèle de données - Outils de base, p. ex. -Connexion à lanalyseur morpho-syntaxique -Connexion à la base de données -Importation de dictionnaires

37 Jeminie : architecture globale linguiste M1 Noyau de programme M2 Mn Interpréteur de processus processus de structuration Persistance O/R Base de données utilisateur programmeur Module est une implémentation dun algorithme de structuration daxies

38 Jeminie : architecture globale linguiste M1 Noyau de programme M2 Mn Interpréteur de processus processus de structuration Persistance O/R Base de données utilisateur programmeur Module est une implémentation dun algorithme de structuration daxies Jeminie peut être étendu en développant de nouveaux modules

39 Module de structuration daxie Public interface AxieCreator { void updateAxieDatabase(AxieDatabaseContext context, List parameters) boolean checkAxieCreatorParameters (List parameters) } updateAxieDatabase : implémente un nouvel algorithme AxieDatabaseContext : indique la base lexicale à modifier Parameters : indique les ressources utilisées par lalgorithme, ou les informations supplémentaires selon lalgorithme

40 Jeminie : comment ça marche Processus entrée Base de données lexies & axies entrée / sortie Jeminie M1 Noyau de programme M2M3Mn Interpréteur de processus exécuter Processus est une séquence dexécutions de modules de structuration daxies

41 Jeminie : comment ça marche Processus entrée Base de données lexies & axies entrée / sortie Jeminie M1 Noyau de programme M2M3Mn Interpréteur de processus exécuter

42 Jeminie : comment ça marche Processus entrée Base de données lexies & axies entrée / sortie Jeminie M1 Noyau de programme M2M3Mn Interpréteur de processus exécuter

43 kyousoucompetition Exemple de modules implémentés (1/3) Nom : BlingTransfertAxieCreator Paramètres : Dico L1 L2, Dico L2 L3, Base daxies (BD a ) Résultat : de nouvelles axies créées par la méthode de transfert ajoutées dans BD a competition contest race compétition concours course race hâte kyousou JPEN FR race concours course

44 Exemple de modules implémentés (2/3) Nom : BlingTransfertInverseAxieCreator Paramètres : Dico L1 L2, Dico L2 L3, Dico L3 L2, Dico L2 L1, Base daxie (BD a ) Résultat : de nouvelles axies créées par la méthode de transfert et consultation inverse ajoutées dans BD a competition contest race compétition concours course kyousou JPEN FR kyousoucompetition concours course

45 Exemple de modules implémentés (3/3) Nom : VCAxieFilter Paramètres : Base daxie (BD a ), seuil pour la distance angulaire maximale Résultat : base BD a modifiée par la méthode de comparaison de vecteurs conceptuels 2 lexies X Y On enlève laxie où D A (X,Y) > un seuil > 2 lexies X Y On enlève laxie où la distance angulaire moyenne > un seuil Z

46 Plan 1. Bases lexicales multilingues 2. Structuration daxies Travaux existants Proposition pour la structuration daxies Expérimentation 3. Évaluation de la qualité daxies Proposition des mesures Expérimentation

47 Expérimentation : données Données monolingues Pisang generated page for GETDEF Warning : server learning since the 7/8/2002 at 11:20:10 inexpiable with 5 parts inexpiable.3 as #s=2# Que rien n'apaise. ( Haine inexpiable ). [ HDL the 3/12/2001 at 20:55:51 ] ,artifact,n ,artefact,n ,article,n ,psychological feature,n ,abstraction,n ,cognition,n ,knowledge,n ,a man-made object taken as a whole ,one of a class of artifacts ,a feature of the mental life of a living organism ,a general concept formed by extracting common features from specific examples ,the psychological result of perception and learning and reasoning Donnée de Lirmm Royal Institute WordNet

48 Expérimentation : données Données monolingues LangueMonolingues# mots# lexies#lexies/mot anglaisWordNet ,7 françaisDonnée de Lirmm ,1 thaïRoyal Institute ,7 poème n.m. texte de poésie poème n.m. texte de poésie html texte poème n.m. texte de poésie xml Papillon

49 Expérimentation : données Données bilingues Dictionnaires bilinguesNombre de mots dentrées Oxford french mini EN-FR Oxford french mini FR-EN7 155 FeM So Sethaputra EN-TH9 900 FR-TH poème n.m. texte de poésie xml html absent a. absent xml

50 Jeminie : Préparation des données InitLexieSimple(Dico.xml, BDa, fr) poème n.m. texte de poésie Créer une lexie avec information minimale -Mot-vedette -Partie de discours -Définition -Ressource -Langue Base BDa

51 Jeminie : Préparation des données Créer des vecteurs conceptuels associés à chaque lexie Mot concep1, concept 2 Indexation entre mots et concepts BD VC Base de vecteurs initiaux BD lexies Analyser la définition de chaque lexie InitLexieVC(BD-VC, BDa, fr) Liste des mots dans la définition de chaque lexie Calculer dun VC associé à cette lexie BDa lexie +vecteur Analyseur morpho-syntaxique

52 Jeminie : Préparation des données Créer des vecteurs conceptuels associés à chaque lexie Mot concep1, concept 2 Indexation entre mots et concepts BD VC Base de vecteurs initiaux BD lexies Analyser la définition de chaque lexie InitLexieVC(BD-VC, BDa, fr) Liste des mots dans la définition de chaque lexie Calculer dun VC associé à cette lexie BDa lexie +vecteur Analyseur morpho-syntaxique

53 Jeminie : Préparation des données Créer des vecteurs conceptuels associés à chaque lexie Mot concep1, concept 2 Indexation entre mots et concepts BD VC Base de vecteurs initiaux BD lexies Analyser la définition de chaque lexie InitLexieVC(BD-VC, BDa, fr) Liste des mots dans la définition de chaque lexie Calculer dun VC associé à cette lexie BDa lexie +vecteur Analyseur morpho-syntaxique

54 Jeminie : Préparation des données Créer des vecteurs conceptuels associés à chaque lexie Mot concep1, concept 2 Indexation entre mots et concepts BD VC Base de vecteurs initiaux BD lexies Analyser la définition de chaque lexie InitLexieVC(BD-VC, BDa, fr) Liste des mots dans la définition de chaque lexie Calculer dun VC associé à cette lexie BDa lexie +vecteur Analyseur morpho-syntaxique Nécessite

55 Expérimentation : méthodes Structuration dune BDLM de 3 langues : FR,EN,TH 3 méthodes Création : méthode de transfert Création : méthode de transfert et consultation inverse Filtrage : méthode de comparaison des VC 4 processus : Transfert BDLM 1 TransfertInverse BDLM 2 Transfert+FVC BDLM 3 TransfertInverse+FVC BDLM 4

56 Exemples des BDLM Une lexie du mot langlais : transfer BDLM1 (tr) BDLM2 (trin) BDLM3 (tr+fvc) BDLM4 (trin+fvc) 1 lexie 4 axies 1 lexie 2 axies 1 lexie 2 axies 1 lexie 1 axie

57 Plan 1. Bases lexicales multilingues 2. Structuration daxies Travaux existants Proposition pour la structuration daxies Expérimentation 3. Évaluation de la qualité daxies Proposition des mesures Expérimentation

58 Proposition des critères dévaluation la qualité dune BDLM produite Critère basé sur une référence Critère structural Critère vectoriel

59 Critère basé sur une référence #axies définies dans R et G #axies dans G Q-précision = #axies définies dans R et G #axies dans R Q-rappel (coverage) = [ Hovy et al ; Papineni et al ] Qualité Q-rappel Q-précision RG = ? Base daxies de référence Base daxies générée

60 Critère structural [Teeraparbseree, 2004] Qualité Q-lexiecorrecte Q-lexiecorrecte = | { L où |conn(L)| = 1} | |L| Axie1 Axie2 Lexie Incorrecte |conn(L)| > 1 Correcte |conn(L)| = 1 Axie1 Lexie Incomplétude |conn(L)| = 0 Axie1 Lexie

61 Critère vectoriel La distance moyenne entre les vecteurs conceptuels des lexies liées à une même axie Mesure Qualité distance Distance moyenne = 1 n n i=1 ( 1 nbpl (i) nbpl (i) k=1 distance k )) [Teeraparbseree, 2004]

62 linguiste M1 Noyau de programme M2 Mn Interpréteur de processus processus de structuration / dévaluation Persistance O/R Base de données utilisateur Q1 Q2 Qn Interpréteur de Stratégie dévaluation programmeur Ajouter la partie dévaluation dans Jeminie

63 Chaque critère = un module logiciel Chaque module retourne une valeur numérique Q i Jeminie Q1 Noyau de programme Q2Q3Qn Interpréteur de Stratégie dévaluation Base de données lexies & axies public interface AxieEvaluation { boolean checkAxieEvaluationParameters (List parameters); float getQualityValue(AxieDatabaseContext context, List parameters); } Approche similaire à celle de la structuration

64 Discussion Chaque critère évalue une dimension différente dune BDLM Il est très difficile (impossible ?) de maximiser simultanément tous les critères, avec les méthodes de structuration daxies disponibles P. ex. TraInverse augmente la précision, mais diminue le rappel Donc il est nécessaire au lexicologue de faire un choix : Des critères qui lintéressent De limportance relative quil accorde aux critères

65 Critère global Notre proposition Q nest pas une mesure absolue (pas dunité..) Mais est utile pour comparer la qualité de 2 BDLM Q = #modules i = 1 poids i Q i

66 Exemple dévaluation BDLM 1 BDLM 4BDLM 3BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th) Données bilingues : Oxford mini FR EN de 100 traductions So Sethaputra EN TH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas dévaluation Q-rappel pour cet exemple

67 Exemple dévaluation BDLM 1 BDLM 4BDLM 3BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th) Données bilingues : Oxford mini FR EN de 100 traductions So Sethaputra EN TH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas dévaluation Q-rappel pour cet exemple

68 Exemple dévaluation BDLM 1 BDLM 4BDLM 3BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th) Données bilingues : Oxford mini FR EN de 100 traductions So Sethaputra EN TH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas dévaluation Q-rappel pour cet exemple La précision et la qualité de la structure des axies, du point de vue des lexies FR, EN et TH

69 Exemple dévaluation BDLM 1 BDLM 4BDLM 3BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th) Données bilingues : Oxford mini FR EN de 100 traductions So Sethaputra EN TH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas dévaluation Q-rappel pour cet exemple

70 Exemple dévaluation BDLM 1 BDLM 4BDLM 3BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th) Données bilingues : Oxford mini FR EN de 100 traductions So Sethaputra EN TH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas dévaluation Q-rappel pour cet exemple les processus 1 et 2 ont une structure daxies assez mauvaise, car les méthodes fonctionnent au niveau des mots, et pas au niveau des lexies. Précision avec transfert-inverse > transfert simple

71 Exemple dévaluation BDLM 1 BDLM 4BDLM 3BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (Fr), Royal Institute (th) Données bilingues : Oxford mini FR EN de 100 traductions So Sethaputra EN TH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas dévaluation Q-rappel pour cet exemple Processus 3 et 4 : utilisent FVC en plus -la précision est améliorée -la structure est très significativement améliorée car FVC fonctione au niveau des lexies

72 Exemple dévaluation BDLM 1 BDLM 4BDLM 3BDLM 2 Données monolingues : WordNet (en), Donnée de Lirmm (Fr), Royal Institute (th) Données bilingues : Oxford mini FR EN de 100 traductions So Sethaputra EN TH Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï Pas dévaluation Q-rappel pour cet exemple Combiner les techniques de structuration et de filtrage permet daméliorer significativement la qualité des bases produites

73 Remarques 1.Q-precision choisi comme critère important Il vaut mieux utiliser la traduction inverse, que la traduction simple 2.Si on avait pu mesurer le rappel et le choisi comme critère important Prédiction : la traduction simple aurait eu une meilleure mesure de rappel que la traduction bilingue inverse La mesure de la qualité dune BDLM -est subjective, -dépend des objectifs dun lexicolgue exprimé sous la forme du choix des critères, et des poids. Intérêt de notre approche modulaire et extensible pour la mesure de qualité

74 Conclusion Problématique Problème : automatisation de structuration et dévaluation des lexies et axies Proposition Conception dun système de structuration et dévaluation des lexies et axies Réalisation de la plate-forme Jeminie Composition flexible des techniques Similarité entre la structuration et lévaluation Expérimentation Création des BDLM de 3 langues : FR, EN, TH

75 Recherches futures Trouver des nouvelles techniques pour la structuration qui fonctionnent au niveau des lexies Intégrer au système une IHM pour manipuler des données (lexies et axies) Offrir plus de possibilité aux linguistes pour sexprimer sur la façon de manipuler le système Étude sur les méthodes de décision multicritères pour assister le lexicographe dans le choix des techniques de construction et dévaluation, et pour guider leur composition

76 Merci Merci

77 FIN FIN

78 Composition de modules de création daxies pour créer ou filtrer des axies Composition de modules de critères pour évaluer la qualité des axies Processus itératif pour lamorçage Fin de lamorçage

79 [Hai, 1998] P RODUCDIC : Opérations de base (1/4) 1. Sélection 2. Extraction 3. Regroupement 4. Inverse 5. Enchaînement 6. Combinaison parallèle 7. Combinaison en étoile

80 P RODUCDIC : Opérations de base (2/4) … accept(vt) acceptable(a) acceptance(n) access(n,vt) : … accept(vt) access(vt) : sélection abaisser lower,pull down, push down merendahkan, tarik ke bawah abaisser merendahkan, tarik ke bawah extraction love(n) amour love(v) aimer love(n) amour love(v) aimer regroupement inverse aimer(v) love, like comme(prép) as, like like(v) aimer; like(prép) comme love(v) aimer [Hai, 1998]

81 P RODUCDIC : Opérations de base (3/4) enchaînement love : mencintai like : menyukai aimer : 1. love 2. like aimer : 1. love mencintai 2. like menyukai aimer : 1 mencintai 2 menyukai paquet : packet, parcel ; bundle (A1) paquet : packet, pack ; bag, parcel (A2) paquet : (A1) packet, parcel; bundle (A2) packet, pack; bag, parcel combinaison parallèle B A A B D A A D C A A C A BCDBCD BCDBCD combinaison en étoile [Hai, 1998]

82 P RODUCDIC : Opérations de base (4/4) Avantage Facile à construire Limitations Ne fonctionne pas au niveau des lexies Certaines opérations sont plus préférables dans létape de la préparation des données par.ex. la sélection, lextraction, le regroupement, et linversion

83 Exemples des BDLM (2/2) Une lexie de mot langlais : arrest BDLM1 (tr) BDLM2 (trin) BDLM3 (tr+fvc) BDLM4 (trin+fvc) 1 lexie 2 axies 1 lexie 1 axie 1 lexie 2 axies 1 lexie 1 axie