JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche, Thomas Heitz, Oriane Matte-Tailliez, Yves Kodratoff LRI – Université Paris XI
JADT'04 - Mars 2004, Belgique 2 Plan de lexposé État de lart de différents systèmes Présentation du processus global Les paramètres dEXIT – Généralité sur les paramètres – Description de mesures statistiques – Évaluation des mesures Perspectives
JADT'04 - Mars 2004, Belgique 3 État de lArt de différents systèmes Trois types de méthodes – Méthodes linguistiques : LEXTER, ANA, FASTR,etc. – Méthodes statistiques : Xtract, etc. – Méthodes mixtes : ACABIT, EXIT, etc.
JADT'04 - Mars 2004, Belgique 4 Processus global en terminologie Corpus étiqueté avec ETIQ [Amrani et al., 04] Termes verbaux Collocations verbales Termes variants Corpus brut Corpus nettoyé Termes variants Termes Nom-Prép-Nom avec le rapport de vraisemblance 1. mise en place (111) 2. traitement de texte (57) 3. assistante de direction (60) 4. hôtesse de caisse (28) … Exemples : Termes Nom-Prép-Nom avec linformation mutuelle 1. beurre de karité (3) 2. jéjunum de rat (3) 3. puy en velay (3) 4. chalon sur saône (4) … Collocations nominales Termes nominaux + + +
JADT'04 - Mars 2004, Belgique 5 Les paramètres dEXIT Élagage. Privilégier les termes qui apparaissent dans des textes différents. Règles lexicales pour valider ou rejeter des termes semi automatiquement. Choix de mesures.
JADT'04 - Mars 2004, Belgique 6 Les paramètres dEXIT Les mesures Information Mutuelle [Church et Hanks, 90]
JADT'04 - Mars 2004, Belgique 7 Les paramètres dEXIT Les mesures Rapport de Vraisemblance [Dunning, 93] RV = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + (a+b+c+d) log(a+b+c+d) y y' avec y' y x ab x' avec x' x cd Dautres mesures : information mutuelle au cube, mesure dassociation, coefficient de Dice et mesures du domaine de lextraction des règles dassociations [Roche et al., 03]
JADT'04 - Mars 2004, Belgique 8 Les paramètres dEXIT Évaluation des mesures : la précision 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … Collocations extraites - Utilisation des courbes délévation (« lift chart ») : variation de la précision en fonction du nombre de collocations proposées à lexpert.
JADT'04 - Mars 2004, Belgique 9 Les paramètres dEXIT Évaluation des mesures : le rappel Impossible à calculer !
JADT'04 - Mars 2004, Belgique 10 Les paramètres dEXIT Évaluation des mesures : les corpus Corpus de Ressources Humaines (société PerformanSe) Ko (en français) Corpus de CV (Groupe VediorBis) – 2470 Ko (en français) Corpus dintroductions darticles sur la Fouille de Données – 369 Ko (en anglais) Corpus de résumés darticles sur la Biologie Moléculaire – 9424 Ko (en anglais)
JADT'04 - Mars 2004, Belgique 11 Les paramètres dEXIT Évaluation des mesures : lexpertise des termes Corpus de Fouille de Données, de CV, de Ressources Humaines : termes pertinents qui sont traces de concepts (resp. 642, 412 et 2960 termes sur les corpus de Fouille de Données, de CV et des Ressources Humaines). Corpus de Biologie Moléculaire : termes pertinents et non valides (7057 termes).
JADT'04 - Mars 2004, Belgique 12 Les paramètres dEXIT Évaluation des mesures : courbe délévation
JADT'04 - Mars 2004, Belgique 13 Les paramètres dEXIT Linterface graphique
JADT'04 - Mars 2004, Belgique 14 Perspectives Calculer le rappel sur un sous-ensemble des corpus. Déterminer une combinaison de mesures statistiques pour classer les termes.
JADT'04 - Mars 2004, Belgique 15 ANNEXE
JADT'04 - Mars 2004, Belgique 16 Quelques mesures (1/4) Information Mutuelle [Church et Hanks, 90] Information Mutuelle au Cube [Daille, 94]
JADT'04 - Mars 2004, Belgique 17 Quelques mesures (2/4) Mesure dAssociation [Jacquemin, 97] : – isobarycentre des valeurs normalisées de linformation mutuelle et du nombre doccurrences.
JADT'04 - Mars 2004, Belgique 18 Quelques mesures (3/4) Coefficient de Dice [Smadja, 96]
JADT'04 - Mars 2004, Belgique 19 Expérimentations : corpus de Fouille de Données, de CV et des Ressources Humaines Elagage à 3 Nb collocations après élagage FDRHCVFDRHCV Nom-Prep-Nom Nom-Nom Adjectif-Nom Nom-Adjectif X X Exemples : emploi solidarité action communication fichier client service achat …
JADT'04 - Mars 2004, Belgique 20 Expérimentations : corpus des Ressources Humaines (relation Nom-Adjectif) Courbes délévation avec cinq mesures.
JADT'04 - Mars 2004, Belgique 21 Expérimentations : corpus de Biologie Moléculaire Elagage à 4 Nb collocationsNb collocations après élagage Pourcentage élagage Nom-Prep-Nom % Nom-Nom % Adjectif-Nom %
JADT'04 - Mars 2004, Belgique 22 Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom) Précision avec cinq mesures. Collocations extraites II3I3 AssDiceRV 20 % 82.8% (49.8%) 86.8 % (80.7 %) 84.1 % (53.1 %) 86.5 % (65.7 %) 88.5 % (87.5 %) 40 % 86.9 % (42.6 %) 88.9 % (58.5 %) 87.4 % (47.7 %) 87.8 % (47.7 %) 88.9 % (58.2 %) 60 % 89.4 % (38.9 %) 90.0 % (46.0 %) 89.7 % (40.4 %) 88.7 % (39.4 %) 89.6 % (44.1 %)
JADT'04 - Mars 2004, Belgique 23 Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom) Courbes délévation avec cinq mesures.
JADT'04 - Mars 2004, Belgique 24 Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom) Classement selon le nombre doccurrences + une mesure statistique pour les collocations ayant le même nombre doccurrences.