La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Extraction de la terminologie dans un processus global de fouille de textes Mathieu Roche Equipe Inférence et Apprentissage - LRI 11 février 2005 Laboratoire.

Présentations similaires


Présentation au sujet: "Extraction de la terminologie dans un processus global de fouille de textes Mathieu Roche Equipe Inférence et Apprentissage - LRI 11 février 2005 Laboratoire."— Transcription de la présentation:

1 Extraction de la terminologie dans un processus global de fouille de textes Mathieu Roche Equipe Inférence et Apprentissage - LRI 11 février 2005 Laboratoire CLIPS - Grenoble

2 2 La fouille de textes Objectifs, exemples : – Recherche des pages pertinentes sur le Web. – Traitement automatique des courriels (spams, réponses automatisées aux courriels, etc.). – Recherche des informations précises dans des textes techniques (médecine, biologie, etc.). – Conception de systèmes de questions/réponses. Approches : – méthodes linguistiques – méthodes statistiques – méthodes mixtes

3 3 Le processus global en fouille de textes [Kodratoff et al., JDS'03 ; Roche et al., IIPWM'04] Corpus brut Corpus normalisé Corpus étiqueté Termes Classification conceptuelle - Règles dassociation - extraction dinformations par patrons dextraction NormalisationÉtiqueteur Extraction des "termes" Détection des traces de concepts Extraction dinformations Acquisition

4 4 Les corpus étudiés Tests de psychologie - Ressources Humaines (Société PerformanSe) Ko (en français). Curriculum Vitæ (Groupe VediorBis) Ko (en français). Introductions darticles sur la Fouille de Données (acquisition par un expert) Ko (en anglais). Résumés darticles sur la Biologie Moléculaire (acquisition par une base de données spécialisée) Ko (en anglais). => Corpus journalistique de TREC'04 (Text REtrieval Conferences)

5 5 Problème spécifique étudié : les termes (1/2) Importance de la caractérisation des termes – Exemple : traduction automatique Constitution européenne, article III-10 : The right to vote and to stand as a candidate in elections... Le droit de vote et d'éligibilité aux élections...

6 6 Problème spécifique étudié : les termes (2/2) Collocation (candidat-terme) : groupe de mots dont le sens global est déductible des unités composant le groupe [Clas 1994]. – Exemple, " maire de Paris " Terme : collocation ayant des propriétés syntaxiques + trace linguistique de concepts pour une tâche en cours. – Exemples, " intelligence artificielle " et " génie logiciel " sont des termes – Exemple, " chalon sur saône " est-il un terme ?

7 7 Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT (EXtraction Itérative de la Terminologie) 4. Extraction de la terminologie : une approche d'apprentissage supervisé

8 8 État de l'art (1/5) Systèmeslinguistiquesstatistiquesréférences TERMINOX[David et Plante 1990] LEXTERX[Bourigault 1993] FASTRX[Jacquemin 1996] INTEXX[Silberztein1994 ; Ibekwe-SanJuan 2001] ANAX[Enguehard 1993] MANTEXX[Frath et al. 2000] XTRACTXX[Smadja 1993] ACABITXX[Daille 1994] CLARITXX[Evans et Zhai 1996] TERMIGHTXX[Dagan et Church 1997] C/NC VALUEXX[Frantzi et al. 2000] SYNTEXXX[Bourigault et Fabre 2000] WASPBENCHXX[Kilgarriff et Tugwel 2001] FIPSXX[Nerima et al. 2003] ESATECXX[Biskri et al. 2004]

9 9 État de l'art (2/5) Exemple de système linguistique : FASTR [Jacquemin 1996] Entrée : termes de base ( congé de formation ) Sortie : termes variants ( congé annuel de formation ). 3 types de règles (linguistiques) : Limite : nécessite de considérer une fenêtre plus grande [Ville- Ometz et al. 2004]. Exemple : thymus gland thymus and adrenal gland contexte : rat thymus and adrenal gland coordinations association rule association and classification rules insertions MRI image MRI brain image permutations knowledge discovery discovery of knowledge

10 10 État de l'art (3/5) Exemple de système statistique : ANA [Enguehard 1993] Module Familiarisation qui initialise la liste de bootstrap. – Exemple : {chef, contrat, rayon, etc.} Module Découverte qui construit de manière incrémentale une liste de termes fréquents en utilisant les mots du bootstrap. Exemple : chef de rayon Entrée : {chef, contrat, rayon, etc.} Sortie : {chef, contrat, chef de rayon, etc.}

11 11 État de l'art (4/5) Exemple de système mixte : ACABIT [Daille 1994] Extraction de collocations respectant des patrons d'extraction simples Nom-Nom, Nom-Préposition-Nom, Nom-Adjectif, etc. Les termes variants sont détectés grâce à des règles morpho- syntaxiques (par exemple, centre de formation centre régional de formation ). Comptabilisation de tous les couples de mots en collocation notés par exemple ( centre, formation). Classement statistique des couples de mots.

12 12 État de l'art (5/5) Systèmeslinguistiquesstatistiquesréférences TERMINOX[David et Plante 1990] LEXTERX[Bourigault 1993] FASTRX[Jacquemin 1996] INTEXX[Silberztein1994 ; Ibekwe-SanJuan 2001] ANAX[Enguehard 1993] MANTEXX[Frath et al. 2000] XTRACTXX[Smadja 1993] ACABITXX[Daille 1994] CLARITXX[Evans et Zhai 1996] TERMIGHTXX[Dagan et Church 1997] SYNTEXXX[Bourigault et Fabre 2000] C/NC VALUEXX[Frantzi et al. 2000] WASPBENCHXX[Kilgarriff et Tugwel 2001] FIPSXX[Nerima et al. 2003] ESATECXX[Biskri et al. 2004] Coopératif Itératif EXITXX[Roche et al. 2004]

13 13 Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT (EXtraction Itérative de la Terminologie) 4. Extraction de la terminologie : une approche d'apprentissage supervisé

14 14 Présentation du système EXIT (EXtraction Itérative de la Terminologie) Système mixte (linguistique et statistique) Système itératif Système coopératif Extension du TF X IDF aux termes

15 Processus itératif (1/3) [Roche, EGC'03 ; Roche et al., IIPWM'04 ; Roche et al., JADT'04] Processus itératif pour extraire les termes nominaux, adjectivaux et adverbiaux Corpus normalisé Corpus étiqueté Termes Exemple : 1 ère itération : assistant de gestion 2 ème itération : assistant-de-gestion de production ETIQ [Amrani et al. 04] Extraction Introduction des termes avec "-"

16 Processus itératif (2/3) Extraction des collocations typées – Adjectif-Adjectif – Adverbe-Adverbe – Adverbe-Adjectif – Adjectif-Nom – Nom-Nom –... collocations de modifieurs (adjectif et adverbe) collocations nominales exploitation des itérations + connaissances de l'expert

17 Processus itératif (3/3) Paramètre CIP (Coefficient Itérations Précédentes) But : utiliser les connaissances de lexpert CIP privilégie les collocations – avec des mots inclus dans les collocations pertinentes des itérations précédentes. – avec des mots absents des collocations non pertinentes des itérations précédentes. => pourcentage de collocations pertinentes amélioré (+2% à +16%).

18 18 Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT (EXtraction Itérative de la Terminologie) 3.1. Processus itératif 3.2. Mesures statistiques État de l'art des mesures statistiques Évaluation expérimentale des mesures existantes Proposition de mesures hybrides 3.3. Extension du TF X IDF aux termes 3.4. L'interface d'EXIT 4. Extraction de la terminologie : une approche d'apprentissage supervisé

19 Mesures statistiques [Roche et al., JFT'03 ; Roche et al., INFORSID'04] RangCollocationsNb RangCollocationsNb mise en place 111 traitement de textes 57 assistante de direction 60 hôtesse de caisse 28 mise en place 111 traitement de textes 57 assistante de direction 60 hôtesse de caisse 28 Rapport de Vraisemblance Information Mutuelle chalon sur saône 4 jéjunum de rat 3 beurre de karité 3 puy en velay 3

20 État de l'art des mesures statistiques (1/4) Exemples de mesures fondées sur l'Information Mutuelle Information Mutuelle [Church et Hanks 1990] Information Mutuelle au Cube [Daille 1994]

21 État de l'art des mesures statistiques (2/4) Mesure dAssociation [Jacquemin 1997] : – isobarycentre des valeurs normalisées de linformation mutuelle et du nombre doccurrences.

22 État de l'art des mesures statistiques (3/4) Rapport de Vraisemblance [Dunning, 1993] y y' avec y' y x ab x' avec x' x cd RV (x,y) = a.log(a) + b.log(b) + c.log(c) + d.log(d) - (a+b).log(a+b) - (a+c).log(a+c) - (b+d).log(b+d) - (c+d).log(c+d) + (a+b+c+d).log(a+b+c+d)

23 État de l'art des mesures statistiques (4/4) MesuresRéférences IInformation Mutuelle [Church et Hanks 1990] I3I3 Information Mutuelle au Cube [Daille 1994] AssMesure d'Association [Jacquemin 1997] DiceCoefficient de Dice [ Smadja et al. 1996] RVRapport de Vraisemblance [Dunning 1993] Khi 2 [Manning et Scütze 1999; Curran et Moens 2002] TtestT-test [Manning et Scütze 1999; Curran et Moens 2002] SeScSebag - Schoenauer [Sebag et Schoenauer 1988] JJ-mesure [Goodman et Smyth 1988] ConvConviction [Brin et al. 1997] MCMoindre Contradiction [Azé et Kodratoff 2003] MulMultiplicateur de Cote [Lallich et Teytaud 2004] TALN Règles d'association

24 Évaluation expérimentale des mesures existantes (1/6) Objectif : Choix d'une mesure pour une tâche en cours Critères de performance : – Précision – Courbe d'élévation ("lift chart") – Rappel – Fscore – Courbes ROC

25 Évaluation expérimentale des mesures existantes (2/6) Corpus de Fouille de Données (FD), des Ressources Humaines (RH) et des CVs. Nb collocations après élagage (3) FDRHCVFDRHCV Nom-Prep-Nom Nom-Nom Adjectif-Nom Nom-Adjectif X X Exemples : emploi solidarité action communication fichier client service achat …

26 Évaluation expérimentale des mesures existantes (3/6) Les résultats présentés portent sur le corpus FD (relation Nom-Nom). Sur ce corpus, 1074 termes sont associés à un concept par l'expert du domaine. Protocole expérimental : – Expérimentations sur la tâche dextraction des collocations pertinentes pour la classification conceptuelle. – 12 mesures de qualité expérimentées.

27 Évaluation expérimentale des mesures existantes (4/6) II3I3 AssDiceRVKhi 2TtestSeScJConvMCMul 20% % % % Précision (en %) sur le corpus de FD avec les collocations Nom-Nom.

28 Évaluation expérimentale des mesures existantes (5/6) Courbes d'élévation avec le corpus FD.

29 Évaluation expérimentale des mesures existantes (6/6) Résultats similaires avec les 3 autres corpus – CV – Ressources Humaines – Biologie Bon comportement global des mesures suivantes : – Rapport de Vraisemblance – Information Mutuelle au Cube – J-mesure

30 Proposition de mesures hybrides (1/2) [Roche et al., INFORSID'04] Motivations d'utiliser une nouvelle mesure. Ajout de λ à la mesure dassociation : Problème d'optimisation avec λ. => λ* = 0 => Mise en place de la mesure Occ RV - classement selon le nombre d'occurrences - classement des collocations ayant le même nombre d'occurrences avec RV

31 Proposition de mesures hybrides (2/2) [Roche et al., INFORSID'04] Courbes d'élévation avec le corpus FD.

32 32 Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT 3.1. Processus itératif 3.2. Mesures statistiques 3.3. Extension du TF X IDF aux termes 3.4. L'interface d'EXIT 4. Extraction de la terminologie : une approche d'apprentissage supervisé

33 33 Paramètre privilégiant les collocations présentes dans des textes différents. Paramètre DiffTextes – Exemple : nombre de collocations : 3 nombre de textes : 1 Paramètre TF/IDF DiffTextes = 2.7 ( 3-(3/10) ) 3.3. Extension du TF X IDF pour les termes (1/2) [Roche, EGC'03 ; Roche et al., JADT'04]

34 Extension du TF X IDF pour les termes (2/2) Expérimentation du paramètre DiffTextes sur le corpus FD. I3I3 RVJOcc RV 20% % % % Amélioration globale de la précision

35 L'interface d'EXIT [Roche et al., JADT'04; Heitz et al., EGC'05]

36 36 Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT 4. Extraction de la terminologie : une approche d'apprentissage supervisé

37 37 Approche supervisée pour apprendre une mesure [Roche et al., ROCAI'04 ; Azé et al., ICCI'04] Entrée : quelques collocations étiquetées (positives ou négatives). Sortie : fonction de rang [Cohen et al. 1999] Évaluation dune fonction de rang : somme des rangs des exemples positifs. Minimiser la somme des rangs des exemples positifs maximiser l'aire sous la courbe ROC rangs = 25 h 2 : AUC rangs = 21 h 1 : AUC Area Under the Curve

38 38 Protocole expérimental (1/2) Données utilisées # collocations % collocations pertinentes % collocations non pertinentes CV, fréquents CV, rares Biologie

39 39 Protocole expérimental (2/2) Critères statistiques AUC collocations fréquentes corpus de CVs AUC collocation fréquentes corpus de Biologie Occ RV - Occurrence + RV [Roche et al. 2004] RV - Rapport de Vraisemblance [Dunning 1993] I 3 - Information Mutuelle au cube [Daille et al. 1998] Dice - Coefficient de Dice [Smadja et al. 1996] I - Information Mutuelle [Church and Hanks 1990] Combinaison de mesures

40 40 Algorithme ROGER (ROC based GEnetic learneR) (1/2) Approche linéaire h(Coll) = w i x mes i (Coll) avec (Coll, +/-) Approche non linéaire h(Coll) = w i x | mes i (Coll) - c i | avec (Coll, +/-) Hypothèses : Aire sous la courbe ROC h (rang(Coll), Etiq(Coll)) classer les exemples par rangs croissants : collocation pertinente - : collocation non pertinente rang

41 41 Algorithme ROGER (2/2) Protocole expérimental – 90% Apprentissage, 10% Test, 10 validations croisées – 21 exécutions indépendantes – Soit h 1,...,h T les meilleurs hypothèses retenues à partir de T (T=21) exécutions indépendantes de ROGER.

42 42 Algorithme ROGER (2/2) Validation expérimentale sur les ensembles tests Bagged-RogerBagged-SVM Occ RV LinéaireNon linéaireLinéaireGaussienQuadratique Biologie, fréquents CV, fréquents Etude de généralité – différents domaines – différentes langues – différentes fréquences des collocations

43 43 É tude de généralité (1) : apprentissage CVs / application Biologie (fréquents) AUC Collocation fréquentes Corpus de Biologie Occ RV 0.57 RV0.42 I3I Dice0.31 I0.30 SVMBagged-ROGER Linéaire Non Linéaire Autres noyaux donnent des résultats plus faibles taux de faux positifs taux de vrais positifs

44 44 É tude de généralité (2) : apprentissage Biologie / validation CVs (fréquents) AUC Collocations fréquentes Corpus de CVs Occ RV 0.58 RV0.43 I3I Dice0.39 I0.31 SVMBagged-ROGER Linéaire Non Linéaire taux de faux positifs taux de vrais positifs

45 45 É tude de généralité (3) : apprentissage coll. fréquentes / application coll. rares (CVs) AUC Collocations rares Corpus de CVs Occ RV 0.37 Dice0.32 RV0.30 I3I3 I0.29 SVMBagged-ROGER Linéaire Non Linéaire taux de vrais positifs taux de faux positifs

46 46 Conclusions La méthode supervisée proposée donne de bons résultats. – bonne généralisation selon les langues, les domaines et la fréquence des collocations. Principales caractéristiques d'EXIT : – Approche itérative – Approche coopérative – Ajout de paramètres CIP (Coefficient Itérations Précédentes) critères statistiques DiffTextes

47 47 Perspectives Apprentissage actif : demander à l'expert de valider un nombre restreint de collocations à chaque exécution de ROGER. Étude approfondie de la terminologie verbale. Étude du bruit et du silence. Étude de la terminologie à partir d'autres langues.

48 48 DEFT'05 Le but du défi DEFT (DEfi Fouille de Textes) consiste à supprimer les phrases non pertinentes dans un corpus de discours politiques en français. Page Web : N'hésitez pas à participer...

49 49 Annexe

50 50 Méthode (1/2) Utilisation des courbes ROC (Receiver Operating Characteristic): courbe dont le taux de vrais positifs est représenté en ordonnées et le taux de faux positifs est représenté par l'axe des abscisses. Avantage : pas de sensibilité dans le cas d'un déséquilibre entre les classes. But : optimiser l'aire sous les courbes ROC (AUC) [Sebag et al. 2003] taux de faux positifs taux de vrais positifs

51 51 Méthode (2/2) Etape d'optimisation maximiser l'aire sous la courbe ROC minimiser la somme des rangs des exemples positifs rangs = 21 rangs = 25 rangs = 26 h 1 : h 2 : h 3 :

52 52 Exemple Type de collocations : adj 3 adj 2 adj 1 nom 1 et adj 3 adj 2 adj 1 nom 2 Elagage : élagage 1 à la première itération et 2 à la deuxième Extraction : 1. Type Adjectif-Adjectif Itération 1 : adj 3 adj 2 (2 fois) Itération 2 : adj 3 -adj 2 adj 1 (2 fois) 2. Type Adjectif-Nom Itération 1 : adj 3 -adj 2 -adj 1 nom 1 (1 fois) adj 3 -adj 2 -adj 1 nom 2 (1 fois) Extraction : 1. Type Adjectif-Nom Itération 1 : adj 1 nom 1 (1 fois) adj 1 nom 2 (1 fois) 2. Type Adjectif-Adjectif Itération 1 : adj 3 -adj 2 (2 fois) adj 3 -adj 2 -adj 1 -nom 1 et adj 3 -adj 2 -adj 1 -nom 1 non extraites Exemple : latent semantic analysis latent semantic indexing


Télécharger ppt "Extraction de la terminologie dans un processus global de fouille de textes Mathieu Roche Equipe Inférence et Apprentissage - LRI 11 février 2005 Laboratoire."

Présentations similaires


Annonces Google