Mathieu Roche Equipe Inférence et Apprentissage - LRI 11 février 2005

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
Licence pro MPCQ : Cours
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
1 Tournée Capital Souffle - du 03 octobre au 13 novembre Analyse des questionnaires recueillis sur les stands lors des actions régionales Capital.
1 Extraction de la terminologie Mathieu Roche Cours Polytech 21 novembre 2005.
INFORSID'04 - Biarritz 1 Étude de Mesures de Qualité pour Classer les Termes Extraits de Corpus Spécialisés Mathieu Roche, Oriane Matte-Tailliez, Yves.
JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,
EXIT : EXtraction Itérative de la Terminologie
INSTITUT DE VEILLE SANITAIRE
Les numéros 70 –
Les numéros
Les identités remarquables
Le, la, les words Possessive Adjectives MINE!!. 2 My in french is mon, ma,mes... Le word/ begins with a vowel: Mon La word: Ma Les word: Mes.
Introduction à la logique
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Données statistiques sur le droit doption au 31/01 8 février 2012.
Le Fscore est-il une critère pertinent pour évaluer la terminologie ?
Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.
La relève et le sondage sur la tarification et les revenus Une présentation de François Gauthier.
La législation formation, les aides des pouvoirs publics
1 7 Langues niveaux débutant à avancé. 2 Allemand.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
SERABEC Simulation sauvetage aérien avec un Hercule C130. Départ de St-Honoré le 4 octobre Durée de vol 3 heures. Premier vol en Hercule pour les.
Niveau 6ème Calcul mental Exercices Vrai / Faux Q. C. M.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
La méthodologie………………………………………………………….. p3 Les résultats
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
Jack Jedwab Association détudes canadiennes Le 27 septembre 2008 Sondage post-Olympique.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Classification Multi Source En Intégrant La Texture
Présentation générale
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Le drapeau canadien comme symbole de fierté nationale : une question de valeurs partagées Jack Jedwab Association détudes canadiennes 28 novembre 2012.
PM18 MONTAGE DU BLINDAGE AUTOUR DE LA QRL F. DELSAUX - 25 JAN 2005
Le Concours de Conaissance Francais I novembre 2012.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
Titre : Implémentation des éléments finis sous Matlab
Les quartiers Villeray – La Petite-Patrie et les voisinages
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
LES NOMBRES PREMIERS ET COMPOSÉS
Logiciel gratuit à télécharger à cette adresse :
Les chiffres & les nombres
1 Délégation FSA 2008: Cycle de formations prédépart __ Quest-ce que la mondialisation ?
RACINES CARREES Définition Développer avec la distributivité Produit 1
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Titre : Implémentation des éléments finis en Matlab
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Les Nombres 0 – 100 en français.
Aire d’une figure par encadrement
Écart moyen et écart type
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Certains droits réservés pour plus d’infos, cliquer sur l’icône.
Nom:____________ Prénom: ___________
LES COURSES SUR PISTE.
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Les Chiffres Prêts?
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Transcription de la présentation:

Extraction de la terminologie dans un processus global de fouille de textes Mathieu Roche Equipe Inférence et Apprentissage - LRI 11 février 2005 Laboratoire CLIPS - Grenoble

La fouille de textes Objectifs, exemples : Approches : Recherche des pages pertinentes sur le Web. Traitement automatique des courriels (spams, réponses automatisées aux courriels, etc.). Recherche des informations précises dans des textes techniques (médecine, biologie, etc.). Conception de systèmes de questions/réponses. Approches : méthodes linguistiques méthodes statistiques méthodes mixtes

Le processus global en fouille de textes [Kodratoff et al Le processus global en fouille de textes [Kodratoff et al., JDS'03 ; Roche et al., IIPWM'04] - - - - - Corpus brut Corpus normalisé Corpus étiqueté Termes Classification conceptuelle Règles d’association extraction d’informations par patrons d’extraction Normalisation Étiqueteur Extraction des "termes" Détection des traces de concepts Extraction d’informations Acquisition

Les corpus étudiés Tests de psychologie - Ressources Humaines (Société PerformanSe) - 3784 Ko (en français). Curriculum Vitæ (Groupe VediorBis) - 2470 Ko (en français). Introductions d’articles sur la Fouille de Données (acquisition par un expert) - 369 Ko (en anglais). Résumés d’articles sur la Biologie Moléculaire (acquisition par une base de données spécialisée) - 9424 Ko (en anglais). => Corpus journalistique de TREC'04 (Text REtrieval Conferences)

Problème spécifique étudié : les termes (1/2) Importance de la caractérisation des termes Exemple : traduction automatique Constitution européenne, article III-10 : The right to vote and to stand as a candidate in elections... Le droit de vote et d'éligibilité aux élections ...

Problème spécifique étudié : les termes (2/2) Collocation (candidat-terme) : groupe de mots dont le sens global est déductible des unités composant le groupe [Clas 1994]. Exemple, "maire de Paris" Terme : collocation ayant des propriétés syntaxiques + trace linguistique de concepts pour une tâche en cours. Exemples, "intelligence artificielle" et "génie logiciel" sont des termes Exemple, "chalon sur saône" est-il un terme ?

Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT (EXtraction Itérative de la Terminologie) 4. Extraction de la terminologie : une approche d'apprentissage supervisé

État de l'art (1/5) Systèmes linguistiques statistiques références TERMINO X [David et Plante 1990] LEXTER [Bourigault 1993] FASTR [Jacquemin 1996] INTEX [Silberztein1994 ; Ibekwe-SanJuan 2001] ANA [Enguehard 1993] MANTEX [Frath et al. 2000] XTRACT [Smadja 1993] ACABIT [Daille 1994] CLARIT [Evans et Zhai 1996] TERMIGHT [Dagan et Church 1997] C/NC VALUE [Frantzi et al. 2000] SYNTEX [Bourigault et Fabre 2000] WASPBENCH [Kilgarriff et Tugwel 2001] FIPS [Nerima et al. 2003] ESATEC [Biskri et al. 2004]

Exemple de système linguistique : État de l'art (2/5) Exemple de système linguistique : FASTR [Jacquemin 1996] Entrée : termes de base (congé de formation) Sortie : termes variants (congé annuel de formation). 3 types de règles (linguistiques) : Limite : nécessite de considérer une fenêtre plus grande [Ville-Ometz et al. 2004]. Exemple : thymus gland  thymus and adrenal gland contexte : rat thymus and adrenal gland coordinations association rule  association and classification rules insertions MRI image  MRI brain image permutations knowledge discovery  discovery of knowledge

Exemple de système statistique : État de l'art (3/5) Exemple de système statistique : ANA [Enguehard 1993] Module Familiarisation qui initialise la liste de bootstrap. Exemple : {chef, contrat, rayon, etc.} Module Découverte qui construit de manière incrémentale une liste de termes fréquents en utilisant les mots du bootstrap. Exemple : chef de rayon Entrée : {chef, contrat, rayon, etc.} Sortie : {chef, contrat, chef de rayon, etc.}

Exemple de système mixte : État de l'art (4/5) Exemple de système mixte : ACABIT [Daille 1994] Extraction de collocations respectant des patrons d'extraction simples Nom-Nom, Nom-Préposition-Nom, Nom-Adjectif, etc. Les termes variants sont détectés grâce à des règles morpho-syntaxiques (par exemple, centre de formation  centre régional de formation). Comptabilisation de tous les couples de mots en collocation notés par exemple (centre, formation). Classement statistique des couples de mots.

État de l'art (5/5) Itératif Coopératif Systèmes linguistiques statistiques références TERMINO X [David et Plante 1990] LEXTER [Bourigault 1993] FASTR [Jacquemin 1996] INTEX [Silberztein1994 ; Ibekwe-SanJuan 2001] ANA [Enguehard 1993] MANTEX [Frath et al. 2000] XTRACT [Smadja 1993] ACABIT [Daille 1994] CLARIT [Evans et Zhai 1996] TERMIGHT [Dagan et Church 1997] SYNTEX [Bourigault et Fabre 2000] C/NC VALUE [Frantzi et al. 2000] WASPBENCH [Kilgarriff et Tugwel 2001] FIPS [Nerima et al. 2003] ESATEC [Biskri et al. 2004] Itératif Coopératif EXIT X [Roche et al. 2004]

Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT (EXtraction Itérative de la Terminologie) 4. Extraction de la terminologie : une approche d'apprentissage supervisé

Présentation du système EXIT (EXtraction Itérative de la Terminologie) Système mixte (linguistique et statistique) Système itératif Système coopératif Extension du TF X IDF aux termes

3. 1. Processus itératif (1/3) [Roche, EGC'03 ; Roche et al 3.1. Processus itératif (1/3) [Roche, EGC'03 ; Roche et al., IIPWM'04 ; Roche et al., JADT'04] Processus itératif pour extraire les termes nominaux, adjectivaux et adverbiaux. Extraction - - - - - Corpus normalisé - - - - - Corpus étiqueté - - - - - Termes ETIQ [Amrani et al. 04] Introduction des termes avec "-" Exemple : 1ère itération : assistant de gestion 2ème itération : assistant-de-gestion de production

3.1. Processus itératif (2/3) Extraction des collocations typées Adjectif-Adjectif Adverbe-Adverbe Adverbe-Adjectif Adjectif-Nom Nom-Nom ... collocations de modifieurs (adjectif et adverbe) collocations nominales  exploitation des itérations + connaissances de l'expert

3.1. Processus itératif (3/3) Paramètre CIP (Coefficient Itérations Précédentes) But : utiliser les connaissances de l’expert CIP privilégie les collocations avec des mots inclus dans les collocations pertinentes des itérations précédentes. avec des mots absents des collocations non pertinentes des itérations précédentes. => pourcentage de collocations pertinentes amélioré (+2% à +16%).

Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT (EXtraction Itérative de la Terminologie) 3.1. Processus itératif 3.2. Mesures statistiques 3.2.1. État de l'art des mesures statistiques 3.2.2. Évaluation expérimentale des mesures existantes 3.2.3. Proposition de mesures hybrides 3.3. Extension du TF X IDF aux termes 3.4. L'interface d'EXIT 4. Extraction de la terminologie : une approche d'apprentissage supervisé

3. 2. Mesures statistiques [Roche et al. , JFT'03 ; Roche et al 3.2. Mesures statistiques [Roche et al., JFT'03 ; Roche et al., INFORSID'04] Rang Collocations Nb 1 2 3 4 ... 50 63 64 69 Rang Collocations Nb 1 2 3 4 ... 43 67 74 144 mise en place 111 mise en place 111 traitement de textes 57 traitement de textes 57 assistante de direction 60 assistante de direction 60 hôtesse de caisse 28 hôtesse de caisse 28 chalon sur saône 4 chalon sur saône 4 jéjunum de rat 3 jéjunum de rat 3 beurre de karité 3 beurre de karité 3 puy en velay 3 puy en velay 3 Rapport de Vraisemblance Information Mutuelle

3.2.1. État de l'art des mesures statistiques (1/4) Exemples de mesures fondées sur l'Information Mutuelle Information Mutuelle [Church et Hanks 1990] Information Mutuelle au Cube [Daille 1994]

3.2.1. État de l'art des mesures statistiques (2/4) Mesure d’Association [Jacquemin 1997] : isobarycentre des valeurs normalisées de l’information mutuelle et du nombre d’occurrences.

3.2.1. État de l'art des mesures statistiques (3/4) Rapport de Vraisemblance [Dunning, 1993] y y' avec y'  y x a b x' avec x'  x c d RV (x,y) = a.log(a) + b.log(b) + c.log(c) + d.log(d) - (a+b).log(a+b) - (a+c).log(a+c) - (b+d).log(b+d) - (c+d).log(c+d) + (a+b+c+d).log(a+b+c+d)

3.2.1. État de l'art des mesures statistiques (4/4) Références I Information Mutuelle [Church et Hanks 1990] I3 Information Mutuelle au Cube [Daille 1994] Ass Mesure d'Association [Jacquemin 1997] Dice Coefficient de Dice [ Smadja et al. 1996] RV Rapport de Vraisemblance [Dunning 1993] Khi 2 [Manning et Scütze 1999; Curran et Moens 2002] Ttest T-test SeSc Sebag - Schoenauer [Sebag et Schoenauer 1988] J J-mesure [Goodman et Smyth 1988] Conv Conviction [Brin et al. 1997] MC Moindre Contradiction [Azé et Kodratoff 2003] Mul Multiplicateur de Cote [Lallich et Teytaud 2004] TALN Règles d'association

3.2.2. Évaluation expérimentale des mesures existantes (1/6) Objectif : Choix d'une mesure pour une tâche en cours Critères de performance : Précision Courbe d'élévation ("lift chart") Rappel Fscore Courbes ROC

3.2.2. Évaluation expérimentale des mesures existantes (2/6) Corpus de Fouille de Données (FD), des Ressources Humaines (RH) et des CVs. Nb collocations après élagage (3) FD RH CV Nom-Prep-Nom 313 4703 3634 7 1268 307 Nom-Nom 2070 98 1781 223 11 162 Adjectif-Nom 2411 1260 1291 176 478 103 Nom-Adjectif X 5768 3455 1628 448 Exemples : emploi solidarité action communication fichier client service achat …

3.2.2. Évaluation expérimentale des mesures existantes (3/6) Les résultats présentés portent sur le corpus FD (relation Nom-Nom). Sur ce corpus, 1074 termes sont associés à un concept par l'expert du domaine. Protocole expérimental : Expérimentations sur la tâche d’extraction des collocations pertinentes pour la classification conceptuelle. 12 mesures de qualité expérimentées.

3.2.2. Évaluation expérimentale des mesures existantes (4/6) Ass Dice RV Khi 2 Ttest SeSc J Conv MC Mul 20% 59.0 75.0 70.4 68.1 88.6 65.9 84.0 77.2 61.3 40% 66.2 73.0 75.2 69.6 65.1 79.7 60.6 60% 60.1 67.6 63.9 66.1 69.9 65.4 71.4 62.4 62.1 80% 58.9 63.4 61.7 62.3 60.5 62.9 59.6 Précision (en %) sur le corpus de FD avec les collocations Nom-Nom.

3.2.2. Évaluation expérimentale des mesures existantes (5/6) Courbes d'élévation avec le corpus FD.

3.2.2. Évaluation expérimentale des mesures existantes (6/6) Résultats similaires avec les 3 autres corpus CV Ressources Humaines Biologie Bon comportement global des mesures suivantes : Rapport de Vraisemblance Information Mutuelle au Cube J-mesure

3.2. Proposition de mesures hybrides (1/2) [Roche et al., INFORSID'04] Motivations d'utiliser une nouvelle mesure. Ajout de λ à la mesure d’association : Problème d'optimisation avec λ. => λ* = 0 => Mise en place de la mesure OccRV - classement selon le nombre d'occurrences - classement des collocations ayant le même nombre d'occurrences avec RV

3.2. Proposition de mesures hybrides (2/2) [Roche et al., INFORSID'04] Courbes d'élévation avec le corpus FD.

Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT 3.1. Processus itératif 3.2. Mesures statistiques 3.3. Extension du TF X IDF aux termes 3.4. L'interface d'EXIT 4. Extraction de la terminologie : une approche d'apprentissage supervisé

3.3. Extension du TFXIDF pour les termes (1/2) [Roche, EGC'03 ; Roche et al., JADT'04] Paramètre privilégiant les collocations présentes dans des textes différents. Paramètre DiffTextes Exemple : nombre de collocations : 3 nombre de textes : 1 Paramètre TF/IDF DiffTextes = 2.7 ( 3-(3/10) )

3.3. Extension du TFXIDF pour les termes (2/2) Expérimentation du paramètre DiffTextes sur le corpus FD. I3 RV J OccRV 20% +1.7 +4.4 +4.3 40% +0.5 +2.9 +1.9 -0.3 60% +1.6 -1.5 +0.1 +2.5 80% +2.6 +0.9 +2.1  Amélioration globale de la précision

3.4. L'interface d'EXIT [Roche et al., JADT'04; Heitz et al., EGC'05]

Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT 4. Extraction de la terminologie : une approche d'apprentissage supervisé

Approche supervisée pour apprendre une mesure [Roche et al Approche supervisée pour apprendre une mesure [Roche et al., ROCAI'04 ; Azé et al., ICCI'04]  Entrée : quelques collocations étiquetées (positives ou négatives).  Sortie : fonction de rang [Cohen et al. 1999] Évaluation d’une fonction de rang : somme des rangs des exemples positifs. Minimiser la somme des rangs des exemples positifs  maximiser l'aire sous la courbe ROC rangs = 25 h2 : +++-+++--- AUC rangs = 21 h1: ++++++---- Area Under the Curve

Protocole expérimental (1/2) Données utilisées # collocations % collocations pertinentes non pertinentes CV, fréquents 376 85.7 14.3 CV, rares 2822 56.6 43.4 Biologie 1028 90.9 9.1

Protocole expérimental (2/2) Critères statistiques AUC collocations fréquentes corpus de CVs collocation fréquentes corpus de Biologie OccRV - Occurrence + RV [Roche et al. 2004] 0.58 0.57 RV - Rapport de Vraisemblance [Dunning 1993] 0.43 0.42 I3 - Information Mutuelle au cube [Daille et al. 1998] 0.40 0.35 Dice - Coefficient de Dice [Smadja et al. 1996] 0.39 0.31 I - Information Mutuelle [Church and Hanks 1990] 0.30  Combinaison de mesures

Algorithme ROGER (ROC based GEnetic learneR) (1/2) Approche linéaire h(Coll) = wi x mesi (Coll) avec (Coll, +/-) Approche non linéaire h(Coll) = wi x | mesi (Coll) - ci | avec (Coll, +/-) Hypothèses : Aire sous la courbe ROC h  (rang(Coll), Etiq(Coll)) classer les exemples par rangs croissants ++++-+---++-----+++----------- + : collocation pertinente - : collocation non pertinente rang

Algorithme ROGER (2/2) Protocole expérimental 90% Apprentissage, 10% Test, 10 validations croisées 21 exécutions indépendantes Soit h1,...,hT les meilleurs hypothèses retenues à partir de T (T=21) exécutions indépendantes de ROGER.

Algorithme ROGER (2/2) Validation expérimentale sur les ensembles tests Bagged-Roger Bagged-SVM OccRV Linéaire Non linéaire Gaussien Quadratique Biologie, fréquents 0.57 0.61  0.04 0.67  0.05 0.51  0.13 0.54  0.12 0.32  0.07 CV, fréquents 0.58 0.59  0.10 0.61  0.11 0.46  0.13 0.42  0.14 0.52  0.07 Etude de généralité différents domaines différentes langues différentes fréquences des collocations

Collocation fréquentes Étude de généralité (1) : apprentissage CVs / application Biologie (fréquents) AUC Collocation fréquentes Corpus de Biologie OccRV 0.57 RV 0.42 I3 0.35 Dice 0.31 I 0.30 taux de vrais positifs This tool is built in several steps and, at each of them, the expert plays a fundamental role (for example to clean a specialized corpus, to add lexical rules to tagg a text, etc.). - At each step of the process, the quality of the results obtained depend of the preceding steps. Then, it is important to consider a Complete chain of treatment. - Actually, we use machine learning techniques based on evolutionary methods to found a combination of different measured to improve the quality of extraction. SVM Bagged-ROGER Linéaire Non Linéaire 0.59 0.63 0.71 taux de faux positifs Autres noyaux donnent des résultats plus faibles

Collocations fréquentes Étude de généralité (2) : apprentissage Biologie / validation CVs (fréquents) AUC Collocations fréquentes Corpus de CVs OccRV 0.58 RV 0.43 I3 0.40 Dice 0.39 I 0.31 taux de vrais positifs This tool is built in several steps and, at each of them, the expert plays a fundamental role (for example to clean a specialized corpus, to add lexical rules to tagg a text, etc.). - At each step of the process, the quality of the results obtained depend of the preceding steps. Then, it is important to consider a Complete chain of treatment. - Actually, we use machine learning techniques based on evolutionary methods to found a combination of different measured to improve the quality of extraction. SVM Bagged-ROGER Linéaire Non Linéaire 0.65 0.64 0.63 taux de faux positifs

Étude de généralité (3) : apprentissage coll Étude de généralité (3) : apprentissage coll. fréquentes / application coll. rares (CVs) AUC Collocations rares Corpus de CVs OccRV 0.37 Dice 0.32 RV 0.30 I3 I 0.29 taux de vrais positifs This tool is built in several steps and, at each of them, the expert plays a fundamental role (for example to clean a specialized corpus, to add lexical rules to tagg a text, etc.). - At each step of the process, the quality of the results obtained depend of the preceding steps. Then, it is important to consider a Complete chain of treatment. - Actually, we use machine learning techniques based on evolutionary methods to found a combination of different measured to improve the quality of extraction. SVM Bagged-ROGER Linéaire Non Linéaire 0.56 0.67 0.70 taux de faux positifs

Conclusions La méthode supervisée proposée donne de bons résultats. bonne généralisation selon les langues, les domaines et la fréquence des collocations. Principales caractéristiques d'EXIT : Approche itérative Approche coopérative Ajout de paramètres CIP (Coefficient Itérations Précédentes) critères statistiques DiffTextes

Perspectives Apprentissage actif : demander à l'expert de valider un nombre restreint de collocations à chaque exécution de ROGER. Étude approfondie de la terminologie verbale. Étude du bruit et du silence. Étude de la terminologie à partir d'autres langues.

DEFT'05 Le but du défi DEFT (DEfi Fouille de Textes) consiste à supprimer les phrases non pertinentes dans un corpus de discours politiques en français. Page Web : http://www.lri.fr/ia/fdt/DEFT05/ N'hésitez pas à participer...

Annexe

Méthode (1/2) Utilisation des courbes ROC (Receiver Operating Characteristic): courbe dont le taux de vrais positifs est représenté en ordonnées et le taux de faux positifs est représenté par l'axe des abscisses. Avantage : pas de sensibilité dans le cas d'un déséquilibre entre les classes. But : optimiser l'aire sous les courbes ROC (AUC) [Sebag et al. 2003]. 1 taux de faux positifs taux de vrais positifs

Méthode (2/2) Etape d'optimisation h1: ++++++---- h2 : +++-+++--- maximiser l'aire sous la courbe ROC  minimiser la somme des rangs des exemples positifs rangs = 21 rangs = 25 rangs = 26 h1: ++++++---- h2 : +++-+++--- h3 : ++-+-++-+-

Exemple Type de collocations : adj3 adj2 adj1 nom1 et adj3 adj2 adj1 nom2 Elagage : élagage 1 à la première itération et 2 à la deuxième Extraction : 1. Type Adjectif-Adjectif Itération 1 : adj3 adj2 (2 fois) Itération 2 : adj3-adj2 adj1 (2 fois) 2. Type Adjectif-Nom Itération 1 : adj3-adj2-adj1 nom1 (1 fois) adj3-adj2-adj1 nom2 (1 fois) Extraction : 1. Type Adjectif-Nom Itération 1 : adj1 nom1 (1 fois) adj1 nom2 (1 fois) 2. Type Adjectif-Adjectif Itération 1 : adj3-adj2 (2 fois) adj3-adj2-adj1-nom1 et adj3-adj2-adj1-nom1 non extraites Exemple : latent semantic analysis latent semantic indexing