Le Fscore est-il une critère pertinent pour évaluer la terminologie ? Mathieu Roche et Yves Kodratoff 05 avril 2005 Atelier "Evaluation des outils terminologiques" Conférence TIA 2005 - Rouen
Contexte Problématique : listes de collocations ordonnées, en utilisant, par exemple, des mesures statistiques. collocation pertinente = collocation qui représente une trace linguistique de concept pour une tâche en cours. Comment évaluer la qualité des listes de collocations ? TIA, 05/04/2005
2. Classement des collocations [Roche et al. , JFT'03 ; Roche et al 2. Classement des collocations [Roche et al., JFT'03 ; Roche et al., INFORSID'04] Rang Collocations Nb 1 2 3 4 ... 50 63 64 69 Rang Collocations Nb 1 2 3 4 ... 43 67 74 144 mise en place 111 mise en place 111 traitement de textes 57 traitement de textes 57 assistante de direction 60 assistante de direction 60 hôtesse de caisse 28 hôtesse de caisse 28 chalon sur saône 4 chalon sur saône 4 jéjunum de rat 3 jéjunum de rat 3 beurre de karité 3 beurre de karité 3 puy en velay 3 puy en velay 3 Rapport de Vraisemblance Information Mutuelle TIA, 05/04/2005
Quelques critères d'évaluation des listes de collocations (1/2) Précision : Courbe d'élévation ("lift chart") : précision en fonction du nombre de collocations extraites TIA, 05/04/2005
Quelques critères d'évaluation des listes de collocations (2/2) Rappel Fscore TIA, 05/04/2005
Les courbes ROC (1/4) Utilisation des courbes ROC (Receiver Operating Characteristic): courbe dont le taux de vrais positifs est représenté en ordonnées et le taux de faux positifs est représenté par l'axe des abscisses. Avantage : pas de sensibilité dans le cas d'un déséquilibre entre les classes. 1 taux de faux positifs taux de vrais positifs AUC TIA, 05/04/2005
Les courbes ROC (2/4) s1 s2 A : + ++++--++-+--+-- Intérêt décroissant Vrais positifs (VP) S1 A VP = 1/8 FP = 0 B S2 VP = 4/8 FP = 0 VP = 3/8 FP = 2/8 Faux positifs (FP) TIA, 05/04/2005
Les courbes ROC (3/4) Rangs (+,.) A : +++++--++-+--+-- Maximiser l’aire sous la courbe ROC minimiser la somme des rangs des ex. positifs FP VP Rangs (+, A) : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Rangs (+, B) : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Rangs (+,.) A : +++++--++-+--+-- 57 B : + --++--++-++--+- 65 Intérêt décroissant TIA, 05/04/2005
Les courbes ROC (4/4) Exemples de courbes ROC h1: ++++++---- rangs = 21 rangs = 25 rangs = 26 h1: ++++++---- h2 : +++-+++--- h3 : ++-+-++-+- TIA, 05/04/2005
Comparaison Fscore/courbe ROC (1/2) 1 positif et 99 négatifs 50 positifs et 50 négatifs Fscore TIA, 05/04/2005
Comparaison Fscore/courbe ROC (2/2) 1 positif et 99 négatifs 50 positifs et 50 négatifs Courbes ROC TIA, 05/04/2005
Conclusions et perspectives Avantage des courbes ROC comme critère d'évaluation : pas de sensibilité d'un éventuel déséquilibre entre les classes (nombre d'exemples positifs et négatifs). Méthode : utilisation de méthodes d'apprentissage supervisé fondées sur les courbes ROC pour apprendre des fonctions de rangs [Roche et al., ROCAI'04 ; Azé et al., ASMDA'05] TIA, 05/04/2005