INFORSID'04 - Biarritz 1 Étude de Mesures de Qualité pour Classer les Termes Extraits de Corpus Spécialisés Mathieu Roche, Oriane Matte-Tailliez, Yves.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
Reporting de la Cellule Nationale Droit dOption Situation au 31 décembre 2011.
[number 1-100].
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Licence pro MPCQ : Cours
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Fouille de textes : Extraction Itérative de la Terminologie
1 Extraction de la terminologie Mathieu Roche Cours Polytech 21 novembre 2005.
Mathieu Roche Equipe Inférence et Apprentissage - LRI 11 février 2005
JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,
EXIT : EXtraction Itérative de la Terminologie
Surveillance du Sida : pourquoi le nombre de cas ne diminue-t-il plus?
Les numéros 70 –
Les numéros
Les identités remarquables
Le, la, les words Possessive Adjectives MINE!!. 2 My in french is mon, ma,mes... Le word/ begins with a vowel: Mon La word: Ma Les word: Mes.
Sirop de Liège « industriel »
Calcul mental 3ème 2 Septembre 2010
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Le Fscore est-il une critère pertinent pour évaluer la terminologie ?
Révision (p. 130, texte) Nombres (1-100).
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Le Concours de Conaissance II Francais I decembre 2012.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
SERABEC Simulation sauvetage aérien avec un Hercule C130. Départ de St-Honoré le 4 octobre Durée de vol 3 heures. Premier vol en Hercule pour les.
-17 Anticipations économiques en Europe Septembre 2013 Indicateur > +20 Indicateur 0 a +20 Indicateur 0 a -20 Indicateur < -20 Union européenne total:
Le Concours de Conaissance III Francais I fevrier 2013.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Présentation générale
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Le Concours de Conaissance Francais I novembre 2012.
Titre : Implémentation des éléments finis sous Matlab
Les nombres.
Les quartiers Villeray – La Petite-Patrie et les voisinages
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
LES NOMBRES PREMIERS ET COMPOSÉS
Logiciel gratuit à télécharger à cette adresse :
Les chiffres & les nombres
1 INETOP
1 Délégation FSA 2008: Cycle de formations prédépart __ Quest-ce que la mondialisation ?
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Titre : Implémentation des éléments finis en Matlab
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Les Nombres 0 – 100 en français.
Aire d’une figure par encadrement
Écart moyen et écart type
Équipe 2626 Octobre 2011 Jean Lavoie ing. M.Sc.A.
Copyright 2011 – Les Chiffres Copyright 2011 –
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Vous allez voir des nombres sur la diapositive suivante. Il faudra bien les observer et les garder en mémoire. Vous devrez les écrire sur l’ardoise quand.
Certains droits réservés pour plus d’infos, cliquer sur l’icône.
Nom:____________ Prénom: ___________
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Les Chiffres Prêts?
Elles avaient envahi le jardin, mais derrière... 1.
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Transcription de la présentation:

INFORSID'04 - Biarritz 1 Étude de Mesures de Qualité pour Classer les Termes Extraits de Corpus Spécialisés Mathieu Roche, Oriane Matte-Tailliez, Yves Kodratoff LRI (Orsay)

INFORSID'04 - Biarritz 2 Processus global en terminologie Corpus étiqueté avec ETIQ [Amrani et al., 2004] Collocations nominales Termes nominaux Termes verbaux Collocations verbales Termes variants Corpus brut Corpus nettoyé Termes variants Termes Nom-Prép-Nom avec linformation mutuelle au cube 1. mise en place (111) 2. traitement de texte (57) 3. tableau de bord (23) 4. contrat de qualification (31) Exemples : Termes Nom-Prép-Nom avec linformation mutuelle 1. beurre de karité (3) 2. jéjunum de rat (3) 3. puy en velay (3) 4. chalon sur saône (4) + + +

INFORSID'04 - Biarritz 3 Corpus Corpus de Ressources Humaines (société PerformanSe) – 3784 Ko (en français) Corpus de CV (Groupe VediorBis) – 2470 Ko (en français) Corpus dintroductions darticles sur la Fouille de Données – 369 Ko (en anglais) Corpus de résumés darticles sur la Biologie Moléculaire – 9424 Ko (en anglais)

INFORSID'04 - Biarritz 4 Plan de lexposé Présentation de quelques mesures Expérimentations – Mesure dévaluation – Protocole expérimental – Résultats Conclusions et perspectives

INFORSID'04 - Biarritz 5 Quelques mesures (1/4) Information Mutuelle [Church et Hanks, 90] Information Mutuelle au Cube [Daille, 94]

INFORSID'04 - Biarritz 6 Quelques mesures (2/4) Mesure dAssociation [Jacquemin, 97] : – isobarycentre des valeurs normalisées de linformation mutuelle et du nombre doccurrences.

INFORSID'04 - Biarritz 7 Quelques mesures (3/4) Coefficient de Dice [Smadja, 96]

INFORSID'04 - Biarritz 8 Quelques mesures (4/4) Rapport de Vraisemblance [Dunning, 93] y y' avec y' y x ab x' avec x' x cd RV = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + (a+b+c+d) log(a+b+c+d)

INFORSID'04 - Biarritz 9 Plan de lexposé Présentation de quelques mesure Expérimentations – Mesure dévaluation – Protocole expérimental – Résultats Conclusions et perspectives

INFORSID'04 - Biarritz 10 Expérimentations : mesures dévaluation La précision (1) 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … Collocations extraites

INFORSID'04 - Biarritz 11 Expérimentations : mesures dévaluation La précision (2) Les courbes délévation (« lift chart ») : variation de la précision en fonction du nombre de collocations proposées à lexpert. Ne connaissant pas lensemble des collocations pertinentes, le rappel nest pas calculé.

INFORSID'04 - Biarritz 12 Expérimentations : protocole expérimental Corpus de Fouille de Données, de CV, de Ressources Humaines : termes pertinents qui sont traces de concepts (resp. 642, 412 et 2960 termes sur les corpus de Fouille de Données, de CV et des Ressources Humaines). Corpus de Biologie Moléculaire : termes pertinents et non valides (7057 termes).

INFORSID'04 - Biarritz 13 Expérimentations : corpus de Fouille de Données, de CV et des Ressources Humaines Elagage à 3 Nb collocations après élagage FDRHCVFDRHCV Nom-Prep-Nom Nom-Nom Adjectif-Nom Nom-Adjectif X X Exemples : emploi solidarité action communication fichier client service achat …

INFORSID'04 - Biarritz 14 Expérimentations : corpus des Ressources Humaines (relation Nom-Adjectif) Courbes délévation avec cinq mesures. Dice a RV I 3 I

INFORSID'04 - Biarritz 15 Expérimentations : corpus de Biologie Moléculaire Elagage à 4. Expérimentations avec la relation Nom-Nom. Les collocations non expertisées ne sont pas prises en compte dans le calcul de la précision. Résultat similaire aux 3 autres corpus : le Rapport de Vraisemblance est la mesure la plus adaptée pour notre tâche.

INFORSID'04 - Biarritz 16 Paramétrage de la mesure dassociation (relation Nom-Adjectif du corpus des Ressources Humaines) Ajout dun paramètre λ à la mesure dassociation : Collocations extraites λ= 0λ= 0.1λ= 0.2λ= 0.3λ= 0.4λ= % 84.0 %83.6 %71.6 %62.4 %57.5 %52.3 % 40 % 61.1 %57.1 %50.3 %45.9 %42.2 %40.3 % 60 % 44.7 %42.4 %39.5 %37.3 %35.6 %34.7 % λ= 0.6λ= 0.7λ= 0.8λ= 0.9λ= 1 20 % 49.8 %47.3 %45.5 %43.3 %42.4 % 40 % 39.0 %38.0 %37.1 %35.4 %34.1 % 60 % 33.8 %33.2 %32.5 %32.0 %31.6 %

INFORSID'04 - Biarritz 17 Nombre doccurrences + Rapport de Vraisemblance (relation Nom-Adjectif du corpus des Ressources Humaines) Classement selon le nombre doccurrences + une mesure statistique pour les collocations ayant le même nombre doccurrences. RV Nb Occ + RV

INFORSID'04 - Biarritz 18 Conclusions et perspectives Les mesures privilégiant les collocations ayant un nombre doccurrences important donnent de meilleurs résultats pour notre tâche (extraire des collocations qui sont des traces de concepts). LInformation Mutuelle extrait des collocations rares : utilisation de lInformation Mutuelle pour quelle tâche ? Perspectives : Combinaison de mesures pour améliorer la précision.

INFORSID'04 - Biarritz 19 Processus global en terminologie Corpus étiqueté avec ETIQ [Amrani et al., 2004] Collocations nominales Termes nominaux Termes verbaux Collocations verbales Termes variants Corpus brut Corpus nettoyé Termes variants Termes Nom-Prép-Nom avec linformation mutuelle au cube 1. mise en place (111) 2. traitement de texte (57) 3. tableau de bord (23) 4. contrat de qualification (31) Exemples : Termes Nom-Prép-Nom avec linformation mutuelle 1. beurre de karité (3) 2. jéjunum de rat (3) 3. puy en velay (3) 4. chalon sur saône (4)