JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
Reporting de la Cellule Nationale Droit dOption Situation au 31 décembre 2011.
Approche graphique du nombre dérivé
Licence pro MPCQ : Cours
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Fouille de textes : Extraction Itérative de la Terminologie
1 Extraction de la terminologie Mathieu Roche Cours Polytech 21 novembre 2005.
INFORSID'04 - Biarritz 1 Étude de Mesures de Qualité pour Classer les Termes Extraits de Corpus Spécialisés Mathieu Roche, Oriane Matte-Tailliez, Yves.
Mathieu Roche Equipe Inférence et Apprentissage - LRI 11 février 2005
EXIT : EXtraction Itérative de la Terminologie
Les numéros 70 –
Les numéros
ACTIVITES Les fractions (10).
Xavier Mouranche Registre e-MUST Evaluation en Médecine dUrgence des Stratégies Thérapeutiques de lInfarctus du Myocarde.
Cest parti ! 4,7 + 3,3 Levez la tête ! 3,9 + 5,6.
CERTIFICATION 2011.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Identités remarquables : introduction Les 3 identités remarquables
Données statistiques sur le droit doption au 31/01 8 février 2012.
Le Fscore est-il une critère pertinent pour évaluer la terminologie ?
ETALONNAGE D’UN CAPTEUR
Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.
Révision (p. 130, texte) Nombres (1-100).
La législation formation, les aides des pouvoirs publics
1 7 Langues niveaux débutant à avancé. 2 Allemand.
PROMOTION 2012 Les résultats. Baccalauréat général et technologique Filière STG CFE STG COM RH STG MERC LES 1ES 2S1S2S3TOTAL Nb de candidats
Classification Multi Source En Intégrant La Texture
Présentation générale
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
Le Concours de Conaissance Francais I novembre 2012.
Titre : Implémentation des éléments finis sous Matlab
Les nombres.
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
Conseil Administration AFRAC – 2 décembre Toulouse 1 Fermes de références Palmipèdes à foie gras Synthèse régionale – Midi Pyrénées Exercice
Les chiffres & les nombres
1 Délégation FSA 2008: Cycle de formations prédépart __ Quest-ce que la mondialisation ?
Mamadou Dieye, Mohamed Rafik Doulache,
RACINES CARREES Définition Développer avec la distributivité Produit 1
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
Les maths en francais 7ième année.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Les Nombres! de 0 à 20.
SUJET D’ENTRAINEMENT n°4
Aire d’une figure par encadrement
Écart moyen et écart type
Copyright 2011 – Les Chiffres Copyright 2011 –
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1 Modèle pédagogique d’un système d’apprentissage (SA)
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Certains droits réservés pour plus d’infos, cliquer sur l’icône.
Nom:____________ Prénom: ___________
CALENDRIER-PLAYBOY 2020.
Comment construire un graphique ?
Annexe Résultats provinciaux comparés à la moyenne canadienne
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Les Chiffres Prêts?
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Bienvenue.
Transcription de la présentation:

JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche, Thomas Heitz, Oriane Matte-Tailliez, Yves Kodratoff LRI – Université Paris XI

JADT'04 - Mars 2004, Belgique 2 Plan de lexposé État de lart de différents systèmes Présentation du processus global Les paramètres dEXIT – Généralité sur les paramètres – Description de mesures statistiques – Évaluation des mesures Perspectives

JADT'04 - Mars 2004, Belgique 3 État de lArt de différents systèmes Trois types de méthodes – Méthodes linguistiques : LEXTER, ANA, FASTR,etc. – Méthodes statistiques : Xtract, etc. – Méthodes mixtes : ACABIT, EXIT, etc.

JADT'04 - Mars 2004, Belgique 4 Processus global en terminologie Corpus étiqueté avec ETIQ [Amrani et al., 04] Termes verbaux Collocations verbales Termes variants Corpus brut Corpus nettoyé Termes variants Termes Nom-Prép-Nom avec le rapport de vraisemblance 1. mise en place (111) 2. traitement de texte (57) 3. assistante de direction (60) 4. hôtesse de caisse (28) … Exemples : Termes Nom-Prép-Nom avec linformation mutuelle 1. beurre de karité (3) 2. jéjunum de rat (3) 3. puy en velay (3) 4. chalon sur saône (4) … Collocations nominales Termes nominaux + + +

JADT'04 - Mars 2004, Belgique 5 Les paramètres dEXIT Élagage. Privilégier les termes qui apparaissent dans des textes différents. Règles lexicales pour valider ou rejeter des termes semi automatiquement. Choix de mesures.

JADT'04 - Mars 2004, Belgique 6 Les paramètres dEXIT Les mesures Information Mutuelle [Church et Hanks, 90]

JADT'04 - Mars 2004, Belgique 7 Les paramètres dEXIT Les mesures Rapport de Vraisemblance [Dunning, 93] RV = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + (a+b+c+d) log(a+b+c+d) y y' avec y' y x ab x' avec x' x cd Dautres mesures : information mutuelle au cube, mesure dassociation, coefficient de Dice et mesures du domaine de lextraction des règles dassociations [Roche et al., 03]

JADT'04 - Mars 2004, Belgique 8 Les paramètres dEXIT Évaluation des mesures : la précision 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … Collocations extraites - Utilisation des courbes délévation (« lift chart ») : variation de la précision en fonction du nombre de collocations proposées à lexpert.

JADT'04 - Mars 2004, Belgique 9 Les paramètres dEXIT Évaluation des mesures : le rappel Impossible à calculer !

JADT'04 - Mars 2004, Belgique 10 Les paramètres dEXIT Évaluation des mesures : les corpus Corpus de Ressources Humaines (société PerformanSe) Ko (en français) Corpus de CV (Groupe VediorBis) – 2470 Ko (en français) Corpus dintroductions darticles sur la Fouille de Données – 369 Ko (en anglais) Corpus de résumés darticles sur la Biologie Moléculaire – 9424 Ko (en anglais)

JADT'04 - Mars 2004, Belgique 11 Les paramètres dEXIT Évaluation des mesures : lexpertise des termes Corpus de Fouille de Données, de CV, de Ressources Humaines : termes pertinents qui sont traces de concepts (resp. 642, 412 et 2960 termes sur les corpus de Fouille de Données, de CV et des Ressources Humaines). Corpus de Biologie Moléculaire : termes pertinents et non valides (7057 termes).

JADT'04 - Mars 2004, Belgique 12 Les paramètres dEXIT Évaluation des mesures : courbe délévation

JADT'04 - Mars 2004, Belgique 13 Les paramètres dEXIT Linterface graphique

JADT'04 - Mars 2004, Belgique 14 Perspectives Calculer le rappel sur un sous-ensemble des corpus. Déterminer une combinaison de mesures statistiques pour classer les termes.

JADT'04 - Mars 2004, Belgique 15 ANNEXE

JADT'04 - Mars 2004, Belgique 16 Quelques mesures (1/4) Information Mutuelle [Church et Hanks, 90] Information Mutuelle au Cube [Daille, 94]

JADT'04 - Mars 2004, Belgique 17 Quelques mesures (2/4) Mesure dAssociation [Jacquemin, 97] : – isobarycentre des valeurs normalisées de linformation mutuelle et du nombre doccurrences.

JADT'04 - Mars 2004, Belgique 18 Quelques mesures (3/4) Coefficient de Dice [Smadja, 96]

JADT'04 - Mars 2004, Belgique 19 Expérimentations : corpus de Fouille de Données, de CV et des Ressources Humaines Elagage à 3 Nb collocations après élagage FDRHCVFDRHCV Nom-Prep-Nom Nom-Nom Adjectif-Nom Nom-Adjectif X X Exemples : emploi solidarité action communication fichier client service achat …

JADT'04 - Mars 2004, Belgique 20 Expérimentations : corpus des Ressources Humaines (relation Nom-Adjectif) Courbes délévation avec cinq mesures.

JADT'04 - Mars 2004, Belgique 21 Expérimentations : corpus de Biologie Moléculaire Elagage à 4 Nb collocationsNb collocations après élagage Pourcentage élagage Nom-Prep-Nom % Nom-Nom % Adjectif-Nom %

JADT'04 - Mars 2004, Belgique 22 Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom) Précision avec cinq mesures. Collocations extraites II3I3 AssDiceRV 20 % 82.8% (49.8%) 86.8 % (80.7 %) 84.1 % (53.1 %) 86.5 % (65.7 %) 88.5 % (87.5 %) 40 % 86.9 % (42.6 %) 88.9 % (58.5 %) 87.4 % (47.7 %) 87.8 % (47.7 %) 88.9 % (58.2 %) 60 % 89.4 % (38.9 %) 90.0 % (46.0 %) 89.7 % (40.4 %) 88.7 % (39.4 %) 89.6 % (44.1 %)

JADT'04 - Mars 2004, Belgique 23 Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom) Courbes délévation avec cinq mesures.

JADT'04 - Mars 2004, Belgique 24 Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom) Classement selon le nombre doccurrences + une mesure statistique pour les collocations ayant le même nombre doccurrences.