1 Extraction de la terminologie Mathieu Roche Cours Polytech 21 novembre 2005.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Licence pro MPCQ : Cours
Distance inter-locuteur
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Fouille de textes : Extraction Itérative de la Terminologie
INFORSID'04 - Biarritz 1 Étude de Mesures de Qualité pour Classer les Termes Extraits de Corpus Spécialisés Mathieu Roche, Oriane Matte-Tailliez, Yves.
Mathieu Roche Equipe Inférence et Apprentissage - LRI 11 février 2005
JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,
EXIT : EXtraction Itérative de la Terminologie
Les numéros
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Le Fscore est-il une critère pertinent pour évaluer la terminologie ?
Description du fonctionnement d'un système 1 Clic Clic
ETALONNAGE D’UN CAPTEUR
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
1 7 Langues niveaux débutant à avancé. 2 Allemand.
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES COHESION CULTURELLE ET EXPANSION DES IDEES SUR LE TERRITOIRE EUROPEEN.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Navigation aérienne François RICHARD-BÔLE (DSNA)
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Synchronisation et communication entre processus
Classification Multi Source En Intégrant La Texture
Cours de physique générale I Ph 11
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
PM18 MONTAGE DU BLINDAGE AUTOUR DE LA QRL F. DELSAUX - 25 JAN 2005
Le Concours de Conaissance Francais I novembre 2012.
Titre : Implémentation des éléments finis sous Matlab
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
Tableaux de distributions
Tableaux de distributions
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Partie 1: Ondes et Particules.
1 INETOP
Mamadou Dieye, Mohamed Rafik Doulache,
RACINES CARREES Définition Développer avec la distributivité Produit 1
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
1 Licence dinformatique Algorithmique des graphes Problèmes dordonnancement. Utilisation de ce document strictement réservée aux étudiants de l IFSIC dans.
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Titre : Implémentation des éléments finis en Matlab
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Symposium AFMC de Durbuy mai Association Francophone des Médecins Chefs Enquête réalisée auprès des médecins-chefs n = 50.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Nom:____________ Prénom: ___________
Exercice de vérification 1 p
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Les Chiffres Prêts?
Chapitre 3 :Algèbre de Boole
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Supports de formation au SQ Unifié
Les parties du corps By Haru Mehra Le Frehindi 1Haru Mehra, DELF, DALF,CFP.
Transcription de la présentation:

1 Extraction de la terminologie Mathieu Roche Cours Polytech 21 novembre 2005

Cours FdT – Polytech – 21/11/ Introduction Corpus brut Corpus nettoyé Corpus étiqueté Corpus + Termes Classification conceptuelle - découverte de règles dassociation - extraction dinformation par patrons dextraction Nettoye ur Etiquete ur Extracti on des termes Détection des traces de concepts Extraction dinformati ons

Cours FdT – Polytech – 21/11/ Introduction Une définition de la terminologie : « Langue particulière que se fait chaque auteur », Emile Littré (1876)

Cours FdT – Polytech – 21/11/ Les termes Terme = groupe de mots ayant des propriétés syntaxiques + trace linguistique de concepts pour une tâche en cours. – Exemples, les candidats termes " intelligence artificielle " et " génie logiciel " sont des termes. – Exemple, le candidat terme " chalon sur saône " est-il un terme ?

Cours FdT – Polytech – 21/11/ Pourquoi étudier les termes ? Importance de la caractérisation des termes – Exemple : traduction automatique Constitution européenne, article III-10 : The right to vote and to stand as a candidate in elections... Le droit de vote et d'éligibilité aux élections...

Cours FdT – Polytech – 21/11/ Quelques systèmes d'extraction de la terminologie [Bourigault et Fabre 2000]XXSYNTEX [Biskri et al. 2004]XXESATEC [Nerima et al. 2003]XXFIPS [Kilgariff et Tugwel 2001]XXWASPBENCH [Frantzi et al. 2000]XXC/NC VALUE [Daga et Church 1997]XXTERMIGHT [Evans et Zhai 1996]XXCLARIT [Daille 1994]XXACABIT [Smadja 1993]XXXTRACT [Frath et al. 2000]XMANTEX [Enguehard 1993]XANA [Silberztein1994 ; Ibekwe-SanJuan 2001]XINTEX [Jacquemin 1996]XFASTR [Bourigault 1993]XLEXTER [David et Plante 1990]XTERMINO référencesstatistiqueslinguistiquesSystèmes Coopératif Itératif [Roche et al. 2004]XXEXIT

Cours FdT – Polytech – 21/11/ LEXTER [Bourigault, 93 ; Jacquemin et Bourigault, 99] (1/8) Méthode linguistique Trois étapes : – Extraction des groupes nominaux maximaux – Décomposition des groupes nominaux maximaux – Présentation des résultats sous forme dun réseau sémantique

Cours FdT – Polytech – 21/11/ LEXTER : 1 ère étape (2/8) Extraction des groupes nominaux maximaux – L'idée qui est à la base de la conception de LEXTER est celle de repérage de frontière. – Le principe de base est donc de découper le texte en repérant ces frontières potentielles entre lesquelles on isole des syntagmes nominaux susceptibles d'être des occurrences de termes.

Cours FdT – Polytech – 21/11/ LEXTER : 1 ère étape (3/8) Extraction des groupes nominaux maximaux – Les règles de découpage décrivent des marqueurs de frontière sous la forme de patrons morpho-syntaxiques; par exemple : verbe, conjonction, préposition + adjectif possessif, etc. – Les données d'entrée du module chargé d'effectuer le découpage sont uniquement des informations morphologiques associées à chaque mot du texte : catégorie grammaticale, traits morphologiques (en particulier genre et nombre), forme lemmatisée.

Cours FdT – Polytech – 21/11/ LEXTER : 1 ère étape (4/8) Extraction des groupes nominaux maximaux Texte initial (étiqueté) le circuit d'aspersion de l'enceinte de confinement assure le maintien de sa température nominale de fonctionnement après une augmentation de pression. Groupes nominaux maximaux - circuit d'aspersion de l'enceinte de confinement - maintien - température nominale de fonctionnement - augmentation de pression Verbe --> coupe préposition + adj. possessif coupe préposition + art. indéfini coupe

Cours FdT – Polytech – 21/11/ LEXTER : 2 ème étape (5/8) Décomposition des groupes nominaux maximaux – Hypothèse : tout terme complexe est composé d'une tête et d'une expansion.

Cours FdT – Polytech – 21/11/ LEXTER : 2 ème étape (6/8) Décomposition des groupes nominaux maximaux – Deux règles classiques de décomposition nom1 adjectif : – Tête : nom1 – Expansion : adjectif nom1 de nom2 : – Tête : nom1 – Expansion : nom2 (de)

Cours FdT – Polytech – 21/11/ LEXTER : 2 ème étape (7/8) Problème dambiguïtés – Par exemples, les groupes nominaux de type Nom1 de Nom2 Adjectif (corps français) : centre de tourisme équestre Problème de rattachement sil y a absence dinformations sur le genre ou le nombre Deux types de décompositions pour « centre de tourisme équestre» Tête : centre Expansion : tourisme équestre Tête : centre de tourisme Expansion : équestre Groupe non ambigus également trouvé dans le corpus --> 1 ère décomposition retenue

Cours FdT – Polytech – 21/11/ LEXTER : 3 ème étape (8/8) Présentation des résultats sous forme dun réseau sémantique

Cours FdT – Polytech – 21/11/ FASTR [Jacquemin, 96] (1/2) Entrée : termes de référence ( congé de formation ) Sortie : termes variants ( congé annuel de formation ). 3 types de règles (linguistiques) : knowledge discovery --> discovery of knowledge permutation MRI image --> MRI brain image insertions association rule --> association and classification rules coordination

Cours FdT – Polytech – 21/11/ FASTR (2/2) Remarque : dans certains cas, nécessité de considérer une fenêtre plus grande [Ville-Ometz et al. 2004]. Exemple : thymus gland --> thymus and adrenal gland contexte : rat thymus and adrenal gland

Cours FdT – Polytech – 21/11/ ANA (Apprentissage Naturel Automatique) [Enguehard, 93 ; Enguehard, 01] (1/8) Méthode numérique Méthode incrémentale Deux étapes : – Module « Familiarisation » – Module « Découverte »

Cours FdT – Polytech – 21/11/ ANA : 1 ère étape (2/8) Module « Familiarisation » : extraction de connaissances dans les textes sous forme de quatre liste. – 1 ère liste : les mots fonctionnels : articles, pronoms, adverbes. Liste établie statistiquement. "a", "alors", "après", "au", "auraient", "aussi", "autre", "avait", "avant", "avec", "avoir", "beaucoup", "c", "car", "ce", "cela", "celles", "certain", "ces", "cette", "ceux", "chacun", "chaque", "comme", "comment", "d", "dans", "de", "déjà", "des", "dirais", "dire", "dit", "donc", "du", "elle", "en", "encore", "est", "et", "était«, etc.

Cours FdT – Polytech – 21/11/ ANA : 1 ère étape (3/8) Module « Familiarisation » – 2 ème liste : les mots fortement liés : variation morphologiques de certains mots fonctionnels. Par exemple, « de la », « est en », « est le ». – 3 ème liste : les mots de schémas : mots fonctionnels structurant les groupes de mots. Par exemple, « de », « de la », « des », « du », « en », etc. – 4 ème liste : les bootstrap : quelques termes du domaine.

Cours FdT – Polytech – 21/11/ ANA : 2 ème étape (4/8) Module « Découverte » – ANA consiste à enrichir, de manière incrémentale, les termes du bootstrap de trois manières différentes. – Exemples en utilisant les termes du bootstrap suivant : {automate, centrale, circuit, cœur, cuve, fréquence, gaz, rédacteur, structures, tubes, vibration, vitesse}

Cours FdT – Polytech – 21/11/ ANA : 2 ème étape (5/8) Module « Découverte » Bootstrap = {automate, centrale, circuit, cœur, cuve, fréquence, gaz, rédacteur, structures, tubes, vibration, vitesse} 1 er cas : les cooccurrences extraites dans le corpus possèdent deux termes du bootstrap. Exemple, – réacteur dont le cœur (1) – coeur de ce réacteur (1) – cœur du réacteur (3) – coeur le réacteur (1) Nouveau terme

Cours FdT – Polytech – 21/11/ ANA : 2 ème étape (6/8) Module « Découverte » Bootstrap = {automate, centrale, circuit, cœur, cuve, fréquence, gaz, rédacteur, structures, tubes, vibration, vitesse} 2 ème cas : les cooccurrences extraites dans le corpus possèdent un terme du bootstrap, un mot de schéma et un mot quelconque. Exemple, – cuve du barillet (3) Nouveau terme

Cours FdT – Polytech – 21/11/ ANA : 2 ème étape (7/8) Module « Découverte » Bootstrap = {automate, centrale, circuit, cœur, cuve, fréquence, gaz, rédacteur, structures, tubes, vibration, vitesse} 3 ème cas : les cooccurrences extraites dans le corpus possèdent un seul terme du bootstrap et aucun mot de schéma. Le nouveau terme sera une chaîne de caractères composée du terme et dun autre mot (non fonctionnel). Exemple, – ici ensuite les structures internes – sans les structures acier – conception des structures internes – assembler les structures externes – démonter les structures internes Nouveau terme

Cours FdT – Polytech – 21/11/ ANA : 2 ème étape (8/8) Module « Découverte » – Les nouveaux termes respectant les trois cas décris sont rajoutés au bootstrap pour les prochaines itérations. – Lorsque aucun nouveau terme nest repéré, le traitement prend fin.

Cours FdT – Polytech – 21/11/ ACABIT (Automatic Corpus-based Acquisition of Binary Terms) [Daille, 94; Daille, 96] (1/9) Méthode mixte. Termes proposés sous forme lemmatisée. Deux étapes : – Extraction des termes simples respectant des schémas syntaxiques simples puis extraction des termes plus complexes. – Classement des termes selon une mesure statistique.

Cours FdT – Polytech – 21/11/ ACABIT : 1 ère étape (2/9) Extraction des candidats termes Déterminer des termes de base : – Nom Adjectif --> connaissance informatique – Nom1 à (Déterminant) Nom2 --> aide à domicile – Nom1 de (Déterminant) Nom2 --> contrat de travail – Nom1 Préposition Nom2 --> vente par téléphone – Nom1 Nom2 --> machine outil

Cours FdT – Polytech – 21/11/ ACABIT : 1 ère étape (3/9) Extraction des candidats termes Définition d'opérations afin de décomposer les termes complexes en termes de base – Combinaisons de termes par la coordination : Nom1 de Nom3 + Nom2 de Nom3 --> Nom1 et Nom2 de Nom3 envoi de courrier + réception de courrier --> envoi et réception de courrier – Combinaisons de termes par la surcomposition : Nom1 Préposition1 Nom2 + Nom1 Préposition2 Nom3 --> Nom1 Préposition1 Nom2 Préposition2 Nom3 professeur de musique + professeur à domicile --> professeur de musique à domicile

Cours FdT – Polytech – 21/11/ ACABIT : 1 ère étape (4/9) Extraction des candidats termes Définition d'opérations afin de décomposer les termes complexes en termes de base – Modifications syntaxiques des termes par l'addition d'un modifieur adjectival ou adverbal : Modifieur adjectival : – Nom1 Préposition Nom2 --> Nom1 Adjectif Préposition Nom2 – assistance par téléphone --> assistance technique par téléphone Modifieur adverbial : – Nom Adjectif --> Nom Préposition Adjectif – anglais perfectible --> anglais facilement perfectible

Cours FdT – Polytech – 21/11/ ACABIT : 1 ère étape (5/9) Extraction des candidats termes But : compter les couples de lemmes qui respectent les patrons syntaxiques (centre, formation) 20 1 centre expérimental de formation (modifieur adjectival) 2 centre régional de formation (modifieur adjectival) 17 centre de formation Nbre docc. Séquences extraites à partir du corpus Patron « Nom1 (Préposition (Déterminant)) Nom2 »

Cours FdT – Polytech – 21/11/ ACABIT : 1 ère étape (6/9) Extraction des candidats termes envoi et réception de courrier --> (envoi, courrier) et (réception, courrier) sont comptabilisés une fois chacun. ACABIT parcourt le corpus et compte les couples de mots.

Cours FdT – Polytech – 21/11/ ACABIT : 2 ème étape (7/9) Utilisation de mesures statistiques Information Mutuelle [Church et Hanks, 90] Information Mutuelle au Cube [Daille, 94]

Cours FdT – Polytech – 21/11/ ACABIT : 2 ème étape (8/9) Exemples de termes extraits sur un corpus de CVs avec lInformation Mutuelle et lInformation Mutuelle au Cube. Termes Nom-Prép-Nom avec linformation mutuelle au cube 1. mise en place (111) 2. traitement de texte (57) 3. tableau de bord (23) 4. contrat de qualification (31) … Termes Nom-Prép-Nom avec linformation mutuelle 1. beurre de karité (3) 2. jéjunum de rat (3) 3. puy en velay (3) 4. chalon sur saône (4) …

Cours FdT – Polytech – 21/11/ ACABIT : 2 ème étape (9/9) Rapport de Vraisemblance [Dunning, 93] dc x' avec x' x ba x y' avec y' y y RV = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + (a+b+c+d) log(a+b+c+d)

Cours FdT – Polytech – 21/11/ EXIT (EXtraction Itérative de la Terminologie) [Roche et al., 04] (1/12) Corpus étiqueté Collocations nominales Termes nominaux Termes verbaux Collocations verbales Corpus brut Corpus nettoyé

Cours FdT – Polytech – 21/11/ EXIT : Processus itératif (2/12) Processus itératif pour extraire les termes nominaux, adjectivaux et adverbiaux Corpus normalisé Corpus étiqueté Termes Exemple : 1 ère itération : assistant de gestion 2 ème itération : assistant-de-gestion de production Etiqueteur de Brill Extraction introduction des termes avec "-"

Cours FdT – Polytech – 21/11/ EXIT : Utilisation de mesures statistiques (3/12) Information Mutuelle [Church et Hanks, 90] Information Mutuelle au Cube [Daille, 94] Rapport de Vraisemblance [Dunning, 93]

Cours FdT – Polytech – 21/11/ EXIT : Utilisation de mesures statistiques (4/12) Mesure dAssociation [Jacquemin, 97] : – isobarycentre des valeurs normalisées de linformation mutuelle et du nombre doccurrences.

Cours FdT – Polytech – 21/11/ EXIT : Utilisation de mesures statistiques (5/12) Coefficient de Dice [Smadja, 96]

Cours FdT – Polytech – 21/11/ EXIT : Expérimentations, mesures dévaluation (6/12) Evaluation des mesures : Rappel de la notion générale de précision et de rappel Une couverture de 100% signifie que tous les exemples positifs sont couverts. Une précision de 100% signifie que tous les exemples couverts sont positifs.

Cours FdT – Polytech – 21/11/ EXIT : Expérimentations, mesures dévaluation (7/12) Evaluation des mesures en terminologie : la précision 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … Collocations extraites

Cours FdT – Polytech – 21/11/ EXIT : Expérimentations, mesures dévaluation (8/12) Evaluation des mesures en terminologie : la précision Les courbes délévation (« lift chart ») : variation de la précision en fonction du nombre de termes proposés à lexpert.

Cours FdT – Polytech – 21/11/ EXIT : Expérimentations, mesures dévaluation (9/12) Evaluation des mesures en terminologie : le rappel Impossible à calculer !

Cours FdT – Polytech – 21/11/ EXIT : Expérimentations, protocole expérimental (10/12) Corpus de Fouille de Données, de CV, de Ressources Humaines: termes pertinents qui sont traces de concepts. – 642 termes expertisés --> corpus de Fouille de Données (en anglais) (FD) – 412 termes expertisés --> corpus de CVs (en français) (CV) – 2960 termes --> corpus des Ressources Humaines (en français) (RH)

Cours FdT – Polytech – 21/11/ EXIT : Expérimentations : corpus de Fouille de Données, de CV et des Ressources Humaines (11/12) Elagage à X X Nom-Adjectif Adjectif-Nom Nom-Nom Nom-Prep-Nom CVRHFDCVRHFD Nb collocations après élagage Nb collocations Exemples : emploi solidarité action communication fichier client service achat …

Cours FdT – Polytech – 21/11/ EXIT : Expérimentations : corpus de Fouille de Données (relation Nom-Nom) (12/12) Courbes délévation avec quatre mesures.

Cours FdT – Polytech – 21/11/ Conclusion Trois types d'approches pour extraire la terminologie : linguistique statistique mixte Difficulté : les types de termes extraits peuvent être différents selon les domaines de spécialité (par exemple, en médecine et en biologie, les termes complexes sont plus pertinents) --> Utilisation de méthodes plus ou moins spécifiques selon les domaines (exemple, la mesure C/NC-value [Frantzi et al., 00] particulièrement bien adaptée aux domaines de la médecine et de la biologie).