Fouille de textes : Extraction Itérative de la Terminologie

Slides:



Advertisements
Présentations similaires
La communication de crise
Advertisements

20031 Lanalyse marxiste du capitalisme I. Lavallée.
GART - Journée Information Multimodalele 20 Mars / 9 Mobilisation des Acteurs & Approche Institutionnelle Le Cas de Toulouse Alexandre BLAQUIERE.
Atelier PARIS21 pour l'Afrique de l'Ouest. Dakar, janvier AFRISTAT, outil d appui au d é veloppement de la Statistique en Afrique subsaharienne.
La vision des DRH de leur rôle dans la stratégie de l’entreprise - Trajectoires RH Master MRH Lille 8 Octobre 2004 La vision des DRH de leur rôle dans.
Les frontières ouvertes
« Extraction des connaissances
Extraction des règles dassociation à partir dun corpus spécialisé Jérôme AZÉ & Mathieu ROCHE Laboratoire de Recherche en Informatique EGC, Lyon janvier.
1 Extraction de la terminologie Mathieu Roche Cours Polytech 21 novembre 2005.
INFORSID'04 - Biarritz 1 Étude de Mesures de Qualité pour Classer les Termes Extraits de Corpus Spécialisés Mathieu Roche, Oriane Matte-Tailliez, Yves.
Mathieu Roche Equipe Inférence et Apprentissage - LRI 11 février 2005
JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,
EXIT : EXtraction Itérative de la Terminologie
Démarches de modélisation
Eureka avril MAJORCALL – « Client Relation Management for Call Centers » Eurekâ Project !2990 Corebridge- -ENST-
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Introduction Pour concrétiser l’enseignement assisté par ordinateur
UNEP Collaborating Centre on Energy and Environment CD for CDM - Phase 1 - First National Workshop - Morocco 9 January Capacity Development for.
UNEP Collaborating Centre on Energy and Environment CD for CDM - Phase 1 - First National Workshop - Morocco 9 January Renforcement des Capacités.
UNEP Collaborating Centre on Energy and Environment CD for CDM - Phase 1 - First National Workshop - Morocco 9 January Developpement des capacités.
29/04/20031 Normalisation et réglementation : les 2 piliers de la QoS Les utilisateurs y trouvent-ils leur compte ? P-Y Hébert Afutt.
Construction d’ontologies à partir de textes
Construction d’une caméra TEP dédiée aux petits animaux
Indexation vidéo Indexation multimédia
Utilisation didactique des extractions lexicales des corpus
Yann Chevaleyre et Jean-Daniel Zucker
Étude thématique Protégé 2000 Mathieu Besnard Elie Huvier.
Problème de génération : Illustration & Méthodes
« Modélisation de lapprentissage des mots écrits avec un réseau de type ART » Stage de fin détude de DESS de Sciences Cognitives Appliquées Effectué
Le Fscore est-il une critère pertinent pour évaluer la terminologie ?
- DESS IGSI – Conception objet des SI -Etude de cas – Marie-Laure POITOU.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Estella Annoni, Franck Ravat, Olivier Teste, Gilles Zurfluh
RW Conseil Les technologies de la sécurité au service de lutilisateur 1 Introduction aux systèmes à base de cartes multiapplicatives.
Colloque iFRAP17 septembre La loi Dutreil : Un début de solution Pierre BERGER Avocat Associé (Cabinet FIDAL)
Rapport du projet 53 François Barre, Vincent Borrel, Guillaume Dupuy,
Diagramme dimpédance Travail de Master of Science HES-SO en Engineering Simulation dimpédance pour des matériaux conducteurs stratifiés utilisant la troncation.
Sherbrooke le 3 avril Aspects économiques liés à lintégration des services de maintien à lautonomie Volet Implantation et fonctionnement Danièle.
Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT
Société Française de Médecine Générale
Comité lectroniques (P01E)
SCIENCES DE L ’INGENIEUR
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
Méthode de sélection pour un taureau inséminateur dans la race Holstein Le 10 Octobre 2003 Landraud B. Lavedan F. Le Tual J.
Mamadou Dieye, Mohamed Rafik Doulache,
Styles dinteraction dans les PocketPC: analyses et comparaisons Roberto Ortelli, Juillet 2003.
Observation des raies cyclotron de Vela X-1 par le spectromètre
Cartographie des connaissances biologiques
Utilisation et utilité d’un extracteur de dépendances
L'apport des grammaires catégorielles dans l'extraction multilingues des termes complexes (*)(**) Ismaïl Biskri, (**) Jean-Guy Meunier, (*) Sylvain Joyal,
Coordinated by Sven Bergmann
Koeln - 15 and 16 May Services de logistique privés et publics à Venise et Padoue Champs de recherche Equal – Logicomp IT-G-VEN-018 Gilberto Gobbo.
L’ISF : Casse-tête pour les chefs d’entreprises
FTFC'2003 Une technique de réduction de la puissance dissipée par l'horlogerie des circuits complexes rapides François ANCEAU
Ville de Montréal Développement social Plan d’action 2003 Pierre Laurence Conseiller en développement social.
Réponse innée du SI : 1ère ligne de défense (↑ réponse anti-microbienne) Vitamine D: rôle majeur vis-à-vis de M. tuberculosis Suite de l’article de Science.
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Dominique LAURENT Patrick SEGUELA
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
RETRO v2 « Analyse Fonctionnelle » Octobre 2007 JYR.
Étude de la régulation des protéines Rho3 et Rho4: recherche des kinases responsables de la phosphorylation de la RhoGAP Rgd1 chez la levure Saccharomyces.
TEXT MINING Fouille de textes
Régulation du Cycle Cellulaire
Exploration immersive de données génomiques textuelles et factuelles
Le Traitement Automatique des Langues (TAL)
Responsable : Serge Hamon
Consolidation de grands réseaux lexicaux
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de l’Ecole Doctorale 2003

Axe « fouille de textes » de l’équipe IA-TAO Yves Kodratoff Ahmed Amrani Jérôme Azé Thomas Heitz Oriane Matte-Tailliez Mathieu Roche Journée de l'Ecole Doctorale 2003

Journée de l'Ecole Doctorale 2003 Plan de l’exposé Approche globale EXIT : EXtraction Itérative de la Terminologie La méthode utilisée L’évaluation des résultats Conclusion et perspectives Journée de l'Ecole Doctorale 2003

Détection des traces de concepts Extraction d’informations Approche globale - - - - - Corpus brut Corpus nettoyé Corpus étiqueté Termes Traces de concepts découverte de règles d’association extraction d’information par patrons d’extraction Nettoyeur Etiqueteur EXIT Détection des traces de concepts Extraction d’informations Journée de l'Ecole Doctorale 2003

Journée de l'Ecole Doctorale 2003 Étape 1 : Nettoyage Description du corpus La question biologique : Comprendre l’organisation, la dynamique des protéines qui interagissent directement avec l’ADN, chez la levure Saccharomyces cerevisiae. MEDLINE - NCBI DNA-binding proteins Yeast  6000 textes (10 Mo) 6000 résumés d’articles = CORPUS Journée de l'Ecole Doctorale 2003

Journée de l'Ecole Doctorale 2003 Étape 1 : Nettoyage Nettoyage lié au format du corpus 1: Biochim Biophys Acta 2001 Dec 30;1522(3):175-86 The modulation of the biological activities of mitochondrial histone Abf2p by yeast PKA and its possible role in the regulation of mitochondrial DNA content during glucose repression. Cho JH, Lee YK, Chae CB. Department of Life Science and Division of Molecular and Life Science, Pohang University of Science and Technology, 790-784, Pohang, South Korea The mitochondrial histone, Abf2p, of Saccharomyces cerevisiae is essential for the maintenance of mitochondrial DNA (mtDNA) and appears to play an important role in the recombination and copy number determination of mtDNA. PMID: 11779632 [PubMed - in process] Journée de l'Ecole Doctorale 2003

Journée de l'Ecole Doctorale 2003 Étape 1 : Nettoyage Uniformisation du corpus Règles : Grâce à une liste de près de 2000 alias de gènes associés à leur nom générique, nous avons remplacé ces alias par leur nom générique. Ex : ISE1, LIS1, SED6  ERG6 alias Journée de l'Ecole Doctorale 2003

Journée de l'Ecole Doctorale 2003 Étape 2 : Étiquetage - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Étiqueteur grammatical Corpus étiqueté Corpus nettoyé The modulation of the biological activities of mitochondrial histone Abf2-protein ... The/DT modulation/NN of/IN the/DT biological/JJ activities/NNS of/IN mitochondrial/JJ histone/NNP Abf2-protein/NNP ... Étiqueteur de Brill Journée de l'Ecole Doctorale 2003

Journée de l'Ecole Doctorale 2003 Étape 2 : Étiquetage - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Étiqueteur grammatical Corpus étiqueté Corpus nettoyé ETIQ : Application pour adapter l’étiquetage de Brill à des textes spécialisés (Ahmed AMRANI). Journée de l'Ecole Doctorale 2003

Étape 3 : EXIT (Extraction Itérative de la Terminologie) - - - - - - - - - - - - - - - - - - - - - - - - - - Corpus étiqueté DNA binding TATA binding binding motif transcription factor Liste de termes Termes extraits : Nom-Nom Adjectif-Nom Nom-Préposition-Nom Nom-verbe_gérondif Formule-Nom Journée de l'Ecole Doctorale 2003

Étape 4 : Détection de traces de concepts Exemple de traces de concepts en biologie TRANSCRIPTION TRANSCRIPTION INITIATION TRANSCRIPTION REGULATION TRANSCRIPTION INITIATION MACHINERY TRANSCRIPTION- ACTIVATOR-GENE TFIID-complex SAGA-complex MSN4 MSN2 Journée de l'Ecole Doctorale 2003

Étape 4 : Détection de traces de concepts Exemples d’instances de concepts (bending:Sujet,influence:Verbe) Bendng transcription-factor Regulfactor Caractérisation des traces de concepts dans les textes utilisation du logiciel de visualisation ROWAN induction en extension sur les concepts Journée de l'Ecole Doctorale 2003

Étape 5 : Extraction d’informations Extraction d'informations par patrons d'extraction Exemple: …MSN2 encodes a zinc-finger transcriptional activator , ... …MSN4 encodes a DNA-binding component of the stress responsive system , ... 2 patrons d'extraction sont nécessaires pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription :  MSN2 encodes SpécificitéFacteur  MSN4 encodes SpécificitéFacteur Journée de l'Ecole Doctorale 2003

Étape 5 : Extraction d’informations Extraction d'informations par patrons d'extraction Exemple: …MSN2 encodes a zinc-finger transcriptional activator , ... …MSN4 encodes a DNA-binding component of the stress responsive system , ... 1 seul patron d'extraction suffit pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription avec la connaissance sémantique.  $TranscriptionActivitor encodes SpécificitéFacteur Journée de l'Ecole Doctorale 2003

Étape 5 : Extraction d’informations Extraction de règles d’associations [Kodratoff et al., 2003] (bending:Sujet,influence:Verbe) Bendng DNA-duplex DNAconformatn transcription-factor Regulfactor gal4-binding Regulfactor interaction-with-TFIIB Transcriptn Bendng, DNAconformatn, Regulfactor  Transcriptn Journée de l'Ecole Doctorale 2003

Détection des traces de concepts Extraction d’informations Approche globale - - - - - Corpus brut Corpus nettoyé Corpus étiqueté Termes Traces de concepts découverte de Règles d’association extraction d’informations par patrons d’extraction Nettoyeur Etiqueteur EXIT Détection des traces de concepts Extraction d’informations Journée de l'Ecole Doctorale 2003

EXIT : la méthode utilisée (1/5) - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Étiqueteur grammatical Corpus étiqueté Corpus nettoyé Extraction des collocations Sélection des “meilleurs” collocations DNA binding TATA binding binding motif transcription factor insertion mutation hydrogen peroxide DNA binding SH2 domain Journée de l'Ecole Doctorale 2003

EXIT : la méthode utilisée (2/5) Une méthode statistique Information Mutuelle [Church et Hanks, 1990] Journée de l'Ecole Doctorale 2003

EXIT : la méthode utilisée (3/5) Une méthode statistique Rapport de vraisemblance [Dunning, 1993] RV = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + (a+b+c+d) log(a+b+c+d) y y' avec y'  y x a b x' avec x'  x c d Journée de l'Ecole Doctorale 2003

EXIT : la méthode utilisée (4/5) Paramètres ajoutés [Roche, 2003] Privilégier les termes qui apparaissent dans des textes différents. … Journée de l'Ecole Doctorale 2003

EXIT : la méthode utilisée (5/5) Interface développée en Java par Thomas Heitz Journée de l'Ecole Doctorale 2003

EXIT : évaluation des résultats (1/5) La précision 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … Termes extraits 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … Journée de l'Ecole Doctorale 2003

EXIT : évaluation des résultats (2/5) Les courbes d’élévation (« lift chart ») : variation de la précision en fonction du nombre de termes proposés à l’expert Journée de l'Ecole Doctorale 2003

EXIT : évaluation des résultats (3/5) Le rappel Impossible à calculer !! Journée de l'Ecole Doctorale 2003

EXIT : évaluation des résultats (4/5) Comparaison de mesures [Roche et al., 2003] Journée de l'Ecole Doctorale 2003

EXIT : évaluation des résultats (5/5) Courbes d’élévation avec l’information mutuelle et le rapport de vraisemblance Journée de l'Ecole Doctorale 2003

Conclusion et perspectives Expérimenter les mesures d’induction mises en place Étudier les textes entiers. Journée de l'Ecole Doctorale 2003

Détection des traces de concepts Extraction d’informations Approche globale - - - - - Corpus brut Corpus nettoyé Corpus étiqueté Termes Traces de concepts découverte de règles d’association extraction d’information par patrons d’extraction Nettoyeur Etiqueteur EXIT Détection des traces de concepts Extraction d’informations Journée de l'Ecole Doctorale 2003