La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Présentations similaires


Présentation au sujet: "Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003."— Transcription de la présentation:

1 Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003

2 Journée de l'Ecole Doctorale Axe « fouille de textes » de léquipe IA-TAO Yves Kodratoff Ahmed Amrani Jérôme Azé Thomas Heitz Oriane Matte-Tailliez Mathieu Roche

3 Journée de l'Ecole Doctorale Plan de lexposé n Approche globale n EXIT : EXtraction Itérative de la Terminologie –La méthode utilisée –Lévaluation des résultats n Conclusion et perspectives

4 Journée de l'Ecole Doctorale Approche globale Corpus brut Corpus nettoyé Corpus étiqueté Termes Traces de concepts - découverte de règles dassociation - extraction dinformation par patrons dextraction Nettoyeur Etiqueteur EXIT Détection des traces de concepts Extraction dinformations

5 Journée de l'Ecole Doctorale Étape 1 : Nettoyage n Description du corpus La question biologique : Comprendre lorganisation, la dynamique des protéines qui interagissent directement avec lADN, chez la levure Saccharomyces cerevisiae. DNA-binding proteins Yeast 6000 textes (10 Mo) MEDLINE - NCBI 6000 résumés darticles = CORPUS

6 Journée de l'Ecole Doctorale Étape 1 : Nettoyage n Nettoyage lié au format du corpus 1: Biochim Biophys Acta 2001 Dec 30;1522(3): The modulation of the biological activities of mitochondrial histone Abf2p by yeast PKA and its possible role in the regulation of mitochondrial DNA content during glucose repression. Cho JH, Lee YK, Chae CB. Department of Life Science and Division of Molecular and Life Science, Pohang University of Science and Technology, , Pohang, South Korea The mitochondrial histone, Abf2p, of Saccharomyces cerevisiae is essential for the maintenance of mitochondrial DNA (mtDNA) and appears to play an important role in the recombination and copy number determination of mtDNA. PMID: [PubMed - in process]

7 Journée de l'Ecole Doctorale Étape 1 : Nettoyage n Uniformisation du corpus Règles : Grâce à une liste de près de 2000 alias de gènes associés à leur nom générique, nous avons remplacé ces alias par leur nom générique. Ex : ISE1, LIS1, SED6 ERG6 alias

8 Journée de l'Ecole Doctorale Étiqueteur grammatical Corpus nettoyé Corpus étiqueté Étape 2 : Étiquetage The modulation of the biological activities of mitochondrial histone Abf2-protein... The/DT modulation/NN of/IN the/DT biological/JJ activities/NNS of/IN mitochondrial/JJ histone/NNP Abf2-protein/NNP... Étiqueteur de Brill

9 Journée de l'Ecole Doctorale Étiqueteur grammatical Corpus nettoyé Corpus étiqueté Étape 2 : Étiquetage ETIQ : Application pour adapter létiquetage de Brill à des textes spécialisés (Ahmed AMRANI).

10 Journée de l'Ecole Doctorale Étape 3 : EXIT (Extraction Itérative de la Terminologie) Corpus étiqueté DNA binding TATA binding binding motif transcription factor Liste de termes Termes extraits : Nom-Nom Adjectif-Nom Nom-Préposition-Nom Nom-verbe_gérondif Formule-Nom

11 Journée de l'Ecole Doctorale Étape 4 : Détection de traces de concepts n Exemple de traces de concepts en biologie TRANSCRIPTION- ACTIVATOR-GENE TRANSCRIPTION INITIATION TRANSCRIPTION REGULATION TRANSCRIPTION TFIID-complex SAGA-complex TRANSCRIPTION INITIATION MACHINERY MSN4 MSN2

12 Journée de l'Ecole Doctorale Étape 4 : Détection de traces de concepts n Exemples dinstances de concepts –(bending:Sujet,influence:Verbe) Bendng –transcription-factor Regulfactor n Caractérisation des traces de concepts dans les textes –utilisation du logiciel de visualisation ROWAN –induction en extension sur les concepts

13 Journée de l'Ecole Doctorale patrons d'extraction sont nécessaires pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription : MSN2 encodes SpécificitéFacteur MSN4 encodes SpécificitéFacteur Étape 5 : Extraction dinformations n Extraction d'informations par patrons d'extraction Exemple: …MSN2 encodes a zinc-finger transcriptional activator,... …MSN4 encodes a DNA-binding component of the stress responsive system,...

14 Journée de l'Ecole Doctorale seul patron d'extraction suffit pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription avec la connaissance sémantique. $TranscriptionActivitor encodes SpécificitéFacteur Étape 5 : Extraction dinformations n Extraction d'informations par patrons d'extraction Exemple: …MSN2 encodes a zinc-finger transcriptional activator,... …MSN4 encodes a DNA-binding component of the stress responsive system,...

15 Journée de l'Ecole Doctorale Étape 5 : Extraction dinformations n Extraction de règles dassociations [Kodratoff et al., 2003] (bending:Sujet,influence:Verbe)Bendng DNA-duplex DNAconformatn transcription-factor Regulfactor gal4-binding Regulfactor interaction-with-TFIIB Transcriptn Bendng, DNAconformatn, Regulfactor Transcriptn

16 Journée de l'Ecole Doctorale Approche globale Corpus brut Corpus nettoyé Corpus étiqueté Termes Traces de concepts - découverte de Règles dassociation - extraction dinformations par patrons dextraction Nettoyeur Etiqueteur EXIT Détection des traces de concepts Extraction dinformations

17 Journée de l'Ecole Doctorale Étiqueteur grammatical Extraction des collocations Sélection des meilleurs collocations Corpus nettoyé Corpus étiqueté insertion mutation hydrogen peroxide DNA binding SH2 domain EXIT : la méthode utilisée (1/5) DNA binding TATA binding binding motif transcription factor

18 Journée de l'Ecole Doctorale EXIT : la méthode utilisée (2/5) n Une méthode statistique Information Mutuelle [Church et Hanks, 1990]

19 Journée de l'Ecole Doctorale EXIT : la méthode utilisée (3/5) n Une méthode statistique Rapport de vraisemblance [Dunning, 1993] n RV = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + (a+b+c+d) log(a+b+c+d) y y' avec y' y x ab x' avec x' x cd

20 Journée de l'Ecole Doctorale EXIT : la méthode utilisée (4/5) n Paramètres ajoutés [Roche, 2003] Privilégier les termes qui apparaissent dans des textes différents. …

21 Journée de l'Ecole Doctorale EXIT : la méthode utilisée (5/5) n Interface développée en Java par Thomas Heitz

22 Journée de l'Ecole Doctorale EXIT : évaluation des résultats (1/5) n La précision 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … Termes extraits

23 Journée de l'Ecole Doctorale EXIT : évaluation des résultats (2/5) n Les courbes délévation (« lift chart ») : variation de la précision en fonction du nombre de termes proposés à lexpert

24 Journée de l'Ecole Doctorale EXIT : évaluation des résultats (3/5) n Le rappel Impossible à calculer !!

25 Journée de l'Ecole Doctorale EXIT : évaluation des résultats (4/5) n Comparaison de mesures [Roche et al., 2003]

26 Journée de l'Ecole Doctorale EXIT : évaluation des résultats (5/5) n Courbes délévation avec linformation mutuelle et le rapport de vraisemblance

27 Journée de l'Ecole Doctorale Conclusion et perspectives n Expérimenter les mesures dinduction mises en place n Étudier les textes entiers.

28 Journée de l'Ecole Doctorale Approche globale Corpus brut Corpus nettoyé Corpus étiqueté Termes Traces de concepts - découverte de règles dassociation - extraction dinformation par patrons dextraction Nettoyeur Etiqueteur EXIT Détection des traces de concepts Extraction dinformations


Télécharger ppt "Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003."

Présentations similaires


Annonces Google