La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Fouille de textes : Extraction Itérative de la Terminologie

Présentations similaires


Présentation au sujet: "Fouille de textes : Extraction Itérative de la Terminologie"— Transcription de la présentation:

1 Fouille de textes : Extraction Itérative de la Terminologie
Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de l’Ecole Doctorale 2003

2 Axe « fouille de textes » de l’équipe IA-TAO
Yves Kodratoff Ahmed Amrani Jérôme Azé Thomas Heitz Oriane Matte-Tailliez Mathieu Roche Journée de l'Ecole Doctorale 2003

3 Journée de l'Ecole Doctorale 2003
Plan de l’exposé Approche globale EXIT : EXtraction Itérative de la Terminologie La méthode utilisée L’évaluation des résultats Conclusion et perspectives Journée de l'Ecole Doctorale 2003

4 Détection des traces de concepts Extraction d’informations
Approche globale Corpus brut Corpus nettoyé Corpus étiqueté Termes Traces de concepts découverte de règles d’association extraction d’information par patrons d’extraction Nettoyeur Etiqueteur EXIT Détection des traces de concepts Extraction d’informations Journée de l'Ecole Doctorale 2003

5 Journée de l'Ecole Doctorale 2003
Étape 1 : Nettoyage Description du corpus La question biologique : Comprendre l’organisation, la dynamique des protéines qui interagissent directement avec l’ADN, chez la levure Saccharomyces cerevisiae. MEDLINE - NCBI DNA-binding proteins Yeast  6000 textes (10 Mo) 6000 résumés d’articles = CORPUS Journée de l'Ecole Doctorale 2003

6 Journée de l'Ecole Doctorale 2003
Étape 1 : Nettoyage Nettoyage lié au format du corpus 1: Biochim Biophys Acta Dec 30;1522(3):175-86 The modulation of the biological activities of mitochondrial histone Abf2p by yeast PKA and its possible role in the regulation of mitochondrial DNA content during glucose repression. Cho JH, Lee YK, Chae CB. Department of Life Science and Division of Molecular and Life Science, Pohang University of Science and Technology, , Pohang, South Korea The mitochondrial histone, Abf2p, of Saccharomyces cerevisiae is essential for the maintenance of mitochondrial DNA (mtDNA) and appears to play an important role in the recombination and copy number determination of mtDNA. PMID: [PubMed - in process] Journée de l'Ecole Doctorale 2003

7 Journée de l'Ecole Doctorale 2003
Étape 1 : Nettoyage Uniformisation du corpus Règles : Grâce à une liste de près de 2000 alias de gènes associés à leur nom générique, nous avons remplacé ces alias par leur nom générique. Ex : ISE1, LIS1, SED6  ERG6 alias Journée de l'Ecole Doctorale 2003

8 Journée de l'Ecole Doctorale 2003
Étape 2 : Étiquetage Étiqueteur grammatical Corpus étiqueté Corpus nettoyé The modulation of the biological activities of mitochondrial histone Abf2-protein ... The/DT modulation/NN of/IN the/DT biological/JJ activities/NNS of/IN mitochondrial/JJ histone/NNP Abf2-protein/NNP ... Étiqueteur de Brill Journée de l'Ecole Doctorale 2003

9 Journée de l'Ecole Doctorale 2003
Étape 2 : Étiquetage Étiqueteur grammatical Corpus étiqueté Corpus nettoyé ETIQ : Application pour adapter l’étiquetage de Brill à des textes spécialisés (Ahmed AMRANI). Journée de l'Ecole Doctorale 2003

10 Étape 3 : EXIT (Extraction Itérative de la Terminologie)
Corpus étiqueté DNA binding TATA binding binding motif transcription factor Liste de termes Termes extraits : Nom-Nom Adjectif-Nom Nom-Préposition-Nom Nom-verbe_gérondif Formule-Nom Journée de l'Ecole Doctorale 2003

11 Étape 4 : Détection de traces de concepts
Exemple de traces de concepts en biologie TRANSCRIPTION TRANSCRIPTION INITIATION TRANSCRIPTION REGULATION TRANSCRIPTION INITIATION MACHINERY TRANSCRIPTION- ACTIVATOR-GENE TFIID-complex SAGA-complex MSN4 MSN2 Journée de l'Ecole Doctorale 2003

12 Étape 4 : Détection de traces de concepts
Exemples d’instances de concepts (bending:Sujet,influence:Verbe) Bendng transcription-factor Regulfactor Caractérisation des traces de concepts dans les textes utilisation du logiciel de visualisation ROWAN induction en extension sur les concepts Journée de l'Ecole Doctorale 2003

13 Étape 5 : Extraction d’informations
Extraction d'informations par patrons d'extraction Exemple: …MSN2 encodes a zinc-finger transcriptional activator , ... …MSN4 encodes a DNA-binding component of the stress responsive system , ... 2 patrons d'extraction sont nécessaires pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription :  MSN2 encodes SpécificitéFacteur  MSN4 encodes SpécificitéFacteur Journée de l'Ecole Doctorale 2003

14 Étape 5 : Extraction d’informations
Extraction d'informations par patrons d'extraction Exemple: …MSN2 encodes a zinc-finger transcriptional activator , ... …MSN4 encodes a DNA-binding component of the stress responsive system , ... 1 seul patron d'extraction suffit pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription avec la connaissance sémantique.  $TranscriptionActivitor encodes SpécificitéFacteur Journée de l'Ecole Doctorale 2003

15 Étape 5 : Extraction d’informations
Extraction de règles d’associations [Kodratoff et al., 2003] (bending:Sujet,influence:Verbe) Bendng DNA-duplex DNAconformatn transcription-factor Regulfactor gal4-binding Regulfactor interaction-with-TFIIB Transcriptn Bendng, DNAconformatn, Regulfactor  Transcriptn Journée de l'Ecole Doctorale 2003

16 Détection des traces de concepts Extraction d’informations
Approche globale Corpus brut Corpus nettoyé Corpus étiqueté Termes Traces de concepts découverte de Règles d’association extraction d’informations par patrons d’extraction Nettoyeur Etiqueteur EXIT Détection des traces de concepts Extraction d’informations Journée de l'Ecole Doctorale 2003

17 EXIT : la méthode utilisée (1/5)
Étiqueteur grammatical Corpus étiqueté Corpus nettoyé Extraction des collocations Sélection des “meilleurs” collocations DNA binding TATA binding binding motif transcription factor insertion mutation hydrogen peroxide DNA binding SH2 domain Journée de l'Ecole Doctorale 2003

18 EXIT : la méthode utilisée (2/5)
Une méthode statistique Information Mutuelle [Church et Hanks, 1990] Journée de l'Ecole Doctorale 2003

19 EXIT : la méthode utilisée (3/5)
Une méthode statistique Rapport de vraisemblance [Dunning, 1993] RV = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + (a+b+c+d) log(a+b+c+d) y y' avec y'  y x a b x' avec x'  x c d Journée de l'Ecole Doctorale 2003

20 EXIT : la méthode utilisée (4/5)
Paramètres ajoutés [Roche, 2003] Privilégier les termes qui apparaissent dans des textes différents. Journée de l'Ecole Doctorale 2003

21 EXIT : la méthode utilisée (5/5)
Interface développée en Java par Thomas Heitz Journée de l'Ecole Doctorale 2003

22 EXIT : évaluation des résultats (1/5)
La précision 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes Termes extraits 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes Journée de l'Ecole Doctorale 2003

23 EXIT : évaluation des résultats (2/5)
Les courbes d’élévation (« lift chart ») : variation de la précision en fonction du nombre de termes proposés à l’expert Journée de l'Ecole Doctorale 2003

24 EXIT : évaluation des résultats (3/5)
Le rappel Impossible à calculer !! Journée de l'Ecole Doctorale 2003

25 EXIT : évaluation des résultats (4/5)
Comparaison de mesures [Roche et al., 2003] Journée de l'Ecole Doctorale 2003

26 EXIT : évaluation des résultats (5/5)
Courbes d’élévation avec l’information mutuelle et le rapport de vraisemblance Journée de l'Ecole Doctorale 2003

27 Conclusion et perspectives
Expérimenter les mesures d’induction mises en place Étudier les textes entiers. Journée de l'Ecole Doctorale 2003

28 Détection des traces de concepts Extraction d’informations
Approche globale Corpus brut Corpus nettoyé Corpus étiqueté Termes Traces de concepts découverte de règles d’association extraction d’information par patrons d’extraction Nettoyeur Etiqueteur EXIT Détection des traces de concepts Extraction d’informations Journée de l'Ecole Doctorale 2003


Télécharger ppt "Fouille de textes : Extraction Itérative de la Terminologie"

Présentations similaires


Annonces Google