Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de l’Ecole Doctorale 2003
Axe « fouille de textes » de l’équipe IA-TAO Yves Kodratoff Ahmed Amrani Jérôme Azé Thomas Heitz Oriane Matte-Tailliez Mathieu Roche Journée de l'Ecole Doctorale 2003
Journée de l'Ecole Doctorale 2003 Plan de l’exposé Approche globale EXIT : EXtraction Itérative de la Terminologie La méthode utilisée L’évaluation des résultats Conclusion et perspectives Journée de l'Ecole Doctorale 2003
Détection des traces de concepts Extraction d’informations Approche globale - - - - - Corpus brut Corpus nettoyé Corpus étiqueté Termes Traces de concepts découverte de règles d’association extraction d’information par patrons d’extraction Nettoyeur Etiqueteur EXIT Détection des traces de concepts Extraction d’informations Journée de l'Ecole Doctorale 2003
Journée de l'Ecole Doctorale 2003 Étape 1 : Nettoyage Description du corpus La question biologique : Comprendre l’organisation, la dynamique des protéines qui interagissent directement avec l’ADN, chez la levure Saccharomyces cerevisiae. MEDLINE - NCBI DNA-binding proteins Yeast 6000 textes (10 Mo) 6000 résumés d’articles = CORPUS Journée de l'Ecole Doctorale 2003
Journée de l'Ecole Doctorale 2003 Étape 1 : Nettoyage Nettoyage lié au format du corpus 1: Biochim Biophys Acta 2001 Dec 30;1522(3):175-86 The modulation of the biological activities of mitochondrial histone Abf2p by yeast PKA and its possible role in the regulation of mitochondrial DNA content during glucose repression. Cho JH, Lee YK, Chae CB. Department of Life Science and Division of Molecular and Life Science, Pohang University of Science and Technology, 790-784, Pohang, South Korea The mitochondrial histone, Abf2p, of Saccharomyces cerevisiae is essential for the maintenance of mitochondrial DNA (mtDNA) and appears to play an important role in the recombination and copy number determination of mtDNA. PMID: 11779632 [PubMed - in process] Journée de l'Ecole Doctorale 2003
Journée de l'Ecole Doctorale 2003 Étape 1 : Nettoyage Uniformisation du corpus Règles : Grâce à une liste de près de 2000 alias de gènes associés à leur nom générique, nous avons remplacé ces alias par leur nom générique. Ex : ISE1, LIS1, SED6 ERG6 alias Journée de l'Ecole Doctorale 2003
Journée de l'Ecole Doctorale 2003 Étape 2 : Étiquetage - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Étiqueteur grammatical Corpus étiqueté Corpus nettoyé The modulation of the biological activities of mitochondrial histone Abf2-protein ... The/DT modulation/NN of/IN the/DT biological/JJ activities/NNS of/IN mitochondrial/JJ histone/NNP Abf2-protein/NNP ... Étiqueteur de Brill Journée de l'Ecole Doctorale 2003
Journée de l'Ecole Doctorale 2003 Étape 2 : Étiquetage - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Étiqueteur grammatical Corpus étiqueté Corpus nettoyé ETIQ : Application pour adapter l’étiquetage de Brill à des textes spécialisés (Ahmed AMRANI). Journée de l'Ecole Doctorale 2003
Étape 3 : EXIT (Extraction Itérative de la Terminologie) - - - - - - - - - - - - - - - - - - - - - - - - - - Corpus étiqueté DNA binding TATA binding binding motif transcription factor Liste de termes Termes extraits : Nom-Nom Adjectif-Nom Nom-Préposition-Nom Nom-verbe_gérondif Formule-Nom Journée de l'Ecole Doctorale 2003
Étape 4 : Détection de traces de concepts Exemple de traces de concepts en biologie TRANSCRIPTION TRANSCRIPTION INITIATION TRANSCRIPTION REGULATION TRANSCRIPTION INITIATION MACHINERY TRANSCRIPTION- ACTIVATOR-GENE TFIID-complex SAGA-complex MSN4 MSN2 Journée de l'Ecole Doctorale 2003
Étape 4 : Détection de traces de concepts Exemples d’instances de concepts (bending:Sujet,influence:Verbe) Bendng transcription-factor Regulfactor Caractérisation des traces de concepts dans les textes utilisation du logiciel de visualisation ROWAN induction en extension sur les concepts Journée de l'Ecole Doctorale 2003
Étape 5 : Extraction d’informations Extraction d'informations par patrons d'extraction Exemple: …MSN2 encodes a zinc-finger transcriptional activator , ... …MSN4 encodes a DNA-binding component of the stress responsive system , ... 2 patrons d'extraction sont nécessaires pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription : MSN2 encodes SpécificitéFacteur MSN4 encodes SpécificitéFacteur Journée de l'Ecole Doctorale 2003
Étape 5 : Extraction d’informations Extraction d'informations par patrons d'extraction Exemple: …MSN2 encodes a zinc-finger transcriptional activator , ... …MSN4 encodes a DNA-binding component of the stress responsive system , ... 1 seul patron d'extraction suffit pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription avec la connaissance sémantique. $TranscriptionActivitor encodes SpécificitéFacteur Journée de l'Ecole Doctorale 2003
Étape 5 : Extraction d’informations Extraction de règles d’associations [Kodratoff et al., 2003] (bending:Sujet,influence:Verbe) Bendng DNA-duplex DNAconformatn transcription-factor Regulfactor gal4-binding Regulfactor interaction-with-TFIIB Transcriptn Bendng, DNAconformatn, Regulfactor Transcriptn Journée de l'Ecole Doctorale 2003
Détection des traces de concepts Extraction d’informations Approche globale - - - - - Corpus brut Corpus nettoyé Corpus étiqueté Termes Traces de concepts découverte de Règles d’association extraction d’informations par patrons d’extraction Nettoyeur Etiqueteur EXIT Détection des traces de concepts Extraction d’informations Journée de l'Ecole Doctorale 2003
EXIT : la méthode utilisée (1/5) - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Étiqueteur grammatical Corpus étiqueté Corpus nettoyé Extraction des collocations Sélection des “meilleurs” collocations DNA binding TATA binding binding motif transcription factor insertion mutation hydrogen peroxide DNA binding SH2 domain Journée de l'Ecole Doctorale 2003
EXIT : la méthode utilisée (2/5) Une méthode statistique Information Mutuelle [Church et Hanks, 1990] Journée de l'Ecole Doctorale 2003
EXIT : la méthode utilisée (3/5) Une méthode statistique Rapport de vraisemblance [Dunning, 1993] RV = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + (a+b+c+d) log(a+b+c+d) y y' avec y' y x a b x' avec x' x c d Journée de l'Ecole Doctorale 2003
EXIT : la méthode utilisée (4/5) Paramètres ajoutés [Roche, 2003] Privilégier les termes qui apparaissent dans des textes différents. … Journée de l'Ecole Doctorale 2003
EXIT : la méthode utilisée (5/5) Interface développée en Java par Thomas Heitz Journée de l'Ecole Doctorale 2003
EXIT : évaluation des résultats (1/5) La précision 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … Termes extraits 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … Journée de l'Ecole Doctorale 2003
EXIT : évaluation des résultats (2/5) Les courbes d’élévation (« lift chart ») : variation de la précision en fonction du nombre de termes proposés à l’expert Journée de l'Ecole Doctorale 2003
EXIT : évaluation des résultats (3/5) Le rappel Impossible à calculer !! Journée de l'Ecole Doctorale 2003
EXIT : évaluation des résultats (4/5) Comparaison de mesures [Roche et al., 2003] Journée de l'Ecole Doctorale 2003
EXIT : évaluation des résultats (5/5) Courbes d’élévation avec l’information mutuelle et le rapport de vraisemblance Journée de l'Ecole Doctorale 2003
Conclusion et perspectives Expérimenter les mesures d’induction mises en place Étudier les textes entiers. Journée de l'Ecole Doctorale 2003
Détection des traces de concepts Extraction d’informations Approche globale - - - - - Corpus brut Corpus nettoyé Corpus étiqueté Termes Traces de concepts découverte de règles d’association extraction d’information par patrons d’extraction Nettoyeur Etiqueteur EXIT Détection des traces de concepts Extraction d’informations Journée de l'Ecole Doctorale 2003