Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers
PLAN La problématique Les ressources biologiques utilisées Filtrage des motifs Conclusion
Problématique Exploitation des documents dans un domaine de la biologie Recherche de relations sémantiques entre termes biologiques Extraction de motifs biologiques Utilisation de INTEX
Constitution du corpus d’apprentissage Etape 1 : Requête Gene/myocardium Corpus original PubMed Etape 2 : Nettoyage du corpus Etiquetage du corpus Corpus « nettoyé » Etape 3 : Sélection des résumés Corpus « nettoyé » et « sélectionné »
La terminologie biologique Évolution constante de la terminologie Pas de notation constante des noms de gènes ou de protéines. Polysémie des mots dans certains cas.
Ressources biologiques (1) UMLS (Unified Medical Language System) Grande source de connaissance biomédicale découpée en 3 parties : le Métathesaurus le réseau sémantique un lexique médical Specialist Lexicon
Ressources biologiques (2) LocusLink ou Gene Base de données du NCBI intégrant les gènes disponibles dans l’ensemble des bases de données Environ 40000 entrées Tous les gènes n’y sont pas
Ressources biologiques (3) Gene Ontology permet de produire un vocabulaire contrôlé s’appliquant à tous les organismes utilisée pour l’annotation des Bases de Données Génomiques
GO se compose de 3 réseaux structurés de termes précis portant sur la description des produits des gènes Fonctions moléculaires Processus biologiques Composants cellulaires 14000 termes
Intégration des données dans INTEX 1- LocusLink >>37195 LOCUSID: 37195 LOCUS_CONFIRMED: yes LOCUS_TYPE: gene with protein product, function unknown … ACCNUM: AE003797|21626951|na|na|na TYPE: g PROT: AAF57604|7302521 PROT: AAF57605|28380717 PROT: AAF57606|28380718 ACCNUM: AY113373|21064296|y; cn bw sp|na|na TYPE: m PROT: AAM29378|21064297 OFFICIAL_SYMBOL: CG15109 OFFICIAL_GENE_NAME: ALIAS_SYMBOL: CT34984 ALIAS_SYMBOL: CT42557 ALIAS_SYMBOL: CT42559 LEMME VARIANTS
Création de DELAF et DELACF : CG15109, CG15109.LOC CT34984, CG15109.LOC CT42557, CG15109.LOC Besoin de modifier l’alphabet anglais de INTEX –> insertion des chiffres et du caractère « - »
2- UMLS (Lexicon) {base=APUD cell entry=E0000108 cat=noun variants=metareg acronym_of=amine precursor uptake decarboxylase cell|E0008543 } LEMME CATEGORIE VARIANT Ecriture du DELAF ou DELACF en fonction du lemme et des variants trouvés APUD cell, APUD cell.ON Amine precursor uptake decarboxylase cell, APUD cell.UN
Extraction des termes et création du DELAF et du DELACF 3- GO Extraction des termes et création du DELAF et du DELACF Pour chaque réseau de termes, attribution d’une catégorie : deoxyribonuclease,deoxyribonuclease.MOLE depurination,depurination.BIO centromere,centromere.COMP
Filtrage des motifs Résultats avec INTEX dans sa version originale : Seulement 45 % de termes reconnus ~70 % de termes reconnus avec les lexiques spécialisés. Besoin de grammaires locales
Application de 12 règles lexicales Ex : <MOT>#-#<MOT> acid-treated ADP-ribose Terme technique Molécule Besoin d’un vérification manuelle des résultats obtenus 90% de termes reconnus
Conclusion et perspectives Amélioration de 45 à 90% de reconnaissance de termes par notre système Application de ce système à un autre corpus du domaine biologique « single nucleotide polymorphism » ou « SNP » corpus de 6729 résumés (10Mo)
Mettre à jour les lexiques spécialisés UMLS et Gene Améliorer l’étape de vérification manuelle Extraction de connaissance