Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parCadice Caillaud Modifié depuis plus de 10 années
1
Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs
Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers
2
PLAN La problématique Les ressources biologiques utilisées
Filtrage des motifs Conclusion
3
Problématique Exploitation des documents dans un domaine de la biologie Recherche de relations sémantiques entre termes biologiques Extraction de motifs biologiques Utilisation de INTEX
4
Constitution du corpus d’apprentissage
Etape 1 : Requête Gene/myocardium Corpus original PubMed Etape 2 : Nettoyage du corpus Etiquetage du corpus Corpus « nettoyé » Etape 3 : Sélection des résumés Corpus « nettoyé » et « sélectionné »
5
La terminologie biologique
Évolution constante de la terminologie Pas de notation constante des noms de gènes ou de protéines. Polysémie des mots dans certains cas.
6
Ressources biologiques (1)
UMLS (Unified Medical Language System) Grande source de connaissance biomédicale découpée en 3 parties : le Métathesaurus le réseau sémantique un lexique médical Specialist Lexicon
7
Ressources biologiques (2)
LocusLink ou Gene Base de données du NCBI intégrant les gènes disponibles dans l’ensemble des bases de données Environ entrées Tous les gènes n’y sont pas
8
Ressources biologiques (3)
Gene Ontology permet de produire un vocabulaire contrôlé s’appliquant à tous les organismes utilisée pour l’annotation des Bases de Données Génomiques
9
GO se compose de 3 réseaux structurés de termes précis portant sur la description des produits des gènes Fonctions moléculaires Processus biologiques Composants cellulaires 14000 termes
10
Intégration des données dans INTEX
1- LocusLink >>37195 LOCUSID: 37195 LOCUS_CONFIRMED: yes LOCUS_TYPE: gene with protein product, function unknown … ACCNUM: AE003797| |na|na|na TYPE: g PROT: AAF57604| PROT: AAF57605| PROT: AAF57606| ACCNUM: AY113373| |y; cn bw sp|na|na TYPE: m PROT: AAM29378| OFFICIAL_SYMBOL: CG15109 OFFICIAL_GENE_NAME: ALIAS_SYMBOL: CT34984 ALIAS_SYMBOL: CT42557 ALIAS_SYMBOL: CT42559 LEMME VARIANTS
11
Création de DELAF et DELACF :
CG15109, CG15109.LOC CT34984, CG15109.LOC CT42557, CG15109.LOC Besoin de modifier l’alphabet anglais de INTEX –> insertion des chiffres et du caractère « - »
12
2- UMLS (Lexicon) {base=APUD cell entry=E cat=noun variants=metareg acronym_of=amine precursor uptake decarboxylase cell|E } LEMME CATEGORIE VARIANT Ecriture du DELAF ou DELACF en fonction du lemme et des variants trouvés APUD cell, APUD cell.ON Amine precursor uptake decarboxylase cell, APUD cell.UN
13
Extraction des termes et création du DELAF et du DELACF
3- GO Extraction des termes et création du DELAF et du DELACF Pour chaque réseau de termes, attribution d’une catégorie : deoxyribonuclease,deoxyribonuclease.MOLE depurination,depurination.BIO centromere,centromere.COMP
14
Filtrage des motifs Résultats avec INTEX dans sa version originale :
Seulement 45 % de termes reconnus ~70 % de termes reconnus avec les lexiques spécialisés. Besoin de grammaires locales
15
Application de 12 règles lexicales
Ex : <MOT>#-#<MOT> acid-treated ADP-ribose Terme technique Molécule Besoin d’un vérification manuelle des résultats obtenus 90% de termes reconnus
16
Conclusion et perspectives
Amélioration de 45 à 90% de reconnaissance de termes par notre système Application de ce système à un autre corpus du domaine biologique « single nucleotide polymorphism » ou « SNP » corpus de 6729 résumés (10Mo)
17
Mettre à jour les lexiques spécialisés
UMLS et Gene Améliorer l’étape de vérification manuelle Extraction de connaissance
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.