Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT

Présentations similaires


Présentation au sujet: "Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT"— Transcription de la présentation:

1 Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs
Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

2 PLAN La problématique Les ressources biologiques utilisées
Filtrage des motifs Conclusion

3 Problématique Exploitation des documents dans un domaine de la biologie Recherche de relations sémantiques entre termes biologiques Extraction de motifs biologiques  Utilisation de INTEX

4 Constitution du corpus d’apprentissage
Etape 1 : Requête Gene/myocardium Corpus original PubMed Etape 2 : Nettoyage du corpus Etiquetage du corpus Corpus « nettoyé » Etape 3 : Sélection des résumés Corpus « nettoyé » et « sélectionné »

5 La terminologie biologique
Évolution constante de la terminologie Pas de notation constante des noms de gènes ou de protéines. Polysémie des mots dans certains cas.

6 Ressources biologiques (1)
UMLS (Unified Medical Language System) Grande source de connaissance biomédicale découpée en 3 parties : le Métathesaurus le réseau sémantique un lexique médical Specialist Lexicon

7 Ressources biologiques (2)
LocusLink ou Gene Base de données du NCBI intégrant les gènes disponibles dans l’ensemble des bases de données Environ entrées Tous les gènes n’y sont pas

8 Ressources biologiques (3)
Gene Ontology permet de produire un vocabulaire contrôlé s’appliquant à tous les organismes utilisée pour l’annotation des Bases de Données Génomiques

9 GO se compose de 3 réseaux structurés de termes précis portant sur la description des produits des gènes Fonctions moléculaires Processus biologiques Composants cellulaires 14000 termes

10 Intégration des données dans INTEX
1- LocusLink >>37195 LOCUSID: 37195 LOCUS_CONFIRMED: yes LOCUS_TYPE: gene with protein product, function unknown ACCNUM: AE003797| |na|na|na TYPE: g PROT: AAF57604| PROT: AAF57605| PROT: AAF57606| ACCNUM: AY113373| |y; cn bw sp|na|na TYPE: m PROT: AAM29378| OFFICIAL_SYMBOL: CG15109 OFFICIAL_GENE_NAME: ALIAS_SYMBOL: CT34984 ALIAS_SYMBOL: CT42557 ALIAS_SYMBOL: CT42559 LEMME VARIANTS

11 Création de DELAF et DELACF :
CG15109, CG15109.LOC CT34984, CG15109.LOC CT42557, CG15109.LOC Besoin de modifier l’alphabet anglais de INTEX –> insertion des chiffres et du caractère « - »

12 2- UMLS (Lexicon) {base=APUD cell entry=E cat=noun variants=metareg acronym_of=amine precursor uptake decarboxylase cell|E } LEMME CATEGORIE VARIANT Ecriture du DELAF ou DELACF en fonction du lemme et des variants trouvés APUD cell, APUD cell.ON Amine precursor uptake decarboxylase cell, APUD cell.UN

13 Extraction des termes et création du DELAF et du DELACF
3- GO Extraction des termes et création du DELAF et du DELACF Pour chaque réseau de termes, attribution d’une catégorie : deoxyribonuclease,deoxyribonuclease.MOLE depurination,depurination.BIO centromere,centromere.COMP

14 Filtrage des motifs Résultats avec INTEX dans sa version originale :
Seulement 45 % de termes reconnus ~70 % de termes reconnus avec les lexiques spécialisés. Besoin de grammaires locales

15 Application de 12 règles lexicales
Ex : <MOT>#-#<MOT> acid-treated ADP-ribose Terme technique Molécule Besoin d’un vérification manuelle des résultats obtenus  90% de termes reconnus

16 Conclusion et perspectives
Amélioration de 45 à 90% de reconnaissance de termes par notre système Application de ce système à un autre corpus du domaine biologique « single nucleotide polymorphism » ou « SNP » corpus de 6729 résumés (10Mo)

17 Mettre à jour les lexiques spécialisés
UMLS et Gene Améliorer l’étape de vérification manuelle Extraction de connaissance


Télécharger ppt "Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT"

Présentations similaires


Annonces Google