La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT

Présentations similaires


Présentation au sujet: "Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT"— Transcription de la présentation:

1 Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs
Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

2 PLAN La problématique Les ressources biologiques utilisées
Filtrage des motifs Conclusion

3 Problématique Exploitation des documents dans un domaine de la biologie Recherche de relations sémantiques entre termes biologiques Extraction de motifs biologiques  Utilisation de INTEX

4 Constitution du corpus d’apprentissage
Etape 1 : Requête Gene/myocardium Corpus original PubMed Etape 2 : Nettoyage du corpus Etiquetage du corpus Corpus « nettoyé » Etape 3 : Sélection des résumés Corpus « nettoyé » et « sélectionné »

5 La terminologie biologique
Évolution constante de la terminologie Pas de notation constante des noms de gènes ou de protéines. Polysémie des mots dans certains cas.

6 Ressources biologiques (1)
UMLS (Unified Medical Language System) Grande source de connaissance biomédicale découpée en 3 parties : le Métathesaurus le réseau sémantique un lexique médical Specialist Lexicon

7 Ressources biologiques (2)
LocusLink ou Gene Base de données du NCBI intégrant les gènes disponibles dans l’ensemble des bases de données Environ entrées Tous les gènes n’y sont pas

8 Ressources biologiques (3)
Gene Ontology permet de produire un vocabulaire contrôlé s’appliquant à tous les organismes utilisée pour l’annotation des Bases de Données Génomiques

9 GO se compose de 3 réseaux structurés de termes précis portant sur la description des produits des gènes Fonctions moléculaires Processus biologiques Composants cellulaires 14000 termes

10 Intégration des données dans INTEX
1- LocusLink >>37195 LOCUSID: 37195 LOCUS_CONFIRMED: yes LOCUS_TYPE: gene with protein product, function unknown ACCNUM: AE003797| |na|na|na TYPE: g PROT: AAF57604| PROT: AAF57605| PROT: AAF57606| ACCNUM: AY113373| |y; cn bw sp|na|na TYPE: m PROT: AAM29378| OFFICIAL_SYMBOL: CG15109 OFFICIAL_GENE_NAME: ALIAS_SYMBOL: CT34984 ALIAS_SYMBOL: CT42557 ALIAS_SYMBOL: CT42559 LEMME VARIANTS

11 Création de DELAF et DELACF :
CG15109, CG15109.LOC CT34984, CG15109.LOC CT42557, CG15109.LOC Besoin de modifier l’alphabet anglais de INTEX –> insertion des chiffres et du caractère « - »

12 2- UMLS (Lexicon) {base=APUD cell entry=E cat=noun variants=metareg acronym_of=amine precursor uptake decarboxylase cell|E } LEMME CATEGORIE VARIANT Ecriture du DELAF ou DELACF en fonction du lemme et des variants trouvés APUD cell, APUD cell.ON Amine precursor uptake decarboxylase cell, APUD cell.UN

13 Extraction des termes et création du DELAF et du DELACF
3- GO Extraction des termes et création du DELAF et du DELACF Pour chaque réseau de termes, attribution d’une catégorie : deoxyribonuclease,deoxyribonuclease.MOLE depurination,depurination.BIO centromere,centromere.COMP

14 Filtrage des motifs Résultats avec INTEX dans sa version originale :
Seulement 45 % de termes reconnus ~70 % de termes reconnus avec les lexiques spécialisés. Besoin de grammaires locales

15 Application de 12 règles lexicales
Ex : <MOT>#-#<MOT> acid-treated ADP-ribose Terme technique Molécule Besoin d’un vérification manuelle des résultats obtenus  90% de termes reconnus

16 Conclusion et perspectives
Amélioration de 45 à 90% de reconnaissance de termes par notre système Application de ce système à un autre corpus du domaine biologique « single nucleotide polymorphism » ou « SNP » corpus de 6729 résumés (10Mo)

17 Mettre à jour les lexiques spécialisés
UMLS et Gene Améliorer l’étape de vérification manuelle Extraction de connaissance


Télécharger ppt "Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT"

Présentations similaires


Annonces Google