La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA.

Présentations similaires


Présentation au sujet: "Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA."— Transcription de la présentation:

1 Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université dAngers

2 PLAN La problématique Les ressources biologiques utilisées Filtrage des motifs Conclusion

3 Problématique Exploitation des documents dans un domaine de la biologie Recherche de relations sémantiques entre termes biologiques Extraction de motifs biologiques Utilisation de INTEX Utilisation de INTEX

4 Constitution du corpus dapprentissage Corpus « nettoyé » et « sélectionné » Etape 1 : Requête Gene/myocardium Corpus original Etape 2 : Nettoyage du corpus Corpus « nettoyé » PubMed Etape 3 : Sélection des résumés Etiquetage du corpus

5 La terminologie biologique Évolution constante de la terminologie Pas de notation constante des noms de gènes ou de protéines. Polysémie des mots dans certains cas.

6 Ressources biologiques (1) UMLS ( Unified Medical Language System ) Grande source de connaissance biomédicale découpée en 3 parties : le Métathesaurus le Métathesaurus le réseau sémantique le réseau sémantique un lexique médical Specialist Lexicon un lexique médical Specialist Lexicon

7 Ressources biologiques (2) LocusLink ou Gene Base de données du NCBI intégrant les gènes disponibles dans lensemble des bases de données Base de données du NCBI intégrant les gènes disponibles dans lensemble des bases de données Environ entrées Environ entrées

8 Ressources biologiques (3) Gene Ontology permet de produire un vocabulaire contrôlé sappliquant à tous les organismes permet de produire un vocabulaire contrôlé sappliquant à tous les organismes utilisée pour lannotation des Bases de Données Génomiques utilisée pour lannotation des Bases de Données Génomiques

9 GO se compose de 3 réseaux structurés de termes précis portant sur la description des produits des gènes Fonctions moléculaires Processus biologiques Composants cellulaires termes

10 Intégration des données dans INTEX 1- LocusLink >>37195 LOCUSID: LOCUS_CONFIRMED: yes LOCUS_TYPE: gene with protein product, function unknown … ACCNUM: AE003797| |na|na|na TYPE: g PROT: AAF57604| PROT: AAF57605| PROT: AAF57606| ACCNUM: AY113373| |y; cn bw sp|na|na TYPE: m PROT: AAM29378| OFFICIAL_SYMBOL: CG15109 OFFICIAL_GENE_NAME: ALIAS_SYMBOL: CT34984 ALIAS_SYMBOL: CT42557 ALIAS_SYMBOL: CT42559 LEMME VARIANTS

11 Création de DELAF et DELACF : CG15109, CG15109.LOC CT34984, CG15109.LOC CT42557, CG15109.LOC Besoin de modifier lalphabet anglais de INTEX –> insertion des chiffres et du caractère « - » Besoin de modifier lalphabet anglais de INTEX –> insertion des chiffres et du caractère « - »

12 2- UMLS (Lexicon) VARIANT LEMME CATEGORIE {base=APUD cell entry=E cat=nounvariants=metareg acronym_of=amine precursor uptake decarboxylase cell|E } Ecriture du DELAF ou DELACF en fonction du lemme et des variants trouvés APUD cell, APUD cell.ON Amine precursor uptake decarboxylase cell, APUD cell.UN

13 3- GO Extraction des termes et création du DELAF et du DELACF Extraction des termes et création du DELAF et du DELACF Pour chaque réseau de termes, attribution dune catégorie : Pour chaque réseau de termes, attribution dune catégorie :deoxyribonuclease,deoxyribonuclease.MOLEdepurination,depurination.BIOcentromere,centromere.COMP

14 Filtrage des motifs Résultats avec INTEX dans sa version originale : Résultats avec INTEX dans sa version originale : –Seulement 45 % de termes reconnus ~70 % de termes reconnus avec les lexiques spécialisés. ~70 % de termes reconnus avec les lexiques spécialisés. Besoin de grammaires locales Besoin de grammaires locales

15 Application de 12 règles lexicales Ex : #-# Ex : #-# acid-treatedADP-ribose Terme technique Molécule Besoin dun vérification manuelle des résultats obtenus 90% de termes reconnus

16 Conclusion et perspectives Amélioration de 45 à 90% de reconnaissance de termes par notre système Application de ce système à un autre corpus du domaine biologique « single nucleotide polymorphism » ou « SNP » corpus de 6729 résumés (10Mo) corpus de 6729 résumés (10Mo)

17 Mettre à jour les lexiques spécialisés –UMLS et Gene Améliorer létape de vérification manuelle Extraction de connaissance


Télécharger ppt "Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA."

Présentations similaires


Annonces Google