Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT

Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs
Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

PLAN La problématique Les ressources biologiques utilisées
Filtrage des motifs Conclusion

Problématique Exploitation des documents dans un domaine de la biologie Recherche de relations sémantiques entre termes biologiques Extraction de motifs biologiques  Utilisation de INTEX

Constitution du corpus d’apprentissage
Etape 1 : Requête Gene/myocardium Corpus original PubMed Etape 2 : Nettoyage du corpus Etiquetage du corpus Corpus « nettoyé » Etape 3 : Sélection des résumés Corpus « nettoyé » et « sélectionné »

La terminologie biologique
Évolution constante de la terminologie Pas de notation constante des noms de gènes ou de protéines. Polysémie des mots dans certains cas.

Ressources biologiques (1)
UMLS (Unified Medical Language System) Grande source de connaissance biomédicale découpée en 3 parties : le Métathesaurus le réseau sémantique un lexique médical Specialist Lexicon

LocusLink ou Gene Base de données du NCBI intégrant les gènes disponibles dans l’ensemble des bases de données Environ entrées Tous les gènes n’y sont pas

Gene Ontology permet de produire un vocabulaire contrôlé s’appliquant à tous les organismes utilisée pour l’annotation des Bases de Données Génomiques

GO se compose de 3 réseaux structurés de termes précis portant sur la description des produits des gènes Fonctions moléculaires Processus biologiques Composants cellulaires 14000 termes

Création de DELAF et DELACF :
CG15109, CG15109.LOC CT34984, CG15109.LOC CT42557, CG15109.LOC Besoin de modifier l’alphabet anglais de INTEX –> insertion des chiffres et du caractère « - »

2- UMLS (Lexicon) {base=APUD cell entry=E cat=noun variants=metareg acronym_of=amine precursor uptake decarboxylase cell|E } LEMME CATEGORIE VARIANT Ecriture du DELAF ou DELACF en fonction du lemme et des variants trouvés APUD cell, APUD cell.ON Amine precursor uptake decarboxylase cell, APUD cell.UN

Extraction des termes et création du DELAF et du DELACF
3- GO Extraction des termes et création du DELAF et du DELACF Pour chaque réseau de termes, attribution d’une catégorie : deoxyribonuclease,deoxyribonuclease.MOLE depurination,depurination.BIO centromere,centromere.COMP

Filtrage des motifs Résultats avec INTEX dans sa version originale :
Seulement 45 % de termes reconnus ~70 % de termes reconnus avec les lexiques spécialisés. Besoin de grammaires locales

Application de 12 règles lexicales
Ex : <MOT>#-#<MOT> acid-treated ADP-ribose Terme technique Molécule Besoin d’un vérification manuelle des résultats obtenus  90% de termes reconnus

Conclusion et perspectives
Amélioration de 45 à 90% de reconnaissance de termes par notre système Application de ce système à un autre corpus du domaine biologique « single nucleotide polymorphism » ou « SNP » corpus de 6729 résumés (10Mo)

Mettre à jour les lexiques spécialisés
UMLS et Gene Améliorer l’étape de vérification manuelle Extraction de connaissance

Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT

Présentations similaires

Présentation au sujet: "Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT

Présentations similaires

Présentation au sujet: "Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back