Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT

Slides:



Advertisements
Présentations similaires
Qu’est-ce que LingPro ? LingPro est la branche ingénierie linguistique de i-KM La collaboration i-KM / LingPro est le résultat d’un partenariat sous forme.
Advertisements

MOT Éditeur de modèles de connaissances par objets typés
Eléments de Génie Logiciel
de la recherche partenariale
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
INFORSID'04 - Biarritz 1 Étude de Mesures de Qualité pour Classer les Termes Extraits de Corpus Spécialisés Mathieu Roche, Oriane Matte-Tailliez, Yves.
JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,
1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III.
Olivier Kraif, Agnès Tutin LIDILEM
Projet de Base de Données Groupe Moteur encadré par Mr MAINGUENAUD KikiTeam – ASI3 – 19 / 06 / 2002 Soizic Geslin Minh Le Hoai Samy Fouilleux Maxime Chambreuil.
Parce que notre corps contient des protéines!!!
Urbanisation de Systèmes d'Information
1 DISIC Option Systèmes Intelligents / Données, Documents et Connaissances DISIC Option Systèmes Intelligents / Données, Documents et Connaissances.
Indexation textuelle : Systèmes de recherche d’informations
Introduction : Compilation et Traduction
Edwards Lifesciences transfert des dispositifs de classe 3. Ces dispositifs nécessite de nombreux de tests ainsi que de validations. Chaque d'équipement.
Logiciels de Modélisation par Objets Typés
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Estella Annoni, Franck Ravat, Olivier Teste, Gilles Zurfluh
Traitement de texte ++.
Vue générale de Sharpdesk
Bouchra SOUKKARIEH Florence SEDES SIG - Université de Paul Sabatier
Représentation du Thésaurus MeSH et de la Terminologie CISMeF en OWL
Building an Electronic Dictionary of Computer Science Terminology
Annotations sémantiques pour le domaine des biopuces
MOT Éditeur de modèles de connaissances par objets typés
Mamadou Dieye, Mohamed Rafik Doulache,
OUTILEX Présentation des résultats
Démonstrateur Lingway
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Forum des Industries de la Langue, 17 mars 2010
La polysémie des adjectifs : comment les définir ?
Vers une génération automatique du mapping de sources biomédicales
Mise en oeuvre et exploitation
UML.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
L'anglais médical à la faculté : nouvelle édition
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
La recherche en biologie et le décisionnel Chantal Mordoh Francis Guinant Marc Xicluna CNAM , Ingénierie des systèmes décisionnels.
Les biotechnologies « L’homme est devenu trop puissant pour se permettre de jouer avec le mal. L’excès de sa force le condamne à la vertu » Jean Rostand,
Les activités à l’écrit
Nymble: High-Performance Learning Name-finder 1 Plan Introduction Modèle –Modèle conceptuel –Caractéristiques de mots –Modèle formel –Rétrogradation de.
Collège Lionel-Groulx
Dominique LAURENT Patrick SEGUELA
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Modélisation N-morphes en classification des textes de Wikipedia
T . P . E Travaux Personnels Encadrés
Année 2006 – 2007 ENSEA © Emeric Rollin
Constitution de bases de données terminologiques sur le web Samuel Jolibois © 19 mars 2005 DESS Terminologie, Bruxelles CTB, Institut Libre Marie Haps.
TEXT MINING Fouille de textes
Intégration des données sur le transcriptome
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Le Traitement Automatique des Langues (TAL)
Pierre Malenfant Technologie 9 École du Carrefour
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Etude de la capacité de fonctionnement imaginaire des infirmières avec des bébés prématurissimes E. Seye, E. Amrani (IDE, réanimation néonatale) V. Granboulan.
Chapitre 2 : La nature du vivant.
Mais d’abord rappelez-vous!!
Les biotechnologies « L’homme est devenu trop puissant pour se permettre de jouer avec le mal. L’excès de sa force le condamne à la vertu » Jean Rostand,
1 Point Modélisation – ZHI 2.0 – MDO 2.0. Groupes ADD-GIGE 24/09/ ZHI 2.0.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
Mise en oeuvre d’un outil original d’aide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Année Universitaire : 2013/2014 Réalisée par: Rahma DAIKHI Encadrants : M. Jean-Yves TIGLI M. Stéphane LAVIROTTE Au sein de : Laboratoire I3S, Equipe RAINBOW.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Formalisation de la temporalité en vietnamien pour la traduction automatique Nicolas Boffo Nicolas Boffo Directeurs de thèse : Jacques BRES (PRAXILING)
Master EISIS – Michel JOUBERT – LERTIM, Faculté de Médecine, Marseille UMLS « Unified Medical Language System » U.S. National Library of Medicine.
Analyse de séquences nucléotidiques séance n°2 Bio-Informatique.
Transcription de la présentation:

Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

PLAN La problématique Les ressources biologiques utilisées Filtrage des motifs Conclusion

Problématique Exploitation des documents dans un domaine de la biologie Recherche de relations sémantiques entre termes biologiques Extraction de motifs biologiques  Utilisation de INTEX

Constitution du corpus d’apprentissage Etape 1 : Requête Gene/myocardium Corpus original PubMed Etape 2 : Nettoyage du corpus Etiquetage du corpus Corpus « nettoyé » Etape 3 : Sélection des résumés Corpus « nettoyé » et « sélectionné »

La terminologie biologique Évolution constante de la terminologie Pas de notation constante des noms de gènes ou de protéines. Polysémie des mots dans certains cas.

Ressources biologiques (1) UMLS (Unified Medical Language System) Grande source de connaissance biomédicale découpée en 3 parties : le Métathesaurus le réseau sémantique un lexique médical Specialist Lexicon

Ressources biologiques (2) LocusLink ou Gene Base de données du NCBI intégrant les gènes disponibles dans l’ensemble des bases de données Environ 40000 entrées Tous les gènes n’y sont pas

Ressources biologiques (3) Gene Ontology permet de produire un vocabulaire contrôlé s’appliquant à tous les organismes utilisée pour l’annotation des Bases de Données Génomiques

GO se compose de 3 réseaux structurés de termes précis portant sur la description des produits des gènes Fonctions moléculaires Processus biologiques Composants cellulaires 14000 termes

Intégration des données dans INTEX 1- LocusLink >>37195 LOCUSID: 37195 LOCUS_CONFIRMED: yes LOCUS_TYPE: gene with protein product, function unknown … ACCNUM: AE003797|21626951|na|na|na TYPE: g PROT: AAF57604|7302521 PROT: AAF57605|28380717 PROT: AAF57606|28380718 ACCNUM: AY113373|21064296|y; cn bw sp|na|na TYPE: m PROT: AAM29378|21064297 OFFICIAL_SYMBOL: CG15109 OFFICIAL_GENE_NAME: ALIAS_SYMBOL: CT34984 ALIAS_SYMBOL: CT42557 ALIAS_SYMBOL: CT42559 LEMME VARIANTS

Création de DELAF et DELACF : CG15109, CG15109.LOC CT34984, CG15109.LOC CT42557, CG15109.LOC Besoin de modifier l’alphabet anglais de INTEX –> insertion des chiffres et du caractère « - »

2- UMLS (Lexicon) {base=APUD cell entry=E0000108 cat=noun variants=metareg acronym_of=amine precursor uptake decarboxylase cell|E0008543 } LEMME CATEGORIE VARIANT Ecriture du DELAF ou DELACF en fonction du lemme et des variants trouvés APUD cell, APUD cell.ON Amine precursor uptake decarboxylase cell, APUD cell.UN

Extraction des termes et création du DELAF et du DELACF 3- GO Extraction des termes et création du DELAF et du DELACF Pour chaque réseau de termes, attribution d’une catégorie : deoxyribonuclease,deoxyribonuclease.MOLE depurination,depurination.BIO centromere,centromere.COMP

Filtrage des motifs Résultats avec INTEX dans sa version originale : Seulement 45 % de termes reconnus ~70 % de termes reconnus avec les lexiques spécialisés. Besoin de grammaires locales

Application de 12 règles lexicales Ex : <MOT>#-#<MOT> acid-treated ADP-ribose Terme technique Molécule Besoin d’un vérification manuelle des résultats obtenus  90% de termes reconnus

Conclusion et perspectives Amélioration de 45 à 90% de reconnaissance de termes par notre système Application de ce système à un autre corpus du domaine biologique « single nucleotide polymorphism » ou « SNP » corpus de 6729 résumés (10Mo)

Mettre à jour les lexiques spécialisés UMLS et Gene Améliorer l’étape de vérification manuelle Extraction de connaissance