Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Slides:



Advertisements
Présentations similaires
Qu’est-ce que LingPro ? LingPro est la branche ingénierie linguistique de i-KM La collaboration i-KM / LingPro est le résultat d’un partenariat sous forme.
Advertisements

Les technologies décisionnelles et le portail
Présentation du nouveau B2i. Sommaire Rappel des textes officiels Avant … Après Des activités pour mettre en place les compétences visées par le B2i Présentation.
Parcours Maîtrise de Biologie Cellulaire (1999)
OPIR & SES OUTILS Mme Annick Weizman, Adjointe scientifique
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Olivier Kraif, Agnès Tutin LIDILEM
Image et apprentissage
19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
Thésaurus juridique, catégorisation de textes
Stratégie de formation
1 DISIC Option Systèmes Intelligents / Données, Documents et Connaissances DISIC Option Systèmes Intelligents / Données, Documents et Connaissances.
Navigation Interactive dans les documents
du 22 mai DADDi Dependable Anomaly Detection with Diagnosis ACISI 2004.
Institut national du cancer Mise en place de la veille sur le cancer Lyon, 26 octobre 2005 Ingrid Aubry.
1 logo Céline Joiron, Dominique Leclet - Confrontation dexpériences médicales : le forum DIACOM Confrontation dexpériences médicales : le Forum DIACOM.
Sélection automatique d’index et de vues matérialisées
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Laboratoire Sciences Pour l’Environnement
Communication Scientifique
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Portefeuille de Compétences
Processus DE Capitalisation
XML-Family Web Services Description Language W.S.D.L.
L'information et ses concepts associés
B2i Lycée Circulaire BO n°31 du 29/08/2013.
Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) mai 2004.
« Génome, adaptation et environnement »
Annotations sémantiques pour le domaine des biopuces
Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT
SCIENCES DE L ’INGENIEUR
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Cartographie des connaissances biologiques
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
L’OBSERVATION Pour qui ? Pour quoi faire ? Comment ?
Projet de Master première année 2007 / 2008
Les techniques des moteurs de recherche
Vers une génération automatique du mapping de sources biomédicales
La veille numérique : un outil pour s'informer intelligemment &
École de bibliothéconomie et des sciences de l’information 1 Gestion de l’information électronique (GIE) Maîtrise en sciences de l’information EBSI Université.
Activités développées RTP 12 : Information et connaissance : "découvrir et résumer" Actions spécifiques et équipes-projets associées Objectifs thématiques.
Présentation du projet edot Revue intermédiaire - 29 Juin 2004.
E.Dot – juillet 2005 Page 1 Conclusion [ Lot 4. Validation et Évaluation ] Rapport Final 4 juillet 2005.
LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.
Ontologies et description du contenu de documents AV : Une expérimentation dans le domaine médical Mardi 31 mai 2005 Raphaël Troncy 1 & Antoine Isaac 2.
UFD 62. EC2 : cours n° 3 Gestion Electronique des Documents Par : Sahbi SIDHOM MCF. Université Nancy 2 Equipe de recherche KIWI – LORIA
Approche Big Data et Web Sémantique pour la fouille et la classification automatique de données Web Ces travaux sont effectués dans le cadre d’un partenariat.
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Management des Systèmes d’Information (MSI)
Bureau d’études Présentation du sujet Organisation des projets Version 1 8 octobre 2004.
1 Registration Physique Séminaire du Master Davide Bazzi Université de Fribourg
LA COMPREHENSION 10 Décembre REFLEXIONS PREALABLES Récolter/recueillir des informations  Aspect fonctionnel, nécessaire mais pas exclusif.  Mobiliser.
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
Dominique LAURENT Patrick SEGUELA
Recherche d’information
Présentation AICHA REVEL INGENIEUR D’ÉTUDE STERIA DEPARTEMENT TRD
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
La veille à l’Institut national du cancer Identifier des sources d’information fiables Rencontre De la veille à la gestion des connaissances, Bordeaux,
Décision incertaine et logistique : Grille typologique
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
TEXT MINING Fouille de textes
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Le Traitement Automatique des Langues (TAL)
Nassim Bouaziz Mariève Bureau
Cellule Qualité Engagement UMR Qualité : objectifs et moyens
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
R ETOURS SUR LE PROJET DISTIL ET PERSPECTIVES 2011 Sylvie Ranwez Gérard Dray.
PS E Cette présentation porte spécifiquement sur l’évaluation. Elle a été réalisée à partir du positionnement validé par le Comité directeur des programmes.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia Grabar Inès Jilani Marie-Christine Jaulent

Sommaire Contexte Confronter les résultats expérimentaux en biologie à ceux déjà publiés dans la littérature Thématiques de recherche associées Apport de l’ingénierie des connaissances et du traitement automatique des langues (TAL) Travaux de recherche Consortium au sein de la Plateforme « biologie des systèmes » de Paris 5 (C. Néri) En pratique Premiers résultats Perspectives

Introduction D’après Stéphane LE CROM (séminaire biopuces, février 2006) Méthodes bioinformatique d'analyse des puces à ADN : analyse de l'image, normalisation et stockage des données

Contexte Validation et interprétation des résultats expérimentaux Confrontation avec des connaissances antérieures Ressources La littérature  travail manuel fastidieux Gene Ontology (GO)  une ressource terminologique Les bases de données  nombreuses mais incomplètes Mises à jour manuellement à partir de la littérature en utilisant les termes de GO Recherche active (Gene Ontology Annotation consortium)

Contexte Validation et interprétation des résultats expérimentaux Confrontation avec des connaissances antérieures Ressources La littérature  travail manuel fastidieux Gene Ontology (GO)  une ressource terminologique Les bases de données  nombreuses mais incomplètes Mises à jour manuellement à partir de la littérature en utilisant les termes de GO Recherche active (Gene Ontology Annotation consortium) Objectifs Développer des outils informatiques pour extraire des connaissances de sources textuelles en biologie Accélérer le processus de validation

Enjeux Recherche d’information sur Internet très coûteuse en temps (analyse de grands volumes de données) Analyse des articles pour extraire la connaissance Plusieurs approches mises en concurrence lors de compétitions internationales

U729 : Ingénierie des connaissances en santé Acquérir, modéliser et représenter les connaissances médicales Connaissance implicite et explicite  Extraction de connaissances par des méthodes de fouille de textes Construire des systèmes à base de connaissances (SBC) qui s’intègrent dans la pratique médicale (serveurs d’expertise) Codage et partage du dossier médical, détection de signal en pharmacovigilance, systèmes d’assistance à la décision (alertes), prescription automatique, estimation personnalisée des risques, diffusion des guides de bonnes pratiques, …  Service web : Annotation fonctionnelle de gènes Evaluation Qualité, acceptabilité, impact  Comparer les connaissances extraites des textes avec celles qui se trouvent déjà dans les bases (précision et rappel)

Travaux de recherche dans le cadre de la plateforme « biologie des systèmes » de l’université Paris 5

Consortium INSERM AVENIR IFR77 – Laboratoire de biologie génomique Christian Néri, Céline Lefebvre, Edouard Hérion CNRS UMR 8145 – MAP5 Antoine Chambaz, CRIP5 – Centre de recherche en Informatique de Paris 5 – équipe IAD Sylvie Després, Valentina Ceausu INSERM UMR_S 729 IFR 58 – SPIM Natalia Grabar, Inès Jilani, Marie-Christine Jaulent

Le contexte biologique du projet Clusters obtenus par la méthode Best- Balanced Constraint Procedure* * Lefebvre C, Aude JC, Clément E, and Néri C. Balancing protein similarity and gene co-expression reveals new links between genetic conservation and developmental diversity in invertebrates. Bioinformatics 2005;21(8):

Le contexte biologique du projet Clusters obtenus par la méthode Best- Balanced Constraint Procedure* * Lefebvre C, Aude JC, Clément E, and Néri C. Balancing protein similarity and gene co-expression reveals new links between genetic conservation and developmental diversity in invertebrates. Bioinformatics 2005;21(8):

Le système envisagé Example de requête :est-ce que ces gènes partagent des fonctions communes ? Annotation fonctionnelle des gènes Sélectionner les articles pertinents GO = Gene Ontology Méthodes de fouille de texte

Les objectifs spécifiques Retrouver automatiquement les documents pertinents depuis Medline Filtrage automatique à partir des noms des gènes Score de pertinence pour les documents Créer les ressources lexicales nécessaires Normalisation des termes GO Désambiguïsation des noms de gènes Implémenter des méthodes d’extraction de connaissances Couples (gène, fonction)  annotation fonctionnelle de gènes Développer des services pour les biologistes

Les objectifs spécifiques Retrouver automatiquement les documents pertinents depuis Medline Filtrage automatique à partir des noms des gènes Score de pertinence pour les documents Créer les ressources lexicales nécessaires Normalisation des termes GO Désambiguïsation des noms de gènes Implémenter des méthodes d’extraction de connaissances Couples (gène, fonction)  annotation fonctionnelle de gènes Développer des services pour les biologistes Mais aussi Contribuer à la mise à jour les bases de données Identifier de nouvelles connaissances

Les objectifs spécifiques Retrouver automatiquement les documents pertinents depuis Medline Filtrage automatique à partir des noms des gènes Score de pertinence pour les documents Créer les ressources lexicales nécessaires Normalisation des termes GO Désambiguïsation des noms de gènes Implémenter des méthodes d’extraction de connaissances Couples (gène, fonction)  annotation fonctionnelle de gènes Développer des services pour les biologistes Mais aussi Contribuer à la mise à jour les bases de données Identifier de nouvelles connaissances

Les méthodes d’extraction de connaissances Patrons lexico-syntaxiques (Jilani et al., 2006) repérage par rapport aux schémas réccurrents dans la langue Log-Facteur de vraisemblance (Grabar et al., 2005) cooccurrences stables => relations sémantiques Règles d’association (Ceausu et al., 2006) attraction de mots et de termes Approche interne (en cours) déchiffrage de fonctions encodées dans les noms de gènes

Les méthodes d’extraction de connaissances Patrons lexico-syntaxiques (Jilani et al., 2006) repérage par rapport aux schémas réccurrents dans la langue Log-Facteur de vraisemblance (Grabar et al., 2005) cooccurrences stables => relations sémantiques Règles d’association (Ceausu et al., 2006) attraction de mots et de termes Approche interne (en cours) déchiffrage de fonctions encodées dans les noms de gènes

Un exemple de PLS by the

Les PLS pour l’annotation fonctionnelle de gènes

Interface de validation

Qualifier les résultats obtenus avec des scores de confiance

Les expérimentations réalisées 1) Deux espèces : D melanogaster & C elegans 719 clusters (3851 gènes)  1040 gènes annotés avec llr 2) Deux espèces : H sapiens & C elegans 69 clusters (416 gènes)  158 gènes annotés avec llr & PLS  La validation est en cours

Comparer les méthodes par exemple pour le FCM 197 Termes GOtCyk-1 (cael) Ima-2 (cael) Kpna-2 (hosa) Man1a1 (hosa) Snrpn (hosa) Zc410.3 (cael) nuclear chromosomeccllr M phasebppls cytokinesisbpllr, man, pls larval developmentbpman bindingmfman calcium ion bindingmfman DNA methylationbpllr, pls cell cyclebpllrpls embryonic cleavagebp cell wall biosynthesisbpllr man (annotation manuelle); pls (patrons lexico-syntaxiques); llr (log-facteur de vraissemblance)

Perspectives Sélection des articles pertinents Prendre en compte l’ambiguïté et la synonymie des noms de gènes et des termes : it, and, wee, ct … Combiner les différentes méthodes d’extraction de connaissance afin qu’elles contribuent à améliorer les résultats Prendre en compte les scores de confiance dans la procédure de validation des couples Rendre le sytème le plus générique possible application à d’autres espèces

La méthodologie de validation des couples (gènes fonctions) obtenus Comparer avec les informations contenues dans des bases de données existantes L’utilisation des termes Gene Ontology (Gene Ontology Consortium, 2000) facilite cette évaluation puisqu’ils sont utilisés dans ces mêmes bases et par notre méthode. Compétitions organisées pour l’évaluation d’outils automatiques Est-ce que la méthode adoptée arrive à extraire les informations recherchées ? Validation par les biologistes : Comparaison avec les clusters obtenus par la méthode BBCP