Julie Chabalier Post-doctorante Université Rennes 1 Équipe « Modélisation Conceptuelles des Connaissances Biomédicales »
Parcours Maîtrise de Biologie Cellulaire (1999) Marseille Maîtrise de Biologie Cellulaire (1999) DESS Compétences Complémentaires en Informatique (2000) Doctorat en Informatique (2004) Soutenu le 6 avril 2004 – mention très honorable « Acquisition incrémentale et représentation des systèmes intégrés bactériens par une approche orientée objet » 1/2 ATER (2004 - 2005) Qualifications sections 64, 65, 27 (2005) Post-doctorante Université de Rennes 1 (2005 – 2008) Rennes Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Enseignements ++ niveau/ nb heures Initiation à la bioinformatique Grandes banques/bases de données Concepts majeurs de la bioinformatique Représentation des connaissances biologiques Bio-ontologies Web Sémantique Initiation à l’informatique Bureautique - Algorithmique Conception, implémentation, interrogation de bases de données Modélisation MERISE- UML Langage SQL – MySQL Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Représentation des connaissances biologiques Informatique : représentation des connaissances axe principal de recherche en Intelligence Artificielle (IA) représentation des connaissances humaines dans un langage informatique utilisation de ces connaissances par un ordinateur pour effectuer des raisonnements Bioinformatique : représentation des connaissances biologiques construction, exploitation et partage des modèles biologiques complexes méthodes de représentation issues de l’IA mécanisme de raisonnements : obtention de nouvelles connaissances Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Quelques notions… Un système intégré est un ensemble de protéines nécessaires à la réalisation d’une fonction biologique 1 Classes et associations pour représenter les concepts biologiques et leur relations 2 Variables ou attributs pour représenter les propriétés biologiques 2 Relation de spécialisation pour représenter les concepts biologiques spécifiques (héritage) 3 Langage informatique pour que la modélisation soit compréhensible par l’ordinateur 4 Objets ou instances pour représenter les objets biologiques 5 Classification d’objet pour enrichir les connaissances d’une manière cohérente Est composé de Protéine Système_intégré Type nbPartenaire proteineAffine Réalise Fonction Transporteur_ABC ABC Réalise Transport Systeme d’import Systeme d’export class: Assembly variables: variable: Type type: string variable: PartnersNb type: integer variable: SBP type: boolean class: ABC super-class: ASSEMBLY variables: variable: Type domain: {"ABC"} class: ImportABC super-class: ABC variables: variable: SBP domain: {true} instance : BSUBA01_OPUBA is-a : Systeme Intégré type = "ABC" nbpartenaires = 4 SBP = true Base de connaissances : technique orientée instances Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Quelques notions… Ontologie Technique de représentation issue de l’IA Obtention d’un consensus sur le sens des concepts employés dans une communauté (définitions textuelle, synonymes…) Technique orientée classes et relations Utilisation modélisation d’une base de connaissances réalisation d’un système d’annotation réalisation d’un système d’indexation documentaire Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
ATP-binding cassette (ABC) système_intégré Type nbPartenaire proteineAffineC Intégration automatique transporteur_ABC cellular component systeme d’import systeme d’export is_a is_a cell part macromolecular complex is_a is_a membrane part protein complex is_a is_a ATP-binding cassette (ABC) transporter complex ABCA7_HUMAN ABCB8_HUMAN ABCD2_HUMAN … A complex for the transport of metabolites into and out of the cell, typically comprised of four domains; two membrane-associated domains and two ATP-binding domains at the intracellular face of the membrane, that form a central pore through the plasma membrane. Each of the four core domains may be encoded as a separate polypeptide or the domains can be fused in any one of a number of ways into multidomain polypeptides. In Bacteria and Archaebacteria, ABC transporters also include substrate binding proteins to bind substrate external to the cytoplasm and deliver it to the transporter. Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Travaux de recherche Trois axes complémentaires de recherche : 1. Représentation des connaissances biologiques 2. Exploitation des connaissances ontologiques 3. Intégration d’ontologies biomédicales Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet « ISYMOD » (thèse octobre 2000 – avril 2004) 1. Représentation des connaissances biologiques Objectif : Élaboration d’une base de connaissances dédiées à la représentation des systèmes intégrés bactériens Originalité : représentation dans un même environnement des connaissances sur les systèmes intégrés et des connaissances méthodologiques permettant l’identification et la reconstruction de ces systèmes à partir de génomes complètement séquencés Méthode : utilisation du langage de représentation AROM (inria + lif) + extension du mécanisme de classification (version…) Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet « ISYMOD » Approche par similitude Approche par motifs Entrée : Motifs Prédiction des partenaires Entrée : Protéome Sortie : Candidats chabalier et al., 2005 Bioinformatics 1; 21(7):1246-56. Données externes Base de connaissances méthodologiques Identification de domaine Exploitation Classification 100 génomes procaryotes traités 13641 partenaires protéiques 5328 transporteurs ABC reconstruits Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet « Analyse transversale » (postdoc 2004 – 2006) 2. Exploitation des connaissances ontologiques Objectif : Interprétation des données d’expression par l’exploitation des connaissances structurées au sein d’une ontologie Originalité : utilisation des connaissances structurées dès le début de l’interprétation des données (avant le clustering) Méthode : construction de réseaux de protéines par comparaison des termes de Gene Ontology (GO) - association de ces réseaux aux données d’expression Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Profil biologique Ion transport réprimé Amine metabolism Ion transport Defense response Cell ion homeostasis ATP7B 1 SLC26A3 SLC11A2 TF sim(SLC11A2-TF) = 0,66 surexprimés Profil biologique Ion transport Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Activation d’une voie de biosynthèse du précurseur de la créatine Répression de la biosynthèse de polyamine Rôle potentiel de détoxification de l’entérocyte chabalier et al. BMC Bioinformatic, 8:235 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet « Biomed » 3. Intégration d’ontologies biomédicales (postdoc 2006 – 2008) 3. Intégration d’ontologies biomédicales Objectif : Associer les maladies et les voies métaboliques Originalité : Intégration des ontologies médicales et biologiques Méthode : mise en correspondance les termes de 3 ontologies : Gene ontology - Kegg - Snomed CT comparaison lexicale comparaison des gènes impliqués dans une maladie et une voie métabolique Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
KO: Neurodegenerative disorders KO: Human diseases SN: Disorder of brain KO: Neurodegenerative disorders SN: Organic mental disorder KO: Alzheimer's disease APP BACE1 BACE2 PSEN1 PSEN2 … SN: Dementia SN: Alzheimer's disease GO: cell cycle GO: cell-cell signaling GO: Transport chabalier et al. Stud Health Technol Inform. 129:791-5. Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet - Recherche Représentation et classification automatique des systèmes intégrés bactériens en fonction de différents points de vue Actuellement: classification des transporteurs ABC en fonction de la présence ou non de la protéine affine automatisé dans ISYMOD Les partenaires des transporteurs évoluent de façon concertées Les familles de transporteurs correspondent à de grandes familles de substrats pas indépendant : les transporteurs d’une même classe de substrat ont une origine commune Classer les transporteurs en fonction d’un point de vue évolutif Classer les transporteurs en fonction d’un point de vue fonctionnel Combiner les résultats pour valider les classifications Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Le point de vue fonctionnel Cours terme Le point de vue fonctionnel Chebi Classification des petites molécules natural product système_intégré Type nbPartenaire proteineAffineC lipid carbohydrate transporteur_ABC monosaccharide oligosaccharide systeme d’import systeme d’export aldose pentose disaccharide ABC 4 ABC 2 ABC 3 glycosylglucose aldopentose ABC 1 maltose lactose ribose Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Long terme - le point de vue évolutif Pas d’ontologie sur les paralogues Etudier la représentation des classes de paralogues sous forme d’ontologies - ontologie basée sur un arbre phylogénétique? - ontologie de séquences? Organiser automatiquement les transporteurs ABC en fonction de ces classes Comparer automatiquement les points de vue Utilisation des mécanismes de raisonnement de l’intelligence artificielle Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet - Enseignements Bioinformatique Concepts mis en œuvre dans les méthodes bioinformatiques Alignement de séquences Analyse de génomes Phylogénie Prédiction fonctionnelle Grandes banques de données biologiques Bio-ontologies – représentation des connaissances biologiques Informatique Initiation à l’informatique Bureautique Bases de données Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Travaux de recherche : problématique biologique Etude des modèles biologiques complexes nécessite : - Description des entités biologiques impliquées - Description des relations qu’entretiennent ces entités Ces modèles biologiques sont généralement proposés par comparaison avec des modèles connus Limitation : Les sources de connaissances sont de plus en plus nombreuses, hétérogènes et distribuées comparaison des connaissances est une tâche complexe (beaucoup de connaissances) et difficile (modèles riches) Besoin : - Représenter les connaissances biologiques de façon précise et non ambigüe - Automatiser la génération de nouvelles connaissances Genbank Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche 2004 Laboratoire de Chimie Bactérienne (LCB) Laboratoire d’Informatique Fondamentale (LIF) Problématique biologique Étude des relations fonctionnelles entre les partenaires des systèmes intégrés bactériens Un système intégré est un ensemble de protéines nécessaires à la réalisation d’une fonction biologique Système modèle : transporteur ABC Élaboration d’une stratégie d’analyse des systèmes Prédiction des partenaires protéiques Reconstruction des systèmes fonctionnels Automatisation de la stratégie d’analyse Gestion automatique de la cohérence des connaissances biologiques Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – La stratégie d’analyse Stratégie d’analyse des transporteurs ABC Protéome Membrane cytoplasmique Cytoplasme NBD SBP MSD Identification des domaines fonctionnels Motifs Similarité Reconstruction des systèmes fonctionnels Proximité chromosomique Compatibilité des sous-familles Eucaryotes : 1 système = 1 protéine Procaryotes : 1 système = 1 assemblage Transporteurs ABC Computers & Chemistry, 2002 Toutes les étapes de la stratégie nécessitent une communication étroite entre les méthodes d’analyse et une base de données Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Automatisation de la stratégie Besoin : Automatisation de la stratégie Gestion de la cohérence des connaissances biologiques Contrôle du flux de données entre les méthodes Gestion des échanges entre les méthodes et la base de données Solution : Développement de l’entrepôt de connaissances ISYMOD Données externes Base de connaissances méthodologiques Identification de domaine Exploitation Classification Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Modélisation du domaine Structure de modélisation du domaine ISYMOD - domaine Protéine nom:string Ident:string Long: integer Système Intégré typ:string nbPart:integer Est composé de début:integer fin:integer Familledom:string Domaine type:string nbTM:integer Système à deux composants stimulus:string Transporteur ABC transport:string Entités biologiques : classes/sous-classes Relations entre entités : associations/sous-associations Propriétés : variables de classes/d’associations 36 Classes – 21 associations Systèmes intégrés Données brutes Résultats des méthodes IEEE Intelligent Systems, 2002 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Modélisation des tâches Structure de modélisation des tâches ISYMOD - tâches Prédiction des partenaires Entrée : Protéome Sortie : Candidats Approche par motifs Entrée : Motifs Approche par similitude Relation de spécialisation Relation de composition Résolution des tâches élémentaires par des méthodes Entrées/sorties = instances du domaine 36 tâches – 16 méthodes de résolution 100 génomes procaryotes traités 13641 partenaires protéiques 5328 transporteurs ABC reconstruits Classification automatique des connaissances RSTI série l’Objet, 2003 Bioinformatics, 2005 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche 2007 Université de Rennes 1 Équipe d’Accueil Modélisation Conceptuelles des Connaissances Biomédicales (EA MCCB) Étude des relations fonctionnelles entre produits de gènes Étude des relations maladies – voies métaboliques Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Analyse transversale Problématique biologique Étude des relations fonctionnelles entre produits de gènes Hypothèses : les gènes d’un groupe d’expression partagent des fonctions communes plusieurs fonctions sont impliquées dans un processus biologique Différences d’expression au sein d’un même processus biologique Prédiction de réseaux fonctionnels de produits de gènes à partir de l’ensemble des gènes déposés sur une puce Visualisation combinée réseaux-données d’expression Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Prédiction des réseaux Calcul de la similarité sémantique des produits de gènes Comparaison des termes de Gene Ontology (processus biologiques) Méthode des modèles d’espace vectoriel Un gène = un vecteur de termes GO Pondération en fonction de la représentativité de l’annotation Produit normalisé des vecteurs Matrice de similarité sémantique ATP7B SLC26A3 SLC11A2 TF 1,00 0,66 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Visualisation Visualisation des réseaux Relations entre produits de gènes lorsque score de similarité > seuil Association avec données d’expression Matrice de similarité Groupe d’expression - + = ATP7B SLC26A3 SLC11A2 TF ATP7B SLC26A3 SLC11A2 TF 1,00 0,66 Profil biologique Ion transport Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Résultats Application sur des gènes impliqués dans la différenciation entérocytaire (186 gènes ) 18 réseaux de produits de gènes (2 à 12 produits de gènes) Mise en évidence de nouvelles pistes de recherche Exemple : Métabolisme des amines Processus de détoxification Connu pour le rein Non décrit pour l’entérocyte Proceedings of the Workshop on Biomedical Ontologies and Text Processing - ECCB'2005 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Caractérisation des maladies Problématique biomédicale Étude des relations entre maladies et voies métaboliques Organisation actuelle des maladies signes cliniques, causes, entités anatomiques Exemple : ontologie SNOMED CT Besoins de caractériser les maladies Associations classes de maladies – classes de gènes Associations maladies – voies métaboliques/ processus biologiques Ontologie de maladies Intégration d’ontologies médicales et biologiques Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Intégration d’ontologies Méthodologie d’intégration Choix des sources SNOMED – CT KEGG Orthology Gene Ontology Formalisation des sources langage OWL Intégration Mise en correspondance (Mapping) Alignement Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Résultats Application à 3 maladies : Gliome – Alzheimer - Leucémie Visualisation avec l’éditeur « Protégé » Exemples de requêtes : processus communs à 2 maladies Maladies neurologiques (Gliome-Alzheimer) : 8 processus (86 avec les parents) Cancers (Gliome – Leucémie) : 44 processus (165 avec les parents) Proceedings of Medinfo 2007 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Quantité importante de données hétérogènes (≠ syntaxe/sémantique) Projet – Recherche Équipe IMGT – laboratoire IGH Projet IMGT Collection de bases de données biologiques Immunoglobulines/Récepteurs cellule T/Complexes d’histocompatibilité Ensemble d’outils bioinformatiques Analyse de séquences/Analyse de génomes/Analyse de structure 3D Quantité importante de données hétérogènes (≠ syntaxe/sémantique) Besoins Gestion de la cohérence des connaissances et de l’interopérabilité des outils développés Projet Modélisation formelle des connaissances biomédicales Modélisation du domaine Modélisation des tâches Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet – Recherche : approches proposées IMGT domaine Modélisation en OWL des connaissances Basée sur IMGT-ONTOLOGY (XML syntaxe) Mécanisme de classification : cohérence des connaissances Requêtes spécifiques IMGT tâches Modélisation en OWL des services Web Basée sur IMGT-CHOREOGRAPHY Enrichissement de l’ontologie OWL-S Enchaînement automatique des services Web Proposition de stratégies d’analyse cohérentes: Incorporation de méthodes propres à IMGT + services proposés sur le Web Inférence automatique de nouvelles connaissances Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet « ISYMOD » Classification automatique des connaissances Approche par similitude Approche par motifs Entrée : Motifs Prédiction des partenaires Entrée : Protéome Sortie : Candidats Classification automatique des connaissances Base de connaissances de domaine 36 Classes – 21 associations Systèmes intégrés Données brutes Résultats des méthodes Base de connaissances méthodologique 36 tâches – 16 méthodes de résolution 100 génomes procaryotes traités 13641 partenaires protéiques 5328 transporteurs ABC reconstruits chabalier et al., 2005 Bioinformatics 1; 21(7):1246-56. Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008