Julie Chabalier Post-doctorante Laboratoire d’Informatique Médicale Université Rennes 1
Parcours Maîtrise de Biologie Cellulaire (1999) Marseille Maîtrise de Biologie Cellulaire (1999) DESS Compétences Complémentaires en Informatique (2000) Doctorat en Informatique (2004) Soutenu le 6 avril 2004 – mention très honorable « Acquisition incrémentale et représentation des systèmes intégrés bactériens par une approche orientée objet » 1/2 ATER (2004 - 2005) Qualifications sections 64, 65, 27 (2005) Post-doctorante Université de Rennes 1 (2005 – 2008) Rennes Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
Enseignements (278h eq. TD) Conception, implémentation, interrogation de bases de données (master) Modélisation MERISE- UML Langage SQL – MySQL Initiation à l’informatique (licence) Bureautique - Algorithmique Initiation à la bioinformatique (licence) Grandes banques/bases de données Concepts majeurs de la bioinformatique Représentation des connaissances biomédicales (master2) Ontologies biologiques et médicales Web Sémantique Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
Thématique de recherche Contexte Projets de séquençage / nouvelles technologies à haut debit (transcriptome) Explosion de la quantité de données biologiques Interprétation des données : apporter du sens à ces données (les annoter) une tâche très difficile Terminologies différentes en fonction du domaine même mot : significations différentes d'un domaine à un autre Rôle croissant des bases de données en biologie Difficile d’avoir une vision globale des informations disponibles Besoins Structuration et description, non ambigüe, des connaissances disponibles dans un domaine Partage des connaissances Exploitation automatique de ces connaissances pour interpréter les données Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
Thématique de recherche Les ontologies Définition des concepts d’un domaine et des relations entre ces concepts (conceptualisation) Représentation dans un langage informatique rendant les connaissances compréhensibles par un ordinateur (formalisation) Exemples Génomique : Gene Ontology Annotation des produits de gènes Médecine : SNOMED CT Description des maladies Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
Transcription factor AP-2 beta (AP2B) Gene Ontology biological process molecular fonction cellular component is_a organelle cell developmental process binding transcription regulator activity intracellular membrane- bound organelle multicellular organismal development anatomical structure development nucleic acid binding Intracellular organelle DNA binding system development part_of intracellular membrane- bound organelle nervous system development transcription factor activity Transcription factor AP-2 beta (AP2B) Produit de gène Annotation des produits de gènes nucleus Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
Utilisation de Gene Ontology pour interpréter les résultats de puces à ADN infectée controle temps Puparial adhesion Molting cycle hemocyanin Defense response Immune response Response to stimulus Toll regulated genes JAK-STAT regulated genes Amino acid catabolism Lipid metobolism Peptidase activity Protein catabloism Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
Systematized Nomenclature of Medicine -- Clinical Terms SNOMED CT Systematized Nomenclature of Medicine -- Clinical Terms disorder of brain Description des maladies suivant des critères cliniques (étiologie, localisation, morphologie…) Degenerative brain disorder organic mental disorder cerebral degeneration dementia Echanger des informations cliniques entre les différents professionnels de la santé (médecin, pharmacien, chercheur…) Alzheimer's disease Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
Trois axes complémentaires : Travaux de recherche Trois axes complémentaires : 1. Représentation des connaissances biologiques 2. Interprétation des données d’expression 3. Intégration des connaissances biologiques et médicales Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
1. Représentation des connaissances biologiques Projet « ISYMOD » (thèse octobre 2000 – avril 2004) Représentation des systèmes intégrés biologiques Un système intégré est un ensemble de protéines nécessaires à la réalisation d’une fonction biologique SystemeIntegre type nbPartenaires est_composé Proteine Entités biologiques : classes/sous-classes Relations entre entités : associations/sous-associations Propriétés : variables de classes/d’associations TransporteurABC Systeme2composants OPUBA Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
13641 partenaires protéiques 5328 transporteurs ABC 100 génomes procaryotes 13641 partenaires protéiques 5328 transporteurs ABC 36 Classes – 21 associations Chabalier et al., 2005 Bioinformatics Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
2. Interprétation des données d’expression Projet « Analyse transversale » (postdoc 2004 – 2006) Interprétation des données d’expression par l’exploitation des concepts de Gene Ontology Analyse classique : associer un ou plusieurs termes à un cluster d’expression Limitation : au sein d’un même processus biologique, les gènes peuvent s’exprimer différentiellement (ex : régulation) Analyse transversale : regrouper les gènes en fonction de leur annotation et associer l’expression à chaque gène au sein des groupes Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
Comparaison des annotations (modèle espace vectoriel) biological process gène 1 gène 2 gène 3 gène 4 gène 5 gène 6 gène 7 gène 8 … gène n process B process D process E process F process G process C gène 1 gène 5 Comparaison des annotations (modèle espace vectoriel) gène 1 (process B, process E, …) gène 5 (process E, process F, …) gène 1 gène 2 0<sim<1 gène 1 gène 2 0<sim<1 Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
Application de l’analyse transversale Analyse des gènes impliqués dans la differentiation enterocytaire Métabolisme des amines Activation d’une voie de biosynthèse du précurseur de la créatine Répression de la biosynthèse de polyamine Rôle potentiel de détoxification de l’entérocyte Chabalier et al., 2007 BMC Bioinformatic Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
3. Intégration des connaissances biomédicales Projet « Biomed » (postdoc 2006 – 2008) Description des maladies dans les ontologies médicales Caractéristiques cliniques (Etiologie, Localisation, Morphologie…) Exemple : SNOMED CT Besoin des connaissances biologiques Gènes La mutation d’un gène peut conduire à une maladie Voies métaboliques / Processus biologiques différents processus pourraient expliquer les différents grades d’une maladie Intégrer des ontologies de maladies et de processus biologiques Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
Ontologie des maladies Méthodologie générale d’intégration Méthode de mise en correspondance des termes Kegg Orthology Voies métaboliques Maladies Gene Ontology Processus biologiques SNOMED CT Maladies Ontologie des maladies Chabalier et al., 2007 Stud Health Technol Inform. Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
Cancers Aspect invasif Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
Projet enseignements DUT Génie Biologique Informatique (cours – TD – TP) Bureautique (Office/Open office : word, excel, access) Programmation (Perl, PHP, Java…) Bases de données (Oracle-SQL, mySQL) Biologie (cours – TD) Licence Pro Biologie Analytique et Expérimentale Bioinformatique (cours – TD – TP) Base de données biologiques Méthodes bioinformatiques d’analyse des données Nouvelles technologies dans le domaine biomédical Ontologies biomédicales Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
Comparaison fonctionnelle des génomes des insectes Projet recherche – UMR 1231 Comparaison fonctionnelle des génomes des insectes Contexte Étude comparative des génomes des lépidoptères Spodoptera – Helicoverpa - Bombyx mori Impact du centromère sur l’expression des gènes proches Méthodologie Etude du génome et génomique comparative (synténie) Etude du transcriptome Besoin Interprétation des données Structuration et description des connaissances disponibles chez les insectes (processus biologiques) Exploitation automatique de ces connaissances pour interpréter les données Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
Approche proposée Représentation des processus biologiques chez les insectes Etude comparée des différentes espèces Méthode Utilisation de Gene Ontology - Drosophile (Adams et al. Science. 2000 Mar 24;287(5461):2185-95) Enrichissement de cette ontologie pour l’ensemble des insectes Extraction et intégration des connaissances de différentes sources trans-espèces : KEGG (voies métaboliques : drosophile, bombyx, moustique…) Reactome (processus biologiques et réactions : drosophile) Base de données spécialisées Exploitation de l’ontologie des insectes Analyse données d’expression : analyse transversale Comparaison trans-espèces Intégration future de données écologiques ou comportementales Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008
Résultats attendus Description non ambigüe du domaine Réponses aux questions : Quels sont les processus biologiques communs à toutes les espèces d’insectes ? Quels sont les processus biologiques spécifiques à une espèce ? (ex : puceron parthénogénèse) Quels sont les réactions spécifiques aux génomes holocentriques ? Annotation des nouveaux génomes, relations entre les gènes d’insectes sans fonction connue mais présentant des domaines fonctionnels Prédiction de nouveaux processus biologiques par comparaison trans-espèce (relation avec la biologie de catégories d’insectes : vecteurs de virus, ravageurs, hématophages) Audition Maître de Conférences - Université Montpellier II - Lundi 26 mai 2008