Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parSylvaine Sauvé Modifié depuis plus de 9 années
1
Julie Chabalier Post-doctorante Université Rennes 1 Équipe « Modélisation Conceptuelles des Connaissances Biomédicales »
2
Parcours Maîtrise de Biologie Cellulaire (1999)
Marseille Maîtrise de Biologie Cellulaire (1999) DESS Compétences Complémentaires en Informatique (2000) Doctorat en Informatique (2004) Soutenu le 6 avril 2004 – mention très honorable « Acquisition incrémentale et représentation des systèmes intégrés bactériens par une approche orientée objet » 1/2 ATER ( ) Qualifications sections 64, 65, 27 (2005) Post-doctorante Université de Rennes 1 (2005 – 2008) Rennes Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
3
Enseignements ++ niveau/ nb heures
Initiation à la bioinformatique Grandes banques/bases de données Concepts majeurs de la bioinformatique Représentation des connaissances biologiques Bio-ontologies Web Sémantique Initiation à l’informatique Bureautique - Algorithmique Conception, implémentation, interrogation de bases de données Modélisation MERISE- UML Langage SQL – MySQL Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
4
Représentation des connaissances biologiques
Informatique : représentation des connaissances axe principal de recherche en Intelligence Artificielle (IA) représentation des connaissances humaines dans un langage informatique utilisation de ces connaissances par un ordinateur pour effectuer des raisonnements Bioinformatique : représentation des connaissances biologiques construction, exploitation et partage des modèles biologiques complexes méthodes de représentation issues de l’IA mécanisme de raisonnements : obtention de nouvelles connaissances Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
5
Quelques notions… Un système intégré est un ensemble de protéines nécessaires à la réalisation d’une fonction biologique 1 Classes et associations pour représenter les concepts biologiques et leur relations 2 Variables ou attributs pour représenter les propriétés biologiques 2 Relation de spécialisation pour représenter les concepts biologiques spécifiques (héritage) 3 Langage informatique pour que la modélisation soit compréhensible par l’ordinateur 4 Objets ou instances pour représenter les objets biologiques 5 Classification d’objet pour enrichir les connaissances d’une manière cohérente Est composé de Protéine Système_intégré Type nbPartenaire proteineAffine Réalise Fonction Transporteur_ABC ABC Réalise Transport Systeme d’import Systeme d’export class: Assembly variables: variable: Type type: string variable: PartnersNb type: integer variable: SBP type: boolean class: ABC super-class: ASSEMBLY variables: variable: Type domain: {"ABC"} class: ImportABC super-class: ABC variables: variable: SBP domain: {true} instance : BSUBA01_OPUBA is-a : Systeme Intégré type = "ABC" nbpartenaires = 4 SBP = true Base de connaissances : technique orientée instances Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
6
Quelques notions… Ontologie Technique de représentation issue de l’IA
Obtention d’un consensus sur le sens des concepts employés dans une communauté (définitions textuelle, synonymes…) Technique orientée classes et relations Utilisation modélisation d’une base de connaissances réalisation d’un système d’annotation réalisation d’un système d’indexation documentaire Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
7
ATP-binding cassette (ABC)
système_intégré Type nbPartenaire proteineAffineC Intégration automatique transporteur_ABC cellular component systeme d’import systeme d’export is_a is_a cell part macromolecular complex is_a is_a membrane part protein complex is_a is_a ATP-binding cassette (ABC) transporter complex ABCA7_HUMAN ABCB8_HUMAN ABCD2_HUMAN … A complex for the transport of metabolites into and out of the cell, typically comprised of four domains; two membrane-associated domains and two ATP-binding domains at the intracellular face of the membrane, that form a central pore through the plasma membrane. Each of the four core domains may be encoded as a separate polypeptide or the domains can be fused in any one of a number of ways into multidomain polypeptides. In Bacteria and Archaebacteria, ABC transporters also include substrate binding proteins to bind substrate external to the cytoplasm and deliver it to the transporter. Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
8
Travaux de recherche Trois axes complémentaires de recherche :
1. Représentation des connaissances biologiques 2. Exploitation des connaissances ontologiques 3. Intégration d’ontologies biomédicales Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
9
Projet « ISYMOD » (thèse octobre 2000 – avril 2004)
1. Représentation des connaissances biologiques Objectif : Élaboration d’une base de connaissances dédiées à la représentation des systèmes intégrés bactériens Originalité : représentation dans un même environnement des connaissances sur les systèmes intégrés et des connaissances méthodologiques permettant l’identification et la reconstruction de ces systèmes à partir de génomes complètement séquencés Méthode : utilisation du langage de représentation AROM (inria + lif) + extension du mécanisme de classification (version…) Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
10
Projet « ISYMOD » Approche par similitude Approche par motifs Entrée : Motifs Prédiction des partenaires Entrée : Protéome Sortie : Candidats chabalier et al., 2005 Bioinformatics 1; 21(7): Données externes Base de connaissances méthodologiques Identification de domaine Exploitation Classification 100 génomes procaryotes traités 13641 partenaires protéiques 5328 transporteurs ABC reconstruits Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
11
Projet « Analyse transversale »
(postdoc 2004 – 2006) 2. Exploitation des connaissances ontologiques Objectif : Interprétation des données d’expression par l’exploitation des connaissances structurées au sein d’une ontologie Originalité : utilisation des connaissances structurées dès le début de l’interprétation des données (avant le clustering) Méthode : construction de réseaux de protéines par comparaison des termes de Gene Ontology (GO) - association de ces réseaux aux données d’expression Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
12
Profil biologique Ion transport
réprimé Amine metabolism Ion transport Defense response Cell ion homeostasis ATP7B 1 SLC26A3 SLC11A2 TF sim(SLC11A2-TF) = 0,66 surexprimés Profil biologique Ion transport Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
13
Activation d’une voie de biosynthèse du précurseur de la créatine
Répression de la biosynthèse de polyamine Rôle potentiel de détoxification de l’entérocyte chabalier et al. BMC Bioinformatic, 8:235 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
14
Projet « Biomed » 3. Intégration d’ontologies biomédicales
(postdoc 2006 – 2008) 3. Intégration d’ontologies biomédicales Objectif : Associer les maladies et les voies métaboliques Originalité : Intégration des ontologies médicales et biologiques Méthode : mise en correspondance les termes de 3 ontologies : Gene ontology - Kegg - Snomed CT comparaison lexicale comparaison des gènes impliqués dans une maladie et une voie métabolique Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
15
KO: Neurodegenerative disorders
KO: Human diseases SN: Disorder of brain KO: Neurodegenerative disorders SN: Organic mental disorder KO: Alzheimer's disease APP BACE1 BACE2 PSEN1 PSEN2 … SN: Dementia SN: Alzheimer's disease GO: cell cycle GO: cell-cell signaling GO: Transport chabalier et al. Stud Health Technol Inform. 129:791-5. Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
16
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
17
Projet - Recherche Représentation et classification automatique des systèmes intégrés bactériens en fonction de différents points de vue Actuellement: classification des transporteurs ABC en fonction de la présence ou non de la protéine affine automatisé dans ISYMOD Les partenaires des transporteurs évoluent de façon concertées Les familles de transporteurs correspondent à de grandes familles de substrats pas indépendant : les transporteurs d’une même classe de substrat ont une origine commune Classer les transporteurs en fonction d’un point de vue évolutif Classer les transporteurs en fonction d’un point de vue fonctionnel Combiner les résultats pour valider les classifications Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
18
Le point de vue fonctionnel
Cours terme Le point de vue fonctionnel Chebi Classification des petites molécules natural product système_intégré Type nbPartenaire proteineAffineC lipid carbohydrate transporteur_ABC monosaccharide oligosaccharide systeme d’import systeme d’export aldose pentose disaccharide ABC 4 ABC 2 ABC 3 glycosylglucose aldopentose ABC 1 maltose lactose ribose Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
19
Long terme - le point de vue évolutif
Pas d’ontologie sur les paralogues Etudier la représentation des classes de paralogues sous forme d’ontologies - ontologie basée sur un arbre phylogénétique? - ontologie de séquences? Organiser automatiquement les transporteurs ABC en fonction de ces classes Comparer automatiquement les points de vue Utilisation des mécanismes de raisonnement de l’intelligence artificielle Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
20
Projet - Enseignements
Bioinformatique Concepts mis en œuvre dans les méthodes bioinformatiques Alignement de séquences Analyse de génomes Phylogénie Prédiction fonctionnelle Grandes banques de données biologiques Bio-ontologies – représentation des connaissances biologiques Informatique Initiation à l’informatique Bureautique Bases de données Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
21
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
22
Travaux de recherche : problématique biologique
Etude des modèles biologiques complexes nécessite : - Description des entités biologiques impliquées - Description des relations qu’entretiennent ces entités Ces modèles biologiques sont généralement proposés par comparaison avec des modèles connus Limitation : Les sources de connaissances sont de plus en plus nombreuses, hétérogènes et distribuées comparaison des connaissances est une tâche complexe (beaucoup de connaissances) et difficile (modèles riches) Besoin : - Représenter les connaissances biologiques de façon précise et non ambigüe - Automatiser la génération de nouvelles connaissances Genbank Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
23
Recherche 2004 Laboratoire de Chimie Bactérienne (LCB)
Laboratoire d’Informatique Fondamentale (LIF) Problématique biologique Étude des relations fonctionnelles entre les partenaires des systèmes intégrés bactériens Un système intégré est un ensemble de protéines nécessaires à la réalisation d’une fonction biologique Système modèle : transporteur ABC Élaboration d’une stratégie d’analyse des systèmes Prédiction des partenaires protéiques Reconstruction des systèmes fonctionnels Automatisation de la stratégie d’analyse Gestion automatique de la cohérence des connaissances biologiques Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
24
Recherche – La stratégie d’analyse
Stratégie d’analyse des transporteurs ABC Protéome Membrane cytoplasmique Cytoplasme NBD SBP MSD Identification des domaines fonctionnels Motifs Similarité Reconstruction des systèmes fonctionnels Proximité chromosomique Compatibilité des sous-familles Eucaryotes : 1 système = 1 protéine Procaryotes : 1 système = 1 assemblage Transporteurs ABC Computers & Chemistry, 2002 Toutes les étapes de la stratégie nécessitent une communication étroite entre les méthodes d’analyse et une base de données Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
25
Recherche – Automatisation de la stratégie
Besoin : Automatisation de la stratégie Gestion de la cohérence des connaissances biologiques Contrôle du flux de données entre les méthodes Gestion des échanges entre les méthodes et la base de données Solution : Développement de l’entrepôt de connaissances ISYMOD Données externes Base de connaissances méthodologiques Identification de domaine Exploitation Classification Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
26
Recherche – Modélisation du domaine
Structure de modélisation du domaine ISYMOD - domaine Protéine nom:string Ident:string Long: integer Système Intégré typ:string nbPart:integer Est composé de début:integer fin:integer Familledom:string Domaine type:string nbTM:integer Système à deux composants stimulus:string Transporteur ABC transport:string Entités biologiques : classes/sous-classes Relations entre entités : associations/sous-associations Propriétés : variables de classes/d’associations 36 Classes – 21 associations Systèmes intégrés Données brutes Résultats des méthodes IEEE Intelligent Systems, 2002 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
27
Recherche – Modélisation des tâches
Structure de modélisation des tâches ISYMOD - tâches Prédiction des partenaires Entrée : Protéome Sortie : Candidats Approche par motifs Entrée : Motifs Approche par similitude Relation de spécialisation Relation de composition Résolution des tâches élémentaires par des méthodes Entrées/sorties = instances du domaine 36 tâches – 16 méthodes de résolution 100 génomes procaryotes traités 13641 partenaires protéiques 5328 transporteurs ABC reconstruits Classification automatique des connaissances RSTI série l’Objet, 2003 Bioinformatics, 2005 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
28
Recherche 2007 Université de Rennes 1 Équipe d’Accueil Modélisation Conceptuelles des Connaissances Biomédicales (EA MCCB) Étude des relations fonctionnelles entre produits de gènes Étude des relations maladies – voies métaboliques Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
29
Recherche – Analyse transversale
Problématique biologique Étude des relations fonctionnelles entre produits de gènes Hypothèses : les gènes d’un groupe d’expression partagent des fonctions communes plusieurs fonctions sont impliquées dans un processus biologique Différences d’expression au sein d’un même processus biologique Prédiction de réseaux fonctionnels de produits de gènes à partir de l’ensemble des gènes déposés sur une puce Visualisation combinée réseaux-données d’expression Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
30
Recherche – Prédiction des réseaux
Calcul de la similarité sémantique des produits de gènes Comparaison des termes de Gene Ontology (processus biologiques) Méthode des modèles d’espace vectoriel Un gène = un vecteur de termes GO Pondération en fonction de la représentativité de l’annotation Produit normalisé des vecteurs Matrice de similarité sémantique ATP7B SLC26A3 SLC11A2 TF 1,00 0,66 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
31
Recherche – Visualisation
Visualisation des réseaux Relations entre produits de gènes lorsque score de similarité > seuil Association avec données d’expression Matrice de similarité Groupe d’expression - + = ATP7B SLC26A3 SLC11A2 TF ATP7B SLC26A3 SLC11A2 TF 1,00 0,66 Profil biologique Ion transport Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
32
Recherche – Résultats Application sur des gènes impliqués dans la différenciation entérocytaire (186 gènes ) 18 réseaux de produits de gènes (2 à 12 produits de gènes) Mise en évidence de nouvelles pistes de recherche Exemple : Métabolisme des amines Processus de détoxification Connu pour le rein Non décrit pour l’entérocyte Proceedings of the Workshop on Biomedical Ontologies and Text Processing - ECCB'2005 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
33
Recherche – Caractérisation des maladies
Problématique biomédicale Étude des relations entre maladies et voies métaboliques Organisation actuelle des maladies signes cliniques, causes, entités anatomiques Exemple : ontologie SNOMED CT Besoins de caractériser les maladies Associations classes de maladies – classes de gènes Associations maladies – voies métaboliques/ processus biologiques Ontologie de maladies Intégration d’ontologies médicales et biologiques Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
34
Recherche – Intégration d’ontologies
Méthodologie d’intégration Choix des sources SNOMED – CT KEGG Orthology Gene Ontology Formalisation des sources langage OWL Intégration Mise en correspondance (Mapping) Alignement Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
35
Recherche – Résultats Application à 3 maladies : Gliome – Alzheimer - Leucémie Visualisation avec l’éditeur « Protégé » Exemples de requêtes : processus communs à 2 maladies Maladies neurologiques (Gliome-Alzheimer) : 8 processus (86 avec les parents) Cancers (Gliome – Leucémie) : 44 processus (165 avec les parents) Proceedings of Medinfo 2007 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
36
Quantité importante de données hétérogènes (≠ syntaxe/sémantique)
Projet – Recherche Équipe IMGT – laboratoire IGH Projet IMGT Collection de bases de données biologiques Immunoglobulines/Récepteurs cellule T/Complexes d’histocompatibilité Ensemble d’outils bioinformatiques Analyse de séquences/Analyse de génomes/Analyse de structure 3D Quantité importante de données hétérogènes (≠ syntaxe/sémantique) Besoins Gestion de la cohérence des connaissances et de l’interopérabilité des outils développés Projet Modélisation formelle des connaissances biomédicales Modélisation du domaine Modélisation des tâches Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
37
Projet – Recherche : approches proposées
IMGT domaine Modélisation en OWL des connaissances Basée sur IMGT-ONTOLOGY (XML syntaxe) Mécanisme de classification : cohérence des connaissances Requêtes spécifiques IMGT tâches Modélisation en OWL des services Web Basée sur IMGT-CHOREOGRAPHY Enrichissement de l’ontologie OWL-S Enchaînement automatique des services Web Proposition de stratégies d’analyse cohérentes: Incorporation de méthodes propres à IMGT + services proposés sur le Web Inférence automatique de nouvelles connaissances Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
38
Projet « ISYMOD » Classification automatique des connaissances
Approche par similitude Approche par motifs Entrée : Motifs Prédiction des partenaires Entrée : Protéome Sortie : Candidats Classification automatique des connaissances Base de connaissances de domaine 36 Classes – 21 associations Systèmes intégrés Données brutes Résultats des méthodes Base de connaissances méthodologique 36 tâches – 16 méthodes de résolution 100 génomes procaryotes traités 13641 partenaires protéiques 5328 transporteurs ABC reconstruits chabalier et al., 2005 Bioinformatics 1; 21(7): Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.