Les -omiques ENSPS 2 TIC-Santé 2012-2013.

Slides:



Advertisements
Présentations similaires
IREMIA : Institut de REcherche en Mathématiques et Informatique Appliquées Université de la Réunion Uniformisation des mécanismes de conception de SMA.
Advertisements

Treuil IRD Abdelwahed FSSM-Marrakech
Relational Learning as a Search in a Critical Region Lou Fedon 9 Mars 2006.
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Un aperçu de la bioinformatique moléculaire
Spécification et qualité du logiciel
A L I M E N T A T I O N A G R I C U L T U R E E N V I R O N N E M E N T.
Equipe Biosystème Membres de l’équipe: Mme. Hounaida Homri Thèse
Introduction Pour concrétiser l’enseignement assisté par ordinateur
XML - Henry Boccon-Gibod 1 XML, Langage de description La question du choix de formalismes Les entités et leur représentations modalités de modèles et.
Les données et les banques de données
Transcription de l’ADN
L'INFORMATION GENETIQUE
Colloque Traitement et Analyse de séquences : compte-rendu
Initiation à la bioinformatique
"Recherche de scénarios redoutés à partir d'un modèle réseau de Petri"
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Initiation au système d’information et aux bases de données
Laboratoire Sciences Pour l’Environnement
Bioinformatique =?? génomique protéomique
Décodage des informations
1. L’ADN et l’information génétique
Introduction à la conception de Bases de Données Relationnelles
Champs de Markov cachés pour la classification de gènes..
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Département Génétique et Génomique Evolutives
Bi 231: Ingénierie des Protéines
La Bioinformatique à Nancy
Bioinformatique et Biologie Structurale I/ – Principes et techniques A/ Linformation structurale B/ Les différentes techniques de détermination de structure.
Institut Suisse de Bioinformatique
La méthodologie expérimentale Fondements et bases d’application
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Annotation de génomes complets
Sensibilisation a la modelisation
Bases de données en biologie (suite)
Recherche heuristique dans les bases de données L’algorithme BLAST
ECUE Méthodologie de la Génétique Moléculaire
Modèle neuromimètique de l’apprentissage par renforcement Les aspects temporels (réponse retardée) peuvent être facilement intégrés au niveau cortical.
Co-expression = fonction (Eisen et al., PNAS 1998)
Approches Formelles en Systèmes d'information
DÉFINITIONS modules programmes chaînes de programmes
Chaque module comprends 2 niveaux :
Plan du cours : première partie
Initiation à la conception des systèmes d'informations
IFT 232 Méthodes de Conception Orientées Objets Introduction.
2 Processus de conception de BD
Réseau d’interactions Développement, reproduction,
Banques de données en bio-informatique
Soutenance de Stage DEA / DESS
ISNET-43 Atelier de génie logiciel Approche fonctionnelle ou objets Concurrence ou complémentarité ? Synthèse.
Protéine.
Hiver 2004SEG2501 Chapître 41 Chapître 4 SDL – structure d’un système et son comportement.
Intégration des données sur le transcriptome
Introduction à la Bio-Informatique
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Institut Universitaire de Technologie de Clermont-Ferrand
Recherche heuristique dans les bases de données L’algorithme BLAST
L’analyse d’ADN et la génomique
Responsable : Serge Hamon
REGULATION DE L’EXPRESSION DES GENES
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
CHMI 4206 Bioinformatique appliquée
ULBI 101 Biologie Cellulaire L1 Le Système Membranaire Interne.
RASAHOLIARISON Nomena Interne 1 er semestre en Neurologie USFR Neurologie CHU-JRB FACULTE DE MEDECINE UNIVERSITE D’ANTANANARIVO Cours du 01 avril 2015.
Bio-Informatique Analyse de séquences nucléotidiques
Analyse de séquences nucléotidiques séance n°2 Bio-Informatique.
Transcription de la présentation:

Les -omiques ENSPS 2 TIC-Santé 2012-2013

Plan Introduction: Les génomes : de la cartographie au séquençage, La définition des –omiques et leurs apparitions en Biologie L’analyse de l’information dans les données Les génomes : de la cartographie au séquençage, Les ARN messagers : de l’hybridation au DNA chip, La protéomique : Du gel bidimensionnel à la spectrométrie de masse. L’interactome. La métabolomique (l’analyse des métabolites)

introduction

les « omes » les souris Génome Annotation (syntaxique et fonctionnelle) • Algorithmique sur les mots • Statistique ADN régulation ARN Transcriptome DNA-Chips • Trait. signal, statistique • Analyse de données Protéines Protéome Gel 2D, spectro de masse • Analyse d’images, statistique • Algorithmique enzymes P O N A T métabolisme Métabolome Interactome • Simulation, modélisation • Algorithmique sur les graphes • Représentation des connaissances

The -omics From reductionnism To Holism Item Set (-ome) Structure of the set (-Omics) Techniques (-omics) Gene Genome GenOmic Sequencing, DNA chip, NGS, .. Messenger RNA (transcript) transcriptome transcriptOmic qPCR/ microarrays, NGS Protein Proteome ProteOmic Mass spectrometry Metabolite Metabolome MetabolOmic Interaction Interactome InteractOmic IP, Yeast double hybrid, etc. ...

Systems Thinking Items Functions MacroMolecules Energy Information Structural Biology Energy Bioenergy Metabolism Molecular Biology Matter Information Cells Cell Biology Physiology Organs Increase level of integration Organology Organisms 1968 General System Theory Ludwig von Bertalanffy Anthropology Holism versus reductionism / organism versus mechanism Systems biology have^probably been created by von bertalanffy in 1928 Society 1942-1953 Macy Meeting McCulloch Turing Wiener Von Newman Sociology Functions

Vision temporelle et forces structurantes

plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...

plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...

niveaux d’annotation d’un génome séquence ADN brute • CDS ’s, ARNs • Signaux de régulation • Repeats... etc • produits des gènes • familles d ’opérateurs • Annotation syntaxique zones d ’intérêt (features) objets « individuels » EMBL détection par contenu • Annotation fonctionnelle attribution de « fonction » généralement par similarité • Annotation relationnelle relations entre les entités relations • voies métaboliques • réseaux d ’intéractions géniques

annotation syntaxique : recherche de gènes ............ A L G W A ........ ............ CGA CTA GGA TGG CGG ........ phase 1 ............ CGA CTA GGA TGG CGG ........ phase 1 ............CGACTAGGATGGCGG........ . code génétique + usage des acides-aminés . usage des codons synonymes (biais d ’usage du code) P(G/CG(1)) ≠ P(G/TG(1)) ≠ P(G) • Modèle mathématique : Chaînes de Markov i A,C,G,T k P(X/X1...Xk) Matrice(s) de transitions Apprentissage • Utilisations w phase 1 phase 2 phase 3 start stop Pcodant

annotation syntaxique : recherche de gènes • Procaryotes GenMark (Borodovski) Glimmer (Salzberg) Problèmes en suspens • assertion des starts (non-ATG / alternatifs) • protéines « atypiques » (membranaires) • gènes « atypiques » (transfert horizontal)

annotation syntaxique : recherche de gènes • Eucaryotes • exons (chaînes de Markov, protéines, ESTs) • jonctions (MPP, Res. neurones) • régions 5 ’ et 3 ’ UTR • structuration exons/introns • usage du code variable (ex: isochores chez les mammifères) 2 Phases • détection • assemblage (HMM, DAG)

annotation syntaxique : assemblage des exons Modèle mathématique : modèle de Markov à états cachés (H.M.M) 1 3 6 4 1 6 2 6 6 2 6 6 5 1 2 1 3 6 4 1 6 2 6 6 2 6 6 5 1 2 p=1/6 p(6)=2/6 p=1/10 Modèle biologique GeneScan (Burge et al.) exon1 exon2

annotation syntaxique : petit résumé • recherche de gènes procaryotes : OK (> 90%) eucaryotes : partiel (25 à 60%) • recherche d ’ARN : tARN, rARN, snARN : ? RBS, opérateurs : ? promoteurs : difficile (même pour les procaryotes) Repeats, µ-sat: OK • recherche de signaux

plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...

annotation fonctionnelle in silico ? • rôle biochimique • rôle physiologique • mécanisme « FONCTION » ? • propagation des « erreurs » • « orphelins » • par similarité de séquence (criblage de banques) • par le contexte génomique (genomique comparative)

annotation fonctionnelle in silico : comparaison de séquences 3 familles d ’alignements (2 à 2) de séquences Needelmann-Wunsch Global S1 S2 relativement rare Emploi Prog. Dynamique Semi Global End-gaps free S1 S2 recherche d ’homologues Local Smith-Waterman S1 S2 recherche de similarités (locales) Heuristiques P R E M I E R D E R N I E R P R E - M I E R D - E R N I E R Fasta Blast Ins/Del Sub(M,N) Matrice de substitutions

annotation fonctionnelle in silico : prédiction prédiction de structure / propriété à partir de la séquence (nucléique/protéique) - prédiction de structures secondaires passages transmembranaires localisation cellulaire etc...

prédiction : méthodologie Apprentissage à partir d’exemples P(S | modelV) P(S | modelF) ? S modèle statistique F V modelV modelF -1- apprentissage estimation des paramètres des modèles à partir d’exemples connus -2- règle de décision Bayes P(modelV | S) = P(S | modelV) . P(modelV) P(S) P(S|modelV) . P(modelV) + P(S|modelF) . P(modelF) -3- validation réalité matrice de confusion V F prédiction VP VN FP FN F V ensemble test ≠ apprentissage -> sensibilité, sélectivité, précision, coeff de correl.

plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...

annotation fonctionnelle expérimentale - knock-out transcriptome - proteome modélisation de réseaux géniques - modélisation de réseaux métaboliques analyse des résultats modélisation de réseaux inférence de réseaux

annotation fonctionnelle expérimentale - knock-out transcriptome - proteome modélisation de réseaux géniques - modélisation de réseaux métaboliques analyse des résultats modélisation de réseaux inférence de réseaux

données de transcriptome : analyse des résultats conditions expérimentales données brutes I(r, t) I(g, t) données traitées log(Ir/Ig) données interprétées modele statistique distribution de I ? - distribution des rapports analyses factorielles clustering (HC, SOM, ...) statistique exploratoire Ir/Ig > s significatif ?

statistique exploratoire : un exemple simple l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes) g1 g2 g3 g4 g5 ... individus

statistique exploratoire : un exemple simple l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes) caractères up down neutral g1 g2 g3 g4 g5 ... 1 Q1 individus up/down Regulé ?

statistique exploratoire : un exemple simple l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes) caractères up down neutral pres. abs. g1 g2 g3 g4 g5 ... 1 1 1 1 1 1 1 1 Q1 Q2 Qi individus up/down Regulé ? Krebs ? promoteur ? -> analyse du lien entre différentes sources d’information

statistique exploratoire : l’ACM analyse du lien entre les individus / entre les caractères chi2 dépendance ≠ corrélation y = x 2 x Donner une représentation (plane) vérifiant : gi Reg-up Krebs-present Prom-absent g1 Reg-up g2 g3

statistique exploratoire : l’ACM - analyse de la proximité des caractères Q1-down Krebs-oui Q1-neutral Reg-up Krebs-non

statistique exploratoire : l’ACM - analyse de la proximité des caractères - identification des invidus concernés Reg-up Krebs-non Q1-neutral Krebs-oui Q1-down - suggestion d’un lien -> analyse exploratoire - doit etre suivi d’un test statistique ( -> chi2)

annotation fonctionnelle expérimentale - knock-out transcriptome - proteome modélisation de réseaux géniques - modélisation de réseaux métaboliques analyse des résultats inférence de réseaux

modélisation de réseaux géniques 1 1 2 3 2 3 dynamique : équations différentielles linéaires par morceaux quantitatives qualitatives réseaux booléens formalisme logique équations différentielles APPROCHES Valeurs des paramètres ?

modélisation de réseaux géniques 1 1 2 3 2 3 x2 12 1 x1 x1 = k12 . s+(x2 , 12) - 1 x1 . x2 = k213 . s -(x1 , 21) . s -(x3 , 23) - 2 x2 x3 = k31 . s -(x1 , 31) + k33 . s -(x3 , 33) - 3 x3 Equations différentielles lineaires par morceaux seuil

inférence de réseaux géniques ? 1 2 3 knockout disruption network dna-chip réseaux bayésiens model checking Experience Approche bioinformatique

disruption network A B C D ? A B C D A B C D A B C D A B C D

Annotation fonctionnelle expérimentale : métabolisme BD métaboliques (KEGG) colocalisation de gènes (microsynténies) +

métabolisme et colocalisation : exemple B.subtilis menE menB menH menF menD E. coli menC ytfD Menaquinone biosynthesis Chorismate Menaquinone Similarité: MenC (E.coli) / YtfD (B.subtilis) très faible YtfD: initialement identifiée comme une N-acylamino acid racemase Unexpected divergence of enzyme function and sequence: “N-acylamino Acid Racemase” is o-Succinylbenzoate Synthase Palmer et al, Biochemistry, 38 : 4252-4258, 1999 Le contexte génomique suggère qu’YtfD est l’orthologue de MenC cad une o-succinyl-CoA synthase l’activité enzymatique a été confirmée expérimentalement

la reconstruction métabolique {composés, réactions, pathways} nouveau génome (protéome) par homologie ab initio - réseaux de Petri - matrice stochiométrique - transfert d’atomes

la reconstruction métabolique : par homologie Organisme A Organisme B ?

la reconstruction métabolique : par homologie Organisme B Organisme A orthologues

la reconstruction métabolique : ab initio Entrée : {réactions} (KEGG) composé « source » composé « puit » External compounds (ATP, ADP, NADP, water ...) Source Sink Sortie : sous-réseaux « équilibrés » :

la reconstruction métabolique : ab initio Matrice Stoichiométrique External fluxes Internal flux Compound External fluxes Internal fluxes from “The challenges of in-silico biology” [B.O. Pallson]& [C.H. Schilling, S. Schuster]

la reconstruction métabolique : ab initio Matrice Stoichiométrique External fluxes Internal flux Compound External fluxes Internal fluxes from “The challenges of in-silico biology” [B.O. Pallson]& [C.H. Schilling, S. Schuster] S . v = 0

Annotation fonctionnelle expérimentale : protéomique proteome complet compartiment cellulaire problématique : identification de protéines carte peptidique MS Prot identif protéine /mélange fragments digestion trypsique AVYLGH séquences /tags LC MS/MS identif identif Nuc

Annotation fonctionnelle expérimentale : protéomique proteome complet compartiment cellulaire problématique : identification de protéines identif MS carte peptidique protéine /mélange fragments digestion trypsique identif LC MS/MS identif AVYLGH séquences /tags Prot Nuc

plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...

des banques et des bases banques de données versus bases de données LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998 DEFINITION Escherichia coli K-12 MG1655 complete genome. ACCESSION U00096 KEYWORDS . SOURCE Escherichia coli. ORGANISM Escherichia coli Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia. REFERENCE 1 (bases 1 to 4639221) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., Riley,M., Collado-Vides,J., Glasner,J.D., Rode,C.K., Mayhew,G.F., Gregor,J., Davis,N.W., Kirkpatrick,H.A., Goeden,M.A., Rose,D.J., Mau,B. and Shao,Y. TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), 1453-1474 (1997) MEDLINE 97426617 REFERENCE 2 (bases 1 to 4639221) AUTHORS Blattner,F.R. TITLE Direct Submission JOURNAL Submitted (16-JAN-1997) Guy Plunkett III, Laboratory of Genetics, University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA. Email: ecoli@genetics.wisc.edu Phone: 608-262-2534 Fax: 608-263-7459 banque fichier «  à plat » syntaxe définie sémantique floue (pas de modèle explicite) - requètes simples base modèle de données (données structurées) - gestion des inconsistences - existence d’un SGBD requètes complexes modèle de données données SGBD Echange Stockage / Requetage

des banques et des bases banques de données versus bases de données LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998 DEFINITION Escherichia coli K-12 MG1655 complete genome. ACCESSION U00096 KEYWORDS . SOURCE Escherichia coli. ORGANISM Escherichia coli Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia. REFERENCE 1 (bases 1 to 4639221) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., Riley,M., Collado-Vides,J., Glasner,J.D., Rode,C.K., Mayhew,G.F., Gregor,J., Davis,N.W., Kirkpatrick,H.A., Goeden,M.A., Rose,D.J., Mau,B. and Shao,Y. TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), 1453-1474 (1997) MEDLINE 97426617 REFERENCE 2 (bases 1 to 4639221) AUTHORS Blattner,F.R. TITLE Direct Submission JOURNAL Submitted (16-JAN-1997) Guy Plunkett III, Laboratory of Genetics, University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA. Email: ecoli@genetics.wisc.edu Phone: 608-262-2534 Fax: 608-263-7459 banque fichier «  à plat » syntaxe définie sémantique floue (pas de modèle explicite) - requètes simples base modèle de données (données structurées) - gestion des inconsistences - existence d’un SGBD requètes complexes modèle de données SGBD données Echange Stockage / Requetage

importance d’un modèle explicite Constat : Une grande partie des informations présentes dans les banques de données n’est pas facilement exploitable ID DP3B_ECOLI STANDARD; PRT; 366 AA. DE DNA POLYMERASE III, BETA CHAIN (EC 2.7.7.7). ... CC -!- SUBUNIT: CONTAINS A CORE (COMPOSED OF ALPHA, EPSILON, AND THETA CHAINS) THAT ASSOCIATES WITH A TAU SUBUNIT WHICH ALLOW THE CORE DIMERIZATION TO FORM THE POLIII' COMPLEX. POLIII' ASSOCIATES WITH THE GAMMA COMPLEX (COMPOSED OF CHAINS GAMMA, DELTA, DELTA', PSI, AND CHI) AND WITH THE BETA CHAIN. THE FINAL COMPOSITION OF THE COMPLEX IS: (ALPHA,EPSILON,THETA)[2]-TAU[2]-(GAMMA,DELTA,DELTA', PSI,CHI)[2]-BETA[4]. THE BETA CHAIN IS AN HOMODIMER, WHEN NOT ASSOCIATED WITH THE OTHER COMPONENTS. SwissProt assemblage moléculaire il faut expliciter les connaissances pour les rendre : - interprétables (par une machine) requêtes, croisements, ... , traitements - cohérentes - échangeables

les étapes de la création d’une base de données modèle p.ex: UML implémentation p.ex: SGBD relationnel (Oracle, postGres, MySQL) instanciation banques

les étapes de la création d’une base de données modèle p.ex: UML implémentation p.ex: SGBD relationnel (Oracle, postGres, MySQL) instanciation banques

modélisation objets/associations (UML) Regulator is-A héritage Protein classe attributs MW length ... Regulates association regulator regulated-prot roles Km les relations ont des attributs Effector effector les relations sont n-aires

modélisation objets/associations (UML) Protein Regulator Regulates effector Biotinyl 5’-AMP BioA BirA Instances BioB modèle de données (schéma de classes)

modélisation objets/associations (UML) un modèle simple pour les assemblages et l’activité catalytique MolecularEnzyme component IsComponent container stoichiometry Polypeptide PB 1 PC PA A2BC 2 [A2BC] PB 1 PC PA AB [A[AB]C] A2BC

modélisation objets/associations (UML) un modèle simple pour les assemblages et l’activité catalytique MolecularEnzyme HasCatalyticAct component IsComponent container stoichiometry Polypeptide CatalyticActivity Oligomeric enzyme Isozymes Multifunctional enzyme EC2 PA EC1 PB PC PA ABC EC PB PC PA EC

modélisation objets/associations (UML) exercice EC1 PB 1 PC PA AB A2BC EC2 -1- décrire ce graphe en langage naturel -2- mettre le texte dans un banque de séquence -3- écrire un programme qui retrouve le graphe...

plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...

extraction d’informations à partir de textes http://www.pdg.cnb.uam.es/UniPub/iHOP/

extraction d’informations à partir de textes