Les -omiques ENSPS 2 TIC-Santé 2012-2013
Plan Introduction: Les génomes : de la cartographie au séquençage, La définition des –omiques et leurs apparitions en Biologie L’analyse de l’information dans les données Les génomes : de la cartographie au séquençage, Les ARN messagers : de l’hybridation au DNA chip, La protéomique : Du gel bidimensionnel à la spectrométrie de masse. L’interactome. La métabolomique (l’analyse des métabolites)
introduction
les « omes » les souris Génome Annotation (syntaxique et fonctionnelle) • Algorithmique sur les mots • Statistique ADN régulation ARN Transcriptome DNA-Chips • Trait. signal, statistique • Analyse de données Protéines Protéome Gel 2D, spectro de masse • Analyse d’images, statistique • Algorithmique enzymes P O N A T métabolisme Métabolome Interactome • Simulation, modélisation • Algorithmique sur les graphes • Représentation des connaissances
The -omics From reductionnism To Holism Item Set (-ome) Structure of the set (-Omics) Techniques (-omics) Gene Genome GenOmic Sequencing, DNA chip, NGS, .. Messenger RNA (transcript) transcriptome transcriptOmic qPCR/ microarrays, NGS Protein Proteome ProteOmic Mass spectrometry Metabolite Metabolome MetabolOmic Interaction Interactome InteractOmic IP, Yeast double hybrid, etc. ...
Systems Thinking Items Functions MacroMolecules Energy Information Structural Biology Energy Bioenergy Metabolism Molecular Biology Matter Information Cells Cell Biology Physiology Organs Increase level of integration Organology Organisms 1968 General System Theory Ludwig von Bertalanffy Anthropology Holism versus reductionism / organism versus mechanism Systems biology have^probably been created by von bertalanffy in 1928 Society 1942-1953 Macy Meeting McCulloch Turing Wiener Von Newman Sociology Functions
Vision temporelle et forces structurantes
plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
niveaux d’annotation d’un génome séquence ADN brute • CDS ’s, ARNs • Signaux de régulation • Repeats... etc • produits des gènes • familles d ’opérateurs • Annotation syntaxique zones d ’intérêt (features) objets « individuels » EMBL détection par contenu • Annotation fonctionnelle attribution de « fonction » généralement par similarité • Annotation relationnelle relations entre les entités relations • voies métaboliques • réseaux d ’intéractions géniques
annotation syntaxique : recherche de gènes ............ A L G W A ........ ............ CGA CTA GGA TGG CGG ........ phase 1 ............ CGA CTA GGA TGG CGG ........ phase 1 ............CGACTAGGATGGCGG........ . code génétique + usage des acides-aminés . usage des codons synonymes (biais d ’usage du code) P(G/CG(1)) ≠ P(G/TG(1)) ≠ P(G) • Modèle mathématique : Chaînes de Markov i A,C,G,T k P(X/X1...Xk) Matrice(s) de transitions Apprentissage • Utilisations w phase 1 phase 2 phase 3 start stop Pcodant
annotation syntaxique : recherche de gènes • Procaryotes GenMark (Borodovski) Glimmer (Salzberg) Problèmes en suspens • assertion des starts (non-ATG / alternatifs) • protéines « atypiques » (membranaires) • gènes « atypiques » (transfert horizontal)
annotation syntaxique : recherche de gènes • Eucaryotes • exons (chaînes de Markov, protéines, ESTs) • jonctions (MPP, Res. neurones) • régions 5 ’ et 3 ’ UTR • structuration exons/introns • usage du code variable (ex: isochores chez les mammifères) 2 Phases • détection • assemblage (HMM, DAG)
annotation syntaxique : assemblage des exons Modèle mathématique : modèle de Markov à états cachés (H.M.M) 1 3 6 4 1 6 2 6 6 2 6 6 5 1 2 1 3 6 4 1 6 2 6 6 2 6 6 5 1 2 p=1/6 p(6)=2/6 p=1/10 Modèle biologique GeneScan (Burge et al.) exon1 exon2
annotation syntaxique : petit résumé • recherche de gènes procaryotes : OK (> 90%) eucaryotes : partiel (25 à 60%) • recherche d ’ARN : tARN, rARN, snARN : ? RBS, opérateurs : ? promoteurs : difficile (même pour les procaryotes) Repeats, µ-sat: OK • recherche de signaux
plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
annotation fonctionnelle in silico ? • rôle biochimique • rôle physiologique • mécanisme « FONCTION » ? • propagation des « erreurs » • « orphelins » • par similarité de séquence (criblage de banques) • par le contexte génomique (genomique comparative)
annotation fonctionnelle in silico : comparaison de séquences 3 familles d ’alignements (2 à 2) de séquences Needelmann-Wunsch Global S1 S2 relativement rare Emploi Prog. Dynamique Semi Global End-gaps free S1 S2 recherche d ’homologues Local Smith-Waterman S1 S2 recherche de similarités (locales) Heuristiques P R E M I E R D E R N I E R P R E - M I E R D - E R N I E R Fasta Blast Ins/Del Sub(M,N) Matrice de substitutions
annotation fonctionnelle in silico : prédiction prédiction de structure / propriété à partir de la séquence (nucléique/protéique) - prédiction de structures secondaires passages transmembranaires localisation cellulaire etc...
prédiction : méthodologie Apprentissage à partir d’exemples P(S | modelV) P(S | modelF) ? S modèle statistique F V modelV modelF -1- apprentissage estimation des paramètres des modèles à partir d’exemples connus -2- règle de décision Bayes P(modelV | S) = P(S | modelV) . P(modelV) P(S) P(S|modelV) . P(modelV) + P(S|modelF) . P(modelF) -3- validation réalité matrice de confusion V F prédiction VP VN FP FN F V ensemble test ≠ apprentissage -> sensibilité, sélectivité, précision, coeff de correl.
plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
annotation fonctionnelle expérimentale - knock-out transcriptome - proteome modélisation de réseaux géniques - modélisation de réseaux métaboliques analyse des résultats modélisation de réseaux inférence de réseaux
annotation fonctionnelle expérimentale - knock-out transcriptome - proteome modélisation de réseaux géniques - modélisation de réseaux métaboliques analyse des résultats modélisation de réseaux inférence de réseaux
données de transcriptome : analyse des résultats conditions expérimentales données brutes I(r, t) I(g, t) données traitées log(Ir/Ig) données interprétées modele statistique distribution de I ? - distribution des rapports analyses factorielles clustering (HC, SOM, ...) statistique exploratoire Ir/Ig > s significatif ?
statistique exploratoire : un exemple simple l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes) g1 g2 g3 g4 g5 ... individus
statistique exploratoire : un exemple simple l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes) caractères up down neutral g1 g2 g3 g4 g5 ... 1 Q1 individus up/down Regulé ?
statistique exploratoire : un exemple simple l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes) caractères up down neutral pres. abs. g1 g2 g3 g4 g5 ... 1 1 1 1 1 1 1 1 Q1 Q2 Qi individus up/down Regulé ? Krebs ? promoteur ? -> analyse du lien entre différentes sources d’information
statistique exploratoire : l’ACM analyse du lien entre les individus / entre les caractères chi2 dépendance ≠ corrélation y = x 2 x Donner une représentation (plane) vérifiant : gi Reg-up Krebs-present Prom-absent g1 Reg-up g2 g3
statistique exploratoire : l’ACM - analyse de la proximité des caractères Q1-down Krebs-oui Q1-neutral Reg-up Krebs-non
statistique exploratoire : l’ACM - analyse de la proximité des caractères - identification des invidus concernés Reg-up Krebs-non Q1-neutral Krebs-oui Q1-down - suggestion d’un lien -> analyse exploratoire - doit etre suivi d’un test statistique ( -> chi2)
annotation fonctionnelle expérimentale - knock-out transcriptome - proteome modélisation de réseaux géniques - modélisation de réseaux métaboliques analyse des résultats inférence de réseaux
modélisation de réseaux géniques 1 1 2 3 2 3 dynamique : équations différentielles linéaires par morceaux quantitatives qualitatives réseaux booléens formalisme logique équations différentielles APPROCHES Valeurs des paramètres ?
modélisation de réseaux géniques 1 1 2 3 2 3 x2 12 1 x1 x1 = k12 . s+(x2 , 12) - 1 x1 . x2 = k213 . s -(x1 , 21) . s -(x3 , 23) - 2 x2 x3 = k31 . s -(x1 , 31) + k33 . s -(x3 , 33) - 3 x3 Equations différentielles lineaires par morceaux seuil
inférence de réseaux géniques ? 1 2 3 knockout disruption network dna-chip réseaux bayésiens model checking Experience Approche bioinformatique
disruption network A B C D ? A B C D A B C D A B C D A B C D
Annotation fonctionnelle expérimentale : métabolisme BD métaboliques (KEGG) colocalisation de gènes (microsynténies) +
métabolisme et colocalisation : exemple B.subtilis menE menB menH menF menD E. coli menC ytfD Menaquinone biosynthesis Chorismate Menaquinone Similarité: MenC (E.coli) / YtfD (B.subtilis) très faible YtfD: initialement identifiée comme une N-acylamino acid racemase Unexpected divergence of enzyme function and sequence: “N-acylamino Acid Racemase” is o-Succinylbenzoate Synthase Palmer et al, Biochemistry, 38 : 4252-4258, 1999 Le contexte génomique suggère qu’YtfD est l’orthologue de MenC cad une o-succinyl-CoA synthase l’activité enzymatique a été confirmée expérimentalement
la reconstruction métabolique {composés, réactions, pathways} nouveau génome (protéome) par homologie ab initio - réseaux de Petri - matrice stochiométrique - transfert d’atomes
la reconstruction métabolique : par homologie Organisme A Organisme B ?
la reconstruction métabolique : par homologie Organisme B Organisme A orthologues
la reconstruction métabolique : ab initio Entrée : {réactions} (KEGG) composé « source » composé « puit » External compounds (ATP, ADP, NADP, water ...) Source Sink Sortie : sous-réseaux « équilibrés » :
la reconstruction métabolique : ab initio Matrice Stoichiométrique External fluxes Internal flux Compound External fluxes Internal fluxes from “The challenges of in-silico biology” [B.O. Pallson]& [C.H. Schilling, S. Schuster]
la reconstruction métabolique : ab initio Matrice Stoichiométrique External fluxes Internal flux Compound External fluxes Internal fluxes from “The challenges of in-silico biology” [B.O. Pallson]& [C.H. Schilling, S. Schuster] S . v = 0
Annotation fonctionnelle expérimentale : protéomique proteome complet compartiment cellulaire problématique : identification de protéines carte peptidique MS Prot identif protéine /mélange fragments digestion trypsique AVYLGH séquences /tags LC MS/MS identif identif Nuc
Annotation fonctionnelle expérimentale : protéomique proteome complet compartiment cellulaire problématique : identification de protéines identif MS carte peptidique protéine /mélange fragments digestion trypsique identif LC MS/MS identif AVYLGH séquences /tags Prot Nuc
plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
des banques et des bases banques de données versus bases de données LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998 DEFINITION Escherichia coli K-12 MG1655 complete genome. ACCESSION U00096 KEYWORDS . SOURCE Escherichia coli. ORGANISM Escherichia coli Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia. REFERENCE 1 (bases 1 to 4639221) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., Riley,M., Collado-Vides,J., Glasner,J.D., Rode,C.K., Mayhew,G.F., Gregor,J., Davis,N.W., Kirkpatrick,H.A., Goeden,M.A., Rose,D.J., Mau,B. and Shao,Y. TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), 1453-1474 (1997) MEDLINE 97426617 REFERENCE 2 (bases 1 to 4639221) AUTHORS Blattner,F.R. TITLE Direct Submission JOURNAL Submitted (16-JAN-1997) Guy Plunkett III, Laboratory of Genetics, University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA. Email: ecoli@genetics.wisc.edu Phone: 608-262-2534 Fax: 608-263-7459 banque fichier « à plat » syntaxe définie sémantique floue (pas de modèle explicite) - requètes simples base modèle de données (données structurées) - gestion des inconsistences - existence d’un SGBD requètes complexes modèle de données données SGBD Echange Stockage / Requetage
des banques et des bases banques de données versus bases de données LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998 DEFINITION Escherichia coli K-12 MG1655 complete genome. ACCESSION U00096 KEYWORDS . SOURCE Escherichia coli. ORGANISM Escherichia coli Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia. REFERENCE 1 (bases 1 to 4639221) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., Riley,M., Collado-Vides,J., Glasner,J.D., Rode,C.K., Mayhew,G.F., Gregor,J., Davis,N.W., Kirkpatrick,H.A., Goeden,M.A., Rose,D.J., Mau,B. and Shao,Y. TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), 1453-1474 (1997) MEDLINE 97426617 REFERENCE 2 (bases 1 to 4639221) AUTHORS Blattner,F.R. TITLE Direct Submission JOURNAL Submitted (16-JAN-1997) Guy Plunkett III, Laboratory of Genetics, University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA. Email: ecoli@genetics.wisc.edu Phone: 608-262-2534 Fax: 608-263-7459 banque fichier « à plat » syntaxe définie sémantique floue (pas de modèle explicite) - requètes simples base modèle de données (données structurées) - gestion des inconsistences - existence d’un SGBD requètes complexes modèle de données SGBD données Echange Stockage / Requetage
importance d’un modèle explicite Constat : Une grande partie des informations présentes dans les banques de données n’est pas facilement exploitable ID DP3B_ECOLI STANDARD; PRT; 366 AA. DE DNA POLYMERASE III, BETA CHAIN (EC 2.7.7.7). ... CC -!- SUBUNIT: CONTAINS A CORE (COMPOSED OF ALPHA, EPSILON, AND THETA CHAINS) THAT ASSOCIATES WITH A TAU SUBUNIT WHICH ALLOW THE CORE DIMERIZATION TO FORM THE POLIII' COMPLEX. POLIII' ASSOCIATES WITH THE GAMMA COMPLEX (COMPOSED OF CHAINS GAMMA, DELTA, DELTA', PSI, AND CHI) AND WITH THE BETA CHAIN. THE FINAL COMPOSITION OF THE COMPLEX IS: (ALPHA,EPSILON,THETA)[2]-TAU[2]-(GAMMA,DELTA,DELTA', PSI,CHI)[2]-BETA[4]. THE BETA CHAIN IS AN HOMODIMER, WHEN NOT ASSOCIATED WITH THE OTHER COMPONENTS. SwissProt assemblage moléculaire il faut expliciter les connaissances pour les rendre : - interprétables (par une machine) requêtes, croisements, ... , traitements - cohérentes - échangeables
les étapes de la création d’une base de données modèle p.ex: UML implémentation p.ex: SGBD relationnel (Oracle, postGres, MySQL) instanciation banques
les étapes de la création d’une base de données modèle p.ex: UML implémentation p.ex: SGBD relationnel (Oracle, postGres, MySQL) instanciation banques
modélisation objets/associations (UML) Regulator is-A héritage Protein classe attributs MW length ... Regulates association regulator regulated-prot roles Km les relations ont des attributs Effector effector les relations sont n-aires
modélisation objets/associations (UML) Protein Regulator Regulates effector Biotinyl 5’-AMP BioA BirA Instances BioB modèle de données (schéma de classes)
modélisation objets/associations (UML) un modèle simple pour les assemblages et l’activité catalytique MolecularEnzyme component IsComponent container stoichiometry Polypeptide PB 1 PC PA A2BC 2 [A2BC] PB 1 PC PA AB [A[AB]C] A2BC
modélisation objets/associations (UML) un modèle simple pour les assemblages et l’activité catalytique MolecularEnzyme HasCatalyticAct component IsComponent container stoichiometry Polypeptide CatalyticActivity Oligomeric enzyme Isozymes Multifunctional enzyme EC2 PA EC1 PB PC PA ABC EC PB PC PA EC
modélisation objets/associations (UML) exercice EC1 PB 1 PC PA AB A2BC EC2 -1- décrire ce graphe en langage naturel -2- mettre le texte dans un banque de séquence -3- écrire un programme qui retrouve le graphe...
plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
extraction d’informations à partir de textes http://www.pdg.cnb.uam.es/UniPub/iHOP/
extraction d’informations à partir de textes