Télécharger la présentation
Publié parDominique Robert Modifié depuis plus de 9 années
1
Les -omiques ENSPS 2 TIC-Santé
2
Plan Introduction: Les génomes : de la cartographie au séquençage,
La définition des –omiques et leurs apparitions en Biologie L’analyse de l’information dans les données Les génomes : de la cartographie au séquençage, Les ARN messagers : de l’hybridation au DNA chip, La protéomique : Du gel bidimensionnel à la spectrométrie de masse. L’interactome. La métabolomique (l’analyse des métabolites)
3
introduction
4
les « omes » les souris Génome
Annotation (syntaxique et fonctionnelle) • Algorithmique sur les mots • Statistique ADN régulation ARN Transcriptome DNA-Chips • Trait. signal, statistique • Analyse de données Protéines Protéome Gel 2D, spectro de masse • Analyse d’images, statistique • Algorithmique enzymes P O N A T métabolisme Métabolome Interactome • Simulation, modélisation • Algorithmique sur les graphes • Représentation des connaissances
5
The -omics From reductionnism To Holism Item Set (-ome)
Structure of the set (-Omics) Techniques (-omics) Gene Genome GenOmic Sequencing, DNA chip, NGS, .. Messenger RNA (transcript) transcriptome transcriptOmic qPCR/ microarrays, NGS Protein Proteome ProteOmic Mass spectrometry Metabolite Metabolome MetabolOmic Interaction Interactome InteractOmic IP, Yeast double hybrid, etc. ...
6
Systems Thinking Items Functions MacroMolecules Energy Information
Structural Biology Energy Bioenergy Metabolism Molecular Biology Matter Information Cells Cell Biology Physiology Organs Increase level of integration Organology Organisms 1968 General System Theory Ludwig von Bertalanffy Anthropology Holism versus reductionism / organism versus mechanism Systems biology have^probably been created by von bertalanffy in 1928 Society Macy Meeting McCulloch Turing Wiener Von Newman Sociology Functions
7
Vision temporelle et forces structurantes
8
plan 1- de la séquence brute à la séquence annotée
2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
9
plan 1- de la séquence brute à la séquence annotée
2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
10
niveaux d’annotation d’un génome
séquence ADN brute • CDS ’s, ARNs • Signaux de régulation • Repeats... etc • produits des gènes • familles d ’opérateurs • Annotation syntaxique zones d ’intérêt (features) objets « individuels » EMBL détection par contenu • Annotation fonctionnelle attribution de « fonction » généralement par similarité • Annotation relationnelle relations entre les entités relations • voies métaboliques • réseaux d ’intéractions géniques
11
annotation syntaxique : recherche de gènes
A L G W A CGA CTA GGA TGG CGG phase 1 CGA CTA GGA TGG CGG phase 1 CGACTAGGATGGCGG . code génétique + usage des acides-aminés . usage des codons synonymes (biais d ’usage du code) P(G/CG(1)) ≠ P(G/TG(1)) ≠ P(G) • Modèle mathématique : Chaînes de Markov i A,C,G,T k P(X/X1...Xk) Matrice(s) de transitions Apprentissage • Utilisations w phase 1 phase 2 phase 3 start stop Pcodant
12
annotation syntaxique : recherche de gènes
• Procaryotes GenMark (Borodovski) Glimmer (Salzberg) Problèmes en suspens • assertion des starts (non-ATG / alternatifs) • protéines « atypiques » (membranaires) • gènes « atypiques » (transfert horizontal)
13
annotation syntaxique : recherche de gènes
• Eucaryotes • exons (chaînes de Markov, protéines, ESTs) • jonctions (MPP, Res. neurones) • régions 5 ’ et 3 ’ UTR • structuration exons/introns • usage du code variable (ex: isochores chez les mammifères) 2 Phases • détection • assemblage (HMM, DAG)
14
annotation syntaxique : assemblage des exons
Modèle mathématique : modèle de Markov à états cachés (H.M.M) p=1/6 p(6)=2/6 p=1/10 Modèle biologique GeneScan (Burge et al.) exon1 exon2
15
annotation syntaxique : petit résumé
• recherche de gènes procaryotes : OK (> 90%) eucaryotes : partiel (25 à 60%) • recherche d ’ARN : tARN, rARN, snARN : ? RBS, opérateurs : ? promoteurs : difficile (même pour les procaryotes) Repeats, µ-sat: OK • recherche de signaux
16
plan 1- de la séquence brute à la séquence annotée
2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
17
annotation fonctionnelle in silico
? • rôle biochimique • rôle physiologique • mécanisme « FONCTION » ? • propagation des « erreurs » • « orphelins » • par similarité de séquence (criblage de banques) • par le contexte génomique (genomique comparative)
18
annotation fonctionnelle in silico : comparaison de séquences
3 familles d ’alignements (2 à 2) de séquences Needelmann-Wunsch Global S1 S2 relativement rare Emploi Prog. Dynamique Semi Global End-gaps free S1 S2 recherche d ’homologues Local Smith-Waterman S1 S2 recherche de similarités (locales) Heuristiques P R E M I E R D E R N I E R P R E - M I E R D - E R N I E R Fasta Blast Ins/Del Sub(M,N) Matrice de substitutions
19
annotation fonctionnelle in silico : prédiction
prédiction de structure / propriété à partir de la séquence (nucléique/protéique) - prédiction de structures secondaires passages transmembranaires localisation cellulaire etc...
20
prédiction : méthodologie
Apprentissage à partir d’exemples P(S | modelV) P(S | modelF) ? S modèle statistique F V modelV modelF -1- apprentissage estimation des paramètres des modèles à partir d’exemples connus -2- règle de décision Bayes P(modelV | S) = P(S | modelV) . P(modelV) P(S) P(S|modelV) . P(modelV) + P(S|modelF) . P(modelF) -3- validation réalité matrice de confusion V F prédiction VP VN FP FN F V ensemble test ≠ apprentissage -> sensibilité, sélectivité, précision, coeff de correl.
21
plan 1- de la séquence brute à la séquence annotée
2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
22
annotation fonctionnelle expérimentale
- knock-out transcriptome - proteome modélisation de réseaux géniques - modélisation de réseaux métaboliques analyse des résultats modélisation de réseaux inférence de réseaux
23
annotation fonctionnelle expérimentale
- knock-out transcriptome - proteome modélisation de réseaux géniques - modélisation de réseaux métaboliques analyse des résultats modélisation de réseaux inférence de réseaux
24
données de transcriptome : analyse des résultats
conditions expérimentales données brutes I(r, t) I(g, t) données traitées log(Ir/Ig) données interprétées modele statistique distribution de I ? - distribution des rapports analyses factorielles clustering (HC, SOM, ...) statistique exploratoire Ir/Ig > s significatif ?
25
statistique exploratoire : un exemple simple
l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes) g1 g2 g3 g4 g5 ... individus
26
statistique exploratoire : un exemple simple
l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes) caractères up down neutral g1 g2 g3 g4 g5 ... 1 Q1 individus up/down Regulé ?
27
statistique exploratoire : un exemple simple
l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes) caractères up down neutral pres. abs. g1 g2 g3 g4 g5 ... 1 1 1 1 1 1 1 1 Q1 Q2 Qi individus up/down Regulé ? Krebs ? promoteur ? -> analyse du lien entre différentes sources d’information
28
statistique exploratoire : l’ACM
analyse du lien entre les individus / entre les caractères chi2 dépendance ≠ corrélation y = x 2 x Donner une représentation (plane) vérifiant : gi Reg-up Krebs-present Prom-absent g1 Reg-up g2 g3
29
statistique exploratoire : l’ACM
- analyse de la proximité des caractères Q1-down Krebs-oui Q1-neutral Reg-up Krebs-non
30
statistique exploratoire : l’ACM
- analyse de la proximité des caractères - identification des invidus concernés Reg-up Krebs-non Q1-neutral Krebs-oui Q1-down - suggestion d’un lien -> analyse exploratoire - doit etre suivi d’un test statistique ( -> chi2)
31
annotation fonctionnelle expérimentale
- knock-out transcriptome - proteome modélisation de réseaux géniques - modélisation de réseaux métaboliques analyse des résultats inférence de réseaux
32
modélisation de réseaux géniques
1 1 2 3 2 3 dynamique : équations différentielles linéaires par morceaux quantitatives qualitatives réseaux booléens formalisme logique équations différentielles APPROCHES Valeurs des paramètres ?
33
modélisation de réseaux géniques
1 1 2 3 2 3 x2 12 1 x1 x1 = k12 . s+(x2 , 12) - 1 x1 . x2 = k213 . s -(x1 , 21) . s -(x3 , 23) - 2 x2 x3 = k31 . s -(x1 , 31) + k33 . s -(x3 , 33) - 3 x3 Equations différentielles lineaires par morceaux seuil
34
inférence de réseaux géniques
? 1 2 3 knockout disruption network dna-chip réseaux bayésiens model checking Experience Approche bioinformatique
35
disruption network A B C D ? A B C D A B C D A B C D A B C D
36
Annotation fonctionnelle expérimentale : métabolisme
BD métaboliques (KEGG) colocalisation de gènes (microsynténies) +
37
métabolisme et colocalisation : exemple
B.subtilis menE menB menH menF menD E. coli menC ytfD Menaquinone biosynthesis Chorismate Menaquinone Similarité: MenC (E.coli) / YtfD (B.subtilis) très faible YtfD: initialement identifiée comme une N-acylamino acid racemase Unexpected divergence of enzyme function and sequence: “N-acylamino Acid Racemase” is o-Succinylbenzoate Synthase Palmer et al, Biochemistry, 38 : , 1999 Le contexte génomique suggère qu’YtfD est l’orthologue de MenC cad une o-succinyl-CoA synthase l’activité enzymatique a été confirmée expérimentalement
38
la reconstruction métabolique
{composés, réactions, pathways} nouveau génome (protéome) par homologie ab initio - réseaux de Petri - matrice stochiométrique - transfert d’atomes
39
la reconstruction métabolique : par homologie
Organisme A Organisme B ?
40
la reconstruction métabolique : par homologie
Organisme B Organisme A orthologues
41
la reconstruction métabolique : ab initio
Entrée : {réactions} (KEGG) composé « source » composé « puit » External compounds (ATP, ADP, NADP, water ...) Source Sink Sortie : sous-réseaux « équilibrés » :
42
la reconstruction métabolique : ab initio
Matrice Stoichiométrique External fluxes Internal flux Compound External fluxes Internal fluxes from “The challenges of in-silico biology” [B.O. Pallson]& [C.H. Schilling, S. Schuster]
43
la reconstruction métabolique : ab initio
Matrice Stoichiométrique External fluxes Internal flux Compound External fluxes Internal fluxes from “The challenges of in-silico biology” [B.O. Pallson]& [C.H. Schilling, S. Schuster] S . v = 0
44
Annotation fonctionnelle expérimentale : protéomique
proteome complet compartiment cellulaire problématique : identification de protéines carte peptidique MS Prot identif protéine /mélange fragments digestion trypsique AVYLGH séquences /tags LC MS/MS identif identif Nuc
45
Annotation fonctionnelle expérimentale : protéomique
proteome complet compartiment cellulaire problématique : identification de protéines identif MS carte peptidique protéine /mélange fragments digestion trypsique identif LC MS/MS identif AVYLGH séquences /tags Prot Nuc
46
plan 1- de la séquence brute à la séquence annotée
2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
47
des banques et des bases
banques de données versus bases de données LOCUS U bp DNA circular BCT NOV-1998 DEFINITION Escherichia coli K-12 MG1655 complete genome. ACCESSION U00096 KEYWORDS . SOURCE Escherichia coli. ORGANISM Escherichia coli Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia. REFERENCE 1 (bases 1 to ) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., Riley,M., Collado-Vides,J., Glasner,J.D., Rode,C.K., Mayhew,G.F., Gregor,J., Davis,N.W., Kirkpatrick,H.A., Goeden,M.A., Rose,D.J., Mau,B. and Shao,Y. TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), (1997) MEDLINE REFERENCE 2 (bases 1 to ) AUTHORS Blattner,F.R. TITLE Direct Submission JOURNAL Submitted (16-JAN-1997) Guy Plunkett III, Laboratory of Genetics, University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA. Phone: Fax: banque fichier « à plat » syntaxe définie sémantique floue (pas de modèle explicite) - requètes simples base modèle de données (données structurées) - gestion des inconsistences - existence d’un SGBD requètes complexes modèle de données données SGBD Echange Stockage / Requetage
48
des banques et des bases
banques de données versus bases de données LOCUS U bp DNA circular BCT NOV-1998 DEFINITION Escherichia coli K-12 MG1655 complete genome. ACCESSION U00096 KEYWORDS . SOURCE Escherichia coli. ORGANISM Escherichia coli Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia. REFERENCE 1 (bases 1 to ) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., Riley,M., Collado-Vides,J., Glasner,J.D., Rode,C.K., Mayhew,G.F., Gregor,J., Davis,N.W., Kirkpatrick,H.A., Goeden,M.A., Rose,D.J., Mau,B. and Shao,Y. TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), (1997) MEDLINE REFERENCE 2 (bases 1 to ) AUTHORS Blattner,F.R. TITLE Direct Submission JOURNAL Submitted (16-JAN-1997) Guy Plunkett III, Laboratory of Genetics, University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA. Phone: Fax: banque fichier « à plat » syntaxe définie sémantique floue (pas de modèle explicite) - requètes simples base modèle de données (données structurées) - gestion des inconsistences - existence d’un SGBD requètes complexes modèle de données SGBD données Echange Stockage / Requetage
49
importance d’un modèle explicite
Constat : Une grande partie des informations présentes dans les banques de données n’est pas facilement exploitable ID DP3B_ECOLI STANDARD; PRT; AA. DE DNA POLYMERASE III, BETA CHAIN (EC ). ... CC -!- SUBUNIT: CONTAINS A CORE (COMPOSED OF ALPHA, EPSILON, AND THETA CHAINS) THAT ASSOCIATES WITH A TAU SUBUNIT WHICH ALLOW THE CORE DIMERIZATION TO FORM THE POLIII' COMPLEX. POLIII' ASSOCIATES WITH THE GAMMA COMPLEX (COMPOSED OF CHAINS GAMMA, DELTA, DELTA', PSI, AND CHI) AND WITH THE BETA CHAIN. THE FINAL COMPOSITION OF THE COMPLEX IS: (ALPHA,EPSILON,THETA)[2]-TAU[2]-(GAMMA,DELTA,DELTA', PSI,CHI)[2]-BETA[4]. THE BETA CHAIN IS AN HOMODIMER, WHEN NOT ASSOCIATED WITH THE OTHER COMPONENTS. SwissProt assemblage moléculaire il faut expliciter les connaissances pour les rendre : - interprétables (par une machine) requêtes, croisements, ... , traitements - cohérentes - échangeables
50
les étapes de la création d’une base de données
modèle p.ex: UML implémentation p.ex: SGBD relationnel (Oracle, postGres, MySQL) instanciation banques
51
les étapes de la création d’une base de données
modèle p.ex: UML implémentation p.ex: SGBD relationnel (Oracle, postGres, MySQL) instanciation banques
52
modélisation objets/associations (UML)
Regulator is-A héritage Protein classe attributs MW length ... Regulates association regulator regulated-prot roles Km les relations ont des attributs Effector effector les relations sont n-aires
53
modélisation objets/associations (UML)
Protein Regulator Regulates effector Biotinyl 5’-AMP BioA BirA Instances BioB modèle de données (schéma de classes)
54
modélisation objets/associations (UML)
un modèle simple pour les assemblages et l’activité catalytique MolecularEnzyme component IsComponent container stoichiometry Polypeptide PB 1 PC PA A2BC 2 [A2BC] PB 1 PC PA AB [A[AB]C] A2BC
55
modélisation objets/associations (UML)
un modèle simple pour les assemblages et l’activité catalytique MolecularEnzyme HasCatalyticAct component IsComponent container stoichiometry Polypeptide CatalyticActivity Oligomeric enzyme Isozymes Multifunctional enzyme EC2 PA EC1 PB PC PA ABC EC PB PC PA EC
56
modélisation objets/associations (UML)
exercice EC1 PB 1 PC PA AB A2BC EC2 -1- décrire ce graphe en langage naturel -2- mettre le texte dans un banque de séquence -3- écrire un programme qui retrouve le graphe...
57
plan 1- de la séquence brute à la séquence annotée
2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
58
extraction d’informations à partir de textes
59
extraction d’informations à partir de textes
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.