Télécharger la présentation
Publié parAnn Mahieu Modifié depuis plus de 10 années
1
Bioinformatique modélisation et analyse des données génomiques et post-génomiques
François Rechenmann
2
Génome ADN ARN Transcriptome Protéines Protéome Métabolome régulation
enzymes P O N A T Métabolome
3
Le codage de l’information génomique
macromolécule d’ADN ≈ enchaînement d’acides nucléiques adénine : A thymine : T cytosine : C guanine : G génome ≈ texte écrit dans l’alphabet de ces quatre lettres
4
Cellules procaryotes
5
ADN double brin transcription messager chaîne d’acides aminés traduction repliement
6
Le code génétique Deuxième position Première position Troisième
U C A G U C A G UUU Phe (F) UCU Ser (S) UAU Tyr (Y) UGU Cys (C) UUC " UCC " UAC UGC UUA Leu (L) UCA " UAA Ter UGA Ter UUG " UCG " UAG Ter UGG Trp (W) CUU Leu (L) CCU Pro (P) CAU His (H) CGU Arg (R) CUC " CCC " CAC " CGC " CUA " CCA " CAA Gln (Q) CGA " CUG " CCG " CAG " CGG " AUU Ile (I) ACU Thr (T) AAU Asn (N) AGU Ser (S) AUC " ACC " AAC " AGC " AUA " ACA " AAA Lys (K) AGA Arg (R) AUG Met (M) ACG " AAG " AGG " GUU Val (V) GCU Ala (A) GAU Asp (D) GGU Gly (G) GUC " GCC " GAC " GGC " GUA " GCA " GAA Glu (E) GGA " GUG " GCG " GAG " GGG " U C A G Première position Troisième position
7
Cellules eucaryotes
8
chaîne d’acides aminés traduction
ADN double brin chaîne d’acides aminés traduction repliement transcription messager ARN prémessager exon intron maturation (excision - épissage)
9
Génome ADN ARN Transcriptome Protéines Protéome Métabolome régulation
GATCACCTCACTACGGGTCAGGGGAAGGAAAGGGGAACTGAGAGATTTGTCAGTGTGAGAAGCAGTCCCAGGAGTTAGAAGTAGTGGCTCCATGACTCACAAATTAACTTCCCTTTCAGGCAGGGCTTCTTATTTTCCTTAGCATCCCTGTCTTGATCCCAGCCTGCTCAGACCCCTGCCTCTCACTGCAAGATGTGCTT ARN Transcriptome ADN Génome enzymes P O N A T Métabolome Protéome Protéines régulation
10
De très nombreux domaines de recherche en informatique, automatique et mathématiques appliquées sont concernés algorithmique sur les séquences, sur les graphes… statistique, analyse de données apprentissage symbolique et numérique visualisation de données modélisation et simulation dynamiques calcul parallèle bases de données et de connaissances
11
Le projet HELIX « Informatique et génomique »
Projet de l’unité de recherche INRIA Rhône-Alpes à Grenoble (Montbonnot) et Lyon (campus de La Doua, UMR CNRS UCB 5558) 40 chercheurs, ingénieurs et doctorants Quatre exemples GenoStar : plate-forme de génomique exploratoire Génomique comparative et synténie Modélisation et simulation de réseaux d’interactions PepMap et la bioinformatique de la protéomique
12
Le consortium Genostar
13
Les objectifs du consortium
Concevoir et développer une plate–forme bioinformatique de génomique exploratoire
14
La plate-forme Genostar
Des modules interopérables GenoExpertBacteria autour d’un noyau qui assure la gestion et la persistance des données et des connaissances l’enchaînement de l’exécution des méthodes d’analyse
15
La plate-forme Genostar
Des données structurées dans un modèle à objets et relations
16
gene chromosome Basu dnaA Hepy secG secD Bobu mnemo type size shape
is-located-on is-located-on Basu dnaA Hepy secG secD Bobu
17
Protein Regulator Regulates Compound inheritance class MW Length
“is-A” inheritance Regulates association regulator regulated-prot roles Km slots Compound effector N-ary associations MW Length Sequence
18
La plate-forme Genostar
Des données structurées dans un modèle à objets et relations Un ensemble de méthodes d’analyse et de visualisation Des tâches paramétrables enchaînant ces méthodes sur les données
19
Un exemple : la recherche de CDS bactériennes
ORF RBS STOP START
20
Recherche des ORF Recherche des RBS Enregistrement et visualisation des objets créés Recherche de CDS
21
Le consortium Genostar a bénéficié du soutien du Ministère de la Recherche
Direction de la Recherche : programme Génomique Direction de la Technologie : programme GenHomme
22
Genostar est mis à disposition des laboratoires de recherche publics
Le consortium est ouvert aux partenariats avec les sociétés privées
24
Comparative genomics Pimelate BioW BioF BioA BioD BioB Biotin
B.subtilis bioB bioD bioF bioW bioA bioW bioD bioF bioB bioA S.aureus Pimelate Pimeloyl-CoA 8-Amino-7-Oxononanoate 7,8-Diaminonanoate Dethiobiotin Biotin EC EC EC EC EC BioW BioF BioA BioB BioD Gene order conservation: NO Gene cluster conservation: YES
25
Unformal definition of a synton
A synton is a maximal set of pairs of homolog genes with conserved organization on two chromosomes (two species) conserved organization = similar relative location on both chromosomes (permutation - insertion/deletion) A B B A
26
A synton is defined by a double path in the plane
a a a a a a6 A B b b b b b b6 b b b9 B b9 b8 b7 b6 b5 b4 b3 b2 b1 A synthon is a maximal set of homolog gene pairs with conserved gene organization on both chromosomes = 0 A synton is defined by a double path in the plane d : gap parameter A a1 a2 a3 a4 a5 a6
27
= maximal set of gene couples such that a path exits on A and B axes
a a a a a a6 A B b b b b b b6 b b b9 (a1,b2) (a2,b1) (a3,b8) (a4,b9) (a5,b3) (a6,b4) B (a1,b2) (a2,b1) (a3,b8) (a4,b9) (a5,b3) (a6,b4) b9 b8 b7 b6 b5 b4 b3 b2 b1 = maximal set of gene couples such that a path exits on A and B axes A synton is defined by a double path in the plane A synthon is a maximal set of homolog gene pairs with conserved gene organization on both chromosomes A a1 a2 a3 a4 a5 a6
28
Design of an O(n2) algorithm on graphs
a a a a a a6 A B b b b b b b6 b b b9 (a1,b2) (a2,b1) (a3,b8) (a4,b9) (a5,b3) (a6,b4) Design of an O(n2) algorithm on graphs n = number of pairs of homolog genes
29
d = 2 d = 3 d = 0 a1 a2 a3 a4 a5 a6 b1 b2 b3 b4 b5 b6 b7 b8 b9 A B
30
Simulation of gene interaction networks
kinA - + H KinA phospho- relay Spo0A˜P Spo0A A spo0A sinR sinI SinI SinR SinR/SinI spoIIA hpr (scoR) abrB Hpr AbrB spo0E sigH (spo0H) Spo0E F Signal Regulatory network controling the initiation of sporulation in B. subtilis
31
Piece-wise linear differential equations
Cellular concentration of gene product i at time-point t represented by variable xi(t) Regulatory interactions modeled by differential equations xi = fi(x) – i xi xi 0, 1 i n . where fi(x) is the synthesis term and – i xi the degradation term Synthesis term fi(x) : sum of products of step functions s+/-(xj , ij) weighted by rate constants kij > 0 xj s+(xj , ij) 1 ij
32
Phase space box and volumes
max3 33 x3 x2 x1 max2 12 23 21 31 max1 Equations in shaded volume: x1 = - 1 x1 x2 = - 2 x2 x3 = k33 - 3 x3 . Within a volume, the model simplifies to linear differential equations i is sum of products of rate constants xi = i – i xi i n .
33
. Example of simulation . x1 = - 1 x1 x2 = - 2 x2 x3 = k33 - 3 x3
max3 33 x3 x1 max2 12 23 21 31 max1 x2 Equations in shaded volume vinit : x1 = - 1 x1 x2 = - 2 x2 x3 = k33 - 3 x3 .
34
. Example of simulation . x1 = - 1 x1 x2 = - 2 x2
max3 33 x3 x1 max2 12 23 21 31 max1 x2 Equations in shaded volume : x1 = - 1 x1 x2 = - 2 x2 x3 = k31 + k33 - 3 x3 .
35
Example of simulation . max3 33 x3 x1 max2 12 23 21 31 max1 x2
36
Example of simulation . max3 33 x3 x1 max2 12 23 21 31 max1 x2
37
Example of simulation . max3 33 x3 x1 max2 12 23 21 31 max1 x2
38
. Example of simulation . x1 = - 1 x1 x2 = - 2 x2
max3 33 x3 x1 max2 12 23 21 31 max1 x2 . x3 = k31 + k33 - 3 x3 Equations in shaded volume : x1 = - 1 x1 x2 = - 2 x2 .
39
Example of simulation . max3 33 x3 x1 max2 12 23 21 31 max1 x2
40
. Example of simulation . x1 = - 1 x1 x2 = - 2 x2
max3 33 x3 x1 max2 12 23 21 31 max1 x2 Equations in shaded volume : x1 = - 1 x1 x2 = - 2 x2 x3 = k31 + k33 - 3 x3 . Volume contains a steady state
41
GNA : Gene Networks Analyser
42
Un dernier exemple en protéomique
Collaboration CEA GENOME express INRIA Rhône-Alpes Contexte de la plate-forme protéomique à haut-débit de Rhône-Alpes Genopole
43
G L I F mN mC fragments spectrométrie de masse analyse des spectres
courte séquence peptidique analyse des spectres digestion trypsique G L I F mN mC « cocktail » de protéines étiquettes peptidiques masses des séquences adjacentes
44
recherches en bioinformatique
fragments spectrométrie de masse recherches en bioinformatique analyse des spectres digestion trypsique « cocktail » de protéines « mapping » sur les chromosomes étiquettes peptidiques
45
G L I F mN mC CAC histidine = His = H
GAT acide aspartique = Asp = D code génétiaue G L I F mN mC . . . D H L R T G Q G G L I F T E R F . . . . . . GAT CAC CTC ACT ACG GGT CAG GGG GGC CTA AGG ATA ACT GAG AGA TTT . . . GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC . . .
46
G L I F mN mC . . . D H L R T G Q G G L I F T E R F . . .
. . . GAT CAC CTC ACT ACG GGT CAG GGG GGC CTA AGG ATA ACT GAG AGA TTT . . . GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC . . .
47
? 1) « mapping » des étiquettes 2) « clustering » pb. algorithmique
gène ? 1) « mapping » des étiquettes pb. algorithmique 2) « clustering » pb. statistique
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.