La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann.

Présentations similaires


Présentation au sujet: "Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann."— Transcription de la présentation:

1 Bioinformatique modélisation et analyse des données génomiques et post-génomiques
François Rechenmann

2 Génome ADN ARN Transcriptome Protéines Protéome Métabolome régulation
enzymes P O N A T Métabolome

3 Le codage de l’information génomique
macromolécule d’ADN ≈ enchaînement d’acides nucléiques adénine : A thymine : T cytosine : C guanine : G génome ≈ texte écrit dans l’alphabet de ces quatre lettres

4 Cellules procaryotes

5 ADN double brin transcription messager chaîne d’acides aminés traduction repliement

6 Le code génétique Deuxième position Première position Troisième
U C A G U C A G UUU Phe (F) UCU Ser (S) UAU Tyr (Y) UGU Cys (C) UUC " UCC " UAC UGC UUA Leu (L) UCA " UAA Ter UGA Ter UUG " UCG " UAG Ter UGG Trp (W) CUU Leu (L) CCU Pro (P) CAU His (H) CGU Arg (R) CUC " CCC " CAC " CGC " CUA " CCA " CAA Gln (Q) CGA " CUG " CCG " CAG " CGG " AUU Ile (I) ACU Thr (T) AAU Asn (N) AGU Ser (S) AUC " ACC " AAC " AGC " AUA " ACA " AAA Lys (K) AGA Arg (R) AUG Met (M) ACG " AAG " AGG " GUU Val (V) GCU Ala (A) GAU Asp (D) GGU Gly (G) GUC " GCC " GAC " GGC " GUA " GCA " GAA Glu (E) GGA " GUG " GCG " GAG " GGG " U C A G Première position Troisième position

7 Cellules eucaryotes

8 chaîne d’acides aminés traduction
ADN double brin chaîne d’acides aminés traduction repliement transcription messager ARN prémessager exon intron maturation (excision - épissage)

9 Génome ADN ARN Transcriptome Protéines Protéome Métabolome régulation
GATCACCTCACTACGGGTCAGGGGAAGGAAAGGGGAACTGAGAGATTTGTCAGTGTGAGAAGCAGTCCCAGGAGTTAGAAGTAGTGGCTCCATGACTCACAAATTAACTTCCCTTTCAGGCAGGGCTTCTTATTTTCCTTAGCATCCCTGTCTTGATCCCAGCCTGCTCAGACCCCTGCCTCTCACTGCAAGATGTGCTT ARN Transcriptome ADN Génome enzymes P O N A T Métabolome Protéome Protéines régulation

10 De très nombreux domaines de recherche en informatique, automatique et mathématiques appliquées sont concernés algorithmique sur les séquences, sur les graphes… statistique, analyse de données apprentissage symbolique et numérique visualisation de données modélisation et simulation dynamiques calcul parallèle bases de données et de connaissances

11 Le projet HELIX « Informatique et génomique »
Projet de l’unité de recherche INRIA Rhône-Alpes à Grenoble (Montbonnot) et Lyon (campus de La Doua, UMR CNRS UCB 5558) 40 chercheurs, ingénieurs et doctorants Quatre exemples GenoStar : plate-forme de génomique exploratoire Génomique comparative et synténie Modélisation et simulation de réseaux d’interactions PepMap et la bioinformatique de la protéomique

12 Le consortium Genostar

13 Les objectifs du consortium
Concevoir et développer une plate–forme bioinformatique de génomique exploratoire

14 La plate-forme Genostar
Des modules interopérables GenoExpertBacteria autour d’un noyau qui assure la gestion et la persistance des données et des connaissances l’enchaînement de l’exécution des méthodes d’analyse

15 La plate-forme Genostar
Des données structurées dans un modèle à objets et relations

16 gene chromosome Basu dnaA Hepy secG secD Bobu mnemo type size shape
is-located-on is-located-on Basu dnaA Hepy secG secD Bobu

17 Protein Regulator Regulates Compound inheritance class MW Length
“is-A” inheritance Regulates association regulator regulated-prot roles Km slots Compound effector N-ary associations MW Length Sequence

18 La plate-forme Genostar
Des données structurées dans un modèle à objets et relations Un ensemble de méthodes d’analyse et de visualisation Des tâches paramétrables enchaînant ces méthodes sur les données

19 Un exemple : la recherche de CDS bactériennes
ORF RBS STOP START

20 Recherche des ORF Recherche des RBS Enregistrement et visualisation des objets créés Recherche de CDS

21 Le consortium Genostar a bénéficié du soutien du Ministère de la Recherche
Direction de la Recherche : programme Génomique Direction de la Technologie : programme GenHomme

22 Genostar est mis à disposition des laboratoires de recherche publics
Le consortium est ouvert aux partenariats avec les sociétés privées

23

24 Comparative genomics Pimelate BioW BioF BioA BioD BioB Biotin
B.subtilis bioB bioD bioF bioW bioA bioW bioD bioF bioB bioA S.aureus Pimelate Pimeloyl-CoA 8-Amino-7-Oxononanoate 7,8-Diaminonanoate Dethiobiotin Biotin EC EC EC EC EC BioW BioF BioA BioB BioD Gene order conservation: NO Gene cluster conservation: YES

25 Unformal definition of a synton
A synton is a maximal set of pairs of homolog genes with conserved organization on two chromosomes (two species) conserved organization = similar relative location on both chromosomes (permutation - insertion/deletion) A B B A

26 A synton is defined by a double path in the plane
a a a a a a6 A B b b b b b b6 b b b9 B b9 b8 b7 b6 b5 b4 b3 b2 b1 A synthon is a maximal set of homolog gene pairs with conserved gene organization on both chromosomes  = 0 A synton is defined by a double path in the plane d : gap parameter A a1 a2 a3 a4 a5 a6

27 = maximal set of gene couples such that a path exits on A and B axes
a a a a a a6 A B b b b b b b6 b b b9 (a1,b2) (a2,b1) (a3,b8) (a4,b9) (a5,b3) (a6,b4) B (a1,b2) (a2,b1) (a3,b8) (a4,b9) (a5,b3) (a6,b4) b9 b8 b7 b6 b5 b4 b3 b2 b1 = maximal set of gene couples such that a path exits on A and B axes A synton is defined by a double path in the plane A synthon is a maximal set of homolog gene pairs with conserved gene organization on both chromosomes A a1 a2 a3 a4 a5 a6

28 Design of an O(n2) algorithm on graphs
a a a a a a6 A B b b b b b b6 b b b9 (a1,b2) (a2,b1) (a3,b8) (a4,b9) (a5,b3) (a6,b4) Design of an O(n2) algorithm on graphs n = number of pairs of homolog genes

29 d = 2 d = 3 d = 0 a1 a2 a3 a4 a5 a6 b1 b2 b3 b4 b5 b6 b7 b8 b9 A B

30 Simulation of gene interaction networks
kinA - + H KinA phospho- relay Spo0A˜P Spo0A A spo0A sinR sinI SinI SinR SinR/SinI spoIIA hpr (scoR) abrB Hpr AbrB spo0E sigH (spo0H) Spo0E F Signal Regulatory network controling the initiation of sporulation in B. subtilis

31 Piece-wise linear differential equations
Cellular concentration of gene product i at time-point t represented by variable xi(t) Regulatory interactions modeled by differential equations xi = fi(x) – i xi xi  0, 1  i  n . where fi(x) is the synthesis term and – i xi the degradation term Synthesis term fi(x) : sum of products of step functions s+/-(xj , ij) weighted by rate constants kij > 0 xj s+(xj , ij) 1 ij

32 Phase space box and volumes
max3 33 x3 x2 x1 max2 12 23 21 31 max1 Equations in shaded volume: x1 = - 1 x1 x2 = - 2 x2 x3 = k33 - 3 x3 . Within a volume, the model simplifies to linear differential equations i is sum of products of rate constants xi = i – i xi  i  n .

33 . Example of simulation . x1 = - 1 x1 x2 = - 2 x2 x3 = k33 - 3 x3
max3 33 x3 x1 max2 12 23 21 31 max1 x2 Equations in shaded volume vinit : x1 = - 1 x1 x2 = - 2 x2 x3 = k33 - 3 x3 .

34 . Example of simulation . x1 = - 1 x1 x2 = - 2 x2
max3 33 x3 x1 max2 12 23 21 31 max1 x2 Equations in shaded volume : x1 = - 1 x1 x2 = - 2 x2 x3 = k31 + k33 - 3 x3 .

35 Example of simulation . max3 33 x3 x1 max2 12 23 21 31 max1 x2

36 Example of simulation . max3 33 x3 x1 max2 12 23 21 31 max1 x2

37 Example of simulation . max3 33 x3 x1 max2 12 23 21 31 max1 x2

38 . Example of simulation . x1 = - 1 x1 x2 = - 2 x2
max3 33 x3 x1 max2 12 23 21 31 max1 x2 . x3 = k31 + k33 - 3 x3 Equations in shaded volume : x1 = - 1 x1 x2 = - 2 x2 .

39 Example of simulation . max3 33 x3 x1 max2 12 23 21 31 max1 x2

40 . Example of simulation . x1 = - 1 x1 x2 = - 2 x2
max3 33 x3 x1 max2 12 23 21 31 max1 x2 Equations in shaded volume : x1 = - 1 x1 x2 = - 2 x2 x3 = k31 + k33 - 3 x3 . Volume contains a steady state

41 GNA : Gene Networks Analyser

42 Un dernier exemple en protéomique
Collaboration CEA GENOME express INRIA Rhône-Alpes Contexte de la plate-forme protéomique à haut-débit de Rhône-Alpes Genopole

43 G L I F mN mC fragments spectrométrie de masse analyse des spectres
courte séquence peptidique analyse des spectres digestion trypsique G L I F mN mC « cocktail » de protéines étiquettes peptidiques masses des séquences adjacentes

44 recherches en bioinformatique
fragments spectrométrie de masse recherches en bioinformatique analyse des spectres digestion trypsique « cocktail » de protéines « mapping » sur les chromosomes étiquettes peptidiques

45 G L I F mN mC CAC  histidine = His = H
GAT  acide aspartique = Asp = D code génétiaue G L I F mN mC . . . D H L R T G Q G G L I F T E R F . . . . . . GAT CAC CTC ACT ACG GGT CAG GGG GGC CTA AGG ATA ACT GAG AGA TTT . . . GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC . . .

46 G L I F mN mC . . . D H L R T G Q G G L I F T E R F . . .
. . . GAT CAC CTC ACT ACG GGT CAG GGG GGC CTA AGG ATA ACT GAG AGA TTT . . . GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC . . .

47 ? 1) « mapping » des étiquettes 2) « clustering » pb. algorithmique
gène ? 1) « mapping » des étiquettes pb. algorithmique 2) « clustering » pb. statistique

48


Télécharger ppt "Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann."

Présentations similaires


Annonces Google