La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann.

Présentations similaires


Présentation au sujet: "Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann."— Transcription de la présentation:

1 Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

2 ARN Transcriptome ADN Génome enzymes P O O OP O O OP O O O O N O N N O N N O ATP Métabolome Protéome Protéines régulation

3 Le codage de linformation génomique macromolécule dADN enchaînement dacides nucléiques –adénine : A –thymine : T –cytosine : C –guanine : G génome texte écrit dans lalphabet de ces quatre lettres

4 Cellules procaryotes

5 ADN double brin chaîne dacides aminés traduction repliement transcription messager

6 Le code génétique Première position Deuxième position Troisième position UUU Phe (F)UCU Ser (S)UAU Tyr (Y)UGU Cys (C) UUC "UCC "UACUGC UUA Leu (L)UCA "UAA TerUGA Ter UUG "UCG "UAG TerUGG Trp (W) CUU Leu (L)CCU Pro (P)CAU His (H)CGU Arg (R) CUC "CCC "CAC "CGC " CUA "CCA "CAA Gln (Q)CGA " CUG "CCG "CAG "CGG " AUU Ile (I)ACU Thr (T)AAU Asn (N)AGU Ser (S) AUC "ACC "AAC "AGC " AUA "ACA "AAA Lys (K)AGA Arg (R) AUG Met (M)ACG "AAG "AGG " GUU Val (V)GCU Ala (A)GAU Asp (D)GGU Gly (G) GUC "GCC "GAC "GGC " GUA "GCA "GAA Glu (E)GGA " GUG "GCG "GAG "GGG " UCAGUCAG UCAGUCAG UCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAG

7 Cellules eucaryotes

8 ARN prémessager ADN double brin chaîne dacides aminés traduction repliement transcription messager exon intron maturation (excision - épissage)

9 GATCACCTCACTACGG GTCAGGGGAAGGAAA GGGGAACTGAGAGATT TGTCAGTGTGAGAAGC AGTCCCAGGAGTTAGA AGTAGTGGCTCCATGA CTCACAAATTAACTTC CCTTTCAGGCAGGGCT TCTTATTTTCCTTAGCA TCCCTGTCTTGATCCCA GCCTGCTCAGACCCCT GCCTCTCACTGCAAGA TGTGCTT ARN Transcriptome ADN Génome enzymes P O O OP O O OP O O O O N O N N O N N O ATP Métabolome Protéome Protéines régulation

10 De très nombreux domaines de recherche en informatique, automatique et mathématiques appliquées sont concernés algorithmique sur les séquences, sur les graphes… statistique, analyse de données apprentissage symbolique et numérique visualisation de données modélisation et simulation dynamiques calcul parallèle bases de données et de connaissances

11 Le projet HELIX « Informatique et génomique » Projet de lunité de recherche INRIA Rhône-Alpes –à Grenoble (Montbonnot) et Lyon (campus de La Doua, UMR CNRS UCB 5558) –40 chercheurs, ingénieurs et doctorants Quatre exemples –GenoStar : plate-forme de génomique exploratoire –Génomique comparative et synténie –Modélisation et simulation de réseaux dinteractions –PepMap et la bioinformatique de la protéomique

12 Le consortium Genostar

13 Les objectifs du consortium Concevoir et développer une plate–forme bioinformatique de génomique exploratoire

14 La plate-forme Genostar Des modules interopérables GenoExpertBacteria autour dun noyau qui assure – la gestion et la persistance des données et des connaissances – lenchaînement de lexécution des méthodes danalyse

15 La plate-forme Genostar Des données structurées dans un modèle à objets et relations

16 is-located-on chromosome size shape gene mnemo type is-located-on BasudnaA is-located-on HepysecG is-located-on BasusecD is-located-on BobusecG

17 Protein class Regulator is-A inheritance Regulates association regulatorregulated-prot roles Km association slots Compound effector N-ary associations MW Length Sequence class slots

18 La plate-forme Genostar Des données structurées dans un modèle à objets et relations Un ensemble de méthodes danalyse et de visualisation Des tâches paramétrables enchaînant ces méthodes sur les données

19 CDS ORF RBS STOPSTARTSTOP Un exemple : la recherche de CDS bactériennes

20 Recherche de CDS Recherche des ORF Recherche des RBS Enregistrement et visualisation des objets créés

21 Le consortium Genostar a bénéficié du soutien du Ministère de la Recherche –Direction de la Recherche : programme Génomique –Direction de la Technologie : programme GenHomme

22 Genostar est mis à disposition des laboratoires de recherche publics Le consortium est ouvert aux partenariats avec les sociétés privées

23

24 Comparative genomics bioWbioDbioFbioB bioA S.aureus Gene order conservation: NO Gene cluster conservation: YES B.subtilis bioBbioDbioFbioW bioA Pimelate Pimeloyl-CoA 8-Amino-7-Oxononanoate 7,8-Diaminonanoate Dethiobiotin Biotin EC EC EC EC EC BioW BioF BioA BioB BioD

25 A synton is a maximal set of pairs of homolog genes with conserved organization on two chromosomes (two species) conserved organization = similar relative location on both chromosomes (permutation - insertion/deletion) Unformal definition of a synton A B A B A B B A B A B A

26 A B a 1 a 2 a 3 a 4 a 5 a 6 b 1 b 2 b 3 b 4 b 5 b 6 b 7 b 8 b 9 A B a 1 a 2 a 3 a 4 a 5 a 6 b9b8b7b6b5b4b3b2b1b9b8b7b6b5b4b3b2b1 A synthon is a maximal set of homolog gene pairs with conserved gene organization on both chromosomes A synton is defined by a double path in the plane : gap parameter = 0

27 A a 1 a 2 a 3 a 4 a 5 a 6 A B b 1 b 2 b 3 b 4 b 5 b 6 b 7 b 8 b 9 B b9b8b7b6b5b4b3b2b1b9b8b7b6b5b4b3b2b1 = maximal set of gene couples such that a path exits on A and B axes A synton is defined by a double path in the plane A synthon is a maximal set of homolog gene pairs with conserved gene organization on both chromosomes (a 1,b 2 ) (a 2,b 1 ) (a 3,b 8 ) (a 4,b 9 ) (a 5,b 3 ) (a 6,b 4 ) (a 1,b 2 ) (a 2,b 1 ) (a 3,b 8 ) (a 4,b 9 ) (a 5,b 3 ) (a 6,b 4 )

28 A B a 1 a 2 a 3 a 4 a 5 a 6 b 1 b 2 b 3 b 4 b 5 b 6 b 7 b 8 b 9 (a 1,b 2 ) (a2,b1)(a2,b1) (a 3,b 8 ) (a4,b9)(a4,b9) (a5,b3)(a5,b3) (a6,b4)(a6,b4) Design of an O(n 2 ) algorithm on graphs n = number of pairs of homolog genes

29 A B a 1 a 2 a 3 a 4 a 5 a 6 b 1 b 2 b 3 b 4 b 5 b 6 b 7 b 8 b 9 = 0 (a 2,b 1 ) (a 1,b 2 ) (a 3,b 8 ) (a 4,b 9 ) (a 5,b 3 ) (a 6,b 4 ) = 2 (a 2,b 1 ) (a 1,b 2 ) (a 3,b 8 ) (a 4,b 9 ) (a 5,b 3 ) (a 6,b 4 ) = 3 (a 2,b 1 ) (a 1,b 2 ) (a 3,b 8 ) (a 4,b 9 ) (a 5,b 3 ) (a 6,b 4 )

30 Simulation of gene interaction networks Regulatory network controling the initiation of sporulation in B. subtilis

31 Cellular concentration of gene product i at time-point t represented by variable x i (t) Regulatory interactions modeled by differential equations x i = f i (x) – i x i x i 0, 1 i n. Piece-wise linear differential equations xjxj s + (x j, ij ) 0 1 ij where f i (x) is the synthesis term and – i x i the degradation term Synthesis term f i (x) : sum of products of step functions s +/- (x j, ij ) weighted by rate constants k ij > 0

32 Within a volume, the model simplifies to linear differential equations i is sum of products of rate constants x i = i – i x i 1 i n. max 3 33 x3x3 x2x2 x1x1 max max 1 0 Equations in shaded volume: x 1 = - 1 x 1 x 2 = - 2 x 2 x 3 = k x 3... Phase space box and volumes

33 max 3 33 x3x3 x1x1 max max 1 0 x2x2 Equations in shaded volume v init : x 1 = - 1 x 1 x 2 = - 2 x 2 x 3 = k x Example of simulation

34 max 3 33 x3x3 x1x1 max max 1 0 x2x2. Example of simulation Equations in shaded volume : x 1 = - 1 x 1 x 2 = - 2 x 2 x 3 = k 31 + k x 3...

35 max 3 33 x3x3 x1x1 max max 1 0 x2x2 Example of simulation.

36 max 3 33 x3x3 x1x1 max max 1 0 x2x2 Example of simulation.

37 max 3 33 x3x3 x1x1 max max 1 0 x2x2. Example of simulation

38 max 3 33 x3x3 x1x1 max max 1 0 x2x2. x 3 = k 31 + k x 3 Equations in shaded volume : x 1 = - 1 x 1 x 2 = - 2 x 2... Example of simulation

39 max 3 33 x3x3 x1x1 max max 1 0 x2x2. Example of simulation

40 max 3 33 x3x3 x1x1 max max 1 0 x2x2 Equations in shaded volume : x 1 = - 1 x 1 x 2 = - 2 x 2 x 3 = k 31 + k x Volume contains a steady state Example of simulation

41 GNA : Gene Networks Analyser

42 Un dernier exemple en protéomique Collaboration –CEA –GENOME express –INRIA Rhône-Alpes Contexte de la plate-forme protéomique à haut-débit de Rhône-Alpes Genopole

43 « cocktail » de protéines étiquettes peptidiques fragments spectrométrie de masse analyse des spectres digestion trypsique G L I FmNmN mCmC masses des séquences adjacentes courte séquence peptidique

44 analyse des spectres « cocktail » de protéines étiquettes peptidiques fragments spectrométrie de masse « mapping » sur les chromosomes recherches en bioinformatique digestion trypsique

45 ... GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC GAT CAC CTC ACT ACG GGT CAG GGG GGC CTA AGG ATA ACT GAG AGA TTT... L R T G Q G G L I F T E R F... G L I FmNmN mCmC... D H GAT acide aspartique = Asp = D code génétiaue CAC histidine = His = H

46 G L I FmNmN mCmC... D H... GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC GAT CAC CTC ACT ACG GGT CAG GGG GGC CTA AGG ATA ACT GAG AGA TTT... L R T G Q G G L I F T E R F...

47 1) « mapping » des étiquettes pb. algorithmique 2) « clustering » pb. statistique ? gène ?

48


Télécharger ppt "Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann."

Présentations similaires


Annonces Google