Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann
Génome ADN ARN Transcriptome Protéines Protéome Métabolome régulation enzymes P O N A T Métabolome
Le codage de l’information génomique macromolécule d’ADN ≈ enchaînement d’acides nucléiques adénine : A thymine : T cytosine : C guanine : G génome ≈ texte écrit dans l’alphabet de ces quatre lettres
Cellules procaryotes
ADN double brin transcription messager chaîne d’acides aminés traduction repliement
Le code génétique Deuxième position Première position Troisième U C A G U C A G UUU Phe (F) UCU Ser (S) UAU Tyr (Y) UGU Cys (C) UUC " UCC " UAC UGC UUA Leu (L) UCA " UAA Ter UGA Ter UUG " UCG " UAG Ter UGG Trp (W) CUU Leu (L) CCU Pro (P) CAU His (H) CGU Arg (R) CUC " CCC " CAC " CGC " CUA " CCA " CAA Gln (Q) CGA " CUG " CCG " CAG " CGG " AUU Ile (I) ACU Thr (T) AAU Asn (N) AGU Ser (S) AUC " ACC " AAC " AGC " AUA " ACA " AAA Lys (K) AGA Arg (R) AUG Met (M) ACG " AAG " AGG " GUU Val (V) GCU Ala (A) GAU Asp (D) GGU Gly (G) GUC " GCC " GAC " GGC " GUA " GCA " GAA Glu (E) GGA " GUG " GCG " GAG " GGG " U C A G Première position Troisième position
Cellules eucaryotes
chaîne d’acides aminés traduction ADN double brin chaîne d’acides aminés traduction repliement transcription messager ARN prémessager exon intron maturation (excision - épissage)
Génome ADN ARN Transcriptome Protéines Protéome Métabolome régulation GATCACCTCACTACGGGTCAGGGGAAGGAAAGGGGAACTGAGAGATTTGTCAGTGTGAGAAGCAGTCCCAGGAGTTAGAAGTAGTGGCTCCATGACTCACAAATTAACTTCCCTTTCAGGCAGGGCTTCTTATTTTCCTTAGCATCCCTGTCTTGATCCCAGCCTGCTCAGACCCCTGCCTCTCACTGCAAGATGTGCTT ARN Transcriptome ADN Génome enzymes P O N A T Métabolome Protéome Protéines régulation
De très nombreux domaines de recherche en informatique, automatique et mathématiques appliquées sont concernés algorithmique sur les séquences, sur les graphes… statistique, analyse de données apprentissage symbolique et numérique visualisation de données modélisation et simulation dynamiques calcul parallèle bases de données et de connaissances
Le projet HELIX « Informatique et génomique » Projet de l’unité de recherche INRIA Rhône-Alpes à Grenoble (Montbonnot) et Lyon (campus de La Doua, UMR CNRS UCB 5558) 40 chercheurs, ingénieurs et doctorants Quatre exemples GenoStar : plate-forme de génomique exploratoire Génomique comparative et synténie Modélisation et simulation de réseaux d’interactions PepMap et la bioinformatique de la protéomique
Le consortium Genostar
Les objectifs du consortium Concevoir et développer une plate–forme bioinformatique de génomique exploratoire
La plate-forme Genostar Des modules interopérables GenoExpertBacteria autour d’un noyau qui assure la gestion et la persistance des données et des connaissances l’enchaînement de l’exécution des méthodes d’analyse
La plate-forme Genostar Des données structurées dans un modèle à objets et relations
gene chromosome Basu dnaA Hepy secG secD Bobu mnemo type size shape is-located-on is-located-on Basu dnaA Hepy secG secD Bobu
Protein Regulator Regulates Compound inheritance class MW Length “is-A” inheritance Regulates association regulator regulated-prot roles Km slots Compound effector N-ary associations MW Length Sequence
La plate-forme Genostar Des données structurées dans un modèle à objets et relations Un ensemble de méthodes d’analyse et de visualisation Des tâches paramétrables enchaînant ces méthodes sur les données
Un exemple : la recherche de CDS bactériennes ORF RBS STOP START
Recherche des ORF Recherche des RBS Enregistrement et visualisation des objets créés Recherche de CDS
Le consortium Genostar a bénéficié du soutien du Ministère de la Recherche Direction de la Recherche : programme Génomique Direction de la Technologie : programme GenHomme
Genostar est mis à disposition des laboratoires de recherche publics Le consortium est ouvert aux partenariats avec les sociétés privées
http://www.genostar.org
Comparative genomics Pimelate BioW BioF BioA BioD BioB Biotin B.subtilis bioB bioD bioF bioW bioA bioW bioD bioF bioB bioA S.aureus Pimelate Pimeloyl-CoA 8-Amino-7-Oxononanoate 7,8-Diaminonanoate Dethiobiotin Biotin EC 6.2.1.14 EC 2.3.1.47 EC 2.6.1.62 EC 6.3.3.3 EC 2.8.1.6 BioW BioF BioA BioB BioD Gene order conservation: NO Gene cluster conservation: YES
Unformal definition of a synton A synton is a maximal set of pairs of homolog genes with conserved organization on two chromosomes (two species) conserved organization = similar relative location on both chromosomes (permutation - insertion/deletion) A B B A
A synton is defined by a double path in the plane a1 a2 a3 a4 a5 a6 A B b1 b2 b3 b4 b5 b6 b7 b8 b9 B b9 b8 b7 b6 b5 b4 b3 b2 b1 A synthon is a maximal set of homolog gene pairs with conserved gene organization on both chromosomes = 0 A synton is defined by a double path in the plane d : gap parameter A a1 a2 a3 a4 a5 a6
= maximal set of gene couples such that a path exits on A and B axes a1 a2 a3 a4 a5 a6 A B b1 b2 b3 b4 b5 b6 b7 b8 b9 (a1,b2) (a2,b1) (a3,b8) (a4,b9) (a5,b3) (a6,b4) B (a1,b2) (a2,b1) (a3,b8) (a4,b9) (a5,b3) (a6,b4) b9 b8 b7 b6 b5 b4 b3 b2 b1 = maximal set of gene couples such that a path exits on A and B axes A synton is defined by a double path in the plane A synthon is a maximal set of homolog gene pairs with conserved gene organization on both chromosomes A a1 a2 a3 a4 a5 a6
Design of an O(n2) algorithm on graphs a1 a2 a3 a4 a5 a6 A B b1 b2 b3 b4 b5 b6 b7 b8 b9 (a1,b2) (a2,b1) (a3,b8) (a4,b9) (a5,b3) (a6,b4) Design of an O(n2) algorithm on graphs n = number of pairs of homolog genes
d = 2 d = 3 d = 0 a1 a2 a3 a4 a5 a6 b1 b2 b3 b4 b5 b6 b7 b8 b9 A B
Simulation of gene interaction networks kinA - + H KinA phospho- relay Spo0A˜P Spo0A A spo0A sinR sinI SinI SinR SinR/SinI spoIIA hpr (scoR) abrB Hpr AbrB spo0E sigH (spo0H) Spo0E F Signal Regulatory network controling the initiation of sporulation in B. subtilis
Piece-wise linear differential equations Cellular concentration of gene product i at time-point t represented by variable xi(t) Regulatory interactions modeled by differential equations xi = fi(x) – i xi xi 0, 1 i n . where fi(x) is the synthesis term and – i xi the degradation term Synthesis term fi(x) : sum of products of step functions s+/-(xj , ij) weighted by rate constants kij > 0 xj s+(xj , ij) 1 ij
Phase space box and volumes max3 33 x3 x2 x1 max2 12 23 21 31 max1 Equations in shaded volume: x1 = - 1 x1 x2 = - 2 x2 x3 = k33 - 3 x3 . Within a volume, the model simplifies to linear differential equations i is sum of products of rate constants xi = i – i xi 1 i n .
. Example of simulation . x1 = - 1 x1 x2 = - 2 x2 x3 = k33 - 3 x3 max3 33 x3 x1 max2 12 23 21 31 max1 x2 Equations in shaded volume vinit : x1 = - 1 x1 x2 = - 2 x2 x3 = k33 - 3 x3 .
. Example of simulation . x1 = - 1 x1 x2 = - 2 x2 max3 33 x3 x1 max2 12 23 21 31 max1 x2 Equations in shaded volume : x1 = - 1 x1 x2 = - 2 x2 x3 = k31 + k33 - 3 x3 .
Example of simulation . max3 33 x3 x1 max2 12 23 21 31 max1 x2
Example of simulation . max3 33 x3 x1 max2 12 23 21 31 max1 x2
Example of simulation . max3 33 x3 x1 max2 12 23 21 31 max1 x2
. Example of simulation . x1 = - 1 x1 x2 = - 2 x2 max3 33 x3 x1 max2 12 23 21 31 max1 x2 . x3 = k31 + k33 - 3 x3 Equations in shaded volume : x1 = - 1 x1 x2 = - 2 x2 .
Example of simulation . max3 33 x3 x1 max2 12 23 21 31 max1 x2
. Example of simulation . x1 = - 1 x1 x2 = - 2 x2 max3 33 x3 x1 max2 12 23 21 31 max1 x2 Equations in shaded volume : x1 = - 1 x1 x2 = - 2 x2 x3 = k31 + k33 - 3 x3 . Volume contains a steady state
GNA : Gene Networks Analyser
Un dernier exemple en protéomique Collaboration CEA GENOME express INRIA Rhône-Alpes Contexte de la plate-forme protéomique à haut-débit de Rhône-Alpes Genopole
G L I F mN mC fragments spectrométrie de masse analyse des spectres courte séquence peptidique analyse des spectres digestion trypsique G L I F mN mC « cocktail » de protéines étiquettes peptidiques masses des séquences adjacentes
recherches en bioinformatique fragments spectrométrie de masse recherches en bioinformatique analyse des spectres digestion trypsique « cocktail » de protéines « mapping » sur les chromosomes étiquettes peptidiques
G L I F mN mC CAC histidine = His = H GAT acide aspartique = Asp = D code génétiaue G L I F mN mC . . . D H L R T G Q G G L I F T E R F . . . . . . GAT CAC CTC ACT ACG GGT CAG GGG GGC CTA AGG ATA ACT GAG AGA TTT . . . . . . GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC . . .
G L I F mN mC . . . D H L R T G Q G G L I F T E R F . . . . . . GAT CAC CTC ACT ACG GGT CAG GGG GGC CTA AGG ATA ACT GAG AGA TTT . . . . . . GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC . . .
? 1) « mapping » des étiquettes 2) « clustering » pb. algorithmique gène ? 1) « mapping » des étiquettes pb. algorithmique 2) « clustering » pb. statistique