Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann.

Slides:



Advertisements
Présentations similaires
Stabilité et Variabilité des génomes et Evolution
Advertisements

Un aperçu de la bioinformatique moléculaire
Innovations génétiques
Traduction de l’information génétique
Protéines fonctionnelles
Bioinformatique et Perl
Colloque Traitement et Analyse de séquences : compte-rendu
Mécanisme de la traduction
Activité n°4 : l’universalité du code génétique permet la transgenèse
Régulations post-transcriptionnelles de l'expression
Biosynthèse des macromolécules
Acide désoxyribonucléique : ADN
Qu’ont en commun… ? Les modifications génétiques La fibrose kystique
ADN.
Modélisation markovienne en phylogénie :
LA SYNTHÈSE DES PROTÉINES
Bioinformatique =?? génomique protéomique
La structure de l’ADN.
La synthèse des protéines
4.5 – Les mutations SBI 4U Dominic Décoeur.
LES BASES MOLÉCULAIRES DE L’HÉRÉDITÉ DU GÈNE À LA PROTÉINE
exemple avec la protéine hémoglobine
4.8 Les mutations.
Ordre des chapitres : 1 – 3 – 2 – 4 1.
Synthèse des protéines
TP 5 Du génome au protéome
Le ribosome.
Bi 231: Ingénierie des Protéines
La Bioinformatique à Nancy
Bioinformatique et Biologie Structurale I/ – Principes et techniques A/ Linformation structurale B/ Les différentes techniques de détermination de structure.
LA SYNTHÈSE DES PROTÉINES
L’arbre du vivant.
Des Protéines aux Gènes …
L'information génétique
Annotation de génomes complets
La banque UniprotKB et le logiciel Blast
THEME 1 – A EXPRESSION, STABILITE ET VARIATION DU PATRIMOINE GENETIQUE
Le Code Génétique 1952 : Dounce Premier concept vrai
Université Hassan II AIN CHOCK Faculté de Médecine et de Pharmacie Casablanca - Cours de Biologie - Pr. Tahiri Jouti N. Année Universitaire
La synthèse des protéines
La synthèse des protéines
4.4 – Synthèse des protéines
Ordre des chapitres : 1 – 3 – 2 – 4 1.
UNIVERSITE D’ALGER Faculté de Médecine et de Médecine Dentaire
Chapitre 4 3 ème partie Génétique et biotechnologie.
Le code génétique, clé de la vie
Ocytocine : – ARNm : UGC UAC AUC CAG AAC UGC CCC CUG GGC
A B Synthèse de protéines dans le cytosol
Le code génétique I- Définition: ensemble de codons qui signifient un acide aminé ou une information génétique. II- Nombre de codons: 43 = 64 codons -61.
Rappel : 3 régions principales
(Tyr) x2 (Gly) × 4 (Gly) × 4 (Phe) × 2 (Leu) x6 = 384 Bonne réponse : e (384) Tyr-Gly-Gly-Phe-Leu.
Page Révision du chapitre 7
Codage et expression de l’information génétique
Introduction à la Bio-Informatique
Les acides nucléiques.
Exercice L’EPISSAGE ALTERNATIF DE L’ARN
LES MUTATIONS Pr.B.AIT ABDELKADER CPMC
Pr B. AITABDELKADER CPMC
Le Code Génétique 1952 : Dounce Premier concept vrai
Pourquoi Julius appelle-t-il le robot Stanley ? Par référence à Henry Morton Stanley, journaliste et explorateur, qui est parti en 1870 à la recherche.
L’EXPRESSION DU PROGRAMME GENETIQUE
18.2 La synthèse des protéines et l’expression génique Dans cette section, tu vas: expliquer comment l’information génétique est encodée dans les molécules.
Chapitre 2 2ème partie Transcription et traduction titre.
DE L’ADN AUX PROTÉINES … LES ÉTAPES. L’ADN (acide désoxyribonucléique) noyau cytoplasme Situé dans le noyau, l’ADN constitue le matériel génétique Double.
De l’ADN à la Protéine : Transcription et Traduction
L’EPISSAGE ALTERNATIF DE L’ARN
Retracer l’évolution des gènes
L’EPISSAGE ALTERNATIF DE L’ARN
Programmation Raymond Ripp.
Transcription de la présentation:

Bioinformatique modélisation et analyse des données génomiques et post-génomiques François Rechenmann

Génome ADN ARN Transcriptome Protéines Protéome Métabolome régulation enzymes P O N A T Métabolome

Le codage de l’information génomique macromolécule d’ADN ≈ enchaînement d’acides nucléiques adénine : A thymine : T cytosine : C guanine : G génome ≈ texte écrit dans l’alphabet de ces quatre lettres

Cellules procaryotes

ADN double brin transcription messager chaîne d’acides aminés traduction repliement

Le code génétique Deuxième position Première position Troisième U C A G U C A G UUU Phe (F) UCU Ser (S) UAU Tyr (Y) UGU Cys (C) UUC " UCC " UAC UGC UUA Leu (L) UCA " UAA Ter UGA Ter UUG " UCG " UAG Ter UGG Trp (W) CUU Leu (L) CCU Pro (P) CAU His (H) CGU Arg (R) CUC " CCC " CAC " CGC " CUA " CCA " CAA Gln (Q) CGA " CUG " CCG " CAG " CGG " AUU Ile (I) ACU Thr (T) AAU Asn (N) AGU Ser (S) AUC " ACC " AAC " AGC " AUA " ACA " AAA Lys (K) AGA Arg (R) AUG Met (M) ACG " AAG " AGG " GUU Val (V) GCU Ala (A) GAU Asp (D) GGU Gly (G) GUC " GCC " GAC " GGC " GUA " GCA " GAA Glu (E) GGA " GUG " GCG " GAG " GGG " U C A G Première position Troisième position

Cellules eucaryotes

chaîne d’acides aminés traduction ADN double brin chaîne d’acides aminés traduction repliement transcription messager ARN prémessager exon intron maturation (excision - épissage)

Génome ADN ARN Transcriptome Protéines Protéome Métabolome régulation GATCACCTCACTACGGGTCAGGGGAAGGAAAGGGGAACTGAGAGATTTGTCAGTGTGAGAAGCAGTCCCAGGAGTTAGAAGTAGTGGCTCCATGACTCACAAATTAACTTCCCTTTCAGGCAGGGCTTCTTATTTTCCTTAGCATCCCTGTCTTGATCCCAGCCTGCTCAGACCCCTGCCTCTCACTGCAAGATGTGCTT ARN Transcriptome ADN Génome enzymes P O N A T Métabolome Protéome Protéines régulation

De très nombreux domaines de recherche en informatique, automatique et mathématiques appliquées sont concernés algorithmique sur les séquences, sur les graphes… statistique, analyse de données apprentissage symbolique et numérique visualisation de données modélisation et simulation dynamiques calcul parallèle bases de données et de connaissances

Le projet HELIX « Informatique et génomique » Projet de l’unité de recherche INRIA Rhône-Alpes à Grenoble (Montbonnot) et Lyon (campus de La Doua, UMR CNRS UCB 5558) 40 chercheurs, ingénieurs et doctorants Quatre exemples GenoStar : plate-forme de génomique exploratoire Génomique comparative et synténie Modélisation et simulation de réseaux d’interactions PepMap et la bioinformatique de la protéomique

Le consortium Genostar

Les objectifs du consortium Concevoir et développer une plate–forme bioinformatique de génomique exploratoire

La plate-forme Genostar Des modules interopérables GenoExpertBacteria autour d’un noyau qui assure la gestion et la persistance des données et des connaissances l’enchaînement de l’exécution des méthodes d’analyse

La plate-forme Genostar Des données structurées dans un modèle à objets et relations

gene chromosome Basu dnaA Hepy secG secD Bobu mnemo type size shape is-located-on is-located-on Basu dnaA Hepy secG secD Bobu

Protein Regulator Regulates Compound inheritance class MW Length “is-A” inheritance Regulates association regulator regulated-prot roles Km slots Compound effector N-ary associations MW Length Sequence

La plate-forme Genostar Des données structurées dans un modèle à objets et relations Un ensemble de méthodes d’analyse et de visualisation Des tâches paramétrables enchaînant ces méthodes sur les données

Un exemple : la recherche de CDS bactériennes ORF RBS STOP START

Recherche des ORF Recherche des RBS Enregistrement et visualisation des objets créés Recherche de CDS

Le consortium Genostar a bénéficié du soutien du Ministère de la Recherche Direction de la Recherche : programme Génomique Direction de la Technologie : programme GenHomme

Genostar est mis à disposition des laboratoires de recherche publics Le consortium est ouvert aux partenariats avec les sociétés privées

http://www.genostar.org

Comparative genomics Pimelate BioW BioF BioA BioD BioB Biotin B.subtilis bioB bioD bioF bioW bioA bioW bioD bioF bioB bioA S.aureus Pimelate Pimeloyl-CoA 8-Amino-7-Oxononanoate 7,8-Diaminonanoate Dethiobiotin Biotin EC 6.2.1.14 EC 2.3.1.47 EC 2.6.1.62 EC 6.3.3.3 EC 2.8.1.6 BioW BioF BioA BioB BioD Gene order conservation: NO Gene cluster conservation: YES

Unformal definition of a synton A synton is a maximal set of pairs of homolog genes with conserved organization on two chromosomes (two species) conserved organization = similar relative location on both chromosomes (permutation - insertion/deletion) A B B A

A synton is defined by a double path in the plane a1 a2 a3 a4 a5 a6 A B b1 b2 b3 b4 b5 b6 b7 b8 b9 B b9 b8 b7 b6 b5 b4 b3 b2 b1 A synthon is a maximal set of homolog gene pairs with conserved gene organization on both chromosomes  = 0 A synton is defined by a double path in the plane d : gap parameter A a1 a2 a3 a4 a5 a6

= maximal set of gene couples such that a path exits on A and B axes a1 a2 a3 a4 a5 a6 A B b1 b2 b3 b4 b5 b6 b7 b8 b9 (a1,b2) (a2,b1) (a3,b8) (a4,b9) (a5,b3) (a6,b4) B (a1,b2) (a2,b1) (a3,b8) (a4,b9) (a5,b3) (a6,b4) b9 b8 b7 b6 b5 b4 b3 b2 b1 = maximal set of gene couples such that a path exits on A and B axes A synton is defined by a double path in the plane A synthon is a maximal set of homolog gene pairs with conserved gene organization on both chromosomes A a1 a2 a3 a4 a5 a6

Design of an O(n2) algorithm on graphs a1 a2 a3 a4 a5 a6 A B b1 b2 b3 b4 b5 b6 b7 b8 b9 (a1,b2) (a2,b1) (a3,b8) (a4,b9) (a5,b3) (a6,b4) Design of an O(n2) algorithm on graphs n = number of pairs of homolog genes

d = 2 d = 3 d = 0 a1 a2 a3 a4 a5 a6 b1 b2 b3 b4 b5 b6 b7 b8 b9 A B

Simulation of gene interaction networks kinA - +  H KinA phospho- relay Spo0A˜P Spo0A A spo0A sinR sinI SinI SinR SinR/SinI spoIIA hpr (scoR) abrB Hpr AbrB spo0E sigH (spo0H) Spo0E F Signal Regulatory network controling the initiation of sporulation in B. subtilis

Piece-wise linear differential equations Cellular concentration of gene product i at time-point t represented by variable xi(t) Regulatory interactions modeled by differential equations xi = fi(x) – i xi xi  0, 1  i  n . where fi(x) is the synthesis term and – i xi the degradation term Synthesis term fi(x) : sum of products of step functions s+/-(xj , ij) weighted by rate constants kij > 0 xj s+(xj , ij) 1 ij

Phase space box and volumes max3 33 x3 x2 x1 max2 12 23 21 31 max1 Equations in shaded volume: x1 = - 1 x1 x2 = - 2 x2 x3 = k33 - 3 x3 . Within a volume, the model simplifies to linear differential equations i is sum of products of rate constants xi = i – i xi 1  i  n .

. Example of simulation . x1 = - 1 x1 x2 = - 2 x2 x3 = k33 - 3 x3 max3 33 x3 x1 max2 12 23 21 31 max1 x2 Equations in shaded volume vinit : x1 = - 1 x1 x2 = - 2 x2 x3 = k33 - 3 x3 .

. Example of simulation . x1 = - 1 x1 x2 = - 2 x2 max3 33 x3 x1 max2 12 23 21 31 max1 x2 Equations in shaded volume : x1 = - 1 x1 x2 = - 2 x2 x3 = k31 + k33 - 3 x3 .

Example of simulation . max3 33 x3 x1 max2 12 23 21 31 max1 x2

Example of simulation . max3 33 x3 x1 max2 12 23 21 31 max1 x2

Example of simulation . max3 33 x3 x1 max2 12 23 21 31 max1 x2

. Example of simulation . x1 = - 1 x1 x2 = - 2 x2 max3 33 x3 x1 max2 12 23 21 31 max1 x2 . x3 = k31 + k33 - 3 x3 Equations in shaded volume : x1 = - 1 x1 x2 = - 2 x2 .

Example of simulation . max3 33 x3 x1 max2 12 23 21 31 max1 x2

. Example of simulation . x1 = - 1 x1 x2 = - 2 x2 max3 33 x3 x1 max2 12 23 21 31 max1 x2 Equations in shaded volume : x1 = - 1 x1 x2 = - 2 x2 x3 = k31 + k33 - 3 x3 . Volume contains a steady state

GNA : Gene Networks Analyser

Un dernier exemple en protéomique Collaboration CEA GENOME express INRIA Rhône-Alpes Contexte de la plate-forme protéomique à haut-débit de Rhône-Alpes Genopole

G L I F mN mC fragments spectrométrie de masse analyse des spectres courte séquence peptidique analyse des spectres digestion trypsique G L I F mN mC « cocktail » de protéines étiquettes peptidiques masses des séquences adjacentes

recherches en bioinformatique fragments spectrométrie de masse recherches en bioinformatique analyse des spectres digestion trypsique « cocktail » de protéines « mapping » sur les chromosomes étiquettes peptidiques

G L I F mN mC CAC  histidine = His = H GAT  acide aspartique = Asp = D code génétiaue G L I F mN mC . . . D H L R T G Q G G L I F T E R F . . . . . . GAT CAC CTC ACT ACG GGT CAG GGG GGC CTA AGG ATA ACT GAG AGA TTT . . . . . . GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC . . .

G L I F mN mC . . . D H L R T G Q G G L I F T E R F . . . . . . GAT CAC CTC ACT ACG GGT CAG GGG GGC CTA AGG ATA ACT GAG AGA TTT . . . . . . GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC . . .

? 1) « mapping » des étiquettes 2) « clustering » pb. algorithmique gène ? 1) « mapping » des étiquettes pb. algorithmique 2) « clustering » pb. statistique