Modélisation markovienne en phylogénie :

Slides:



Advertisements
Présentations similaires
Modélisation markovienne et phylogénie moléculaire:
Advertisements

Caractériser les précipitations intenses du MRCC
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
RECONNAISSANCE DE FORMES
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
Innovations génétiques
Traduction de l’information génétique
Les méthodes probabilistes en phylogénie moléculaire:
Outils chimiques pour l’étude des macromolécules biologiques
3. Analyse et estimation du mouvement dans la vidéo
Bioinformatique et Perl
Activité n°4 : l’universalité du code génétique permet la transgenèse
Estimation de la survie comparaison des courbes de survie FRT C3.
ACS et Séquences Comportementales en environnements non-markoviens
Modélisation Bayésienne par chaines de Markov Monte Carlo
Master IXXI, cours interdisciplinaire de systèmes dynamiques Emmanuel Risler, INSA de Lyon 1 - Equations différentielles sur la droite.
Sytèmes dynamiques – modélisation Emmanuel Risler 2008 – 2009 INSA de Lyon - GEN.
Qu’ont en commun… ? Les modifications génétiques La fibrose kystique
LA SYNTHÈSE DES PROTÉINES
Le filtrage au cours des âges Du filtre de Kalman au filtrage particulaire André Monin.
Septième étape : travailler avec des graphes probabilistes
Application des algorithmes génétiques
La synthèse des protéines
Analyse génétique des asques
LES BASES MOLÉCULAIRES DE L’HÉRÉDITÉ DU GÈNE À LA PROTÉINE
exemple avec la protéine hémoglobine
4.8 Les mutations.
La Chimie du Vivant Marius Réglier iSm 2 /BiosCiences UMR CNRS 6263, service 342 Université Paul Cézanne Aix-Marseille III,
Décodage des informations
Fonction puissance Montage préparé par : André Ross
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Structure, classification, propriétés chimiques et utilisation.
Anthony LEVASSEUR. Formation Phylogénomique- Décembre 2006
Le code génétique Biologie 122.
Synthèse des protéines
Introduction - Modèle Discret – Modèle Continu - Algorithmes - Conclusion
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
Matthieu Foll 28 aout 2008 Journées MAS
La méthodologie expérimentale Fondements et bases d’application
Universté de la Manouba
L'information génétique
1.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.
La banque UniprotKB et le logiciel Blast
Présentation de la méthode des Eléments Finis
Les Mutations Les Mutations.
Le Code Génétique 1952 : Dounce Premier concept vrai
Séquençage par hybridation
Peptides Structure et propriétés générales
UNIVERSITE D’ALGER Faculté de Médecine et de Médecine Dentaire
Chapitre 4 3 ème partie Génétique et biotechnologie.
1 Étudiants: Professeur: Salamin Nicolas Assistante: Maryam Zaheri.
TESTS NON PARAMETRIQUES
Bioingénierie de l’A.D.N.
Le code génétique, clé de la vie
Ocytocine : – ARNm : UGC UAC AUC CAG AAC UGC CCC CUG GGC
A B Synthèse de protéines dans le cytosol
Le code génétique I- Définition: ensemble de codons qui signifient un acide aminé ou une information génétique. II- Nombre de codons: 43 = 64 codons -61.
(Tyr) x2 (Gly) × 4 (Gly) × 4 (Phe) × 2 (Leu) x6 = 384 Bonne réponse : e (384) Tyr-Gly-Gly-Phe-Leu.
Codage et expression de l’information génétique
Introduction à la Bio-Informatique
LES MUTATIONS Pr.B.AIT ABDELKADER CPMC
Le Code Génétique 1952 : Dounce Premier concept vrai
Pourquoi Julius appelle-t-il le robot Stanley ? Par référence à Henry Morton Stanley, journaliste et explorateur, qui est parti en 1870 à la recherche.
Les molécules organiques. Les chaines carbonées Les hydrocarbures.
Des protéines et des médicaments 19 avril 2016.
Retracer l’évolution des gènes
Les mutations.
Programmation Raymond Ripp.
Transcription de la présentation:

Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires N. Galtier CNRS UMR 5554 – Institut des Sciences de l’Evolution Université Montpellier 2 galtier@univ-montp2.fr

Processus Markoviens: généralités Modèles Markoviens et phylogénie Processus Markoviens: généralités - Définition: Les chaînes de Markov ou processus de Markov sont des objets mathématiques destinés à décrire les variations d’un système au cours du temps, sous l’hypothèse (très faible) d’absence de mémoire: le futur du système dépend seulement de son état présent, et non pas de la trajectoire qu’il a suivie pour l’atteindre. Quelques exemples: temps discret, états discrets: processus de branchement temps discret, états continus: marches aléatoires temps continu, états discrets: processus de Poisson temps continu, états continus: mouvements browniens En phylogénie moléculaire, les états du système sont les 4 nucléotides / 20 amino-acides / 61 codons, et le processus est typiquement représenté par une matrice de transition en temps continu.

A C G T A X a k.a a C G T a X a k.a k.a a X a a k.a a X Modèles Markoviens et phylogénie A C G T A X a k.a a C a X a k.a G k.a a X a T a k.a a X Modèle de Kimura (nucléotides) Modèle WAG (amino-acides)

parce que l'évolution est très généralement sans mémoire Pourquoi? Modèles Markoviens et phylogénie Les modèles Markoviens sont l’outil de base de la phylogénie moléculaire parce que l'évolution est très généralement sans mémoire Pourquoi? - parce que la théorie des chaînes de Markov est bien développée - pour simuler des données - pour reconstruire des phylogénies en tenant compte du processus évolutif - pour estimer les processus et apprendre les mécanismes de l'évolution moléculaire Pour quoi faire? Comment? - par l’approche statistique en phylogénie moléculaire

L’approche statistique en phylogénie moléculaire Modèles Markoviens et phylogénie L’approche statistique en phylogénie moléculaire 1- modéliser L'évolution d'une séquence est représentée par un processus de Markov courant le long d'un arbre. 2- calculer les attendus sous le modèle Calculer la fonction de vraisemblance, c'est-à-dire la probabilité des données sachant les paramètres du modèle. 3- ajuster le modèle aux données Maximiser la vraisemblance sur l'espace des paramètres, de manière à obtenir les estimateurs au maximum de vraisemblance des paramètres ou Calculer la probabilité postérieure des paramètres sachant les données et les a priori (approche bayésienne).

Calcul de vraisemblance en phylogénie moléculaire Modèles Markoviens et phylogénie Calcul de vraisemblance en phylogénie moléculaire longueurs de branches: li topologie d'arbre T X0 l1 X1 l6 A C G T l2 A b a b l5 X3 X2 C b b a l7 l8 G a b b l3 l4 T b a b A C G T y1: y2: y3: données : Y matrice de substitution : M

Calcul de vraisemblance en phylogénie moléculaire Modèles Markoviens et phylogénie Calcul de vraisemblance en phylogénie moléculaire longueurs de branches: li topologie d'arbre T X0 l1 X1 l6 A C G T l2 A b a b l5 X3 X2 C b b a l7 l8 G a b b l3 l4 T b a b A C G T y1: y2: y3: données : Y matrice de substitution : M L(li, M, T ) = Pr(Y | li, M, T ) = P Pr(yi | li, M , T ) i Pr(y1 | li, M, T ) = SSSS Pr(X0=x0).Pr(X1=x1| X0=x0). Pr(X2=x2|X1=x1). Pr(y11=A| X2=x2). Pr(y12=A| X2=x2). x0 x1 x2 x3 Pr(y13=C| X1=x1). Pr(X3=x3| X0=x0). Pr(y14=A| X3=x3). Pr(y15=G| X3=x3) Felsenstein 1981 J Mol Evol 17:368

Calcul des probabilités de transition Modèles Markoviens et phylogénie Calcul des probabilités de transition Hypothèses: les sites évoluent indépendamment selon un processus Markovien commun (i.i.d.) Le processus est typiquement représenté par une matrice M=(mij), où mij est le taux instantané de changement de l'état i vers l'état j (A, C, G ou T). Dynamique instantanée: La probabilité d'être dans l'état A à l'instant t+dt est: A(t+dt) = A(t) + C(t) mCA dt + G(t) mGA dt + T(t) mTA dt - A(t) (mAC + mAG + mAT) dt (1) et de même pour les 3 autres états. Ces 4 équations différentielles s'expriment matriciellement comme: F(t+dt)=F(t)+M.F(t).dt (2) , où F(t) = (A(t), C(t), G(t), T(t))t Dynamique de long terme: La dynamique sur le long terme s'obtient en intégrant les équations différentielles (2): F(t+dt)=F(t)+M.F(t).dt  F(t)=eM.t.F(0) (3) La matrice P(t)=eMt donne les probabilités de changement sous M pendant la durée t: pij(t) est la probabilité d'être dans l'état j au temps t sachant qu'on était dans l'état i au temps 0.

Usages de la fonction de vraisemblance Modèles Markoviens et phylogénie Usages de la fonction de vraisemblance Sachant calculer la vraisemblance, on peut: estimer les paramètres en la maximisant (ML = Maximum Likelihood) reconstruire les détails du processus en utilisant les vraisemblances conditionnelles (EB = Empirical Bayesian) tester des hypothèses en comparant des modèles (LRT = Likelihood Ratio Test) L'approche bayésienne permet de faire la même chose avec des modèles plus complexes, si l'on accepte de se donner des a priori (et d’attendre que les MCMC mélangent).

Trois exemples de questions biologiques que l’on peut vouloir poser à sa molécule favorite et qui requièrent un bon usage des modèles Markoviens: - a-t-elle évolué sous l’influence de la sélection positive? (modèles codon) - a-t-telle subi des changements fonctionnels ? (modèles covarion = hétérotaches) - peut-on exhiber des effets de coévolution entre sites ? (modèles d’écart à l’indépendance)

T C A G T C A G 2e position TTT  Phe TTC  Phe TTA  Leu TTG  Leu Détecter la sélection positive 2e position T C A G TTT  Phe TTC  Phe TTA  Leu TTG  Leu TCT  Ser TCC  Ser TCA  Ser TCG  Ser TAT  Tyr TAC  Tyr TAA  Stop TAG  Stop TGT  Cys TGC  Cys TGA  Stop TGG  Trp T CTT  Leu CTC  Leu CTA  Leu CTG  Leu CCT  Pro CCC  Pro CCA  Pro CCG  Pro CAT  His CAC  His CAA  Gln CAG  Gln CGT  Arg CGC  Arg CGA  Arg CGG  Arg C ATT  Ile ATC  Ile ATA  Ile ATG  Met ACT  Thr ACC  Thr ACA  Thr ACG  Thr AAT  Asn AAC  Asn AAA  Lys AAG  Lys AGT  Ser AGC  Ser AGA  Arg AGG  Arg A GTT  Val GTC  Val GTA  Val GTG  Val GCT  Ala GCC  Ala GCA  Ala GCG  Ala GAT  Asp GAC  Asp GAA  Glu GAG  Glu GGT  Gly GGC  Gly GGA  Gly GGG  Gly G

Evolution synonyme vs. non-synonyme Détecter la sélection positive Evolution synonyme vs. non-synonyme Un changement de nucléotide dans une région codante est dit: synonyme s'il n'entraine pas de modification de l'acide aminé codé - non-synonyme dans le cas contraire Les changements synonymes sont neutres (en première approximation) et évoluent selon le processus mutationnel. Les changements non-synonymes sont soumis à sélection naturelle: - sous le régime (majoritaire) de la sélection purificatrice, la vitesse d'évolution non-synonyme (dN) est inférieure à la vitesse d'évolution synonyme (dS). - pour un pseudogène (cas neutre), on a dN=dS. Idée: détecter l'adaptation par la recherche de gènes pour lesquels dN>dS (e.g. Messier & Stewart 1997 Nature 385:151, Wyckoff et al. 2000 Nature 403:304)

Le modèle codon de Goldman & Yang Détecter la sélection positive Le modèle codon de Goldman & Yang On définit M, la matrice de substitution 61 x 61 entre codons, par: b .pY si les 2 codons X et Y diffèrent par une transversion synonyme b w.pY si les 2 codons X et Y diffèrent par une transversion non-synonyme mXY = a .pY si les 2 codons X et Y diffèrent par une transition synonyme a.w.pY si les 2 codons X et Y diffèrent par une transversion non-synonyme 0 si les 2 codons X et Y diffèrent par plus d'une base Le paramètre d'intérêt w peut être estimé pour l'ensemble du jeu de données, ou bien séparément pour différentes lignées, ou bien séparément pour différents sites. w<1: sélection purificatrice ; w =1: évolution neutre ; w >1: sélection positive Goldman & Yang 1994 Mol Biol Evol 11:725

Exemple de l’adaptation à l’herbivorie chez les Colobinés Détecter la sélection positive Exemple de l’adaptation à l’herbivorie chez les Colobinés Lysozyme: Modèle 1 : w0 = wC ln(L)= -1043.84 w0 = wC = 0.574 Modèle 2 : w0  wC ln(L)= -1037.04 w0 = 0.389 ; wC = 3.383 Modèle 3 : w0  (wC = 1) ln(L)= -1042.58 w0 = 0.488 (Yang 1998 Mol Biol Evol 15:568)

Perception sensorielle Détecter la sélection positive Une approche génomique chez l’homme Nielsen et al (2005 PLoS 3:170) analysent 13731 gènes chez l'homme et le chimpanzé calculent le dN/dS pour chaque paire, et comparent différents facteurs. Fonction n p-val Immunité Perception sensorielle Gametogenèse Inhibition apoptose 417 51 40 133 <10-10 <10-3 <10-2 <5% Tissue n p-val Testicules Cerveau Thyroïde Sang 247 66 405 133 <10-3 <5% NS Les principales cibles de l'adaptation moléculaire chez l'homme sont la défense immunitaire, la perception/communication, et la compétition spermatique/conflit génomique.

Adaptation moléculaire et changements de vitesse sites-spécifiques Changements fonctionnels et hétérotachie Adaptation moléculaire et changements de vitesse sites-spécifiques mutation favorable fonction 1 fonction 2 sites hétérotaches

Vitesse d’évolution constante entre sites Changements fonctionnels et hétérotachie Vitesse d’évolution constante entre sites Vitesse d’évolution variable entre sites Variation de vitesse site-spécifique = HETEROTACHIE

Changements fonctionnels et hétérotachie a. Vitesse constante entre sites b. Vitesse variable entre sites M M.r1 M.r2 M.r3 c. Variation de vitesse site-spécifique = covarions = hétérotachie n n n n M.r1 n n n n n n n n n M.r2 n n n n n n n M.r3 n n n n Galtier (2001) Mol. Biol. Evol. 18:866

LR = 2 . [ln(L1) – ln(L0)] ~ c2 (1 ddl) Changements fonctionnels et hétérotachie Un test de rapport de vraisemblance pour déteter l’hétérotachie r < 1 r = 1 r > 1 M0 (pas d’hétérotachie) LR = 2 . [ln(L1) – ln(L0)] ~ c2 (1 ddl) r2 > r1 r1 > r2 M1 (hétérotachie)

Pupko & Galtier (2002) Proc Roy Soc London B 269:1313 a b c d e f g S T M F S L P S T M F I F P S T M F T F P S T M F Y F M S T M F H F H S T M F H F T S T M F Y F P S T M F L F P S T M F F F F S T M F Y F A S T M F P F P S T M F P H L S T M F L H T S T M F W V F S T M F F T P S T M F T V F S T M F L F L A A M V L F I A T M I L F I A T N A L F I A I V S L F I S V M F L F I T T V I L F I F T T L L F I S T M F W S I S T M M W S T S T M F M N Q S T M F P H Y S T M F P H P P R I M A T E S Pupko & Galtier (2002) Proc Roy Soc London B 269:1313

Les modèles standard font l’hypothèse d’indépendance entre sites Ecarts à l’indépendance des sites = coévolution Les modèles standard font l’hypothèse d’indépendance entre sites - cela parait naïf vue l’importance des interactions entre résidus dans les macromolécules ceci dit, autant la coévolution est flagrante au sein des ARN, autant elle est peu visible entre amino-acides d’où le double intérêt à l’étude de la coévolution moléculaire: - identifier les contraintes ayant influencé l’évolution de ma molécule favorite - comprendre le vide bibliographique associé aux protéines: mauvaises méthodes? données inappropriées? signal réellement faible?

On peut modéliser la coévolution Ecarts à l’indépendance des sites = coévolution On peut modéliser la coévolution Tillier & Collins 1998 Genetics 148:1993, Pollock et al 1999 J Mol Biol 287:187 proposent des modèles sur les paires d’états: AA AC AG AT CA … AA AG AT CA . - Mais ces modèles sont difficiles à utiliser, et peu généralisables

Une approche par cartographie des substitutions Ecarts à l’indépendance des sites = coévolution Une approche par cartographie des substitutions A C A G T T C . . . A G A G C T A . . . T C A G T T C . . . T C G G T T T . . . cartographie probabiliste . . . . . . "clustering des mappings" tests de significativité

Ecarts à l’indépendance des sites = coévolution G A C A1 B1 B2 B3 B4 B5 B6 B7 B8 B9 B10 B11 B12 B13 B14 B15 B16 B17 B18 B19 B20 B21 C1 D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 D15 D16 D17 D18 D19 D20 D21 D22 E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E12 E13 E14 E15 E16 E17 E18 E19 E20 E21 E22 E23 E24 E25 E26 E27 E28 F1 G1 G2 G3 G4 G5 G6 G7 G8 G9 G10 G11 G12 G13 G14 G15 G16 G17 G18 G19 G20 H1 H2 H3 H4 H1_1 I1 I2 I3 Escherichia coli D U18997 P formyl-transferase ARN ribosomique 16S Dutheil et al 2005 Mol Biol Evol 22:1919

Il existe d'autres modèles, d'autres applications: Modèles Markoviens et phylogénie: perspectives Il existe d'autres modèles, d'autres applications: horloge moléculaire relâchée et datations (Thorne & Kishino 2002 Syst. Biol. 51:689) reconstruction de séquences ancestrales (Zhang 2006 Nat Genet 38:819) variations de processus entre sites (Lartillot & Philippe 2004 Mol Biol Evol 21:1095) variations temporelles du régime sélectif d'un site (Guindon et al 2004 PNAS 101:12957) prise en compte des contraintes structurales (Kleinman et al 2006 BMC Bioinform 7:326) … Passage à l'échelle génomique?