Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires N. Galtier CNRS UMR 5554 – Institut des Sciences de l’Evolution Université Montpellier 2 galtier@univ-montp2.fr
Processus Markoviens: généralités Modèles Markoviens et phylogénie Processus Markoviens: généralités - Définition: Les chaînes de Markov ou processus de Markov sont des objets mathématiques destinés à décrire les variations d’un système au cours du temps, sous l’hypothèse (très faible) d’absence de mémoire: le futur du système dépend seulement de son état présent, et non pas de la trajectoire qu’il a suivie pour l’atteindre. Quelques exemples: temps discret, états discrets: processus de branchement temps discret, états continus: marches aléatoires temps continu, états discrets: processus de Poisson temps continu, états continus: mouvements browniens En phylogénie moléculaire, les états du système sont les 4 nucléotides / 20 amino-acides / 61 codons, et le processus est typiquement représenté par une matrice de transition en temps continu.
A C G T A X a k.a a C G T a X a k.a k.a a X a a k.a a X Modèles Markoviens et phylogénie A C G T A X a k.a a C a X a k.a G k.a a X a T a k.a a X Modèle de Kimura (nucléotides) Modèle WAG (amino-acides)
parce que l'évolution est très généralement sans mémoire Pourquoi? Modèles Markoviens et phylogénie Les modèles Markoviens sont l’outil de base de la phylogénie moléculaire parce que l'évolution est très généralement sans mémoire Pourquoi? - parce que la théorie des chaînes de Markov est bien développée - pour simuler des données - pour reconstruire des phylogénies en tenant compte du processus évolutif - pour estimer les processus et apprendre les mécanismes de l'évolution moléculaire Pour quoi faire? Comment? - par l’approche statistique en phylogénie moléculaire
L’approche statistique en phylogénie moléculaire Modèles Markoviens et phylogénie L’approche statistique en phylogénie moléculaire 1- modéliser L'évolution d'une séquence est représentée par un processus de Markov courant le long d'un arbre. 2- calculer les attendus sous le modèle Calculer la fonction de vraisemblance, c'est-à-dire la probabilité des données sachant les paramètres du modèle. 3- ajuster le modèle aux données Maximiser la vraisemblance sur l'espace des paramètres, de manière à obtenir les estimateurs au maximum de vraisemblance des paramètres ou Calculer la probabilité postérieure des paramètres sachant les données et les a priori (approche bayésienne).
Calcul de vraisemblance en phylogénie moléculaire Modèles Markoviens et phylogénie Calcul de vraisemblance en phylogénie moléculaire longueurs de branches: li topologie d'arbre T X0 l1 X1 l6 A C G T l2 A b a b l5 X3 X2 C b b a l7 l8 G a b b l3 l4 T b a b A C G T y1: y2: y3: données : Y matrice de substitution : M
Calcul de vraisemblance en phylogénie moléculaire Modèles Markoviens et phylogénie Calcul de vraisemblance en phylogénie moléculaire longueurs de branches: li topologie d'arbre T X0 l1 X1 l6 A C G T l2 A b a b l5 X3 X2 C b b a l7 l8 G a b b l3 l4 T b a b A C G T y1: y2: y3: données : Y matrice de substitution : M L(li, M, T ) = Pr(Y | li, M, T ) = P Pr(yi | li, M , T ) i Pr(y1 | li, M, T ) = SSSS Pr(X0=x0).Pr(X1=x1| X0=x0). Pr(X2=x2|X1=x1). Pr(y11=A| X2=x2). Pr(y12=A| X2=x2). x0 x1 x2 x3 Pr(y13=C| X1=x1). Pr(X3=x3| X0=x0). Pr(y14=A| X3=x3). Pr(y15=G| X3=x3) Felsenstein 1981 J Mol Evol 17:368
Calcul des probabilités de transition Modèles Markoviens et phylogénie Calcul des probabilités de transition Hypothèses: les sites évoluent indépendamment selon un processus Markovien commun (i.i.d.) Le processus est typiquement représenté par une matrice M=(mij), où mij est le taux instantané de changement de l'état i vers l'état j (A, C, G ou T). Dynamique instantanée: La probabilité d'être dans l'état A à l'instant t+dt est: A(t+dt) = A(t) + C(t) mCA dt + G(t) mGA dt + T(t) mTA dt - A(t) (mAC + mAG + mAT) dt (1) et de même pour les 3 autres états. Ces 4 équations différentielles s'expriment matriciellement comme: F(t+dt)=F(t)+M.F(t).dt (2) , où F(t) = (A(t), C(t), G(t), T(t))t Dynamique de long terme: La dynamique sur le long terme s'obtient en intégrant les équations différentielles (2): F(t+dt)=F(t)+M.F(t).dt F(t)=eM.t.F(0) (3) La matrice P(t)=eMt donne les probabilités de changement sous M pendant la durée t: pij(t) est la probabilité d'être dans l'état j au temps t sachant qu'on était dans l'état i au temps 0.
Usages de la fonction de vraisemblance Modèles Markoviens et phylogénie Usages de la fonction de vraisemblance Sachant calculer la vraisemblance, on peut: estimer les paramètres en la maximisant (ML = Maximum Likelihood) reconstruire les détails du processus en utilisant les vraisemblances conditionnelles (EB = Empirical Bayesian) tester des hypothèses en comparant des modèles (LRT = Likelihood Ratio Test) L'approche bayésienne permet de faire la même chose avec des modèles plus complexes, si l'on accepte de se donner des a priori (et d’attendre que les MCMC mélangent).
Trois exemples de questions biologiques que l’on peut vouloir poser à sa molécule favorite et qui requièrent un bon usage des modèles Markoviens: - a-t-elle évolué sous l’influence de la sélection positive? (modèles codon) - a-t-telle subi des changements fonctionnels ? (modèles covarion = hétérotaches) - peut-on exhiber des effets de coévolution entre sites ? (modèles d’écart à l’indépendance)
T C A G T C A G 2e position TTT Phe TTC Phe TTA Leu TTG Leu Détecter la sélection positive 2e position T C A G TTT Phe TTC Phe TTA Leu TTG Leu TCT Ser TCC Ser TCA Ser TCG Ser TAT Tyr TAC Tyr TAA Stop TAG Stop TGT Cys TGC Cys TGA Stop TGG Trp T CTT Leu CTC Leu CTA Leu CTG Leu CCT Pro CCC Pro CCA Pro CCG Pro CAT His CAC His CAA Gln CAG Gln CGT Arg CGC Arg CGA Arg CGG Arg C ATT Ile ATC Ile ATA Ile ATG Met ACT Thr ACC Thr ACA Thr ACG Thr AAT Asn AAC Asn AAA Lys AAG Lys AGT Ser AGC Ser AGA Arg AGG Arg A GTT Val GTC Val GTA Val GTG Val GCT Ala GCC Ala GCA Ala GCG Ala GAT Asp GAC Asp GAA Glu GAG Glu GGT Gly GGC Gly GGA Gly GGG Gly G
Evolution synonyme vs. non-synonyme Détecter la sélection positive Evolution synonyme vs. non-synonyme Un changement de nucléotide dans une région codante est dit: synonyme s'il n'entraine pas de modification de l'acide aminé codé - non-synonyme dans le cas contraire Les changements synonymes sont neutres (en première approximation) et évoluent selon le processus mutationnel. Les changements non-synonymes sont soumis à sélection naturelle: - sous le régime (majoritaire) de la sélection purificatrice, la vitesse d'évolution non-synonyme (dN) est inférieure à la vitesse d'évolution synonyme (dS). - pour un pseudogène (cas neutre), on a dN=dS. Idée: détecter l'adaptation par la recherche de gènes pour lesquels dN>dS (e.g. Messier & Stewart 1997 Nature 385:151, Wyckoff et al. 2000 Nature 403:304)
Le modèle codon de Goldman & Yang Détecter la sélection positive Le modèle codon de Goldman & Yang On définit M, la matrice de substitution 61 x 61 entre codons, par: b .pY si les 2 codons X et Y diffèrent par une transversion synonyme b w.pY si les 2 codons X et Y diffèrent par une transversion non-synonyme mXY = a .pY si les 2 codons X et Y diffèrent par une transition synonyme a.w.pY si les 2 codons X et Y diffèrent par une transversion non-synonyme 0 si les 2 codons X et Y diffèrent par plus d'une base Le paramètre d'intérêt w peut être estimé pour l'ensemble du jeu de données, ou bien séparément pour différentes lignées, ou bien séparément pour différents sites. w<1: sélection purificatrice ; w =1: évolution neutre ; w >1: sélection positive Goldman & Yang 1994 Mol Biol Evol 11:725
Exemple de l’adaptation à l’herbivorie chez les Colobinés Détecter la sélection positive Exemple de l’adaptation à l’herbivorie chez les Colobinés Lysozyme: Modèle 1 : w0 = wC ln(L)= -1043.84 w0 = wC = 0.574 Modèle 2 : w0 wC ln(L)= -1037.04 w0 = 0.389 ; wC = 3.383 Modèle 3 : w0 (wC = 1) ln(L)= -1042.58 w0 = 0.488 (Yang 1998 Mol Biol Evol 15:568)
Perception sensorielle Détecter la sélection positive Une approche génomique chez l’homme Nielsen et al (2005 PLoS 3:170) analysent 13731 gènes chez l'homme et le chimpanzé calculent le dN/dS pour chaque paire, et comparent différents facteurs. Fonction n p-val Immunité Perception sensorielle Gametogenèse Inhibition apoptose 417 51 40 133 <10-10 <10-3 <10-2 <5% Tissue n p-val Testicules Cerveau Thyroïde Sang 247 66 405 133 <10-3 <5% NS Les principales cibles de l'adaptation moléculaire chez l'homme sont la défense immunitaire, la perception/communication, et la compétition spermatique/conflit génomique.
Adaptation moléculaire et changements de vitesse sites-spécifiques Changements fonctionnels et hétérotachie Adaptation moléculaire et changements de vitesse sites-spécifiques mutation favorable fonction 1 fonction 2 sites hétérotaches
Vitesse d’évolution constante entre sites Changements fonctionnels et hétérotachie Vitesse d’évolution constante entre sites Vitesse d’évolution variable entre sites Variation de vitesse site-spécifique = HETEROTACHIE
Changements fonctionnels et hétérotachie a. Vitesse constante entre sites b. Vitesse variable entre sites M M.r1 M.r2 M.r3 c. Variation de vitesse site-spécifique = covarions = hétérotachie n n n n M.r1 n n n n n n n n n M.r2 n n n n n n n M.r3 n n n n Galtier (2001) Mol. Biol. Evol. 18:866
LR = 2 . [ln(L1) – ln(L0)] ~ c2 (1 ddl) Changements fonctionnels et hétérotachie Un test de rapport de vraisemblance pour déteter l’hétérotachie r < 1 r = 1 r > 1 M0 (pas d’hétérotachie) LR = 2 . [ln(L1) – ln(L0)] ~ c2 (1 ddl) r2 > r1 r1 > r2 M1 (hétérotachie)
Pupko & Galtier (2002) Proc Roy Soc London B 269:1313 a b c d e f g S T M F S L P S T M F I F P S T M F T F P S T M F Y F M S T M F H F H S T M F H F T S T M F Y F P S T M F L F P S T M F F F F S T M F Y F A S T M F P F P S T M F P H L S T M F L H T S T M F W V F S T M F F T P S T M F T V F S T M F L F L A A M V L F I A T M I L F I A T N A L F I A I V S L F I S V M F L F I T T V I L F I F T T L L F I S T M F W S I S T M M W S T S T M F M N Q S T M F P H Y S T M F P H P P R I M A T E S Pupko & Galtier (2002) Proc Roy Soc London B 269:1313
Les modèles standard font l’hypothèse d’indépendance entre sites Ecarts à l’indépendance des sites = coévolution Les modèles standard font l’hypothèse d’indépendance entre sites - cela parait naïf vue l’importance des interactions entre résidus dans les macromolécules ceci dit, autant la coévolution est flagrante au sein des ARN, autant elle est peu visible entre amino-acides d’où le double intérêt à l’étude de la coévolution moléculaire: - identifier les contraintes ayant influencé l’évolution de ma molécule favorite - comprendre le vide bibliographique associé aux protéines: mauvaises méthodes? données inappropriées? signal réellement faible?
On peut modéliser la coévolution Ecarts à l’indépendance des sites = coévolution On peut modéliser la coévolution Tillier & Collins 1998 Genetics 148:1993, Pollock et al 1999 J Mol Biol 287:187 proposent des modèles sur les paires d’états: AA AC AG AT CA … AA AG AT CA . - Mais ces modèles sont difficiles à utiliser, et peu généralisables
Une approche par cartographie des substitutions Ecarts à l’indépendance des sites = coévolution Une approche par cartographie des substitutions A C A G T T C . . . A G A G C T A . . . T C A G T T C . . . T C G G T T T . . . cartographie probabiliste . . . . . . "clustering des mappings" tests de significativité
Ecarts à l’indépendance des sites = coévolution G A C A1 B1 B2 B3 B4 B5 B6 B7 B8 B9 B10 B11 B12 B13 B14 B15 B16 B17 B18 B19 B20 B21 C1 D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 D15 D16 D17 D18 D19 D20 D21 D22 E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E12 E13 E14 E15 E16 E17 E18 E19 E20 E21 E22 E23 E24 E25 E26 E27 E28 F1 G1 G2 G3 G4 G5 G6 G7 G8 G9 G10 G11 G12 G13 G14 G15 G16 G17 G18 G19 G20 H1 H2 H3 H4 H1_1 I1 I2 I3 Escherichia coli D U18997 P formyl-transferase ARN ribosomique 16S Dutheil et al 2005 Mol Biol Evol 22:1919
Il existe d'autres modèles, d'autres applications: Modèles Markoviens et phylogénie: perspectives Il existe d'autres modèles, d'autres applications: horloge moléculaire relâchée et datations (Thorne & Kishino 2002 Syst. Biol. 51:689) reconstruction de séquences ancestrales (Zhang 2006 Nat Genet 38:819) variations de processus entre sites (Lartillot & Philippe 2004 Mol Biol Evol 21:1095) variations temporelles du régime sélectif d'un site (Guindon et al 2004 PNAS 101:12957) prise en compte des contraintes structurales (Kleinman et al 2006 BMC Bioinform 7:326) … Passage à l'échelle génomique?