La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires N. Galtier CNRS UMR 5554 – Institut des Sciences de lEvolution Université

Présentations similaires


Présentation au sujet: "Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires N. Galtier CNRS UMR 5554 – Institut des Sciences de lEvolution Université"— Transcription de la présentation:

1 Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires N. Galtier CNRS UMR 5554 – Institut des Sciences de lEvolution Université Montpellier 2

2 Modèles Markoviens et phylogénie - Définition: Les chaînes de Markov ou processus de Markov sont des objets mathématiques destinés à décrire les variations dun système au cours du temps, sous lhypothèse (très faible) dabsence de mémoire: le futur du système dépend seulement de son état présent, et non pas de la trajectoire quil a suivie pour latteindre. - Quelques exemples: temps discret, états discrets: processus de branchement temps discret, états continus: marches aléatoires temps continu, états discrets: processus de Poisson temps continu, états continus: mouvements browniens - En phylogénie moléculaire, les états du système sont les 4 nucléotides / 20 amino-acides / 61 codons, et le processus est typiquement représenté par une matrice de transition en temps continu. Processus Markoviens: généralités

3 Modèles Markoviens et phylogénie A C G T A C G T X X X X Modèle de Kimura (nucléotides) Modèle WAG (amino-acides)

4 - parce que l'évolution est très généralement sans mémoire Pourquoi? Comment? - par lapproche statistique en phylogénie moléculaire - pour simuler des données - pour reconstruire des phylogénies en tenant compte du processus évolutif - pour estimer les processus et apprendre les mécanismes de l'évolution moléculaire Pour quoi faire? Les modèles Markoviens sont loutil de base de la phylogénie moléculaire Modèles Markoviens et phylogénie - parce que la théorie des chaînes de Markov est bien développée

5 Lapproche statistique en phylogénie moléculaire 1- modéliser 2- calculer les attendus sous le modèle 3- ajuster le modèle aux données L'évolution d'une séquence est représentée par un processus de Markov courant le long d'un arbre. Calculer la fonction de vraisemblance, c'est-à-dire la probabilité des données sachant les paramètres du modèle. Maximiser la vraisemblance sur l'espace des paramètres, de manière à obtenir les estimateurs au maximum de vraisemblance des paramètres ou Calculer la probabilité postérieure des paramètres sachant les données et les a priori (approche bayésienne). Modèles Markoviens et phylogénie

6 A C G T ACGT matrice de substitution : M X0X0 X1X1 X2X2 X3X3 l1l1 l2l2 l3l3 l4l4 l5l5 l6l6 l7l7 l8l8 AACAG TTCTT AAAAA y1:y1: y2:y2: y3:y3: données : Y topologie d'arbre T longueurs de branches: l i Modèles Markoviens et phylogénie Calcul de vraisemblance en phylogénie moléculaire

7 L(l i, T Pr(Y | l i, T Pr y i | l i, T i Pr(y 1 | l i, T = Pr(X 0 =x 0 ).Pr(X 1 =x 1 | X 0 =x 0 ). Pr(X 2 =x 2 |X 1 =x 1 ). Pr(y 11 =A| X 2 =x 2 ). Pr(y 12 =A| X 2 =x 2 ). Pr(y 13 =C| X 1 =x 1 ). Pr(X 3 =x 3 | X 0 =x 0 ).Pr(y 14 =A| X 3 =x 3 ). Pr(y 15 =G| X 3 =x 3 ) x0x0 x1x1 x2x2 x3x3 A C G T ACGT matrice de substitution : M X0X0 X1X1 X2X2 X3X3 l1l1 l2l2 l3l3 l4l4 l5l5 l6l6 l7l7 l8l8 AACAG TTCTT AAAAA y1:y1: y2:y2: y3:y3: données : Y topologie d'arbre T longueurs de branches: l i Modèles Markoviens et phylogénie Calcul de vraisemblance en phylogénie moléculaire Felsenstein 1981 J Mol Evol 17:368

8 Hypothèses: les sites évoluent indépendamment selon un processus Markovien commun (i.i.d.) Le processus est typiquement représenté par une matrice M=(m ij ), où m ij est le taux instantané de changement de l'état i vers l'état j (A, C, G ou T). La probabilité d'être dans l'état A à l'instant t+dt est: Dynamique instantanée: Dynamique de long terme: A(t+dt) = A(t) + C(t) m CA dt + G(t) m GA dt + T(t) m TA dt - A(t) (m AC + m AG + m AT ) dt (1) et de même pour les 3 autres états. La dynamique sur le long terme s'obtient en intégrant les équations différentielles (2): Ces 4 équations différentielles s'expriment matriciellement comme: F(t+dt)=F(t)+M.F(t).dt (2), où F(t) = (A(t), C(t), G(t), T(t)) t F(t+dt)=F(t)+M.F(t).dt F(t)=e M.t.F(0) La matrice P(t)=e Mt donne les probabilités de changement sous M pendant la durée t: p ij (t) est la probabilité d'être dans l'état j au temps t sachant qu'on était dans l'état i au temps 0. (3) Modèles Markoviens et phylogénie Calcul des probabilités de transition

9 Modèles Markoviens et phylogénie Usages de la fonction de vraisemblance L'approche bayésienne permet de faire la même chose avec des modèles plus complexes, si l'on accepte de se donner des a priori (et dattendre que les MCMC mélangent). Sachant calculer la vraisemblance, on peut: - estimer les paramètres en la maximisant (ML = Maximum Likelihood) - tester des hypothèses en comparant des modèles (LRT = Likelihood Ratio Test) - reconstruire les détails du processus en utilisant les vraisemblances conditionnelles (EB = Empirical Bayesian)

10 Trois exemples de questions biologiques que lon peut vouloir poser à sa molécule favorite et qui requièrent un bon usage des modèles Markoviens: - a-t-elle évolué sous linfluence de la sélection positive? (modèles codon) - a-t-telle subi des changements fonctionnels ? (modèles covarion = hétérotaches) - peut-on exhiber des effets de coévolution entre sites ? (modèles décart à lindépendance)

11 Détecter la sélection positive T C A G TCAG 2 e position TTT Phe TTC Phe TTA Leu TTG Leu CTT Leu CTC Leu CTA Leu CTG Leu ATT Ile ATC Ile ATA Ile ATG Met GTT Val GTC Val GTA Val GTG Val TCT Ser TCC Ser TCA Ser TCG Ser CCT Pro CCC Pro CCA Pro CCG Pro ACT Thr ACC Thr ACA Thr ACG Thr GCT Ala GCC Ala GCA Ala GCG Ala TAT Tyr TAC Tyr TAA Stop TAG Stop CAT His CAC His CAA Gln CAG Gln AAT Asn AAC Asn AAA Lys AAG Lys GAT Asp GAC Asp GAA Glu GAG Glu TGT Cys TGC Cys TGA Stop TGG Trp CGT Arg CGC Arg CGA Arg CGG Arg AGT Ser AGC Ser AGA Arg AGG Arg GGT Gly GGC Gly GGA Gly GGG Gly

12 Détecter la sélection positive Un changement de nucléotide dans une région codante est dit: - synonyme s'il n'entraine pas de modification de l'acide aminé codé - non-synonyme dans le cas contraire Les changements synonymes sont neutres (en première approximation) et évoluent selon le processus mutationnel. - pour un pseudogène (cas neutre), on a dN=dS. Idée: détecter l'adaptation par la recherche de gènes pour lesquels dN>dS (e.g. Messier & Stewart 1997 Nature 385:151, Wyckoff et al Nature 403:304) Les changements non-synonymes sont soumis à sélection naturelle: - sous le régime (majoritaire) de la sélection purificatrice, la vitesse d'évolution non-synonyme (dN) est inférieure à la vitesse d'évolution synonyme (dS). Evolution synonyme vs. non-synonyme

13 Détecter la sélection positive Le modèle codon de Goldman & Yang 0 si les 2 codons X et Y diffèrent par plus d'une base. Y si les 2 codons X et Y diffèrent par une transversion synonyme Y si les 2 codons X et Y diffèrent par une transversion non-synonyme. Y si les 2 codons X et Y diffèrent par une transition synonyme. Y si les 2 codons X et Y diffèrent par une transversion non-synonyme m XY = Le paramètre d'intérêt peut être estimé pour l'ensemble du jeu de données, ou bien séparément pour différentes lignées, ou bien séparément pour différents sites. Goldman & Yang 1994 Mol Biol Evol 11:725 On définit M, la matrice de substitution 61 x 61 entre codons, par: 1: sélection positive

14 Détecter la sélection positive Exemple de ladaptation à lherbivorie chez les Colobinés Modèle 2 : 0 C ln(L)= = ; C = Modèle 1 : 0 = C ln(L)= = C = Modèle 3 : 0 ( C = 1) ln(L)= = (Yang 1998 Mol Biol Evol 15:568) Lysozyme:

15 Détecter la sélection positive Nielsen et al (2005 PLoS 3:170) analysent gènes chez l'homme et le chimpanzé calculent le dN/dS pour chaque paire, et comparent différents facteurs. Fonctionnp-val Immunité Perception sensorielle Gametogenèse Inhibition apoptose < <10 -3 <10 -2 <5% Tissuenp-val Testicules Cerveau Thyroïde Sang <10 -3 <5% NS Les principales cibles de l'adaptation moléculaire chez l'homme sont la défense immunitaire, la perception/communication, et la compétition spermatique/conflit génomique. Une approche génomique chez lhomme

16 Changements fonctionnels et hétérotachie mutation favorable fonction 1fonction 2 sites hétérotaches Adaptation moléculaire et changements de vitesse sites-spécifiques

17 Vitesse dévolution constante entre sites Variation de vitesse site-spécifique = HETEROTACHIE Vitesse dévolution variable entre sites Changements fonctionnels et hétérotachie

18 Galtier (2001) Mol. Biol. Evol. 18:866 Changements fonctionnels et hétérotachie a. Vitesse constante entre sites c. Variation de vitesse site-spécifique = covarions = hétérotachie b. Vitesse variable entre sites MM.r 1 M.r 2 M.r 3 M.r 1 M.r 2 M.r 3

19 LR = 2. [ln(L 1 ) – ln(L 0 )] ~ 2 (1 ddl) r < 1 r = 1 r > 1 M 0 (pas dhétérotachie) r 2 > r 1 r 1 > r 2 M 1 (hétérotachie) Changements fonctionnels et hétérotachie Un test de rapport de vraisemblance pour déteter lhétérotachie

20 a b c d e f g S T M F S L P S T M F I F P S T M F T F P S T M F Y F M S T M F H F H S T M F H F T S T M F Y F P S T M F L F P S T M F F F F S T M F H F T S T M F Y F A S T M F P F P S T M F P H L S T M F P F P S T M F L H T S T M F W V F S T M F F T P S T M F T V F S T M F L F L A A M V L F I A T M I L F I A T N A L F I A I V S L F I S V M F L F I T T V I L F I F T T L L F I S T M F W S I S T M M W S T S T M F M N Q S T M F P H Y S T M F P H P PRIMATESPRIMATES Pupko & Galtier (2002) Proc Roy Soc London B 269:1313

21 Ecarts à lindépendance des sites = coévolution Les modèles standard font lhypothèse dindépendance entre sites - cela parait naïf vue limportance des interactions entre résidus dans les macromolécules - ceci dit, autant la coévolution est flagrante au sein des ARN, autant elle est peu visible entre amino-acides - doù le double intérêt à létude de la coévolution moléculaire: - identifier les contraintes ayant influencé lévolution de ma molécule favorite - comprendre le vide bibliographique associé aux protéines: mauvaises méthodes? données inappropriées? signal réellement faible?

22 Ecarts à lindépendance des sites = coévolution On peut modéliser la coévolution -Tillier & Collins 1998 Genetics 148:1993, Pollock et al 1999 J Mol Biol 287:187 proposent des modèles sur les paires détats: AA ACAGATCA … AA AG AT CA Mais ces modèles sont difficiles à utiliser, et peu généralisables

23 Ecarts à lindépendance des sites = coévolution Une approche par cartographie des substitutions A C A G T T C... A G A G C T A... T C A G T T C... T C G G T T T cartographie probabiliste "clustering des mappings" tests de significativité

24 Ecarts à lindépendance des sites = coévolution o U G A A A C A U C U U C G G G UU G U G A G G U U A A G C G A C U A A G C G U A C A C G G U G G A U G C C C U GG C AGUCAGAG G C G A U G A A G G A C G U G C UA A U CU G C G A U A A G C G U C G G U A A G G U G A U A U G A A C C G U U A U A A C C G G C G A U U U C C GA AUG G G G A A A C C C A G U G U G U U U C G A C A C A C U A U C A U U A A C U G A AU C C A U AG G U U A A U G A G G C G A A C CG G G G G A A C U G AA A C AU C U A AG U A C C CCG A G G A A A A G A A A U C A A C C G A G A U U C C C C C A G U A G C G G C G A G C G A A C G G G G AG C A G C C C A G A G C C U G A A U C A G U G U G U G U G U U A G U G G A A GCGUC UG G A A A GGCGC G C G AU A C A G G G UG A C A G C C C C G U AC A C A A AA A U G C A C A U G C U G U G A G C U C G AU G A G U A GGGCGG G A C A C G U G G U A U C CUGUCU G A A U A U G G G G G G A CC A U C C U C CA A G G C U A A A U A CU C CUGACU G A CC G A U A G U G AAC C A G U A C C G U G A G G G A A A G G C G A A AAG A A C C C C G G C G A G G G G A G U G A A A A A G A AC C U G A A A C C G U G U A C G UA CAAG C AG U G G G AG C A C G C U U A G G C G U G U G A C U G C G U A C C U U U U G U A U A A U G G GU C A GCG A C U U A U A U U C U G U A G C A A G G U U A A C C G A A U A G G G G A G C C G A A G G G A AA C CG A G U C U U A A C U G G G C G U U A A G U U G C A G G G U A U A G A C C C G A AAC C C G G U G A U C UA G C C A U G G G C A G G U U G A A G G U U G G G U A A C A C U A A C U GG A G G A C CGA A C C G A C U A A U G U UG A A A AA U U A G C G G A U G A C U U G U G G C U G G G GG UG A A A G G CC A A UC A A A C C G G G A G A U A GC U G G U U C U C C C C G A A A G C U A U U UA G G U A G C G C C U C G U G A A U U C A U C U C C G G G G G U A G A G C A C U G U U U C G G C A A G G G G G U C A U C C C G A C U U A C C A A C C C G A U G C A A A C U G C G AAU A C C G G A G A A U G U U A U C A C G G G A G A C A C ACGG C GGGU GC U A AC GUCC G UCGU G A A G A G G G A A A CA A C C C A GA C C G C C A G C U A A G G U C C C A AA G U C A U G G U U A A G U G G G A A A C G A U G U G G G A A G G CC C A G A C A G C C A G G AUGUUGGC U U A G A A G C A GCCAUCAU U U A A A GA AA GC GU A A UA GCUC A C U G G U C G A G U C G G C C U G C G C G GA A G A U G U A A C G G G G C UA A A C C A U G C A C C G A A G C U G C G G C A G C G A C G C UU A U G C G U U G U U G G G U A G G G G A G C G U U C U G U A A G C CU G C G A AG G U G U G C U G UG A G G C A U G C U G G A G G U A U C A G A AGU G C G A A UGC U G AC A U A A G U A A C G AUA A A G C G G G U G A A A A GC C C G C U C G CC G GA A GAC CA AG G G U U C C U G U C C A A C G U U A A U C G G G G C A G G G U GA G U C GA C C C C U A A G G C G A G G C C G A A A G G C G U A G U C G A U G G G A A ACAG G U U A A U A U U C CUGU A CU U G G U G U U A C U G C G A A G G G G G G A C G G A G A A G G C U A U G U U G G C C G G G C G A C G G U U G UC C C G G U U U A A G C G UG U A G G C U G G U U U U C C A G G C A A A U C C G G A A A A U C A A G G C UG A G G C G UG A U G AC G A GGCAC U A C G GUGCU G A A G C A A C A A A U G C C C U G C U U CC A G G A A A A G C C U CU A A G C A U C A G G U A A C A U C A A A UC G U A C C C C A A A C C G A C A C A G G UG GUC A G G U A G A G A A U A C C A A GG C G C U U G A GA G A A C U C G G G U G A A G G A A C U A G GC A AA A U G G U G C C G U A A C U UC G G G A G A A G G C A C G C U G A U A U G U A G G U G A A G C G A C U U G C U C G U G G A G C U G A A A U C A G U C G A A G A UA CC A G C U G G C U G C A A C UGUUU A U U A A AAACA C A G C A C U G U G C A A A C A C G AA A G U G G A C G U A UA C G G U G U G A C G CC U G C C C G G U G C C G G A A G G U U A A U U G A U G G G G U U A G C G CA A G C G A A G C U C U U G A U C G A A G C C C C G G UA A A C G G CG G C C G U A A C U A U AA C G G U C C U AAGGUA GC G A A AA UUCCUU G U C G G G U A A G U U C C G A C CUGC A C G A A U GG C G U A A U G A U G G C C A G G C U G U C U C C A C C C G A G A C U C A G UGAAAU UG AACUC G C U G U G A AG A U G C A G U G UA C C C G C G G C A A G A C G G A A A G A C C C C G U G A A C C U U U A C U A U A G C U U G A C A C U G A A C A U U G A G C C U U G A UG U G U A G G A UA G G U G G G A G G CU U A G A AG U G U G G A C G CC A G U C U G C A U G G A G C C GAC C U U G A A AU A C C A C C C U U U A A U G U U U G A U G U U C U AA C G U U G A C C C G U A A U C C G G G U U G C G G A CA G U G U C U G G U G G G U A G U U UG A C U G G G G C G G U CU C C U C C U A A AG A G U A A CG G A G G A G C A C G A A G G U U G G C U A A U C C U G G U C G G A C A U C A G G A G G U U A GU GC A A UG GC A U A A G C C A G C U U G A CUGC GA G CG UG A C G G CG C GA GCAG G U G C G A AA G C A G G U C A U A G U G A UC C G G U G G UU C UG A A U G G A A G G G C C A U C G C UC A A C G G A UA A A A G G U A C U C C G G G G A UA A C A G GCU G AUA CCGC C C A A G A G U U C A UA U C G A C G GCGG UGU UU GGC A C C U C G A U G U C G G C U C A U C A C AU C C U G G G G C U G A A G U A G G UC C C C A A G G G U A U G C U G U U C G CC A U U U A A A G U G G U A C G C G A G C U G G G U U U AG A A C G U C G UG A G A C A G U U C G G U C C C U A U C U G C C G U G G G C G C U G GA GA ACU GA GG G G G G C U G C U C C U A G U A C G A G A G G A C C G G A G U G G A C G C AU C A C U GG U G U U C G G GUU G U CAU G C C A AUGC A CU GC C C G G U A GC U A A AU G C G G A A G A G A U A A G U G C U G A A A G C A U C U A A G C A C G A A A C U U G C C CC G A GA U G AGU UC UC C C U GACCC U U U A A GGGUC C U G A A GG A A C G U U G A A G A C G A C G A C G U U G A UAGGCCGG GU GU G UA A GCGCA G C G A UGCGU U G A GC U A A CCGGU A CUA A UG A A CC G U G A G G C U U A A C C U U o A1 B1 B2 B3 B4 B5 B6 B7 B8 B9 B10 B11 B12 B13 B14 B15 B16B17 B18 B19 B20 B21 C1 D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 D15 D16 D17 D18D19 D20 D21 D22 E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E12 E13 E14 E15 E16 E17 E18 E19 E20 E21 E22 E23 E24 E25 E26 E27 E28 F1 G1 G2 G3 G4 G5 G6 G7 G8 G9 G10 G11 G12 G13 G14 G15 G16 G17 G18 G19 G20 H1 H2 H3 H4 H1_1 I1 I2 I3 Escherichia coli D U18997 ARN ribosomique 16S P formyl-transferase Dutheil et al 2005 Mol Biol Evol 22:1919

25 Modèles Markoviens et phylogénie: perspectives Il existe d'autres modèles, d'autres applications: reconstruction de séquences ancestrales (Zhang 2006 Nat Genet 38:819) variations de processus entre sites (Lartillot & Philippe 2004 Mol Biol Evol 21:1095) variations temporelles du régime sélectif d'un site (Guindon et al 2004 PNAS 101:12957) prise en compte des contraintes structurales (Kleinman et al 2006 BMC Bioinform 7:326) … Passage à l'échelle génomique? horloge moléculaire relâchée et datations (Thorne & Kishino 2002 Syst. Biol. 51:689)


Télécharger ppt "Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires N. Galtier CNRS UMR 5554 – Institut des Sciences de lEvolution Université"

Présentations similaires


Annonces Google