La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ.

Présentations similaires


Présentation au sujet: "1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ."— Transcription de la présentation:

1 1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

2 2 Lévolution est-elle parcimonieuse? Lg moyenne avec les autres données Lg des arbres avec la -globine

3 3 Arbres obtenus pour et globines Souris Lapin Chien Singe Homme Chimpanzée Kangourou Mouton Vache Cheval Cochon Arbre obtenu à partir des globines Singe Homme Chimpanzée Souris Chien Lapin Kangourou Cheval Cochon Mouton Vache Arbre obtenu à partir des globines Différences symétriques entre les arbres

4 4 Taxonomie numérique Relations de distance et non généalogiques Des hypothèses supplémentaires permettent des inférences phylogénétiques La distance reflète le sens et la vitesse de lévolution Le phénogramme résume les relations taxinomiques Différence mesurée entre paires de taxa, cest une mesure globale Tous les caractères ont le même poids Information maximum

5 5 Distance et similitude Indice de concordance simple de Sokal et Michener (1958) Indice de similitude de Jaccard (1908);cas des RFLP par ex. Plus deux séquences se ressemblent plus elles sont proches.

6 6 Distances métriques et ultramétriques si i<>j (positivité)si i=j (la distance de lUE à elle même est nulle) (commutativité) Distances métriques 1 (Propriété de linégalité triangulaire ) Distances ultramétriques (donc les 2 plus grandes distances sont égales 2) Distances additives j i k 2 j i k 1 avec jk = ik

7 7 Correction de distances: le problème(0) On observe le même état de caractère sur deux taxons actuels.Cela peut résulter de différents événements. ou État ancestral B État actuel Taxon 1 A État actuel Taxon 2 A changement État ancestral A État actuel Taxon 1 A État actuel Taxon 2 A A AA ou A AA etc.… B AA B AA

8 8 Correction de distances (1) Avec K= nb de sites observés 2 éléments influent sur létat actuel observé État A ou B de lancêtre commun : A Pb=f, B pb=1-f Probabilité de changement visible entre lancêtre et lactuel (1- )* (1-f)*(1- )* f*(1- )* A et B (1- )* f*(1- )* (1-f)*(1- )* B et A (1-f)*(1- ) 2 +(f)* 2 (1-f)*(1- ) 2 (f)* 2 B et B f*(1- ) 2 +(1-f)* 2 (1-f)* 2 f*(1- ) 2 A et A Probabilité de lobservation État de lancêtre k : B, Pb 1-f État de lancêtre k : A, Pb f États de i et j ij Ancêtre k pour chaque position

9 9 Correction de distance (2):Hypothèses Les changements sont rares et leur moyenne aussi La moyenne des changement est constante La distribution des changements suit une loi de Poisson: avec r=nb de changements sur une branche n=moyenne de changements par branche La moyenne des changements le long dune branche est fonction du temps écoulé le long de cette branche. Si t=temps écoulé le long dune branche m=nb de changements par u de temps n=mt et

10 10 Correction de distance (3) Quand verra-t-on une différence entre lancêtre et le taxon actuel (évaluation de Si le nombre réel de changements est impair: r = 1,3,5,7,… 22 20 mt eeee e !r 1,, impairr r mt e 2!5!3!1 : 531 xx eexxx quesaitonor 7531 PPPP

11 11 Correction de distance (4) Quand verra-t-on une différence entre les deux taxa actuels mt obs e e eD 4 2 2 1 2 1 2 1 1 - mt obs ee D 22 2 1 1 2 1 2)1(2 - Comment exprimer la distance réelle (ou une estimation)? Comment à partir de la distance observée déduire la distance réelle estimée? obs DLogmt214 obs mt De21 4 mt obs eD1 2 1 4 obsest DLogDmt21 2 1 2

12 12 Séquences nucléotidiques Il y a 12 possibilités de changements : transition transversion 4 transitions possibles et 8 transversions possibles. A G C T A et G Purines C et T Pyrimidines

13 13 Correction de distance (5) Dans le calcul précédent on na tenu compte que de deux états de caractère. Pour lADN il y en a 4 ce qui complique le calcul. Avec A=C=G=T et tous les changements équiprobables (JC), la correction devient Avec A=C=G=T et les transitions équiprobables, les transversions également, mais la fréquence transition différente de transversion (K2p), la correction devient

14 14 Correction de distance: les modèles ModèleA/G/C/TPb SIPb Ve Jukes et CantorA=G=C=T=25% Kimura 2pA=G=C=T=25% Tamura 3p A+T=1-, G+C= Tajima et Nei 1p A G C T Hasegawa HKY85 2p A G C T Tamura et Nei 3p A G C T 1(Pyr) et 2(Pur) Modèle à 8 p A G C T 1, 2, 3 et 4

15 15 Tests statistiques des modèles (1) Test de linvariant unique Sous le modèle de JC les paires AG et TC (transitions=P) sont 2 fois moins observables que les autres (transversions=Q). On attend donc : 2P-Q=0. On va donc estimer lécart de JC à sa valeur théorique 0 avec qui a pour variance représente le degré de signification souhaité et z la valeur seuil au-delà de laquelle la courbe de la probabilité a la surface /2. Et on compare

16 16 Tests statistiques des modèles (2) Test de stationnarité Dans les modèles Tamura, Tajima, HKY85 à 8 paramètres, à léquilibre la probabilité g du nucléotide x dans la séquence 1,2, … ou m est la même :. Cest ce que lon va tester.

17 17 Tests statistiques des modèles (3) Test des invariants multiples Si la condition de stationnarité est satisfaite, quel est le modèle le plus simple qui rende compte des données? Il y a 10 couples de changements possibles (les changements réciproques étant de même probabilité) : AA, AT, AC, AG, TT, TC, TG, CC, CG, GG avec Pour chaque modèle il est possible pour X i décrire une équation de la forme ou s indique le sème nucléotide, a et b les paramètres de chaque modèle Le modèle de Kimura revient alors à et tous les autres a et b sont nuls soit

18 18 UPGMA 1 Tetrahyme na Ginkg o EpinardSureauPoirea u MoucheBoniteLapinRatCheval Tetrahymena0 Ginkgo680 Epinard72190 Sureau6615170 Poireau61151290 Mouche69444650420 Bonite6845485142230 Lapin684045484021170 Rat6939444739201620 Cheval68434850422218660 Rat Lapin 1 1

19 19 UPGMA 2 6 016,520,539,547,544,539,568,5L+R 018224250484368Cheval 0234251484568Bonite 04250464469Mouche 09121561Poireau 0171566Sureau 01972Epinard 068Ginkgo 0Tetrahymena ChevalBoniteMouchePoireauSureauEpinardGinkgoTetrahymena Rat Lapin 1 1 Cheval 2 3 Lapin68404548402117 Rat69394447392016

20 20 UPGMA 3 TetrahymenaGinkgoEpinardSureauPoireauMoucheBoniteL+R+C Tetrahymena0 Ginkgo680 Epinard72190 Sureau6615170 Poireau61151290 Mouche69444650420 Bonite6845485142230 L+R+C68,3340,6745,6748,3340,3321170 Rat Lapin 1 1 Cheval 2 3 Sureau Poireau 4,5

21 21 UPGMA 4 TetrahymenaGinkgoEpinardS+PMoucheBoniteL+R+C Tetrahymena0 Ginkgo680 Epinard72190 S+P681514,50 Mouche69444650420 Bonite684548514223 L+R+C68,3340,6745,6744,3321170 Rat Lapin 1 1 Cheval 2 3 4,5 Sureau Poireau 4,5 Epinard 2,75 7,25

22 22 UPGMA 5 TetrahymenaGinkgoS+P+EMoucheBoniteL+R+C Tetrahymena0 Ginkgo680 S+P+E69,3316,330 Mouche694446420 Bonite6845474223 L+R+C68,3340,6744,7821170 4,5 Sureau Poireau 4,5 Epinard 2,75 7,25 Ginkgo 0,915 8,165 Rat Lapin 1 1 Cheval 2 3

23 23 UPGMA 6 TetrahymenaS+P+E+GMoucheBoniteL+R+C Tetrahymena0 S+P+E+G690 Mouche6945,50 Bonite6846,5420 L+R+C68,3343,7521170 Rat Lapin 1 1 Cheval 2 3 Bonite 5,5 8,5 4,5 Sureau Poireau 4,5 Epinard 2,75 7,25 Ginkgo 0,915 8,165

24 24 UPGMA 7 TetrahymenaS+P+E+GMoucheR+L+C+B Tetrahymena0 S+P+E+G690 Mouche6145,50 R+L+C+B68,544,4321,50 4,5 Sureau Poireau 4,5 Epinard 2,75 7,25 Ginkgo 0,915 8,165 Rat Lapin 1 1 Cheval 2 3 Bonite 5,5 8,5 Mouche 2,25 10,75

25 25 UPGMA 8 TetrahymenaS+P+E+GR+L+C+B+M Tetrahymena0 S+P+E+G690 R+L+C+B+M6744,640 4,5 Sureau Poireau 4,5 Epinard 2,75 7,25 Ginkgo 0,915 8,165 Rat Lapin 1 1 Cheval 2 3 Bonite 5,5 8,5 Mouche 2,25 10,75 14,155 11,57

26 26 UPGMA 9 TetrahymenaS+P+E+G+R+L+C+B+M Tetrahymena0 S+P+E+G+R+L+C+B+M67,890 4,5 Sureau Poireau 4,5 Epinard 2,75 7,25 Ginkgo 0,915 8,165 Rat Lapin 1 1 Cheval 2 3 Bonite 5,5 8,5 Mouche 2,25 10,75 14,155 11,57 Tetrahymena 12,02 33,94

27 27 Unweighted Pair-Group Method of Arithmetic average - D 839D - C 4 - B 7 5 - A C B A Matrice de distances D bd = 3 On répartit cette distance également sur les 2 branches B D 1,5

28 28 Neibor-joining (1) i j n m l k x y D représente une distance observée B représente une distance estimée La longueur de larbre correspondant sexprime : (1)

29 29 NJ (2) De la même manière pour les distances de j à tous les autres différents de i et il y a n-2 distances de ce type donc soit pour toutes les distances entre les n-2 otus de létoile : (2) (3) (4) (5)

30 30 NJ (3) (2) (3) (4) (5) (6)

31 31 NJ (4) On tire de (6)(9) (6) En substituant dans 1 les valeurs données par 2 et 7 (1)

32 32 Puis en utilisant la valeur de B yk exprimée dans 7 et en remplaçant ensuite D kl par sa valeur donnée en 8 NJ (5) Daprès léquation (5) distances de lOTU i à toutes les autres distances de lOTU j à toutes les autres (7) (8)

33 33 Neighbor-Joining (6) i j ancêtre D ianc 2 D ij horloge )2(2 2 N RRQ ji Correction de lhorloge

34 34 Méthodes agglomératives Distances métriques et additives Voir la formule Arbre non raciné Distances ultramétriques Vitesse constante sur toutes les branches Arbre raciné NJUPGMA

35 35 Arbres à 7 taxons obtenus avec NJ ou UPGMA Cyathea le Gnetum gne Metasequoi Magnolia s Encephalar Cedrus deo Ginkgo bil 1 1 1 26 NJ UPGMA Cyathea le Gnetum gne Magnolia s Metasequoi Cedrus deo Encephalar Ginkgo bil 1 5 2 4 13

36 19/11/02J2_2002_ DESS Monocotylédones Plantes terrestres Chlorophycées Bryophytes Ptéridophytes Gymnospermes Dicotylédones 1 Dicotylédones 2 Spermatophytes Plantes terrestres

37 37 FIN (distances)

38 38 Comparaison des deux méthodes de calcul darbre Méthodes de distanceMéthodes de parcimonie *Calcul dune distance globale *Un seul arbre retourné par le programme *Pas de test de robustesse de larbre unique (excepté le bootstrap) *Pas de retour aux caractères pour pouvoir les reconsidérer *Rapide, même avec un grand nombre de taxa *Examen des caractères les uns après les autres *La méthode peut retourner plusieurs arbres également parcimonieux *Il y a un test de robustesse des noeuds (mesure de lhomoplasie dans larbre par le calcul du rapport de la longueur minimale de larbre à sa longueur réelle. *Retour aux caractères pour éventuellement réévaluer ceux qui donnent des aberrations *Vitesse moyenne. Sur de grosses machines on peut en plusieurs jours traiter des données jusqu'à 500 taxa


Télécharger ppt "1 Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ."

Présentations similaires


Annonces Google