La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Plan Concepts de base Principes Distances Similitude et distances

Présentations similaires


Présentation au sujet: "Plan Concepts de base Principes Distances Similitude et distances"— Transcription de la présentation:

1 Plan Concepts de base Principes Distances Similitude et distances
Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

2 L’évolution est-elle parcimonieuse?
Lg moyenne avec les autres données Lg des arbres avec la b-globine

3 Arbres obtenus pour  et  globines
Souris Lapin Chien Singe Homme Chimpanzée Kangourou Mouton Vache Cheval Cochon Arbre obtenu à partir des  globines Singe Homme Chimpanzée Souris Chien Lapin Kangourou Cheval Cochon Mouton Vache Arbre obtenu à partir des  globines Différences symétriques entre les arbres

4 Taxonomie numérique Relations de distance et non généalogiques
Information maximum Tous les caractères ont le même poids Différence mesurée entre paires de taxa, c’est une mesure globale Le phénogramme résume les relations taxinomiques La distance reflète le sens et la vitesse de l’évolution Des hypothèses supplémentaires permettent des inférences phylogénétiques

5 Distance et similitude
Indice de concordance simple de Sokal et Michener (1958) Indice de similitude de Jaccard (1908);cas des RFLP par ex. Plus deux séquences se ressemblent plus elles sont proches.

6 Distances métriques et ultramétriques
si i<>j (positivité) si i=j (la distance de l’UE à elle même est nulle) (commutativité) j i k 2 Distances métriques 1(Propriété de l’inégalité triangulaire ) j i k 1 Distances ultramétriques (donc les 2 plus grandes distances sont égales 2) avec djk=dik Distances additives

7 Correction de distances: le problème(0)
On observe le même état de caractère sur deux taxons actuels.Cela peut résulter de différents événements. ou État ancestral B État actuel Taxon 1 A Taxon 2 changement État ancestral A État actuel Taxon 1 Taxon 2 A ou B A A ou B A etc.… etc.…

8 Correction de distances (1)
j Ancêtre k Avec K= nb de sites observés 2 éléments influent sur l’état actuel observé État A ou B de l’ancêtre commun : A Pb=f, B pb=1-f Probabilité p de changement visible entre l’ancêtre et l’actuel Probabilité de l’observation État de l’ancêtre k : B, Pb 1-f État de l’ancêtre k : A, Pb f États de i et j A et A f*(1-)2 (1-f)* 2 f*(1-)2+(1-f)* 2 B et B (f)* 2 (1-f)*(1-)2 (1-f)*(1-)2+(f)* 2 A et B f*(1-)*  (1-f)*(1-)*  (1-)*  B et A (1-f)*(1-)*  f*(1-)*  (1-)*  pour chaque position

9 Correction de distance (2):Hypothèses
La distribution des changements suit une loi de Poisson: avec r=nb de changements sur une branche n=moyenne de changements par branche Les changements sont rares et leur moyenne aussi La moyenne des changement est constante La moyenne des changements le long d’une branche est fonction du temps écoulé le long de cette branche. Si t=temps écoulé le long d’une branche m=nb de changements par u de temps n=mt et

10 Correction de distance (3)
Quand verra-t-on une différence entre l’ancêtre et le taxon actuel (évaluation de p)? Si le nombre réel de changements est impair: r = 1,3,5,7,… + = 7 5 3 1 P p L ! r ø è 1 , impair mt e - ÷ ö ç æ = å p 2 ! 5 3 1 : x e que sait on or - = + × L 2 mt e - = ÷ ø ö ç è æ p

11 Correction de distance (4)
Quand verra-t-on une différence entre les deux taxa actuels? mt obs e D 2 1 ) ( - ÷ ø ö ç è æ * = p ( ) mt obs e D 4 2 1 - = ÷ ø ö ç è æ + * Comment exprimer la distance réelle (ou une estimation)? Comment à partir de la distance observée déduire la distance réelle estimée? ( ) mt obs e D 1 2 4 - = obs mt D e 2 1 4 - = ( ) obs D Log mt 2 1 4 - = ( ) obs est D Log mt 2 1 - =

12 Séquences nucléotidiques
C et T Pyrimidines A et G Purines AG   C  T  Il y a 12 possibilités de changements :   transition  transversion 4 transitions possibles et 8 transversions possibles.

13 Correction de distance (5)
Dans le calcul précédent on n’a tenu compte que de deux états de caractère. Pour l’ADN il y en a 4 ce qui complique le calcul. Avec A=C=G=T et tous les changements équiprobables (JC), la correction devient Avec A=C=G=T et les transitions équiprobables, les transversions également, mais la fréquence transition différente de transversion (K2p), la correction devient

14 Correction de distance: les modèles
A/G/C/T Pb SI Pb Ve Jukes et Cantor A=G=C=T=25% Kimura 2p A=G=C=T=25% Tamura 3p A+T=1-, G+C= Tajima et Nei 1p AGCT Hasegawa HKY85 2p AGCT Tamura et Nei 3p AGCT 1(Pyr) et 2(Pur) Modèle à 8 p AGCT 1, 2, 3 et 4 1, 2, 3 et 4

15 Tests statistiques des modèles (1) Test de l’invariant unique
Sous le modèle de JC les paires AG et TC (transitions=P) sont 2 fois moins observables que les autres (transversions=Q). On attend donc : 2P-Q=0. On va donc estimer l’écart de JC à sa valeur théorique 0 avec qui a pour variance Et on compare représente le degré de signification souhaité et z la valeur seuil au-delà de laquelle la courbe de la probabilité a la surface /2.

16 Tests statistiques des modèles (2) Test de stationnarité
Dans les modèles Tamura, Tajima, HKY85 à 8 paramètres, à l’équilibre la probabilité g du nucléotide x dans la séquence 1,2, … ou m est la même :. C’est ce que l’on va tester.

17 Tests statistiques des modèles (3) Test des invariants multiples
Si la condition de stationnarité est satisfaite, quel est le modèle le plus simple qui rende compte des données? Il y a 10 couples de changements possibles (les changements réciproques étant de même probabilité) : AA, AT, AC, AG, TT, TC, TG, CC, CG, GG avec Pour chaque modèle il est possible pour Xi d’écrire une équation de la forme ou s indique le sème nucléotide, a et b les paramètres de chaque modèle Le modèle de Kimura revient alors à et tous les autres a et b sont nuls soit

18 UPGMA 1 Rat 1 Lapin 1 Tetrahymena Ginkgo Epinard Sureau Poireau Mouche
Bonite Lapin Rat Cheval 68 72 19 66 15 17 61 12 9 69 44 46 50 42 45 48 51 23 40 21 39 47 20 16 2 43 22 18 6 Rat Lapin 1 1

19 UPGMA 2 2 Rat Lapin 1 Cheval 3 18 22 42 50 48 43 68 Cheval 23 51 45
18 22 42 50 48 43 68 Cheval 23 51 45 Bonite 46 44 69 Mouche 9 12 15 61 Poireau 17 66 Sureau 19 72 Epinard Ginkgo Tetrahymena L+R L+R 68,5 39,5 44,5 47,5 39,5 20,5 16,5 6 Lapin 68 40 45 48 21 17 Rat 69 39 44 47 20 16 2 Rat Lapin 1 Cheval 3

20 UPGMA 3 4,5 Rat Lapin 1 Cheval 2 3 Sureau Poireau Tetrahymena Ginkgo
Epinard Sureau Poireau Mouche Bonite L+R+C 68 72 19 66 15 17 61 12 9 69 44 46 50 42 45 48 51 23 68,33 40,67 45,67 48,33 40,33 21 4,5 Rat Lapin 1 Cheval 2 3 Sureau Poireau

21 UPGMA 4 2,75 4,5 Sureau Poireau Epinard Rat Lapin 1 Cheval 2 3 7,25
Tetrahymena Ginkgo Epinard S+P Mouche Bonite L+R+C 68 72 19 15 14,5 69 44 46 50 42 45 48 51 23 68,33 40,67 45,67 44,33 21 17 2,75 4,5 Sureau Poireau Epinard Rat Lapin 1 Cheval 2 3 7,25

22 UPGMA 5 4,5 Sureau Poireau Epinard 2,75 7,25 0,915 Ginkgo Rat Lapin 1
Tetrahymena Ginkgo S+P+E Mouche Bonite L+R+C 68 69,33 16,33 69 44 46 42 45 47 23 68,33 40,67 44,78 21 17 4,5 Sureau Poireau Epinard 2,75 7,25 0,915 Ginkgo Rat Lapin 1 Cheval 2 3 8,165

23 UPGMA 6 Rat Lapin 1 Cheval 2 3 4,5 Sureau Poireau Epinard 2,75 7,25
Tetrahymena S+P+E+G Mouche Bonite L+R+C 69 45,5 68 46,5 42 68,33 43,75 21 17 Rat Lapin 1 Cheval 2 3 4,5 Sureau Poireau Epinard 2,75 7,25 Ginkgo 0,915 8,165 5,5 Bonite 8,5

24 UPGMA 7 Rat Lapin 1 Cheval 2 3 Bonite 5,5 8,5 4,5 Sureau Poireau
Tetrahymena S+P+E+G Mouche R+L+C+B 69 61 45,5 68,5 44,43 21,5 Rat Lapin 1 Cheval 2 3 Bonite 5,5 8,5 4,5 Sureau Poireau Epinard 2,75 7,25 Ginkgo 0,915 8,165 2,25 Mouche 10,75

25 UPGMA 8 Rat Lapin 1 Cheval 2 3 Bonite 5,5 8,5 Mouche 2,25 10,75 11,57
Tetrahymena S+P+E+G R+L+C+B+M 69 67 44,64 Rat Lapin 1 Cheval 2 3 Bonite 5,5 8,5 Mouche 2,25 10,75 11,57 4,5 Sureau Poireau Epinard 2,75 7,25 Ginkgo 0,915 8,165 14,155

26 UPGMA 9 Rat Lapin 1 Cheval 2 3 Bonite 5,5 8,5 Mouche 2,25 10,75 14,155
Tetrahymena S+P+E+G+R+L+C+B+M 67,89 Rat Lapin 1 Cheval 2 3 Bonite 5,5 8,5 Mouche 2,25 10,75 14,155 11,57 12,02 Tetrahymena 4,5 Sureau Poireau Epinard 2,75 7,25 Ginkgo 0,915 8,165 33,94

27 Unweighted Pair-Group Method of Arithmetic average
8 3 9 C 4 B 7 5 A Matrice de distances Dbd = 3 On répartit cette distance également sur les 2 branches 1,5 B D

28 Neibor-joining (1) k i D représente une distance observée l y
m l k x y D représente une distance observée B représente une distance estimée La longueur de l’arbre correspondant s’exprime : (1)

29 NJ (2) (2) et il y a n-2 distances de ce type donc (3)
De la même manière pour les distances de j à tous les autres différents de i (4) soit pour toutes les distances entre les n-2 otus de l’étoile : (5)

30 NJ (3) (2) (3) (4) (5) (6)

31 NJ (4) (6) On tire de (6) (9) En substituant dans 1 les valeurs données par 2 et 7 (1)

32 NJ (5) D’après l’équation (5) (7) distances de l’OTU i
à toutes les autres distances de l’OTU j à toutes les autres (8) Puis en utilisant la valeur de Byk exprimée dans 7 et en remplaçant ensuite Dkl par sa valeur donnée en 8

33 2 D ) 2 ( - N R Q = D + Neighbor-Joining (6) ij j i - i anc i ancêtre
horloge Correction de l’horloge

34 Méthodes agglomératives
UPGMA NJ Distances ultramétriques Vitesse constante sur toutes les branches Arbre raciné Distances métriques et additives Voir la formule Arbre non raciné

35 Arbres à 7 taxons obtenus avec NJ ou UPGMA
Cyathea le Gnetum gne Metasequoi Magnolia s Encephalar Cedrus deo Ginkgo bil 1 26 NJ UPGMA Cyathea le Gnetum gne Magnolia s Metasequoi Cedrus deo Encephalar Ginkgo bil 1 5 2 4 13

36 Plantes terrestres Plantes terrestres Spermatophytes Chlorophycées
Bryophytes Plantes terrestres Ptéridophytes Gymnospermes Dicotylédones 1 Spermatophytes Monocotylédones Dicotylédones 2 19/11/02 J2_2002_ DESS

37 FIN (distances)

38 Comparaison des deux méthodes de calcul d’arbre
Méthodes de distance Méthodes de parcimonie *Calcul d’une distance globale *Un seul arbre retourné par le programme *Pas de test de robustesse de l’arbre unique (excepté le bootstrap)  *Pas de retour aux caractères pour pouvoir les reconsidérer  *Rapide, même avec un grand nombre de taxa *Examen des caractères les uns après les autres *La méthode peut retourner plusieurs arbres également parcimonieux *Il y a un test de robustesse des noeuds (mesure de l’homoplasie dans l’arbre par le calcul du rapport de la longueur minimale de l’arbre à sa longueur réelle. *Retour aux caractères pour éventuellement réévaluer ceux qui donnent des aberrations *Vitesse moyenne. Sur de grosses machines on peut en plusieurs jours traiter des données jusqu'à 500 taxa


Télécharger ppt "Plan Concepts de base Principes Distances Similitude et distances"

Présentations similaires


Annonces Google