Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Classification naturelle = phylogénie
2
Arbre = réseau connexe non cyclique
Quelques définitions Arbre = réseau connexe non cyclique noeud branche Réseau connexe non cyclique Réseau non connexe non cyclique Réseau connexe cyclique
3
Plusieurs graphismes pour les phylogénies
B C A B C D D B A A D B C C D A A B B C C D D
4
ARBRE NON RACINÉ et ARBRE RACINÉ
1 4 Oiseaux Placentaires Monotrèmes Marsupiaux 5 2 3 Oiseaux Monotrèmes Monotrèmes Monotrèmes Oiseaux Oiseaux Marsupiaux Marsupiaux Marsupiaux 1 2 5 Placentaires Placentaires Placentaires Marsupiaux Placentaires Placentaires Marsupiaux Monotrèmes Monotrèmes 3 4 Oiseaux Oiseaux
5
Racine et groupe extérieur
1 Oiseaux Placentaires Monotrèmes Marsupiaux Oiseaux Monotrèmes Marsupiaux 1 Placentaires Un groupe extérieur (outgroup) est presque toujours utilisé pour raciner les phylogénies moléculaires
6
Cas idéal AAAAAAAAAAA CAAAAAAAAAA AAAAAAAAAAC CUAAAAAAAAA CAGGAAAAAAA
Espèce 1 Espèce 2 Espèce 3 Espèce 4 CAAAAAAAAAA 1 AAAAAAAAAAC 1 CUAAAAAAAAA 1 CAGGAAAAAAA 2 AAAAAAAAUGC 2 AAAAGGCUAAC 4 Espèce 1 CUAAAAAAAAA Espèce 2 CAGGAAAAAAA Espèce 3 AAAAAAAAUGC Espèce 4 AAAAGGCUAAC Espèce AGG Espèce 3 AA------UGC Espèce 4 AA--GGCU--C
7
Avec n espèces, il y a (2n – 5)(2n – 7)…(5)(3)(1) arbres non racinés
Combien existe-t-il d’arbres ? A D D 3 espèces : 1 arbre B C D E 4 espèces : 3 * 1 arbres A B C D A B C D E 5 espèces : 5 * 3 * 1 arbres 7 (2*6-5) branches 6 espèces : 7 * 5 * 3 * 1 arbres Avec n espèces, il y a (2n – 5)(2n – 7)…(5)(3)(1) arbres non racinés
8
Le nombre d’arbres possibles
Augmentation exponentielle du nombre d’arbres possibles : problème NP-complet (Non-Polynomial)
9
Cas idéal Arbre #1 Arbre #2 Arbre #3 AAAAAAAAAAA CAAAAAAAAAA
Espèce 1 Espèce 2 Espèce 3 Espèce 4 CAAAAAAAAAA 1 AAAAAAAAAAC 1 CUAAAAAAAAA 1 CAGGAAAAAAA 2 AAAAAAAAUGC 2 AAAAGGCUAAC 4 Espèce 1 CUAAAAAAAAA Espèce 2 CAGGAAAAAAA Espèce 3 AAAAAAAAUGC Espèce 4 AAAAGGCUAAC Espèce AGG Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Arbre #1 Arbre #2 Arbre #3 1 2 3 4
10
L’information phylogénétique
Site 2 Site 1 A 3 A 4 2 C 1 C A C 3 A C 2 4 A 1 changement 2 changements 1 A 2 U A 4 A 3 A Arbre #1 1 changement 1 A U 2 3 A A 4 A Arbre #2 1 changement 1 A U 2 A 3 4 A A Arbre #3 1 changement Site informatif : un site avec au moins deux nucléotides différents (états de caractère) présents au moins deux fois
11
Parcimonie maximale Choisir l’arbre nécessitant le plus petit nombre de substitutions (changements) Principe du “rasoir d’Occam” : la meilleure explication des données est la plus simple, celle qui nécessite le plus petit nombre d’hypothèses ad hoc Le nombre total de changements évolutifs sur une phylogénie (longueur de l’arbre) is simplement la somme du nombre de changements à chaque site Espèce 1 CUAAAAAAAAA Espèce AGG Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Arbre #1 : L= =11
12
Cas idéal Sites informatifs Arbre #1 Arbre #2 Arbre #3 L=11 L=13 L=13
AAAAAAAAAAA 1 1 CAAAAAAAAAA AAAAAAAAAAC 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAAAAAAUGC AAAAGGCUAAC Espèce 1 Espèce 2 Espèce 3 Espèce 4 Espèce 1 CUAAAAAAAAA Espèce AGG Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Sites informatifs Arbre #1 Arbre #2 Arbre #3 1 3 1 2 1 2 2 4 3 4 4 3 L=11 L=13 L=13
13
Un peu de vocabulaire AAAAAAAAAAA 1 1 CAAAAAAAAAA AAAAAAAAAAC 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAAAAAAUGC AAAAGGCUAAC Espèce 1 Espèce 2 Espèce 3 Espèce 4 Espèce 1 CUAAAAAAAAA Espèce AGG Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Synapomorphie : Caractéristique nouvelle et distinctive partagée par un groupe d'organismes (C à la position 1) Symplésiomorphie : similitude due au partage d’un état ancestral de caractère (A à la position 1) Autapomorphie : état dérivé non partagé (U à la position 2)
14
Une substitution multiple
AAAAAAAAAAA CAAAAAAAAAA CUAAAAAAAAA CAGGAAAAAAA 1 2 Espèce 1 Espèce 2 AAAAAAAAAAC AAAAAAAAAGU AAAAGGCUAAC 4 Espèce 3 Espèce 4 Espèce 1 CUAAAAAAAAA Espèce AGG Espèce 3 AA GU Espèce 4 AA--GGCU--C
15
Trop d’information tue l’information
Site 2 1 A U 3 Arbre #1 A A 2 A C 4 2 changements 1 A A 2 Arbre #2 A A 3 U C 4 2 changements 1 A A 2 Arbre #3 A A 4 C U 3 2 changements Les symplésiomorphies ne sont pas informatives (groupe paraphylétique)
16
Une substitution multiple
AAAAAAAAAAA CAAAAAAAAAA CUAAAAAAAAA CAGGAAAAAAA 1 2 Espèce 1 Espèce 2 AAAAAAAAAAC AAAAAAAAAGU AAAAGGCUAAC 4 Espèce 3 Espèce 4 Espèce 1 CUAAAAAAAAA Espèce AGG Espèce 3 AA GU Espèce 4 AA--GGCU--C Arbre #1 Arbre #2 Arbre #3 1 3 1 2 1 2 2 4 3 4 4 3 L=11 L=12 L=12
17
Une substitution multiple : une convergence
AAAAAAAAAAA CAAAAAAAAAA CUAAAAAAAAA CAGGAAAAAAA 1 2 Espèce 1 Espèce 2 AAAAAAAAAAC AAAGAAAAAGC AAAAGGCUAAC 4 Espèce 3 Espèce 4 Espèce 1 CUAAAAAAAAA Espèce AGG Espèce 3 AA-G-----GC Espèce 4 AA--GGCU--C Arbre #1 Arbre #2 Arbre #3 1 3 1 2 1 2 2 4 3 4 4 3 L=11 L=13 L=12
18
Deux substitutions multiples : convergence et réversion
AAAAAAAAAAA CAAAAAAAAAA CUAAAAAAAAA CAGGAAAAAAA 1 2 Espèce 1 Espèce 2 AAAAAAAAAAC AAAGAAAAAAA AAAAGGCUAAC 4 Espèce 3 Espèce 4 Espèce 1 CUAAAAAAAAA Espèce AGG Espèce 3 AA-G Espèce 4 AA--GGCU--C Arbre 1 Arbre 2 Arbre 3 1 3 1 2 1 2 2 4 3 4 4 3 L=10 L=11 L=10
19
Trois substitutions multiples
AAAAAAAAAAA CAAAAAAAAAA CUAAAAAAAAA GAAGAAAAAAA 1 2 Espèce 1 Espèce 2 AAAAAAAAAAC AAAGAAAAAAA AAAAGGCUAAC 4 Espèce 3 Espèce 4 Espèce 1 CUAAAAAAAAA Espèce 2 GA-G Espèce 3 AA-G Espèce 4 AA--GGCU--C Arbre 1 Arbre 2 Arbre 3 1 3 1 2 1 2 2 4 3 4 4 3 L=10 L=10 L=9
20
Vrai nombre de substitutions : 11
Homoplasie homoplasie : toute caractéristique présente chez deux espèces (ou plus) qui n'est pas présente chez leur ancêtre commun immédiat. Arbre 1 Arbre 2 Arbre 3 1 2 3 4 L=10 L=9 Les substitutions multiples impliquent une sous-estimation de la longueur de l’arbre Vrai nombre de substitutions : 11
21
Mesure de l’homoplasie
Indice de Cohérence IC (Consistency Index, Kluge & Farris, 1969) Pour un site, IC = m/s m : nombre minimum de changements (= nombre d’états de caractères – 1) s : nombre de changements observés dans l’arbre le plus parcimonieux 1 A 2 C 3 C 4 C 5 A 6 T 7 T 8 T 9 C C CA CT TC 9 C 2 C 3 C 4 C 6 T 7 T 8 T 1 A 5 A s = 4 m = 2 C TA CT IC = 0.5
22
Mesure de l’homoplasie
Indice de Cohérence IC (Consistency Index, Kluge & Farris, 1969) Pour un arbre, IC = M/S M : nombre minimum de changements pour tous les sites S : nombre total de changements dans l’arbre le plus parcimonieux Pour un site non informatif, m = s donc IC = 1 Indice de Cohérence excluant les sites non informatifs ICi ICi = Mi/Si Mi : nombre minimum de changements pour tous les sites informatifs Si : nombre total de changements dans l’arbre le plus parcimonieux pour les sites informatifs
23
Une substitution pour chaque union
Algorithme récursif de Fitch C G A 1) Passage de bas en haut : x et y les fils du noeud n et X, Y, N les ensembles de nucléotides correpondant à ces noeuds C G A {C,G} Une substitution pour chaque union C G A {A,C} {A} {C,G} {A,C,G} C G A {A,C} {A} {C,G} C G A {A,C} {C,G}
24
Algorithme récursif de Fitch
2) Passage de haut en bas : Choix arbitraire d’un nucléotide à la racine On assigne au fils x du noeud n : a X si a N n’importe quel nucléotide de X sinon C G A C G A C G A
25
Heuristiques de recherche de topologies
Agglomération progressive des espèces Insertion sur toutes les branches Calcul du nombre de changements Choix de l’arbre le plus parcimonieux Nombre d’opérations : 3+5+7=15 (pour 105 arbres possibles) Pour 10 espèces : 63 versus 2 millions
26
Ordre d’agglomération des espèces
B C D E F D F E C B A Ajouter les espèces de manière aléatoire Répéter l’opération un grand nombre de fois Choisir l’arbre le plus parcimonieux
27
Subtree Pruning and Regrafting (SPR)
Algorithme de réarrangements Réarrangement local ou Nearest Neighbor Interchange (NNI) Y X W Z W X Y Z 2(n-3) possibilités Subtree Pruning and Regrafting (SPR) 2 1 3 4 5 6 2 1 3 4 5 6 4(n-3)(n-2) possibilités
28
Algorithme de réarrangements
Tree Bisection and Reconnection (TBR) 2 1 3 4 5 6 Une branche est coupée 2 1 3 4 5 6 2 1 3 4 5 6 Toutes les reconnexions possibles sont testées Etc. (2n1-3)(2n2-2) possibilités/coupure
29
Algorithme exact du branch and bound
Hendy et Penny (1982) Mathematical Biosciences, 60: , 1982
30
Utilisation de contraintes a priori
G2 G4 G3 G1 G5 G11 G9 G10 G8 G6 11 espèces : 45 espèces : G7
31
Maximum de parcimonie Deux étapes de minimisation :
Pour un arbre donné, minimisation du nombre de changements nécessaires pour expliquer l’alignement Choix parmi tous les arbres possibles de celui ayant le plus petit nombre de changements
32
Robustesse des phylogénies : le test du bootstrap
Tirage avec remise de n positions parmi n positions Construire l’arbre phylogénétique Répéter 1) et 2) un grand nombre de fois (1000) Analyser tous les arbres obtenus (en particulier via un arbre consensus)
33
L’arbre de consensus majoritaire
F C A D B E F B A D C E F Etc. On calcule la fréquence d’apparition des différents groupements d’espèces E et F : 100% D, E et F : 93% A et B : 52% A et C : 48% C, E et F : 7% Construire l’arbre consensus B A C D E F 52% 93% 100%
34
Robustesse des phylogénies : le test du bootstrap
Le tirage avec remise de positions, en respectant l’effectif original, revient à conférer un poids aléatoire aux positions Par exemple : (à chaque tirage, un tiers des positions ne sont pas considérés) Le but du bootstrap est de “rejouer” l’évolution des sites. Il estime la robustesse d’un noeud pour un jeu de données et d’après une méthode de reconstruction Problèmes Très couteux en temps calcul Seuil de significativité (70%, 95%)
35
Si A est un groupe extérieur éloigné
Attraction des longues branches A C A C q q p<q2 p B D B D Felsenstein, 1978 Si A est un groupe extérieur éloigné A D B C
36
Inconsistence de l’inférence phylogénétique
Une méthode de reconstruction phylogénétique est dite inconsistente si elle converge vers un résultat faux quand il y a de plus en plus de données ATTENTION : un très bon support statistique (par ex. 100% de bootstrap) ne garantit pas que le noeud inféré est correct
37
Attraction des longues branches
10-2 10-6 (1-10-2) * (1-10-2) * (1-10-6) * (1-10-6) * (1-10-6) ≈ 0.98 10-2 * (1-10-2) * (1-10-6) * (1-10-6) * (1-10-6) ≈ 10-2 etc. ~10-6 ~10-4 ~2*10-8
38
Echantillonnage taxonomique
Ajouter des espèces à l’analyse permet de mieux détecter les substitutions multiples Ajouter des espèces peut “casser les longues branches” et ainsi éviter l’artefact d’attraction des longues branches (Hendy et Penny, 1989)
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.