La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Bio-informatique appliquée Construction des arbres phylogénétiques Emese Meglécz Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et.

Présentations similaires


Présentation au sujet: "Bio-informatique appliquée Construction des arbres phylogénétiques Emese Meglécz Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et."— Transcription de la présentation:

1 Bio-informatique appliquée Construction des arbres phylogénétiques Emese Meglécz Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours de Jacques van Helden: helden.perso.luminy.univmed.fr/bioinformatics_introductory_course/web _course/BI4U2/ Cours basé sur les cours de Céline Brochier-Armanet et Jacques van Helden

2 Structure des arbres H F G A B C D E I Racine Les relations évolutives entre les objets étudiés sont représentés par des arbres phylogénétiques Les arbres sont des graphes composés de noeuds et de branches noeuds = unités taxonomiques Feuilles ou OTU = Unités Taxonomique Opérationnelles ou (A, B, C, D, E) Noeuds internes ou HTU = Unités taxonomique Hypothétiques (F, G, H, I) branches = relations de parentés (ancêtre /descendants) entre les unités taxonomiques Branches internes Branches externes lensemble des branchements de larbre =topologie de larbre

3 Topologies identiques H F G A B C D E I Racine H G F C D B A E I

4 H F G A B C D E I B A C D E F H G I La racine symbolise le dernier ancêtre commun (i.e. le plus récent) de toutes les OTU Les arbres non racinés ne sont pas réellement des arbres phylogénétiques car ils nont pas de dimension temporelle => Nindiquent pas les relations de parenté entre les OTU Arbre enracinéArbre non enraciné Arbres enracinés vs Arbres non enracinés

5 H F G Loup Chien Souris Rat Poulet I Racine Loup Chien Souris Rat Poulet F H G I Connaissance a priori du OTU le plus externe parmi les OTU étudiées Exemple: chien, loup, souris, rat et poulet => Groupe extérieur est le poulet Sans connaissance a priori du OTU les plus externes parmi les OTU étudiées Enracinement au poids moyen => Hypothèse dhorloge moléculaire Comment enraciner un arbre phylogénétique ?

6 H F G A B C D E I Racine H F G A B C D E I Représentation sans échelle Les longueurs de branches ne sont pas proportionnelles au nombre de changements évolutifs Représentation avec échelle (nombre de substitutions, nombre de substitution/sites) Les longueurs de branches sont proportionnelles au nombre de substitutions ou nombre de substitutions/sites qui se sont produites le long de la branche Échelle dun arbre phylogénétique 0,1

7 Cladistique –(Grecque: klados = branche) classe les êtres vivants selon leurs relations de parenté, basé sur leurs caractères Cladogramme –Arbre, habituellement avec bifurcations, représentant un scénario évolutif des divergences entre espèces ou séquences. Clade –Une branche de cladogramme avec un ancêtre commun et tout ses descendants. Note –La longueur de la branche ne reflète pas le temps ou le taux de de divergence. –Seule la topologie est informative, il ny a pas déchelle temporelle 7 Cladistique, cladogrammes et clades

8 Phylogramme : les longueurs des branches représentent les nombres dévénements évolutifs (e.g. mutations) Notes: Léchelle relative est en bas Arbre non-enraciné => la racine devrait être placée entre les opsines blues (SW) et les opsines rouge et vert (MW, LM) La distance entre deux nœuds est le somme des branches entre eux. La distance verticale a peu dimportance –D (LW T.aculeatus – SW mouse) >>D (SW mouse – SW rattus) Les longueurs des branches sont seulement des approximations des distances inférées. 8 Phylogramme Phylogramme des opsines des mammifères

9 Chronogramme: Longueur des branches représentent le temps de divergence. –Hypothèse de lhorloge moléculaire suppose que la taux dévolution ne varie pas entre les branches. Tout les TUs sont alignés verticalement sur larbre. –Lhorloge moléculaire nest pas toujours valide. Par exemple les paralogues peuvent avoir les taux de mutation fort différents car il ne sont pas soumis à la même pression de sélection. Larbre avec hypothèse de lhorloge moléculaire (e.g. UPGMA) Larbre sans lhorloge moléculaire (e.g. neighbour-joining) 9 Horloge moléculaire

10 Didier Casane & Patrick Laurenti (2012). Penser la biologie dans un cadre phylogénétique: lexemple de lévolution des vertébrés. Médecine/Sciences. 10 Résumé : représentations arborescentes

11 Combien darbres ? nNb Rooted treesNb unrooted trees ,45E ,55E+083,45E ,37E+106,55E ,16E+111,37E ,91E+123,16E ,13E+147,91E ,19E+152,13E ,92E+176,19E ,33E+181,92E ,22E+206,33E ,20E+212,22E+20 Nombre des arbres enracinés Nombre des arbres non enracinés pour n OTU = nombre des arbres enracinés pour n-1 OTU

12 Parmi tous les arbres possibles un seul représente la véritable histoire évolutive = ARBRE VRAI Le (ou les) arbre(s) obtenu(s) à partir dun JDD particulier et une méthode de reconstruction est appelé ARBRE INFERE Arbres vrais et arbres inférés

13 Ortologie/Paralogie A1 AB1 B1 C1 B2 C2 C3 A, B, C représentent les espèces 2, 3, 3 les copies des gènes Spéciation Duplication

14 Larbre des lespèces représente les relations évolutives entre espèces. Larbre des molécules représente lhistoire évolutive des molécules apparentés (gènes, protéines). Larbre des espèces peut être inféré à partir des molécules, mais attention aux –Paralogie (du au duplications des gènes. –Xénologie du aux transfer horizontaux. Source: Zvelebil, M.J. and Baum, J.O. (2008) Understanding Bioinformatics. Garland Science, New York and London. 14 Arbre des gènes vs. arbre des lespèces Larbre des lespèces Larbre des molécules Mammifera Aves Amphibia Chondrichtya Insecta Crustacea Cnidaria

15 Source: Zvelebil, M.J. and Baum, J.O. (2008) Understanding Bioinformatics. Garland Science, New York and London. 15 Réconciliation des arbres Larbre des lespèces Larbre des molécules Larbre réconcilié

16 Méthodes de construction des arbres phylogénétiques

17 Caractère = caractéristique observable dun organisme (quantitative ou qualitative) État de caractère = forme particulière dun caractère dans une OTU particulière (variable continue ou discrète) Exemples: Caractère: Taille, Pos. 68 CYTB État de caractères: 1,68 cm, Alanine Caractères et états de caractères

18 Première étape de construction des arbres phylogénétiques: Alignement multiple Exemple: 50 opsines chez les mammifères. 2 groupes clairs: –Opsines rouges et verte (LW, MW) –Opsine bleue (SW) 18 Alignement multiples - Opsines

19 Méthodes cladistiques –Basée sur létude des états de caractères (nucléotide ou acide aminé présent à une position, présence ou absence dune insertion/délétion…) –Maximum de parcimonie Méthodes de distances –Basées sur des mesures de distances (e.g. nombre de substitutions par site) –UPGMA, NJ, minimum dévolution, moindres carrés… Méthodes statistiques –Basée sur létude des états de caractères et sur des distances –Maximum de vraisemblance –Méthodes bayésiennes Méthodes

20 Approches alternatives –Maximum de parcimonie –Distance –Méthodes statistiques Séquences non-alignées Alignement Séquences alignées Similarité Forte ? Maximum de parcimonie NO Bcp.(> 20) séquences ? OUI Source: Mount (2000) 20 Méthodes Choix des méthodes de construction des arbres phylogénétiques

21 Principe: –Identifier la topologie T qui implique le plus petit nombre de changements évolutifs suffisant pour rendre compte des différences observées entre les OTU étudiées. –Utilise des états de caractères discrets => Larbre le plus parcimonieux => plus court chemin conduisant aux états de caractères observés Algorithme –Construction de tous les arbre possibles –Pour tous les site de lalignement (caractère), on compte le nombre de substitutions nécessaire pour expliquer chaque arbre –On retient larbre qui nécessite le plus petit nombre de substitutions au total (en tenant compte de tous les sites) Caractéristique des arbres obtenus –Solutions multiples => plusieurs arbres avec le même nombre minimum de changements peuvent être obtenus –Le longueur des branches ne reflète par la distance évolutive (arbre sans échelle) –Arbres non enracinés Maximum de parcimonie - Principe

22 A AAGAGTTCA B AGCCGTTCT C AGATATCCA D AGAGATCCT Sites Séquences Matrice de caractères Maximum de parcimonie - Méthode

23 AAAGAGTTCA BAGCCGTTCT CAGATATCCA DAGAGATCCT Déterminer toutes les topologies possibles 4 UTO => 3 arbres non racinés Maximum de parcimonie - Méthode

24 AAAGAGTTCA BAGCCGTTCT CAGATATCCA DAGAGATCCT A B C D A C B D A D B C Déterminer toutes les topologies possibles 4 UTO => 3 arbres non racinés Maximum de parcimonie - Méthode

25 AAAGAGTTCA BAGCCGTTCT CAGATATCCA DAGAGATCCT A B C D A C B D A D B C Étude du caractère n°1 A A A A A A A A A A A A Caractère constant (même état de caractère à tous les sites) Caractère ne favorisant aucune topologie par rapport à une autre Nb CE= 0 Nb CE= 0Nb CE= 0 Maximum de parcimonie - Méthode

26 AAAGAGTTCA BAGCCGTTCT CAGATATCCA DAGAGATCCT A B C D A C B D A D B C Étude du caractère n°2 A G G G A G G G A G G G Caractère variable mais non informatif Caractère ne favorisant aucune topologie par rapport à une autre Nb CE= 1 Nb CE= 1Nb CE= 1 Maximum de parcimonie - Méthode

27 AAAGAGTTCA BAGCCGTTCT CAGATATCCA DAGAGATCCT A B C D A C B D A D B C Étude du caractère n°3 G C A A G A A C G A A C Maximum de parcimonie - Méthode

28 AAAGAGTTCA BAGCCGTTCT CAGATATCCA DAGAGATCCT A B C D Étude du caractère n°3 G C A A Maximum de parcimonie - Méthode A B C D A B C D G G C C A A A A Nb CE= 2 Arbre 1 A C B D A D B C G A A C G A A C

29 AAAGAGTTCA BAGCCGTTCT CAGATATCCA DAGAGATCCT A B C D A C B D A D B C Étude du caractère n°3 G C A A G A A C G A A C Caractère variable mais non informatif Caractère ne favorisant aucune topologie par rapport à une autre Nb CE= 2 Nb CE= 2Nb CE= 2 Maximum de parcimonie - Méthode

30 AAAGAGTTCA BAGCCGTTCT CAGATATCCA DAGAGATCCT A B C D A C B D A D B C Étude du caractère n°4 A C G T A G T C A T G C Caractère variable mais non informatif Caractère ne favorisant aucune topologie par rapport à une autre Nb CE= 3 Nb CE= 3Nb CE= 3 Maximum de parcimonie - Méthode

31 AAAGAGTTCA BAGCCGTTCT CAGATATCCA DAGAGATCCT A B C D A C B D A D B C Étude du caractère n°5 Nb CE= ? Nb CE= ?Nb CE= ? Maximum de parcimonie - Méthode

32 AAAGAGTTCA BAGCCGTTCT CAGATATCCA DAGAGATCCT A B C D A C B D A D B C Étude du caractère n°5 G G A A G A A G G A A G Caractère variable et informatif (au moins 2 états de caractère sont partagés par au moins 2 OTU) Caractère favorisant la première topologie par rapport aux deux autres Nb CE= 1 Nb CE= 2Nb CE= 2 Maximum de parcimonie - Méthode

33 AAAGAGTTCA BAGCCGTTCT CAGATATCCA DAGAGATCCT A B C D A C B D A D B C Étude du caractère n°6 T T T T T T T T T T T T Caractère constant (même état de caractère chez tous les OTUs) Caractère ne favorisant aucune topologie par rapport à une autre Nb CE= 0 Nb CE= 0Nb CE= 0 Maximum de parcimonie - Méthode

34 AAAGAGTTCA BAGCCGTTCT CAGATATCCA DAGAGATCCT A B C D A C B D A D B C Étude du caractère n°7 T T C C T C C T T C C T Caractère variable et informatif Caractère favorisant la première topologie par rapport aux deux autres Nb CE= 1 Nb CE= 2Nb CE= 2 Maximum de parcimonie - Méthode

35 AAAGAGTTCA BAGCCGTTCT CAGATATCCA DAGAGATCCT A B C D A C B D A D B C Étude du caractère n°8 C C C C C C C C C C C C Caractère constant (même état de caractère à tous les OTUs) Caractère ne favorisant aucune topologie par rapport à une autre Nb CE= 0 Nb CE= 0Nb CE= 0 Maximum de parcimonie - Méthode

36 AAAGAGTTCA BAGCCGTTCT CAGATATCCA DAGAGATCCT A B C D A C B D A D B C Étude du caractère n°9 Nb CE= ? Nb CE= ?Nb CE= ? Maximum de parcimonie - Méthode

37 AAAGAGTTCA BAGCCGTTCT CAGATATCCA DAGAGATCCT A B C D A C B D A D B C Étude du caractère n°9 A T T A A T A T A A T T Caractère variable et informatif Caractère favorisant la deuxième topologie par rapport aux deux autres Nb CE= 2 Nb CE= 1Nb CE= 2 Maximum de parcimonie - Méthode

38 AAAGAGTTCA BAGCCGTTCT CAGATATCCA DAGAGATCCT A B C D A C B D A D B C Bilan: T1 = =10 T2 = =11 T3 = =12 Larbre le plus parcimonieux = arbre 1 Nb CE= 10 Nb CE= 11Nb CE= 12 Maximum de parcimonie - Méthode

39 Caractères invariants si toutes les OTU possèdent le même état de caractères pour un site donné Caractères variables –Non informatif si les états de caractères à ce site ne favorisent aucune topologie parmi lensemble des topologies possibles –Informatif si les états de caractères à ce site favorise une (ou plusieurs) topologie(s) parmi lensemble des topologies possibles Maximum de parcimonie - Classification des sites

40 Protéines de E.coli contenant le domaine lacI-type HTH –Arbre sans échelle, non enraciné –Gauche: représentation format texte (protpars output) –Bas: Visualisation par njplot (integer dans ClustalX) CYTR_ECOLI ! ! EBGR_ECOLI ! +-13 ! ! CSCR_ECOLI ! +-12 ! ! +--IDNR_ECOLI ! +--5 ! +--GNTR_ECOLI +--4 ! ! MALI_ECOLI ! ! +-10 ! ! ! ! +--TRER_ECOLI ! ! ! ! ! ! +--YCJW_ECOLI ! ! ! ! ! ! ! LACI_ECOLI ! ! +--FRUR_ECOLI ! ! ! ! ! ! ! +--RAFR_ECOLI ! ! ! ! ! ASCG_ECOLI ! ! ! ! +--GALS_ECOLI ! ! +--3 ! ! +--GALR_ECOLI ! ! ! RBSR_ECOLI ! PURR_ECOLI remember: this is an unrooted tree! requires a total of Maximum de parcimonie - Exemple

41 Le nombre darbres augmente exponentiellement avec le nombre dOTUs (séquences). Hypothèse de lhorloge moléculaire => suppose que toutes les branches ont évolué avec la même vitesse. Fonctionne seulement avec les protéines très conservées. 41 Maximum de parcimonie - Désavantages

42 Approches alternatives –Maximum de parcimonie –Distance –Méthodes statistiques Séquences non-alignées Alignement Séquences alignées Similarité Forte ? Maximum de parcimonie NO Bcp.(> 20) séquences ? OUI Source: Mount (2000) 42 Choix des méthodes de construction des arbres phylogénétiques Distance Similarité claire ? NO OUI

43 Alignement multiple Calcul de distance entre chaque paire des séquences Construction de larbre qui correspond le plus possible à la matrice de distances –La longueur des branches devrait correspondre aux distances, mais généralement on ne peut pas trouver un arbre où les longueurs des branches correspondent parfaitement avec la matrice de distances. –Arbres enracinés ou non-enracinés Il existe plusieurs méthodes de construction de larbre basées sur la distance. –Fitch-Margoliah –Neighbour-Joining –UPGMA 43 Séquences alignées Calcul de Distance Matrice de distances Construction de larbre Arbre Méthodes de Distance

44 UPGMA (Unweighted Pair-Group Method by arithmetic Averaging) –Regroupe les séquences en ordre de similarité. –Larbre est enraciné. –Points faibles: Hypothèse de lhorloge moléculaire Branches longues (avec évolution rapide) sont considérées comme groupe extérieur. Neighbour-Joining (NJ) –Minimise la somme la longueur des branches (trouve larbre le plus court). –Nutilise pas lhorloge moléculaire. –Larbre est non-enraciné. –Applicable si la vitesse dévolution est fort différente entre les branches. Fitch-Margoliah –Minimise le somme des carrés des distances entre les distances dans la matrice et les distances dans larbre 44 Méthodes de distance

45 Protéines: Opsines des mammifères Méthode: neighbour-Joining (NJ) Visualisation: njplot 45 Méthodes de Distance - Exemple

46 Approches alternatives –Maximum de parcimonie –Distance –Méthodes statistiques Séquences non-alignées Alignement Séquences alignées Similarité Forte ? Maximum de parcinomie NO Bcp.(> 20) séquences ? OUI Source: Mount (2000) 46 Choix des méthodes de construction des arbres phylogénétiques Distance Similarité claire ? NO OUI Maximum de vraisemblace NO

47 En phylogénie, un arbre est un estimateur des données dont on dispose –Idée = estimer la variabilité de larbre (ou dune partie de larbre = branches) en changeant les caractères –Si un arbre est robuste i.e. fortement soutenu par les données alors sa variabilité sera faible –Si un arbre est peu robuste alors il aura une grande variabilité Estimation de la robustesse des arbres Bootstrap

48 Principe On estime les phylogénies obtenues à partir dun certain nombre de ré-échantillonnages de même taille que notre jeu de données initial On réalise X tirages avec remise de n caractères parmi n caractère au sein du JDD initial Construction dune nouvelle matrice de caractères de même taille (nombre de séquences et de sites) que le JDD initial Pour chaque tirage on calcule la phylogénie correspondante par la même méthode Pour chaque nœud, comptage des nombres des simulations où le nœud est soutenu. Le Bootstrap

49 Seq1 Seq2 Seq3 … SeqN Seq1 Seq2 Seq3 … SeqN Seq1 Seq2 Seq3 … SeqN JDD initial Bootstrap1 Bootstrap2 ABCDABCD ABCDABCD ABCDABCD Bootstrap

50 Une valeur de bootstrap de 100% un nœud vrai Une BV de 100% un nœud ROBUSTE Robustesse : Les données soutiennent fort le nœud Interprétation du Bootstrap

51 Problèmes déchantillonnages –Séquences trop courtes => effets stochastiques –Échantillonnage taxonomique trop réduit Problèmes liés à la divergence des séquences –Séquences pas assez variables –Séquences trop divergentes => saturation –Séquences présentant des taux dévolution hétérogènes (Attraction des longues branches) Causes de lincongruence/problèmes rencontrés en phylogénie moléculaire

52 UPGMA (pour les mordus)

53 Calcul de toutes les distances évolutives (D ij ) séparant chaque paire dUTO Élaboration dune matrice de distances à partir dun alignement Reconstruction dun arbre phylogénique dont les longueurs de branches (d ij ) représentent au mieux les distances évolutives de la matrice (D ij ) minimise Q = Σ n i=1 Σ n j=1 (D ij – d ij )² Méthodes de distances - Principe général

54 Alignement des séquences p-distance: distance observée –s : nombre de substitutions observées entre deux séquences alignées –n : nombre de sites alignés –p =s/n AAAGAGTTCAA BAGCCGTTCTA CAGATATCCAA DAGAGATCCTA pABCD A00,40,6 B00,5 C00,2 D0 Calcul des distances entre deux séquences d'acides nucléiques

55 Distance p sous-estime les distances évolutives, quand les séquences sont éloignées (substitution multiples) Modèle de Jukes et Cantor –tous les sites évoluent indépendamment et selon le même processus –toutes les substitutions sont équiprobables –d=-3/4log(1-4/3p) Kimura à 2 paramètres –tous les sites évoluent indépendamment et selon le même processus –La taux de substitutions des transitions et des transversions sont différentes –d= - 1/2log[(1-2p-q)(1-2q) 1/2 ] Calcul des distances entre deux séquences d'acides nucléiques

56 Algorithme itératif de clustering: création à chaque étape dun nouveau cluster regroupant deux clusters proches L'arbre est construit "de bas en haut" : on part des feuilles et à chaque étape on rajoute un noeud au-dessus des précédents Reconstruction dun arbre phylogénique UPGMA (Unweighted pair-group method with arithmetic means)

57 Condition dapplication –Hypothèse dhorloge moléculaire: constance des taux dévolution le long des lignées Caractéristiques des arbres obtenus Ils sont enracinés Les longueurs des branches allant de la racine à nimporte quelle feuille sont égales UPGMA

58 1.Trouver les deux OTU i et j pour lesquels la distance Dij est la plus petite 2.Créer le nouveau groupe (ij) contenant n ij membres. n ij = n i + n j (n i et n j nombre dOTU dans les groupes i et j) 3.Connecter i et j dans larbre à un nouveau nœud (ij) qui correspond au nouveau groupe (ij). Attribuer aux branches L i et L j connectant i à (ij) et j à (ij) la longueur D ij /2 4.Calculer la distance entre le nouveau groupe (ij) et tous les autres groupes en utilisant D ij, k = n i x D ik / (n i + n j ) + n j x D jk / (n i + n j ) 5.Éliminer les colonnes et les lignes correspondant aux groupes i et j et ajouter celles correspondant au nouveau groupe (ij) 6.Si il reste un seul élément dans la matrice, arrêter, sinon retourner en 1. UPGMA - Algorithme

59 pABCD A00,40,6 B00,5 C00,2 D0 1. Trouver les deux OTU i et j pour lesquels la distance Dij est la plus petite 2. Créer le nouveau groupe (ij) contenant n ij membres. n ij = n i + n j (n i et n j nombre dOTU dans les groupes i et j) 3. Connecter i et j dans larbre à un nouveau nœud (ij) qui correspond au nouveau groupe (ij). Attribuer aux branches L i et L j connectant i à (ij) et j à (ij) la longueur D ij /2 CDCD 0,1 i,j UPGMA – Application (1)

60 pABCD A00,40,6 B00,5 C00,2 D0 4. Calculer la distance entre le nouveau groupe (ij) et tous les autres groupes en utilisant D ij, k = n i x D ik / (n i + n j ) + n j x D jk / (n i + n j ) D CD, A = n C x D CA / (n C + n D ) + n D x D DA / (n C + n D ) = 1 x 0,6/(1+1) + 1 x 0,6/(1+1) = 0,6 D CD, B = n C x D CB / (n C + n D ) + n D x D DB / (n C + n D ) = 1 x 0,5/(1+1) + 1 x 0,5/(1+1) = 0,5 UPGMA – Application (2)

61 pABCD A00,40,6 B00,5 C00,2 D0 5. Éliminer les colonnes et les lignes correspondant aux groupes i et j et ajouter celles correspondant au nouveau groupe (ij) D CD, A = 0,6 D CD, B = 0,5 pABCD A00,40,6 B00,5 CD0 UPGMA – Application (3)

62 6. Si il reste un seul élément dans la matrice, arrêter, sinon retourner en Trouver les deux OTU i et j pour lesquels la distance Dij est la plus petite 2. Créer le nouveau groupe (ij) contenant n ij membres. n ij = n i + n j (n i et n j nombre dOTU dans les groupes i et j) 3. Connecter i et j dans larbre à un nouveau nœud (ij) qui correspond au nouveau groupe (ij). Attribuer aux branches L i et L j connectant i à (ij) et j à (ij) la longueur D ij /2 pABCD A00,40,6 B00,5 CD0 CDCD 0,1 ABAB 0,2 UPGMA – Application (4)

63 4. Calculer la distance entre le nouveau groupe (ij) et tous les autres groupes en utilisant D ij, k = n i x D ik / (n i + n j ) + n j x D jk / (n i + n j ) D AB, (CD) = n A x D A(CD) / (n A + n B ) + n B x D B(CD) / (n A + n B ) = 1 x 0,6/(1+1) + 1 x 0,5/(1+1) = 0,55 pABCD A00,40,6 B00,5 CD0 UPGMA – Application (5)

64 5. Éliminer les colonnes et les lignes correspondant aux groupes i et j et ajouter celles correspondant au nouveau groupe (ij) D AB, (CD) = 0,55 pABCD A00,40,6 B00,5 CD0 pA A00,55 CD0 UPGMA – Application (6)

65 6. Si il reste un seul élément dans la matrice, arrêter, sinon retourner en Trouver les deux OTU i et j pour lesquels la distance Dij est la plus petite 2. Créer le nouveau groupe (ij) contenant n ij membres. n ij = n i + n j (n i et n j nombre dOTU dans les groupes i et j) 3. Connecter i et j dans larbre à un nouveau nœud (ij) qui correspond au nouveau groupe (ij). Attribuer aux branches L i et L j connectant i à (ij) et j à (ij) la longueur D ij /2 CDCD 0,1 ABAB 0,2 pACD A00,55 CD0 0,075 0,175 UPGMA – Application (7)

66 ChienOursRaton- laveur BelettePhoqueOtarieChatSinge Chien Ours Raton- laveur Belette Phoque Otarie Chat 0148 Singe 0 Exercice UPGMA

67 , , , , ,9 19,75 1 3,15 6,75 5,75 Ours Raton-laveur Phoque Otarie Belette Chien Chat Singe Exercice UPGMA

68 Avantages de lalgorithme: –Rapidité & simplicité Critiques: –Hypothèse de légalité des taux dévolution entre les lignées. –Résultats faux si les distances de la matrice nobéissent pas au critère dhorloge moléculaire –Nest presque plus utilisée Peut être réaliste si on étudie des espèces très proches Conclusions sur lUPGMA

69 Bibliographie W. Mount. Bioinformatics: Sequence and Genome Analysis. (2004) pp ( Code BU: MOU )http://www.bioinformaticsonline.org/ Perrière et Brochier-Armanet: Concepts et méthodes en phylogénie moléculaire, 2010, Springer (BU: PER) Cours basée sur les cours de Céline Brochier-Armanet et Jacques van Helden


Télécharger ppt "Bio-informatique appliquée Construction des arbres phylogénétiques Emese Meglécz Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et."

Présentations similaires


Annonces Google