Inférence phylogénétique

Slides:



Advertisements
Présentations similaires
Cladogramme.
Advertisements

DESS Bioinformatique, Université Blaise Pascal, Clermont-Ferrand, Février 2004 Reconstruction phylogénétique D'après Huson et al. Édouard Barat David Salgado.
GESTION DE PORTEFEUILLE chapitre n° 7
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
Inférence statistique
Comparaison de plusieurs moyennes observées
Les TESTS STATISTIQUES
Phylogénie et distances génétique
Les TESTS STATISTIQUES
3. Analyse et estimation du mouvement dans la vidéo
Maria-João Rendas CNRS – I3S Novembre 2006
Modélisation Bayésienne par chaines de Markov Monte Carlo
Un nouveau regard sur les données moléculaires
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Traitement Co-Séquentiel: Appariment et Fusion de Plusieurs Listes
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN
Septième étape : travailler avec des graphes probabilistes
Heuristiques A. Introduction B. Recherche d ’une branche
Décodage des informations
La Régression Multiple
Optimisation linéaire
Lab3 - Phylogénie des Vertébrés
Systèmes d’équations linéaires
Groupe 1: Classes de même intervalle
La segmentation
La phylogénie Définition :
STATISTIQUES – PROBABILITÉS
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
La corrélation et la régression
Optimisation-Identification et Cast3M
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
Structure discriminante (analyse discriminante)
1.
Plan Buts principaux Intérêt et pertinence du projet Rappel concernant la phylogénie Travail accompli jusquà maintenant Travail restant à accomplir Difficultés.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Pour le chemin le plus court pour tous les couples
Recherche heuristique dans les bases de données L’algorithme BLAST
Heuristiques C. Recherche de la meilleure branche . Branch And Bound
Inférence de phylogénies
Classification naturelle = phylogénie
Introduction à la Phylogénie
Algorithmes Branch & Bound
Formation Bio-informatique IRD
Micro-intro aux stats.
M2 Sciences des Procédés - Sciences des Aliments
STATISTIQUES – PROBABILITÉS
CSI 4506: Introduction à l’Intelligence Artificielle
1 Étudiants: Professeur: Salamin Nicolas Assistante: Maryam Zaheri.
Recherches locales et méta-heuristiques
Alignement de séquences biologiques
Concepts fondamentaux: statistiques et distributions
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Méthode des moindres carrés (1)
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Ajouts et retraits dans un arbre de connexion Nicolas Thibault et Christian Laforest, Équipe OPAL Laboratoire IBISC (regroupement LaMI et LSC), Évry 8.
Introduction à la Phylogénie
Classification naturelle = phylogénie
Classification naturelle = phylogénie
Recherche heuristique dans les bases de données L’algorithme BLAST
Post-optimisation, analyse de sensibilité et paramétrage
L’établissement des relations phylogénétiques
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Problème de voyageur de commerce
La phylogenèse Définition :
ECHANTILLONAGE ET ESTIMATION
Introduction aux statistiques Intervalles de confiance
Algorithmes Branch & Bound Module IAD/RP/RO Master d ’informatique Paris 6 Philippe Chrétienne.
Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

Inférence phylogénétique phylogenetic tree (T) Observed sequence alignment (D) Chick A E F D L Y K S Human S E F D L Y K S Cat S E F D V Y K S Fish A E F D L Y R S Snail S E F E V F R S Fly A E Y E L F R T Hydra A E F E V F R S Polyp S E F E V F R S ?

Principes généraux d'une méthode d'inférence phylogénétique Deux aspects indépendants à considérer : Le critère: Se définir un score S(T,D) permettant de mesurer le 'fit' d'un arbre T, sachant les données D (séquences alignées) La méthode de recherche: Choisir parmi tous les arbres possibles de celui ayant le meilleur score

Critère 1 : Maximum de parcimonie Pour un arbre donné, le score est le nombre minimal de changements nécessaires pour expliquer l’alignement phylogenetic tree (T) Observed sequence alignment (D) Chick A E F D L Y K S Human S E F D L Y K S Cat S E F D V Y K S Fish A E F D L Y R S Snail S E F E V F R S Fly A E Y E L F R T Hydra A E F E V F R S Polyp S E F E V F R S

Critère 1 : Maximum de parcimonie Pour un arbre donné, le score est le nombre minimal de changements nécessaires pour expliquer l’alignement phylogenetic tree (T) Observed sequence alignment (D) Chick A E F D L Y K S E D Human S E F D L Y K S Cat S E F D V Y K S Fish A E F D L Y R S Snail S E F E V F R S E Fly A E Y E L F R T Hydra A E F E V F R S Polyp S E F E V F R S

Critère 1 : Maximum de parcimonie Pour un arbre donné, le score est le nombre minimal de changements nécessaires pour expliquer l’alignement phylogenetic tree (T) Observed sequence alignment (D) Chick A E F D L Y K S Human S E F D L Y K S Cat S E F D V Y K S Fish A E F D L Y R S Snail S E F E V F R S Fly A E Y E L F R T Hydra A E F E V F R S Polyp S E F E V F R S

Critère 1 : Maximum de parcimonie Pour un arbre donné, le score est le nombre minimal de changements nécessaires pour expliquer l’alignement phylogenetic tree (T) Observed sequence alignment (D) Chick A E F D L Y K S V L Human S E F D L Y K S L V Cat S E F D V Y K S Fish A E F D L Y R S Snail S E F E V F R S V L V Fly A E Y E L F R T Hydra A E F E V F R S Polyp S E F E V F R S Une convergence : deux évolutions indépendantes vers L Une réversion : chez le chat, un retour à l'état ancestral (V) Convergences et réversions : homoplasies

Critère 1 : Maximum de parcimonie Pour un arbre donné, le score est le nombre minimal de changements nécessaires pour expliquer l’alignement phylogenetic tree (T) Observed sequence alignment (D) Chick A E F D L Y K S Human S E F D L Y K S L V Cat S E F D V Y K S Fish A E F D L Y R S L V Snail S E F E V F R S L Fly A E Y E L F R T L V Hydra A E F E V F R S Polyp S E F E V F R S

Maximum de parcimonie Deux étapes de minimisation : Pour un arbre donné, minimisation du nombre de changements nécessaires pour expliquer l’alignement Choix parmi tous les arbres possibles de celui ayant le plus petit nombre de changements

Trouver l'arbre de Maximum de parcimonie méthode naïve prendre chaque arbre l'un après l'autre pour chaque arbre, calculer le score de parcimonie conserver le (ou les) meilleurs arbres

Trouver l'arbre de Maximum de parcimonie méthode naïve prendre chaque arbre l'un après l'autre pour chaque arbre, calculer le score de parcimonie conserver le (ou les) meilleurs arbres problème: combinatoire trop élevée

Heuristiques de recherche de topologies Agglomération progressive des espèces Insertion sur toutes les branches Calcul du nombre de changements Choix de l’arbre le plus parcimonieux Nombre d’opérations : 3+5+7=15 (pour 105 arbres possibles) Pour 10 espèces : 63 versus 2 millions

Ordre d’agglomération des espèces B C D E F D F E C B A Ajouter les espèces de manière aléatoire Répéter l’opération un grand nombre de fois Choisir l’arbre le plus parcimonieux

Subtree Pruning and Regrafting (SPR) Algorithme de réarrangements Réarrangement local ou Nearest Neighbor Interchange (NNI) Y X W Z W X Y Z 2(n-3) possibilités Subtree Pruning and Regrafting (SPR) 2 1 3 4 5 6 2 1 3 4 5 6 4(n-3)(n-2) possibilités

Minimums locaux : les ilôts d’arbres optimaux RÉPLICATS D’ADDITION ALÉATOIRE DE SEQUENCES ÉCHEC SUCCÈS ÉCHEC Branch Swapping Branch Swapping Branch Swapping Longueur De L’arbre Minimum Local Minimums Locaux MINIMUM GLOBAL http://bioinf.ncl.ac.uk/molsys/data/characters.ppt

The branch and bound algorithm Hendy et Penny (1982) Mathematical Biosciences, 60:133-142, 1982

Utilisation de contraintes a priori G2 G4 G3 G1 G5 G11 G9 G10 G8 G6 11 espèces : 24 106 45 espèces : 5 1064 G7

Méthode de distances Pour chaque paire d’espèces, calculer la distance évolutive (c’est-à-dire le nombre de différences) Choix parmi tous les arbres possibles de celui correspondant à la matrice de distances Le critère ici est l'adéquation entre l'arbre et la matrice de distance

Cas idéal E1 E2 E3 E4 Espèce 1 0 Espèce 2 3 0 Espèce 3 5 6 0 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA------UGC Espèce 4 AA--GGCU--C E1 E2 E3 E4 Espèce 1 0 Espèce 2 3 0 Espèce 3 5 6 0 Espèce 4 7 8 6 0

Cas idéal E1 E2 E3 E4 Espèce 1 0 Espèce 2 3 0 Espèce 3 5 6 0 AAAAAAAAAAA 1 1 CAAAAAAAAAA AAAAAAAAAAC 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAAAAAAUGC AAAAGGCUAAC Espèce 1 Espèce 2 Espèce 3 Espèce 4 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA------UGC Espèce 4 AA--GGCU--C E1 E2 E3 E4 Espèce 1 0 Espèce 2 3 0 Espèce 3 5 6 0 Espèce 4 7 8 6 0

Plus d’équations que de variables : en général, pas de solutions Principe des méthodes de distance E1 E2 E3 E4 Espèce 1 0 Espèce 2 3 0 Espèce 3 5 6 0 Espèce 4 7 8 6 0 Arbre #1 1 2 3 4 a b e d c D(E1,E2) = a+b=3 (1) D(E1,E3) = a+e+c=5 (2) D(E1,E4) = a+e+d=7 (3) D(E2,E3) = b+e+c=6 (4) D(E2,E4) = b+e+d=8 (5) D(E3,E4) = c+d=6 (6) Plus d’équations que de variables : en général, pas de solutions 1 2 3 4 (2)+(4)-(1)  2e+2c=5+6-3  e+c=4 (7) (2)–(7)  a=5-4=1 (1)  b=3-1=2 (4)+(5)–(6)  2b+2e=6+8-6  b+e=4  e=4-2=2 (4)  c=6-2-2=2 (5)  d=8-2-2=4

Plus d’équations que de variables : en général, pas de solutions Principe des méthodes de distance E1 E2 E3 E4 Espèce 1 0 Espèce 2 3 0 Espèce 3 5 6 0 Espèce 4 7 8 6 0 Arbre #2 1 3 2 4 a c e d b D(E1,E2) = a+e+b=3 (1) D(E1,E3) = a+c=5 (2) D(E1,E4) = a+e+d=7 (3) D(E2,E3) = b+e+c=6 (4) D(E2,E4) = b+d=8 (5) D(E3,E4) = c+e+d=6 (6) Plus d’équations que de variables : en général, pas de solutions 1 3 2 4 6 (2)+(4)-(1)  2c=5+6-3  c=4 (2)  a=5-4=1  a=1 (3)+(4)-(5)  a+c+2e=7+6-8=5  e=0 (1)  b=3-1=2  b=2 (5)  d=8-2=6  d=6 (6)  4+0+6=6 10=6

Distances additives et ultramétriques Une matrice de distances est dite additive (d’arbre) si et seulement il existe un arbre ayant des longueurs de branches parfaitement compatibles avec la matrice Conditions des 4 points : Pour tout ensemble de 4 espèces i,j,k et l, deux des valeurs D(i,j)+D(k,l), D(i,k)+D(j,l) et D(i,l)+D(j,k) sont égales et supérieures à la troisième Une matrice de distances est dite ultramétrique si et seulement si, pour toutes feuilles i,j et k, max{d(i,j), d(i,k), d(j,k)} n’est pas unique Horloge moléculaire i j k d(i,j) d(i,k) = d(j,k) d(j,k) d(i,j) = d(i,k) d(i,k) d(j,i) = d(j,k)

Une substitution multiple AAAAAAAAAAA CAAAAAAAAAA CUAAAAAAAAA CAGGAAAAAAA 1 2 Espèce 1 Espèce 2 AAAAAAAAAAC AAAAAAAAAGU AAAAGGCUAAC 4 Espèce 3 Espèce 4 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA-------GU Espèce 4 AA--GGCU--C Substitutions multiples entraînent une sous-estimation des distances E1 E2 E3 E4 Espèce 1 0 Espèce 2 3 0 Espèce 3 4 (5) 5 (6) 0 Espèce 4 7 8 6 0 Distances non additives

Moindres carrés Appelons P une distance correspondant à un arbre phylogénétique T  les espèces i et j, P(i,j) = Sarètes sur le chemin connectant i et j Soit F la fonction qui mesure la qualité de l’ajustement (fit) de P à D ou On calcule les arètes de longueur inconnue (a, b, c, d et e, dans le cas précédent) en minimisant F par une méthode de moindre carré (least square method) On choisit parmi tous les arbres possibles celui qui minimise F Comme en parcimonie, deux étapes d’ajustement/minimisation

Algorithme du Neighbor Joining (Saitou&Nei, 1987) Calculer Chercher i et j pour lesquels « Dij - ui - uj » est minimal i j Répéter jusqu’à ce qu’il ne reste que 3 espèces Calculer les voisinages : vi = (Dij + ui - uj) / 2 vj = (Dij + uj - ui) / 2 i j vi vj Calculer les distances du nouveau noeud (ij) à k : D(ij),k = (Dik + Djk - Dij) / 2 (ij)

Une substitution multiple AAAAAAAAAAA CAAAAAAAAAA CUAAAAAAAAA CAGGAAAAAAA 1 2 Espèce 1 Espèce 2 AAAAAAAAAAC AAAAAAAAAGU AAAAGGCUAAC 4 Espèce 3 Espèce 4 E1 E2 E3 E4 Espèce 1 0 Espèce 2 3 0 Espèce 3 4 (5) 5 (6) 0 Espèce 4 7 8 6 0 1 2 1.5 4.5 E1 E2 E3 E4

Nécessité de corriger les distances avant d’inférer l’arbre Trois substitutions multiples AAAAAAAAAAA CAAAAAAAAAA CUAAAAAAAAA GAAGAAAAAAA 1 2 Espèce 1 Espèce 2 AAAAAAAAAAC AAAGAAAAAAA AAAAGGCUAAC 4 Espèce 3 Espèce 4 E1 E2 E3 E4 Espèce 1 0 Espèce 2 3 0 Espèce 3 3 (5) 1 (6) 0 Espèce 4 7 7 (8) 6 0 E1 1.8 0.6 E2 0.7 E4 E3 5.2 0.4 Nécessité de corriger les distances avant d’inférer l’arbre

Calcul de la distance évolutive Mutation : altération d’une molécule d’ADN (mutation ponctuelle : si un seul nucléotide est modifié) Substitution : modification de la séquence d’ADN dans l’ensemble de la population Distance évolutive = nombre de substitutions ayant eu lieu entre deux espèces (ou organismes) PRINCIPE : estimer à partir des différences observées entre deux séquences le nombre de substitutions qui se sont produites  Nécessité d’un modèle d’évolution des séquences

A simple model: Jukes and Cantor Evolution operates independently and identically at each position …A A C A G T A C… Markov process - no memory - time-homogeneous - of rate  G C …A A C A C T A C… C A For each substitution, draw final state with equal probability (1/3) A G …A G C A A T A C… time

Modèle de Jukes et Cantor (1969) Toutes les substitutions sont équiprobables (par exemple si A est modifié, il y a une chance sur trois que ce soit en C, 1/3 en G et 1/3 en T) Tous les sites ont la même probabilité de subir une substitution Séquence S0 Séquence St t Soit l la fréquence de substitutions par million d'années Soit qt la fréquence des nucléotides identiques entre la séquence à l’instant t et la séquence à l’instant 0 On cherche à calculer qt+1 la fréquence des nucléotides identiques entre la séquence à l’instant t + 1 et la séquence à l’instant 0 qt+1 = (1-l)*qt sites qui restent constants l/3*(1-qt) sites qui étaient différents +

Modèle de Jukes et Cantor (1969) Toutes les substitutions sont équiprobables (par exemple si A est modifié, il y a une chance sur trois que ce soit en C, 1/3 en G et 1/3 en T) Tous les sites ont la même probabilité de subir une substitution Séquence S2 : S2t Séquence S1 : S0 2t D : distance évolutive (nombre de substitutions) Q : p-distance (nombre de différences observées)

Modèle de Jukes et Cantor (1969) 0.9 0.75 0.8 0.7 0.6 0.5 p-distance (différences observées) 0.4 0.3 0.2 0.1 1 2 3 4 5 6 DJC (substitutions estimées)

Modèle de Kimura (1980) Transition : remplacement d’une purine (A et G) par une autre ou d’une pyrimidine (C et T) par une autre. Transversion : remplacement d’une purine (A et G) par une pyrimidine (C et T).

Modèle de Kimura (1980) Transition : remplacement d’une purine (A et G) par une autre ou d’une pyrimidine (C et T) par une autre. Transversion : remplacement d’une purine (A et G) par une pyrimidine (C et T). Les substitutions sont séparées en deux catégories : transitions et transversions. A l’intérieur de ces deux catégories, les changements sont équiprobables (même probabilité de passer de A vers C que de A vers T) Tous les sites ont la même probabilité de subir une substitution P : fréquence de transitions observées entre 2 séquences Q : fréquence de transversions observées entre 2 séquences

Modèle de Jukes et Cantor (1969) 0.9 0.75 0.8 0.7 0.6 (2 nucléotides) 0.50 0.5 p-distance (différences observées) 0.4 0.3 0.2 0.1 1 2 3 4 5 6 DJC (substitutions estimées)

A simple model Felsenstein 1981 Evolution operates independently and identically at each position …A A C A G T A C… Markov process - no memory - time-homogeneous - of rate  G C …A A C A C T A C… C A For each substitution, draw final state from frequency vector: A G …A G C A A T A C… time A C G T F G H I K L M N P Q R S T V W Y

Modèle de Felsenstein (1981) Toutes les substitutions sont équiprobables (par exemple si A est modifié, il y a une chance sur trois que ce soit en C, 1/3 en G et 1/3 en T) Tous les sites ont la même probabilité de subir une substitution Les fréquences des quatre nucléotides ne sont pas obligatoirement 0.25, 0.25, 0.25 et 0.25 P : fréquence de différences observées entre 2 séquences

General Time Reversible (GTR) model Chaque type de substitutions nucléotidiques a sa propre probabilité Tous les sites ont la même probabilité de subir une substitution Les fréquences des quatre nucléotides ne sont pas obligatoirement 0.25, 0.25, 0.25 et 0.25

Variabilité du taux de substitutions entre positions 50 100 150 200 250 300 Nombre de substitutions par position Alignement de cytochrome b 2065 séquences de cytochrome b de Vertebrés

Nombre de substitutions par position Variabilité du taux de substitutions entre positions 50 100 150 200 250 300 20 40 60 80 100 120 140 160 Nombre de substitutions par position Alignement de cytochrome b Observé Ajusté (a=0.54)

Modélisation par une distribution G a : paramètre de forme

Variabilité du taux de substitutions entre positions Nei et Gojobori (1986) Jin et Nei (1990) Tamura et Nei (1993) a, paramètre de la loi G p, P, P1, P2 et Q fréquences des différences, transitions,transitions A/G, transitions CXT et transversions, respectivement f, fréquence des nucléotides (R=purines, Y=pyrimidines)

Robustesse des phylogénies : l’indice de Bremer Indice de Bremer : nombre de pas à ajouter à la longueur de l’arbre le plus parcimonieux pour casser la monophylie du clade considéré Indice de Bremer (“Bremer Decay Index”) est égal à : Le nombre de pas de l’arbre le plus parcimonieux dans lequel le clade considéré n’est pas monophylétique Moins Le nombre de pas de l’arbre le plus parcimonieux dans lequel le clade considéré est monophylétique

Robustesse des phylogénies : le test du bootstrap Tirage avec remise de n positions parmi n positions Construire l’arbre phylogénétique Répéter 1) et 2) un grand nombre de fois (1000) Analyser tous les arbres obtenus (en particulier via un arbre consensus)

L’arbre de consensus majoritaire F C A D B E F B A D C E F Etc. On calcule la fréquence d’apparition des différents groupements d’espèces E et F : 100% D, E et F : 93% A et B : 52% A et C : 48% C, E et F : 7% Construire l’arbre consensus B A C D E F 52% 93% 100%

Robustesse des phylogénies : le test du jackknife Jackknife : tirage sans remise de x% des positions originales 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Le but du jackknife est de savoir si une petite fraction de l’alignement a un impact sur l’inférence phylogénétique

Robustesse des phylogénies : le test du bootstrap Le tirage avec remise de positions, en respectant l’effectif original, revient à conférer un poids aléatoire aux positions Par exemple : 2 1 0 3 0 2 1 1 1 3 0 4 0 0 1 2 2 1 1 3 0 1 0 1 3 2 0 0 (à chaque tirage, un tiers des positions ne sont pas considérés) Le but du bootstrap vise à mesurer si le signal phylogénétique en faveur d'un groupe donné est présent dans beaucoup de colonnes de l'alignement Problèmes Très couteux en temps calcul Seuil de significativité (70%, 95%)

Le principe de parcimonie Interpretation "Philosophique" rasoir d'Occam l'économie d'hypothèses est à la base de la science Interprétation probabiliste chaque fois que deux espèces ont un caractère en commun, deux interprétations sont possibles: 1- caractère hérité de l'ancêtre commun 2- convergence (acquisition indépendante) Maximum de Parcimonie <=> 1 est plus probable que 2

Le principe de parcimonie mis en défaut D'après l'interprétation probabiliste, toutes les fois où les convergences sont plus probables que les caractères dérivés partagés, le principe du Maximum de Parcimonie est inconsistant.

Attraction des longues branches 1 4 q q 2 et4 ont des branches très courtes: ont gardé l'état ancestral 1 et 3 ont des branches très longues: présentent un état complètement aléatoire ( ¼ A, ¼ C, ¼ G ¼ T) p 2 3 Felsenstein, 1978 1 4 2 3 A C G T A A A

Attraction des longues branches 1 4 1 4 1 2 2 3 3 2 4 3 Seuls ces trois états sont informatifs (tous les autres ont meme score de parcimonie sur les 3 arbres possibles) Felsenstein, 1978 1 4 2 3 A C G T A A A

Attraction des longues branches Le maximum de parcimonie favorise l'arbre faux A C A C q q p<q2 p B D B D Felsenstein, 1978 A D B C

Si A est un groupe extérieur éloigné Attraction des longues branches A C A C q q p<q2 p B D B D Felsenstein, 1978 Si A est un groupe extérieur éloigné A D B C

Inconsistence de l’inférence phylogénétique Une méthode de reconstruction phylogénétique est dite inconsistente si elle converge vers un résultat faux quand il y a de plus en plus de données ATTENTION : un très bon support statistique (par ex. 100% de bootstrap) ne garantit pas que le noeud inféré est correct

Echantillonnage taxonomique Ajouter des espèces à l’analyse permet de mieux détecter les substitutions multiples Ajouter des espèces peut “casser les longues branches” et ainsi éviter l’artefact d’attraction des longues branches (Hendy et Penny, 1989)

Distance Jukes et Cantor Biais de composition Problème : les différentes espèces n’ont pas les mêmes compositions en bases Aquifex G+C=76% Thermus G+C=73% Deinococcus G+C=49% Distance Jukes et Cantor Bacillus G+C=50% ARN ribosomique 16S