Alexis Criscuolo (ISEM, LIRMM) L’amalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)
Qui suis je? Alexis Criscuolo Licence de Mathématiques (UM2) DEA d’Informatique (LIRMM) 3ième année de Doctorat en Biologie (ISEM-LIRMM) Les chefs: Emmanuel Douzery (ISEM) Olivier Gascuel (LIRMM) Vincent Berry (LIRMM)
Plan Initiation à la phylogénie Parcimonie (pour les info) Vraisemblance (pour les info et les matheux) Distance (pour les matheux) Description des différentes méthodes d’amalgamation de données génomiques Combinaison basse (pour les bio) Combinaison haute (pour les info) Combinaison moyenne (pour les matheux) Comparaison des performances des combinaisons basse, moyenne et haute (pour les bio) Application à la phylogénie des mammifères (pour les curieux)
La phylogénie en théorie Chat Cheval Chameau Porc Dauphin Homme Rat Oie
La phylogénie en pratique
La phylogénie en pratique ame AGCTA Rat AGCTGCAA Lama ATC-GCTC Oie CTGCGGAT
La phylogénie en pratique Reconstruction phylogénétique
La phylogénie en pratique Mammifères Mammifères Oie Oie
La phylogénie en pratique Reconstruction phylogénétique
La phylogénie en pratique Reconstruction phylogénétique 1- Critère de parcimonie > Minimiser le nombre de mutations le long de l’arbre
La parcimonie 0123456789 Rat ATGCCGTGTG Porc TTGCTCAGCG Chameau TTGACCTGCG Dauphin TTGCTCTGCG Chat TTGCCCTTTG Homme ATACCGTGTG Cheval TGGCCCTTTG
La parcimonie 04578 Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC Chat TCCTT Homme ACGGT Cheval TCCTT 1236 9 TGCT G TGCA G TGAT G TACT G GGCT G
La parcimonie 04578 Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC Chat TCCTT Homme ACGGT Cheval TCCTT 1236 9 TGCT G TGCA G TGAT G TACT G GGCT G
La parcimonie 04578 Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC Chat TCCTT Homme ACGGT Cheval TCCTT 1236 9 TGCT G TGCA G TGAT G TACT G GGCT G 7:G<>T Chat Cheval Chameau Porc 8:C<>T 4:C<>T Dauphin Homme 0:A<>T 5:G<>C Rat
La parcimonie L’arbre le plus parcimonieux longueur = 9 0123456789 Rat ATGCCGTGTG Porc TTGCTCAGCG Chameau TTGACCTGCG Dauphin TTGCTCTGCG Chat TTGCCCTTTG Homme ATACCGTGTG Cheval TGGCCCTTTG 7:G<>T Chat Cheval Chameau Porc 8:C<>T 4:C<>T Dauphin Homme 0:A<>T 5:G<>C Rat
La phylogénie en pratique Reconstruction phylogénétique 2- Critère de vraisemblance > Optimiser la vraisemblance de l’arbre
La vraisemblance 01 i m W AT...GC G GTG...TG X AT...GC G GTG...TG Y AT...GC A GTG...TG Z AT...GC A GTG...TG
La vraisemblance 01 i m W AT...GC G GTG...TG X AT...GC G GTG...TG Y AT...GC A GTG...TG Z AT...GC A GTG...TG
La vraisemblance 01 i m W AT...GC G GTG...TG X AT...GC G GTG...TG Y AT...GC A GTG...TG Z AT...GC A GTG...TG X Z T W Y L( T[i] ) = vraisemblance de la topologie T pour le site i = probabilité P( i | T ) que i ait été généré par la topologie T
La vraisemblance = P + P + P + P + P + P + P + P + P + P + P + P + P G A G A G A G A = P + P + P + P + A A A C A G A T G A G A G A G A G A G A G A G A P + P + P + P + C A C C C G C T G A G A G A G A G A G A G A G A P + P + P + P + G A G C G G G T G A G A G A G A G A G A G A G A P + P + P + P T A T C T G T T G A G A G A G A
= A P(AA)² P(AC) P(AG)² La vraisemblance G A G G A A P = P C A C G A A = A P(AA)² P(AC) P(AG)² A C G T A - a b d C a - c e G b c - f T d e f -
But: trouver la topologie T qui maximise la fonction de vraisemblance La vraisemblance But: trouver la topologie T qui maximise la fonction de vraisemblance m L(T) = L( T[i] ) Site i = 0
La phylogénie en pratique Reconstruction phylogénétique 3- Critère de distances > S’approcher au plus d’une matrice additive
Distance évolutive Homme ATGCCGTGTG Cheval ATGCGGACTA Canard CTGCACCTAG
Distance évolutive F(Homme,Cheval) Homme ATGCCGTGTG Cheval ATGCGGACTA Canard CTGCACCTAG AA/n 0.1 AC/n 0.0 AG/n AT/n CA/n CC/n CG/n CT/n GA/n GC/n GG/n 0.2 GT/n TA/n TC/n TG/n TT/n
Distance évolutive F(Homme,Cheval) Homme ATGCCGTGTG Cheval ATGCGGACTA Canard CTGCACCTAG AA/n 0.1 AC/n 0.0 AG/n AT/n CA/n CC/n CG/n CT/n GA/n GC/n GG/n 0.2 GT/n TA/n TC/n TG/n TT/n Homme 0.0 Cheval 0.4 0.0 Canard 0.6 0.7 0.0 Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n)
Distance évolutive F(Homme,Cheval) Homme ATGCCGTGTG Cheval ATGCGGACTA Canard CTGCCCTTAG AA/n 0.1 AC/n 0.0 AG/n AT/n CA/n CC/n CG/n CT/n GA/n GC/n GG/n 0.2 GT/n TA/n TC/n TG/n TT/n Homme 0.00 Cheval 0.57 0.00 Canard 1.20 2.03 0.00 Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n) Distance de Jukes & Cantor: (-3/4) ln (1 – 4D/3)
Distance arborée D = 0 D = D D D + D D + D max (D + D , D + D ) i ii ij ji ij ik ki ij kl il jk ik jl i k j l
w ( - D )2 Méthode de distance Minimiser le critère mathématique suivant [Fitch & Margoliash 1967]: w ( - D )2 ij ij ij ij afin d’obtenir la représentation arborée qui se rapproche le plus de la matrice ij
NP-complétude Parcimonie Vraisemblance Distance Critères NP-complets
Heuristiques de recherche 1- Inférer « rapidement » un arbre de départ T0 1 2 - 3 2- Modifier la topologie de T0 pour obtenir la topologie T1 3- Si T1 améliore le critère, alors T0 T1 puis aller à l’étape 2 4 4- Continuer jusqu’à convergence du critère
Des jeux de données multiples Gène 1 Taxon 1 Taxon i
Des jeux de données multiples Gène 1 Taxon 1 Taxon i Taxon j
Des jeux de données multiples Gène 1 Gène 2 Taxon 1 Taxon i Taxon j
Des jeux de données multiples Gène 1 Gène 2 Taxon 1 Taxon i Taxon j Taxon n
Des jeux de données multiples Gène 1 Gène 2 Gène 3 Taxon 1 Taxon i Taxon j Taxon n
Des jeux de données multiples Gène 1 Gène 2 Gène 3 Taxon 1 Taxon n
Des jeux de données multiples mais incomplets Gène 1 Gène 2 Gène 3 Taxon 1 Taxon n
Des jeux de données multiples mais incomplets Disparition de certains gènes au cours de l’histoire évolutive
Des jeux de données multiples mais incomplets Disparition de certains gènes au cours de l’histoire évolutive Absence de séquençage de certains gènes pour une espèce donnée
Comment obtenir une phylogénie à partir d’un jeu de données incomplet? Gène 1 Gène 2 Gène 3 Taxon 1 Taxon n
Combinaison basse (pour les bio) Se débrouiller pour construire des phylogénies à partir des alignements de séquences incomplètes
Combinaison basse « total evidence »
Combinaison haute (pour les info) Récupérer les phylogénies reconstruites à partir de chaque gène et tenter de les amalgamer en une seule phylogénie synthétique: le superarbre
Combinaison haute { X | Y } Consensus
-Combinaison haute- Consensus strict D A B C D -Combinaison haute- Consensus strict A B C D
-Combinaison haute- Consensus strict D A B C D -Combinaison haute- Consensus strict A B C D
-Combinaison haute- Consensus majoritaire D A B C D A B D C -Combinaison haute- Consensus majoritaire A B C D
-Combinaison haute- Consensus majoritaire D A B C D A B D C -Combinaison haute- Consensus majoritaire A B C D
-Combinaison haute- Consensus majoritaire D A B C D A B D C -Combinaison haute- Consensus majoritaire A B C D
Combinaison haute « Build » [Aho et al. 1981] « Min Cut Supertree » [Semple & Steel 2000] « Modified Min Cut Supertree » [Page 2001] « Build With Distance » [Willson 2004]
-Combinaison haute- L’algorithme Build F B C G H D I
-Combinaison haute- L’algorithme Build F B C G H D I I H A G B F E C D
-Combinaison haute- L’algorithme Build F B C G H D I I H A G B F E C D ABCDEGH F I
-Combinaison haute- L’algorithme Build ABCDEGH F I
-Combinaison haute- L’algorithme Build ABCDEGH F I
-Combinaison haute- L’algorithme Build ABCDGH E C D F I
-Combinaison haute- L’algorithme Build ABCDGH F I
-Combinaison haute- L’algorithme Build ABCDGH C D F I
-Combinaison haute- L’algorithme Build ABCGH B E C F I
-Combinaison haute- L’algorithme Build ABCGH E F I
-Combinaison haute- L’algorithme Build ABCGH B E C F I
-Combinaison haute- L’algorithme Build ABCG D B E C F I
-Combinaison haute- L’algorithme Build ABCG D E F I
-Combinaison haute- L’algorithme Build ABCG D B E C F I
-Combinaison haute- L’algorithme Build ABC G A H G D B E C F I
-Combinaison haute- L’algorithme Build ABC G H D E F I
-Combinaison haute- L’algorithme Build ABC G A H D B E C F I
-Combinaison haute- L’algorithme Build AB G A H D B E C F I
-Combinaison haute- L’algorithme Build F B C G H D I A B C G H Build Supertree D E F I
-Combinaison haute- L’algorithme Build
-Combinaison haute- L’algorithme Build
-Combinaison haute- L’algorithme Build ABCE D C
-Combinaison haute- L’algorithme Build ABCE D
-Combinaison haute- L’algorithme Build ? A B E ABCE D C
-Combinaison haute- L’algorithme MC 2 1 1 B 1 1 E ABCE D C
-Combinaison haute- L’algorithme MC AB 1 E 1 ABCE D C
-Combinaison haute- L’algorithme MC AB E ABCE D C
-Combinaison haute- L’algorithme MC AB AB C E D C
-Combinaison haute- L’algorithme MC D E A B E C D A Min Cut Supertree B E C D
Combinaison haute MRP [Baum 1992, Ragan 1992] MRF [Chen & al. 2001] 0100101001?11?0100 01??0?011?0???0010 ??0011010??001???? 0100010??00??001?0 111??0101000????01 MRP [Baum 1992, Ragan 1992] MRF [Chen & al. 2001]
-Combinaison haute- La méthode MRP F B C G H D I
-Combinaison haute- La méthode MRP F B C G H D I ABCDEFGHI 110000???
-Combinaison haute- La méthode MRP F B C G H D I ABCDEFGHI 110000??? 111000???
-Combinaison haute- La méthode MRP F B C G H D I ABCDEFGHI 110000??? 111000??? 111100??? 111110??? 111110???
-Combinaison haute- La méthode MRP F B C G H D I ABCDEFGHI 110000??? 111000??? 111100??? 111110??? 111111??? ?110??000 ?110??100 ?110??110 ?111??110 ?111??111
-Combinaison haute- La méthode MRP F B C G H D I A B C ABCGHDIEF 110??0?00 111??0?00 111??1?00 111??1?10 111??1?11 ?110000?? ?111000?? ?111100?? ?111110?? ?111111?? G H D I E MRP Supertree F
Combinaison haute Méthode de quadruplets [Robinson-Rechavi & Graur 2001]
Combinaison moyenne Créer à partir de chaque gène un artefact mathématique afin d’amalgamer plus aisément l’information évolutive contenue dans chacun d’entre eux
Combinaison moyenne Méthode de quadruplet [Schmidt 2003]
Combinaison moyenne « Average consensus supertree » [Lapointe & Cucumel 1997]
Combinaison moyenne -ACS-
Combinaison moyenne -ACS- Soit C une collection de k matrices de distance {1 , 2 , 3 , … , k } Détection de la paire de taxons ab telle que p existe pour tout p = 1, … , k Normalisation des k matrices: p := p / p Moyenne simple pour chaque paire ij ij ij ij ij ab ij ij ab
Combinaison moyenne -ACS- D 0.52 0.04 0.00 2 A 0.00 B 0.27 0.00 C 0.34 0.28 0.00 1 ij ij
Combinaison moyenne -ACS- D 0.52 0.04 0.00 2 A 0.00 B 0.27 0.00 C 0.34 0.28 0.00 1 ij ij La paire AB est présente dans les deux matrices
Combinaison moyenne -ACS- D 1.21 0.09 0.00 2 A 0.00 B 1.00 0.00 C 1.25 1.03 0.00 1 ij ij La paire AB est présente dans les deux matrices
Combinaison moyenne -ACS- D 1.21 0.09 0.00 2 A 0.00 B 1.00 0.00 C 1.25 1.03 0.00 1 ij ij A 0.00 B 1.00 0.00 C 1.25 1.03 0.00 D 0.52 0.09 **** 0.00 ij
But Déformer les matrices sans modifier l’information topologique contenue dans chacune d’entre elles Effectuer une moyenne simple des différentes distances entre espèces
Déformation d’une matrice de distance Soient ( ) une matrice de distance et T la topologie de l’arbre inféré par une méthode de distance MD à partir de ( ). La multiplication de ( ) par un facteur de dilatation ne modifie pas la topologie T de l’arbre inféré par MD. ij ij ij
Déformation d’une matrice de distance -Dilatation-
Déformation d’une matrice de distance -Dilatation-
Déformation d’une matrice de distance Soient ( ) une matrice de distance et T la topologie de l’arbre inféré par une méthode de distance MD à partir de ( ). L’ajout d’une matrice à centre (a + a ) à ( ) ne modifie (presque) pas la topologie T de l’arbre inféré par MD. ij ij i j ij
Déformation d’une matrice de distance -Ajustement-
Déformation d’une matrice de distance -Ajustement- (a + a ) i j
Déformation d’une matrice de distance -Ajustement- +
Déformation d’une matrice de distance -Ajustement- + =
Critère mathématique On cherche à minimiser le critère: où
Contraintes Le problème est contraint afin de ne pas globalement déformer les matrices sources.
Solution Système linéaire n+2k+nk+1 variables pour k matrices définies sur n espèces Résolution du système en O(n3 k3)
Combinaison moyenne « Super Distance Matrix » [Criscuolo, Douzery, Berry & Gascuel 2004]
Meilleur type de combinaison? Combinaison basse: Meilleur critère : vraisemblance Meilleur logiciel ML : PhyML [Guindon & Gascuel 2003] Combinaison haute: Meilleure méthode : MRP Meilleur logiciel MP : TNT [Goloboff et al. 2003] Combinaison moyenne: Meilleure méthode : SDM Meilleur logiciel de distance : Fitch [Felsenstein 1993]
Simulations: protocole r8s [Sanderson 2002] Création d’un arbre modèle ultramétrique UT (i.e. respectant l’horloge moléculaire)
Simulations: protocole Obtention d’une phylogénie non-ultramétrique AT (i.e. présentant une déviation par rapport à l’horloge moléculaire) par multiplication de chaque branche par (1+X)
Simulations: protocole Obtention de k phylogénies ATp par multiplication de chaque branche par Xp/TBL
Simulations: protocole Seq-Gen [Rambaut & Grassly 1997] Génération de k alignements de b sites suivant le modèle K2P avec b tirée aléatoirement entre 200 et 1000
Simulations: protocole Délétion des taxons avec une probabilité de 25%, 50% et 75%
Simulations: protocole PhyML PAUP* SDM Fitch PhyML r8s TNT SDM Fitch
Critère métrique dq = (2+2)/C4 = 0.8 Erreur de type 1: nombre de mauvais quadruplets résolus inférés Erreur de type 2 : nombre de quadruplets résolus non inférés Distance quadruplet : moyenne des deux types d’erreurs normalisée par C n 4 c b a c ab|cd ab|ce ac|bd ac|be e et2 et1 d b Arbre modèle a Arbre inféré d e 5 dq = (2+2)/C4 = 0.8
Simulations: résultats k=2 k=20 SDM + Fitch <1s + 1s 2s + 23s SDM + Fitch + PhyML + 89s + 808s PhyML + MRP 38s + 4s 267s
Simulations: résultats k=2 k=20 SDM + Fitch <1s + 6s 4s + 24s SDM + Fitch + PhyML + 69s + 1130s PhyML + MRP 12s + 3s 153s + 18s
Simulations: résultats k=2 k=20 SDM + Fitch <1s + 1s 2s + 23s SDM + Fitch + PhyML + 21s + 2134s PhyML + MRP 6s 86s + 15s
Le jeu de données de Gatesy et al.
Jeu de données biologique 75 mammifères placentaires 7 Afrothériens en groupe externe 33 segments de gènes nucléaires 5 segments de gènes mitochondriaux 37018 sites 72620 gaps 6327 + 1826731 caractères absents 68.64 % de données manquantes
Application: la phylogénie des mammifères Rongeurs Primates Carnivores Périssodactyles Camélidés Suidés Ruminants Hippopotamidés [Gatesy et al. 2002] Cétacés
Application: la phylogénie des mammifères Rongeurs Primates Carnivores Périssodactyles Camélidés Suidés Ruminants Hippopotamidés Cétacés
MERCI…