Télécharger la présentation
1
Alexis Criscuolo (ISEM, LIRMM)
L’amalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)
2
Qui suis je? Alexis Criscuolo Licence de Mathématiques (UM2)
DEA d’Informatique (LIRMM) 3ième année de Doctorat en Biologie (ISEM-LIRMM) Les chefs: Emmanuel Douzery (ISEM) Olivier Gascuel (LIRMM) Vincent Berry (LIRMM)
3
Plan Initiation à la phylogénie
Parcimonie (pour les info) Vraisemblance (pour les info et les matheux) Distance (pour les matheux) Description des différentes méthodes d’amalgamation de données génomiques Combinaison basse (pour les bio) Combinaison haute (pour les info) Combinaison moyenne (pour les matheux) Comparaison des performances des combinaisons basse, moyenne et haute (pour les bio) Application à la phylogénie des mammifères (pour les curieux)
4
La phylogénie en théorie
Chat Cheval Chameau Porc Dauphin Homme Rat Oie
5
La phylogénie en pratique
6
La phylogénie en pratique
ame AGCTA Rat AGCTGCAA Lama ATC-GCTC Oie CTGCGGAT
7
La phylogénie en pratique
Reconstruction phylogénétique
8
La phylogénie en pratique
Mammifères Mammifères Oie Oie
9
La phylogénie en pratique
Reconstruction phylogénétique
10
La phylogénie en pratique
Reconstruction phylogénétique 1- Critère de parcimonie > Minimiser le nombre de mutations le long de l’arbre
11
La parcimonie 0123456789 Rat ATGCCGTGTG Porc TTGCTCAGCG
Chameau TTGACCTGCG Dauphin TTGCTCTGCG Chat TTGCCCTTTG Homme ATACCGTGTG Cheval TGGCCCTTTG
12
La parcimonie 04578 Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC
Chat TCCTT Homme ACGGT Cheval TCCTT TGCT G TGCA G TGAT G TACT G GGCT G
13
La parcimonie 04578 Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC
Chat TCCTT Homme ACGGT Cheval TCCTT TGCT G TGCA G TGAT G TACT G GGCT G
14
La parcimonie 04578 Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC
Chat TCCTT Homme ACGGT Cheval TCCTT TGCT G TGCA G TGAT G TACT G GGCT G 7:G<>T Chat Cheval Chameau Porc 8:C<>T 4:C<>T Dauphin Homme 0:A<>T 5:G<>C Rat
15
La parcimonie L’arbre le plus parcimonieux longueur = 9 0123456789
Rat ATGCCGTGTG Porc TTGCTCAGCG Chameau TTGACCTGCG Dauphin TTGCTCTGCG Chat TTGCCCTTTG Homme ATACCGTGTG Cheval TGGCCCTTTG 7:G<>T Chat Cheval Chameau Porc 8:C<>T 4:C<>T Dauphin Homme 0:A<>T 5:G<>C Rat
16
La phylogénie en pratique
Reconstruction phylogénétique 2- Critère de vraisemblance > Optimiser la vraisemblance de l’arbre
17
La vraisemblance 01 i m W AT...GC G GTG...TG X AT...GC G GTG...TG
Y AT...GC A GTG...TG Z AT...GC A GTG...TG
18
La vraisemblance 01 i m W AT...GC G GTG...TG X AT...GC G GTG...TG
Y AT...GC A GTG...TG Z AT...GC A GTG...TG
19
La vraisemblance 01 i m W AT...GC G GTG...TG X AT...GC G GTG...TG
Y AT...GC A GTG...TG Z AT...GC A GTG...TG X Z T W Y L( T[i] ) = vraisemblance de la topologie T pour le site i = probabilité P( i | T ) que i ait été généré par la topologie T
20
La vraisemblance = P + P + P + P + P + P + P + P + P + P + P + P + P
G A G A G A G A = P + P + P + P + A A A C A G A T G A G A G A G A G A G A G A G A P + P + P + P + C A C C C G C T G A G A G A G A G A G A G A G A P + P + P + P + G A G C G G G T G A G A G A G A G A G A G A G A P + P + P + P T A T C T G T T G A G A G A G A
21
= A P(AA)² P(AC) P(AG)²
La vraisemblance G A G G A A P = P C A C G A A = A P(AA)² P(AC) P(AG)² A C G T A - a b d C a - c e G b c - f T d e f -
22
But: trouver la topologie T qui maximise la fonction de vraisemblance
La vraisemblance But: trouver la topologie T qui maximise la fonction de vraisemblance m L(T) = L( T[i] ) Site i = 0
23
La phylogénie en pratique
Reconstruction phylogénétique 3- Critère de distances > S’approcher au plus d’une matrice additive
24
Distance évolutive Homme ATGCCGTGTG Cheval ATGCGGACTA
Canard CTGCACCTAG
25
Distance évolutive F(Homme,Cheval) Homme ATGCCGTGTG Cheval ATGCGGACTA
Canard CTGCACCTAG AA/n 0.1 AC/n 0.0 AG/n AT/n CA/n CC/n CG/n CT/n GA/n GC/n GG/n 0.2 GT/n TA/n TC/n TG/n TT/n
26
Distance évolutive F(Homme,Cheval) Homme ATGCCGTGTG Cheval ATGCGGACTA
Canard CTGCACCTAG AA/n 0.1 AC/n 0.0 AG/n AT/n CA/n CC/n CG/n CT/n GA/n GC/n GG/n 0.2 GT/n TA/n TC/n TG/n TT/n Homme 0.0 Cheval Canard Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n)
27
Distance évolutive F(Homme,Cheval) Homme ATGCCGTGTG Cheval ATGCGGACTA
Canard CTGCCCTTAG AA/n 0.1 AC/n 0.0 AG/n AT/n CA/n CC/n CG/n CT/n GA/n GC/n GG/n 0.2 GT/n TA/n TC/n TG/n TT/n Homme Cheval Canard Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n) Distance de Jukes & Cantor: (-3/4) ln (1 – 4D/3)
28
Distance arborée D = 0 D = D D D + D D + D max (D + D , D + D ) i
ii ij ji ij ik ki ij kl il jk ik jl i k j l
29
w ( - D )2 Méthode de distance
Minimiser le critère mathématique suivant [Fitch & Margoliash 1967]: w ( - D )2 ij ij ij ij afin d’obtenir la représentation arborée qui se rapproche le plus de la matrice ij
30
NP-complétude Parcimonie Vraisemblance Distance Critères NP-complets
31
Heuristiques de recherche
1- Inférer « rapidement » un arbre de départ T0 1 2 - 3 2- Modifier la topologie de T0 pour obtenir la topologie T1 3- Si T1 améliore le critère, alors T0 T1 puis aller à l’étape 2 4 4- Continuer jusqu’à convergence du critère
32
Des jeux de données multiples
Gène 1 Taxon 1 Taxon i
33
Des jeux de données multiples
Gène 1 Taxon 1 Taxon i Taxon j
34
Des jeux de données multiples
Gène 1 Gène 2 Taxon 1 Taxon i Taxon j
35
Des jeux de données multiples
Gène 1 Gène 2 Taxon 1 Taxon i Taxon j Taxon n
36
Des jeux de données multiples
Gène 1 Gène 2 Gène 3 Taxon 1 Taxon i Taxon j Taxon n
37
Des jeux de données multiples
Gène 1 Gène 2 Gène 3 Taxon 1 Taxon n
38
Des jeux de données multiples mais incomplets
Gène 1 Gène 2 Gène 3 Taxon 1 Taxon n
39
Des jeux de données multiples mais incomplets
Disparition de certains gènes au cours de l’histoire évolutive
40
Des jeux de données multiples mais incomplets
Disparition de certains gènes au cours de l’histoire évolutive Absence de séquençage de certains gènes pour une espèce donnée
41
Comment obtenir une phylogénie à partir d’un jeu de données incomplet?
Gène 1 Gène 2 Gène 3 Taxon 1 Taxon n
42
Combinaison basse (pour les bio)
Se débrouiller pour construire des phylogénies à partir des alignements de séquences incomplètes
43
Combinaison basse « total evidence »
44
Combinaison haute (pour les info)
Récupérer les phylogénies reconstruites à partir de chaque gène et tenter de les amalgamer en une seule phylogénie synthétique: le superarbre
45
Combinaison haute { X | Y } Consensus
46
-Combinaison haute- Consensus strict
D A B C D -Combinaison haute- Consensus strict A B C D
47
-Combinaison haute- Consensus strict
D A B C D -Combinaison haute- Consensus strict A B C D
48
-Combinaison haute- Consensus majoritaire
D A B C D A B D C -Combinaison haute- Consensus majoritaire A B C D
49
-Combinaison haute- Consensus majoritaire
D A B C D A B D C -Combinaison haute- Consensus majoritaire A B C D
50
-Combinaison haute- Consensus majoritaire
D A B C D A B D C -Combinaison haute- Consensus majoritaire A B C D
51
Combinaison haute « Build » [Aho et al. 1981]
« Min Cut Supertree » [Semple & Steel 2000] « Modified Min Cut Supertree » [Page 2001] « Build With Distance » [Willson 2004]
52
-Combinaison haute- L’algorithme Build
F B C G H D I
53
-Combinaison haute- L’algorithme Build
F B C G H D I I H A G B F E C D
54
-Combinaison haute- L’algorithme Build
F B C G H D I I H A G B F E C D ABCDEGH F I
55
-Combinaison haute- L’algorithme Build
ABCDEGH F I
56
-Combinaison haute- L’algorithme Build
ABCDEGH F I
57
-Combinaison haute- L’algorithme Build
ABCDGH E C D F I
58
-Combinaison haute- L’algorithme Build
ABCDGH F I
59
-Combinaison haute- L’algorithme Build
ABCDGH C D F I
60
-Combinaison haute- L’algorithme Build
ABCGH B E C F I
61
-Combinaison haute- L’algorithme Build
ABCGH E F I
62
-Combinaison haute- L’algorithme Build
ABCGH B E C F I
63
-Combinaison haute- L’algorithme Build
ABCG D B E C F I
64
-Combinaison haute- L’algorithme Build
ABCG D E F I
65
-Combinaison haute- L’algorithme Build
ABCG D B E C F I
66
-Combinaison haute- L’algorithme Build
ABC G A H G D B E C F I
67
-Combinaison haute- L’algorithme Build
ABC G H D E F I
68
-Combinaison haute- L’algorithme Build
ABC G A H D B E C F I
69
-Combinaison haute- L’algorithme Build
AB G A H D B E C F I
70
-Combinaison haute- L’algorithme Build
F B C G H D I A B C G H Build Supertree D E F I
71
-Combinaison haute- L’algorithme Build
72
-Combinaison haute- L’algorithme Build
73
-Combinaison haute- L’algorithme Build
ABCE D C
74
-Combinaison haute- L’algorithme Build
ABCE D
75
-Combinaison haute- L’algorithme Build
? A B E ABCE D C
76
-Combinaison haute- L’algorithme MC
2 1 1 B 1 1 E ABCE D C
77
-Combinaison haute- L’algorithme MC
AB 1 E 1 ABCE D C
78
-Combinaison haute- L’algorithme MC
AB E ABCE D C
79
-Combinaison haute- L’algorithme MC
AB AB C E D C
80
-Combinaison haute- L’algorithme MC
D E A B E C D A Min Cut Supertree B E C D
81
Combinaison haute MRP [Baum 1992, Ragan 1992] MRF [Chen & al. 2001]
?11?0100 01??0?011?0???0010 ?? ??001???? ??00??001?0 111?? ????01 MRP [Baum 1992, Ragan 1992] MRF [Chen & al. 2001]
82
-Combinaison haute- La méthode MRP
F B C G H D I
83
-Combinaison haute- La méthode MRP
F B C G H D I ABCDEFGHI 110000???
84
-Combinaison haute- La méthode MRP
F B C G H D I ABCDEFGHI 110000??? 111000???
85
-Combinaison haute- La méthode MRP
F B C G H D I ABCDEFGHI 110000??? 111000??? 111100??? 111110??? 111110???
86
-Combinaison haute- La méthode MRP
F B C G H D I ABCDEFGHI 110000??? 111000??? 111100??? 111110??? 111111??? ?110??000 ?110??100 ?110??110 ?111??110 ?111??111
87
-Combinaison haute- La méthode MRP
F B C G H D I A B C ABCGHDIEF 110??0?00 111??0?00 111??1?00 111??1?10 111??1?11 ?110000?? ?111000?? ?111100?? ?111110?? ?111111?? G H D I E MRP Supertree F
88
Combinaison haute Méthode de quadruplets [Robinson-Rechavi & Graur 2001]
89
Combinaison moyenne Créer à partir de chaque gène un artefact mathématique afin d’amalgamer plus aisément l’information évolutive contenue dans chacun d’entre eux
90
Combinaison moyenne Méthode de quadruplet [Schmidt 2003]
91
Combinaison moyenne « Average consensus supertree » [Lapointe & Cucumel 1997]
92
Combinaison moyenne -ACS-
93
Combinaison moyenne -ACS-
Soit C une collection de k matrices de distance {1 , 2 , 3 , … , k } Détection de la paire de taxons ab telle que p existe pour tout p = 1, … , k Normalisation des k matrices: p := p / p Moyenne simple pour chaque paire ij ij ij ij ij ab ij ij ab
94
Combinaison moyenne -ACS-
D 2 A 0.00 B C 1 ij ij
95
Combinaison moyenne -ACS-
D 2 A 0.00 B C 1 ij ij La paire AB est présente dans les deux matrices
96
Combinaison moyenne -ACS-
D 2 A 0.00 B C 1 ij ij La paire AB est présente dans les deux matrices
97
Combinaison moyenne -ACS-
D 2 A 0.00 B C 1 ij ij A 0.00 B C D **** 0.00 ij
98
But Déformer les matrices sans modifier l’information topologique contenue dans chacune d’entre elles Effectuer une moyenne simple des différentes distances entre espèces
99
Déformation d’une matrice de distance
Soient ( ) une matrice de distance et T la topologie de l’arbre inféré par une méthode de distance MD à partir de ( ). La multiplication de ( ) par un facteur de dilatation ne modifie pas la topologie T de l’arbre inféré par MD. ij ij ij
100
Déformation d’une matrice de distance -Dilatation-
101
Déformation d’une matrice de distance -Dilatation-
102
Déformation d’une matrice de distance
Soient ( ) une matrice de distance et T la topologie de l’arbre inféré par une méthode de distance MD à partir de ( ). L’ajout d’une matrice à centre (a + a ) à ( ) ne modifie (presque) pas la topologie T de l’arbre inféré par MD. ij ij i j ij
103
Déformation d’une matrice de distance -Ajustement-
104
Déformation d’une matrice de distance -Ajustement-
(a + a ) i j
105
Déformation d’une matrice de distance -Ajustement-
+
106
Déformation d’une matrice de distance -Ajustement-
+ =
107
Critère mathématique On cherche à minimiser le critère: où
108
Contraintes Le problème est contraint afin de ne pas globalement déformer les matrices sources.
109
Solution Système linéaire
n+2k+nk+1 variables pour k matrices définies sur n espèces Résolution du système en O(n3 k3)
110
Combinaison moyenne « Super Distance Matrix » [Criscuolo, Douzery, Berry & Gascuel 2004]
111
Meilleur type de combinaison?
Combinaison basse: Meilleur critère : vraisemblance Meilleur logiciel ML : PhyML [Guindon & Gascuel 2003] Combinaison haute: Meilleure méthode : MRP Meilleur logiciel MP : TNT [Goloboff et al. 2003] Combinaison moyenne: Meilleure méthode : SDM Meilleur logiciel de distance : Fitch [Felsenstein 1993]
112
Simulations: protocole
r8s [Sanderson 2002] Création d’un arbre modèle ultramétrique UT (i.e. respectant l’horloge moléculaire)
113
Simulations: protocole
Obtention d’une phylogénie non-ultramétrique AT (i.e. présentant une déviation par rapport à l’horloge moléculaire) par multiplication de chaque branche par (1+X)
114
Simulations: protocole
Obtention de k phylogénies ATp par multiplication de chaque branche par Xp/TBL
115
Simulations: protocole
Seq-Gen [Rambaut & Grassly 1997] Génération de k alignements de b sites suivant le modèle K2P avec b tirée aléatoirement entre 200 et 1000
116
Simulations: protocole
Délétion des taxons avec une probabilité de 25%, 50% et 75%
117
Simulations: protocole
PhyML PAUP* SDM Fitch PhyML r8s TNT SDM Fitch
118
Critère métrique dq = (2+2)/C4 = 0.8
Erreur de type 1: nombre de mauvais quadruplets résolus inférés Erreur de type 2 : nombre de quadruplets résolus non inférés Distance quadruplet : moyenne des deux types d’erreurs normalisée par C n 4 c b a c ab|cd ab|ce ac|bd ac|be e et2 et1 d b Arbre modèle a Arbre inféré d e 5 dq = (2+2)/C4 = 0.8
119
Simulations: résultats
k=2 k=20 SDM + Fitch <1s + 1s 2s + 23s SDM + Fitch + PhyML + 89s + 808s PhyML + MRP 38s + 4s 267s
120
Simulations: résultats
k=2 k=20 SDM + Fitch <1s + 6s 4s + 24s SDM + Fitch + PhyML + 69s + 1130s PhyML + MRP 12s + 3s 153s + 18s
121
Simulations: résultats
k=2 k=20 SDM + Fitch <1s + 1s 2s + 23s SDM + Fitch + PhyML + 21s + 2134s PhyML + MRP 6s 86s + 15s
122
Le jeu de données de Gatesy et al.
123
Jeu de données biologique
75 mammifères placentaires 7 Afrothériens en groupe externe 33 segments de gènes nucléaires 5 segments de gènes mitochondriaux 37018 sites 72620 gaps caractères absents % de données manquantes
124
Application: la phylogénie des mammifères
Rongeurs Primates Carnivores Périssodactyles Camélidés Suidés Ruminants Hippopotamidés [Gatesy et al. 2002] Cétacés
125
Application: la phylogénie des mammifères
Rongeurs Primates Carnivores Périssodactyles Camélidés Suidés Ruminants Hippopotamidés Cétacés
126
MERCI…
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.