La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Alexis Criscuolo (ISEM, LIRMM)

Présentations similaires


Présentation au sujet: "Alexis Criscuolo (ISEM, LIRMM)"— Transcription de la présentation:

1 Alexis Criscuolo (ISEM, LIRMM)
L’amalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

2 Qui suis je? Alexis Criscuolo Licence de Mathématiques (UM2)
DEA d’Informatique (LIRMM) 3ième année de Doctorat en Biologie (ISEM-LIRMM) Les chefs: Emmanuel Douzery (ISEM) Olivier Gascuel (LIRMM) Vincent Berry (LIRMM)

3 Plan Initiation à la phylogénie
Parcimonie (pour les info) Vraisemblance (pour les info et les matheux) Distance (pour les matheux) Description des différentes méthodes d’amalgamation de données génomiques Combinaison basse (pour les bio) Combinaison haute (pour les info) Combinaison moyenne (pour les matheux) Comparaison des performances des combinaisons basse, moyenne et haute (pour les bio) Application à la phylogénie des mammifères (pour les curieux)

4 La phylogénie en théorie
Chat Cheval Chameau Porc Dauphin Homme Rat Oie

5 La phylogénie en pratique

6 La phylogénie en pratique
ame AGCTA Rat AGCTGCAA Lama ATC-GCTC Oie CTGCGGAT

7 La phylogénie en pratique
Reconstruction phylogénétique

8 La phylogénie en pratique
Mammifères Mammifères Oie Oie

9 La phylogénie en pratique
Reconstruction phylogénétique

10 La phylogénie en pratique
Reconstruction phylogénétique 1- Critère de parcimonie > Minimiser le nombre de mutations le long de l’arbre

11 La parcimonie 0123456789 Rat ATGCCGTGTG Porc TTGCTCAGCG
Chameau TTGACCTGCG Dauphin TTGCTCTGCG Chat TTGCCCTTTG Homme ATACCGTGTG Cheval TGGCCCTTTG

12 La parcimonie 04578 Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC
Chat TCCTT Homme ACGGT Cheval TCCTT TGCT G TGCA G TGAT G TACT G GGCT G

13 La parcimonie 04578 Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC
Chat TCCTT Homme ACGGT Cheval TCCTT TGCT G TGCA G TGAT G TACT G GGCT G

14 La parcimonie 04578 Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC
Chat TCCTT Homme ACGGT Cheval TCCTT TGCT G TGCA G TGAT G TACT G GGCT G 7:G<>T Chat Cheval Chameau Porc 8:C<>T 4:C<>T Dauphin Homme 0:A<>T 5:G<>C Rat

15 La parcimonie L’arbre le plus parcimonieux longueur = 9 0123456789
Rat ATGCCGTGTG Porc TTGCTCAGCG Chameau TTGACCTGCG Dauphin TTGCTCTGCG Chat TTGCCCTTTG Homme ATACCGTGTG Cheval TGGCCCTTTG 7:G<>T Chat Cheval Chameau Porc 8:C<>T 4:C<>T Dauphin Homme 0:A<>T 5:G<>C Rat

16 La phylogénie en pratique
Reconstruction phylogénétique 2- Critère de vraisemblance > Optimiser la vraisemblance de l’arbre

17 La vraisemblance 01 i m W AT...GC G GTG...TG X AT...GC G GTG...TG
Y AT...GC A GTG...TG Z AT...GC A GTG...TG

18 La vraisemblance 01 i m W AT...GC G GTG...TG X AT...GC G GTG...TG
Y AT...GC A GTG...TG Z AT...GC A GTG...TG

19 La vraisemblance 01 i m W AT...GC G GTG...TG X AT...GC G GTG...TG
Y AT...GC A GTG...TG Z AT...GC A GTG...TG X Z T W Y L( T[i] ) = vraisemblance de la topologie T pour le site i = probabilité P( i | T ) que i ait été généré par la topologie T

20 La vraisemblance = P + P + P + P + P + P + P + P + P + P + P + P + P
G A G A G A G A = P + P + P + P + A A A C A G A T G A G A G A G A G A G A G A G A P + P + P + P + C A C C C G C T G A G A G A G A G A G A G A G A P + P + P + P + G A G C G G G T G A G A G A G A G A G A G A G A P + P + P + P T A T C T G T T G A G A G A G A

21 = A  P(AA)²  P(AC)  P(AG)²
La vraisemblance G A G G A A P = P C A C G A A = A  P(AA)²  P(AC)  P(AG)² A C G T A - a b d C a - c e G b c - f T d e f -

22 But: trouver la topologie T qui maximise la fonction de vraisemblance
La vraisemblance But: trouver la topologie T qui maximise la fonction de vraisemblance m L(T) =  L( T[i] ) Site i = 0

23 La phylogénie en pratique
Reconstruction phylogénétique 3- Critère de distances > S’approcher au plus d’une matrice additive

24 Distance évolutive Homme ATGCCGTGTG Cheval ATGCGGACTA
Canard CTGCACCTAG

25 Distance évolutive F(Homme,Cheval) Homme ATGCCGTGTG Cheval ATGCGGACTA
Canard CTGCACCTAG AA/n 0.1 AC/n 0.0 AG/n AT/n CA/n CC/n CG/n CT/n GA/n GC/n GG/n 0.2 GT/n TA/n TC/n TG/n TT/n

26 Distance évolutive F(Homme,Cheval) Homme ATGCCGTGTG Cheval ATGCGGACTA
Canard CTGCACCTAG AA/n 0.1 AC/n 0.0 AG/n AT/n CA/n CC/n CG/n CT/n GA/n GC/n GG/n 0.2 GT/n TA/n TC/n TG/n TT/n Homme 0.0 Cheval Canard Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n)

27 Distance évolutive F(Homme,Cheval) Homme ATGCCGTGTG Cheval ATGCGGACTA
Canard CTGCCCTTAG AA/n 0.1 AC/n 0.0 AG/n AT/n CA/n CC/n CG/n CT/n GA/n GC/n GG/n 0.2 GT/n TA/n TC/n TG/n TT/n Homme Cheval Canard Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n) Distance de Jukes & Cantor: (-3/4) ln (1 – 4D/3)

28 Distance arborée D = 0 D = D D  D + D D + D  max (D + D , D + D ) i
ii ij ji ij ik ki ij kl il jk ik jl i k j l

29  w ( - D )2 Méthode de distance
Minimiser le critère mathématique suivant [Fitch & Margoliash 1967]:  w ( - D )2 ij ij ij ij afin d’obtenir la représentation arborée qui se rapproche le plus de la matrice  ij

30 NP-complétude Parcimonie Vraisemblance Distance Critères NP-complets

31 Heuristiques de recherche
1- Inférer « rapidement » un arbre de départ T0 1 2 - 3 2- Modifier la topologie de T0 pour obtenir la topologie T1 3- Si T1 améliore le critère, alors T0  T1 puis aller à l’étape 2 4 4- Continuer jusqu’à convergence du critère

32 Des jeux de données multiples
Gène 1 Taxon 1 Taxon i

33 Des jeux de données multiples
Gène 1 Taxon 1 Taxon i Taxon j

34 Des jeux de données multiples
Gène 1 Gène 2 Taxon 1 Taxon i Taxon j

35 Des jeux de données multiples
Gène 1 Gène 2 Taxon 1 Taxon i Taxon j Taxon n

36 Des jeux de données multiples
Gène 1 Gène 2 Gène 3 Taxon 1 Taxon i Taxon j Taxon n

37 Des jeux de données multiples
Gène 1 Gène 2 Gène 3 Taxon 1 Taxon n

38 Des jeux de données multiples mais incomplets
Gène 1 Gène 2 Gène 3 Taxon 1 Taxon n

39 Des jeux de données multiples mais incomplets
Disparition de certains gènes au cours de l’histoire évolutive

40 Des jeux de données multiples mais incomplets
Disparition de certains gènes au cours de l’histoire évolutive Absence de séquençage de certains gènes pour une espèce donnée

41 Comment obtenir une phylogénie à partir d’un jeu de données incomplet?
Gène 1 Gène 2 Gène 3 Taxon 1 Taxon n

42 Combinaison basse (pour les bio)
Se débrouiller pour construire des phylogénies à partir des alignements de séquences incomplètes

43 Combinaison basse « total evidence »

44 Combinaison haute (pour les info)
Récupérer les phylogénies reconstruites à partir de chaque gène et tenter de les amalgamer en une seule phylogénie synthétique: le superarbre

45 Combinaison haute { X | Y } Consensus

46 -Combinaison haute- Consensus strict
D A B C D -Combinaison haute- Consensus strict A B C D

47 -Combinaison haute- Consensus strict
D A B C D -Combinaison haute- Consensus strict A B C D

48 -Combinaison haute- Consensus majoritaire
D A B C D A B D C -Combinaison haute- Consensus majoritaire A B C D

49 -Combinaison haute- Consensus majoritaire
D A B C D A B D C -Combinaison haute- Consensus majoritaire A B C D

50 -Combinaison haute- Consensus majoritaire
D A B C D A B D C -Combinaison haute- Consensus majoritaire A B C D

51 Combinaison haute « Build » [Aho et al. 1981]
« Min Cut Supertree » [Semple & Steel 2000] « Modified Min Cut Supertree » [Page 2001] « Build With Distance » [Willson 2004]

52 -Combinaison haute- L’algorithme Build
F B C G H D I

53 -Combinaison haute- L’algorithme Build
F B C G H D I I H A G B F E C D

54 -Combinaison haute- L’algorithme Build
F B C G H D I I H A G B F E C D ABCDEGH F I

55 -Combinaison haute- L’algorithme Build
ABCDEGH F I

56 -Combinaison haute- L’algorithme Build
ABCDEGH F I

57 -Combinaison haute- L’algorithme Build
ABCDGH E C D F I

58 -Combinaison haute- L’algorithme Build
ABCDGH F I

59 -Combinaison haute- L’algorithme Build
ABCDGH C D F I

60 -Combinaison haute- L’algorithme Build
ABCGH B E C F I

61 -Combinaison haute- L’algorithme Build
ABCGH E F I

62 -Combinaison haute- L’algorithme Build
ABCGH B E C F I

63 -Combinaison haute- L’algorithme Build
ABCG D B E C F I

64 -Combinaison haute- L’algorithme Build
ABCG D E F I

65 -Combinaison haute- L’algorithme Build
ABCG D B E C F I

66 -Combinaison haute- L’algorithme Build
ABC G A H G D B E C F I

67 -Combinaison haute- L’algorithme Build
ABC G H D E F I

68 -Combinaison haute- L’algorithme Build
ABC G A H D B E C F I

69 -Combinaison haute- L’algorithme Build
AB G A H D B E C F I

70 -Combinaison haute- L’algorithme Build
F B C G H D I A B C G H Build Supertree D E F I

71 -Combinaison haute- L’algorithme Build

72 -Combinaison haute- L’algorithme Build

73 -Combinaison haute- L’algorithme Build
ABCE D C

74 -Combinaison haute- L’algorithme Build
ABCE D

75 -Combinaison haute- L’algorithme Build
? A B E ABCE D C

76 -Combinaison haute- L’algorithme MC
2 1 1 B 1 1 E ABCE D C

77 -Combinaison haute- L’algorithme MC
AB 1 E 1 ABCE D C

78 -Combinaison haute- L’algorithme MC
AB E ABCE D C

79 -Combinaison haute- L’algorithme MC
AB AB C E D C

80 -Combinaison haute- L’algorithme MC
D E A B E C D A Min Cut Supertree B E C D

81 Combinaison haute MRP [Baum 1992, Ragan 1992] MRF [Chen & al. 2001]
?11?0100 01??0?011?0???0010 ?? ??001???? ??00??001?0 111?? ????01 MRP [Baum 1992, Ragan 1992] MRF [Chen & al. 2001]

82 -Combinaison haute- La méthode MRP
F B C G H D I

83 -Combinaison haute- La méthode MRP
F B C G H D I ABCDEFGHI 110000???

84 -Combinaison haute- La méthode MRP
F B C G H D I ABCDEFGHI 110000??? 111000???

85 -Combinaison haute- La méthode MRP
F B C G H D I ABCDEFGHI 110000??? 111000??? 111100??? 111110??? 111110???

86 -Combinaison haute- La méthode MRP
F B C G H D I ABCDEFGHI 110000??? 111000??? 111100??? 111110??? 111111??? ?110??000 ?110??100 ?110??110 ?111??110 ?111??111

87 -Combinaison haute- La méthode MRP
F B C G H D I A B C ABCGHDIEF 110??0?00 111??0?00 111??1?00 111??1?10 111??1?11 ?110000?? ?111000?? ?111100?? ?111110?? ?111111?? G H D I E MRP Supertree F

88 Combinaison haute Méthode de quadruplets [Robinson-Rechavi & Graur 2001]

89 Combinaison moyenne Créer à partir de chaque gène un artefact mathématique afin d’amalgamer plus aisément l’information évolutive contenue dans chacun d’entre eux

90 Combinaison moyenne Méthode de quadruplet [Schmidt 2003]

91 Combinaison moyenne « Average consensus supertree » [Lapointe & Cucumel 1997]

92 Combinaison moyenne -ACS-

93 Combinaison moyenne -ACS-
Soit C une collection de k matrices de distance {1 , 2 , 3 , … , k } Détection de la paire de taxons ab telle que p existe pour tout p = 1, … , k Normalisation des k matrices: p := p / p Moyenne simple pour chaque paire ij ij ij ij ij ab ij ij ab

94 Combinaison moyenne -ACS-
D 2 A 0.00 B C 1 ij ij

95 Combinaison moyenne -ACS-
D 2 A 0.00 B C 1 ij ij La paire AB est présente dans les deux matrices

96 Combinaison moyenne -ACS-
D 2 A 0.00 B C 1 ij ij La paire AB est présente dans les deux matrices

97 Combinaison moyenne -ACS-
D 2 A 0.00 B C 1 ij ij A 0.00 B C D **** 0.00 ij

98 But Déformer les matrices sans modifier l’information topologique contenue dans chacune d’entre elles Effectuer une moyenne simple des différentes distances entre espèces

99 Déformation d’une matrice de distance
Soient ( ) une matrice de distance et T la topologie de l’arbre inféré par une méthode de distance MD à partir de ( ). La multiplication de ( ) par un facteur de dilatation  ne modifie pas la topologie T de l’arbre inféré par MD. ij ij ij

100 Déformation d’une matrice de distance -Dilatation-

101 Déformation d’une matrice de distance -Dilatation-

102 Déformation d’une matrice de distance
Soient ( ) une matrice de distance et T la topologie de l’arbre inféré par une méthode de distance MD à partir de ( ). L’ajout d’une matrice à centre (a + a ) à ( ) ne modifie (presque) pas la topologie T de l’arbre inféré par MD. ij ij i j ij

103 Déformation d’une matrice de distance -Ajustement-

104 Déformation d’une matrice de distance -Ajustement-
(a + a ) i j

105 Déformation d’une matrice de distance -Ajustement-
+

106 Déformation d’une matrice de distance -Ajustement-
+ =

107 Critère mathématique On cherche à minimiser le critère:

108 Contraintes Le problème est contraint afin de ne pas globalement déformer les matrices sources.

109 Solution Système linéaire
n+2k+nk+1 variables pour k matrices définies sur n espèces Résolution du système en O(n3 k3)

110 Combinaison moyenne « Super Distance Matrix » [Criscuolo, Douzery, Berry & Gascuel 2004]

111 Meilleur type de combinaison?
Combinaison basse: Meilleur critère : vraisemblance Meilleur logiciel ML : PhyML [Guindon & Gascuel 2003] Combinaison haute: Meilleure méthode : MRP Meilleur logiciel MP : TNT [Goloboff et al. 2003] Combinaison moyenne: Meilleure méthode : SDM Meilleur logiciel de distance : Fitch [Felsenstein 1993]

112 Simulations: protocole
r8s [Sanderson 2002] Création d’un arbre modèle ultramétrique UT (i.e. respectant l’horloge moléculaire)

113 Simulations: protocole
Obtention d’une phylogénie non-ultramétrique AT (i.e. présentant une déviation par rapport à l’horloge moléculaire) par multiplication de chaque branche par (1+X)

114 Simulations: protocole
Obtention de k phylogénies ATp par multiplication de chaque branche par Xp/TBL

115 Simulations: protocole
Seq-Gen [Rambaut & Grassly 1997] Génération de k alignements de b sites suivant le modèle K2P avec b tirée aléatoirement entre 200 et 1000

116 Simulations: protocole
Délétion des taxons avec une probabilité de 25%, 50% et 75%

117 Simulations: protocole
PhyML PAUP* SDM Fitch PhyML r8s TNT SDM Fitch

118 Critère métrique dq = (2+2)/C4 = 0.8
Erreur de type 1: nombre de mauvais quadruplets résolus inférés Erreur de type 2 : nombre de quadruplets résolus non inférés Distance quadruplet : moyenne des deux types d’erreurs normalisée par C n 4 c b a c ab|cd ab|ce ac|bd ac|be e et2 et1 d b Arbre modèle a Arbre inféré d e 5 dq = (2+2)/C4 = 0.8

119 Simulations: résultats
k=2 k=20 SDM + Fitch <1s + 1s 2s + 23s SDM + Fitch + PhyML + 89s + 808s PhyML + MRP 38s + 4s 267s

120 Simulations: résultats
k=2 k=20 SDM + Fitch <1s + 6s 4s + 24s SDM + Fitch + PhyML + 69s + 1130s PhyML + MRP 12s + 3s 153s + 18s

121 Simulations: résultats
k=2 k=20 SDM + Fitch <1s + 1s 2s + 23s SDM + Fitch + PhyML + 21s + 2134s PhyML + MRP 6s 86s + 15s

122 Le jeu de données de Gatesy et al.

123 Jeu de données biologique
75 mammifères placentaires 7 Afrothériens en groupe externe 33 segments de gènes nucléaires 5 segments de gènes mitochondriaux 37018 sites 72620 gaps caractères absents  % de données manquantes

124 Application: la phylogénie des mammifères
Rongeurs Primates Carnivores Périssodactyles Camélidés Suidés Ruminants Hippopotamidés [Gatesy et al. 2002] Cétacés

125 Application: la phylogénie des mammifères
Rongeurs Primates Carnivores Périssodactyles Camélidés Suidés Ruminants Hippopotamidés Cétacés

126 MERCI…


Télécharger ppt "Alexis Criscuolo (ISEM, LIRMM)"

Présentations similaires


Annonces Google