La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Présentations similaires


Présentation au sujet: "Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)"— Transcription de la présentation:

1 Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

2 Qui suis je? Alexis Criscuolo –Licence de Mathématiques ( UM2 ) –DEA dInformatique ( LIRMM ) –3 ième année de Doctorat en Biologie ( ISEM - LIRMM ) Les chefs: Emmanuel Douzery ( ISEM ) Olivier Gascuel (LIRMM) Vincent Berry (LIRMM)

3 Plan Initiation à la phylogénie –Parcimonie ( pour les info ) –Vraisemblance ( pour les info et les matheux ) –Distance ( pour les matheux ) Description des différentes méthodes damalgamation de données génomiques –Combinaison basse ( pour les bio ) –Combinaison haute ( pour les info ) –Combinaison moyenne ( pour les matheux ) Comparaison des performances des combinaisons basse, moyenne et haute ( pour les bio ) Application à la phylogénie des mammifères ( pour les curieux )

4 La phylogénie en théorie Oie Rat Homme Chat Porc Dauphin Cheval Chameau

5 La phylogénie en pratique

6 ame AGCTA Rat AGCTGCAA Lama ATC-GCTC Oie CTGCGGAT

7 La phylogénie en pratique Reconstruction phylogénétique

8 La phylogénie en pratique Oie Mammifères MammifèresMammifères

9 La phylogénie en pratique Reconstruction phylogénétique

10 La phylogénie en pratique Reconstruction phylogénétique 1- Critère de parcimonie > Minimiser le nombre de mutations le long de larbre

11 La parcimonie Rat ATGCCGTGTG Porc TTGCTCAGCG Chameau TTGACCTGCG Dauphin TTGCTCTGCG Chat TTGCCCTTTG Homme ATACCGTGTG Cheval TGGCCCTTTG

12 La parcimonie Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC Chat TCCTT Homme ACGGT Cheval TCCTT TGCT G TGCA G TGAT G TGCT G TACT G GGCT G

13 La parcimonie Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC Chat TCCTT Homme ACGGT Cheval TCCTT TGCT G TGCA G TGAT G TGCT G TACT G GGCT G

14 La parcimonie Rat Homme Chat Porc Dauphin Cheval Chameau 0:A<>T 5:G<>C 4:C<>T 7:G<>T 8:C<>T Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC Chat TCCTT Homme ACGGT Cheval TCCTT TGCT G TGCA G TGAT G TGCT G TACT G GGCT G

15 La parcimonie Rat ATGCCGTGTG Porc TTGCTCAGCG Chameau TTGACCTGCG Dauphin TTGCTCTGCG Chat TTGCCCTTTG Homme ATACCGTGTG Cheval TGGCCCTTTG Rat Homme Chat Porc Dauphin Cheval Chameau 0:A<>T 5:G<>C 4:C<>T 7:G<>T 8:C<>T Larbre le plus parcimonieux longueur = 9

16 La phylogénie en pratique Reconstruction phylogénétique 2- Critère de vraisemblance > Optimiser la vraisemblance de larbre

17 La vraisemblance 01 i m W AT...GC G GTG...TG X AT...GC G GTG...TG Y AT...GC A GTG...TG Z AT...GC A GTG...TG

18 La vraisemblance 01 i m W AT...GC G GTG...TG X AT...GC G GTG...TG Y AT...GC A GTG...TG Z AT...GC A GTG...TG

19 La vraisemblance 01 i m W AT...GC G GTG...TG X AT...GC G GTG...TG Y AT...GC A GTG...TG Z AT...GC A GTG...TG X WY Z T L( T[i] ) = vraisemblance de la topologie T pour le site i = probabilité P( i | T ) que i ait été généré par la topologie T

20 G G A A AA P G G A A CA P G G A A GA P G G A A TA P G G A A AC + P G G A A CC G G A A GC G G A A TC G G A A AG G G A A CG G G A A GG G G A A TG G G A A AT G G A A CT G G A A GT G G A A TT La vraisemblance =

21 = A P(A A)² P(A C) P(A G)² G G A A CA P GGAA C A P= La vraisemblance A C G T A - a b d C a - c e G b c - f T d e f -

22 But: trouver la topologie T qui maximise la fonction de vraisemblance m L(T) = L( T[i] ) Site i = 0 La vraisemblance

23 La phylogénie en pratique Reconstruction phylogénétique 3- Critère de distances > Sapprocher au plus dune matrice additive

24 Distance évolutive Homme ATGCCGTGTG Cheval ATGCGGACTA Canard CTGCACCTAG

25 Distance évolutive AA/n 0.1 AC/n 0.0 AG/n 0.0 AT/n 0.0 CA/n 0.0 CC/n 0.1 CG/n 0.1 CT/n 0.0 GA/n 0.1 GC/n 0.1 GG/n 0.2 GT/n 0.0 TA/n 0.1 TC/n 0.0 TG/n 0.0 TT/n 0.2 F(Homme,Cheval) Homme ATGCCGTGTG Cheval ATGCGGACTA Canard CTGCACCTAG

26 Distance évolutive Homme ATGCCGTGTG Cheval ATGCGGACTA Canard CTGCACCTAG AA/n 0.1 AC/n 0.0 AG/n 0.0 AT/n 0.0 CA/n 0.0 CC/n 0.1 CG/n 0.1 CT/n 0.0 GA/n 0.1 GC/n 0.1 GG/n 0.2 GT/n 0.0 TA/n 0.1 TC/n 0.0 TG/n 0.0 TT/n 0.2 F(Homme,Cheval) Homme 0.0 Cheval Canard Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n)

27 Distance évolutive Homme ATGCCGTGTG Cheval ATGCGGACTA Canard CTGCCCTTAG AA/n 0.1 AC/n 0.0 AG/n 0.0 AT/n 0.0 CA/n 0.0 CC/n 0.1 CG/n 0.1 CT/n 0.0 GA/n 0.1 GC/n 0.1 GG/n 0.2 GT/n 0.0 TA/n 0.1 TC/n 0.0 TG/n 0.0 TT/n 0.2 F(Homme,Cheval) Homme 0.00 Cheval Canard Distance de Jukes & Cantor: (-3/4) ln (1 – 4D/3) Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n)

28 Distance arborée D = 0 D = D D D + D D + D max (D + D, D + D ) ii ijji ijik ki ijkliljkikjl i l k j

29 Méthode de distance Minimiser le critère mathématique suivant [Fitch & Margoliash 1967]: w ( - D ) 2 ij afin dobtenir la représentation arborée qui se rapproche le plus de la matrice ij

30 NP-complétude Parcimonie Vraisemblance Distance Critères NP-complets

31 Heuristiques de recherche 1- Inférer « rapidement » un arbre de départ T 0 2- Modifier la topologie de T 0 pour obtenir la topologie T 1 3- Si T 1 améliore le critère, alors T 0 T 1 puis aller à létape Continuer jusquà convergence du critère 4

32 Des jeux de données multiples Gène 1 Taxon 1 Taxon i

33 Des jeux de données multiples Gène 1 Taxon 1 Taxon i Taxon j

34 Des jeux de données multiples Gène 1Gène 2 Taxon 1 Taxon i Taxon j

35 Des jeux de données multiples Gène 1Gène 2 Taxon 1 Taxon i Taxon j Taxon n

36 Des jeux de données multiples Gène 1Gène 3Gène 2 Taxon 1 Taxon i Taxon j Taxon n

37 Des jeux de données multiples Gène 1Gène 3Gène 2 Taxon 1 Taxon n

38 Des jeux de données multiples mais incomplets Gène 1Gène 3Gène 2 Taxon 1 Taxon n

39 Des jeux de données multiples mais incomplets Disparition de certains gènes au cours de lhistoire évolutive

40 Des jeux de données multiples mais incomplets Disparition de certains gènes au cours de lhistoire évolutive Absence de séquençage de certains gènes pour une espèce donnée

41 Comment obtenir une phylogénie à partir dun jeu de données incomplet? Gène 1Gène 3Gène 2 Taxon 1 Taxon n

42 Combinaison basse (pour les bio) Se débrouiller pour construire des phylogénies à partir des alignements de séquences incomplètes

43 Combinaison basse « total evidence »

44 Combinaison haute (pour les info) Récupérer les phylogénies reconstruites à partir de chaque gène et tenter de les amalgamer en une seule phylogénie synthétique: le superarbre

45 Combinaison haute Consensus { X | Y }

46 -Combinaison haute- Consensus strict ABCDABCD ABCD

47 ABCDABCD ABCD

48 -Combinaison haute- Consensus majoritaire ABCD ABDC ABCD ABCD

49 ABCD ABDC ABCD ABCD

50 ABCD ABDC ABCD ABCD

51 Combinaison haute « Build » [Aho et al. 1981] « Min Cut Supertree » [Semple & Steel 2000] « Modified Min Cut Supertree » [Page 2001] « Build With Distance » [Willson 2004]

52 -Combinaison haute- Lalgorithme Build FEDCBAIDHGCB

53 FEDCBAIDHGCB G E DC B A H F I

54 FEDCBAIDHGCB G E DC B A H F I IF ABCDEGH

55 -Combinaison haute- Lalgorithme Build EDCBADHGCB IF ABCDEGH

56 -Combinaison haute- Lalgorithme Build EDCBADHGCB IF ABCDEGH G E DC B A H

57 -Combinaison haute- Lalgorithme Build EDCBADHGCB IF ABCDGH G E DC B A H E

58 -Combinaison haute- Lalgorithme Build DCBADHGCB IF ABCDGHE

59 -Combinaison haute- Lalgorithme Build DCBADHGCB IF ABCDGHE G DC B A H

60 -Combinaison haute- Lalgorithme Build DCBADHGCB IF ABCGH E G D C B A H

61 -Combinaison haute- Lalgorithme Build CBAHGCB IF ABCGH E D

62 -Combinaison haute- Lalgorithme Build CBAHGCB IF ABCGH E D G C B A H

63 -Combinaison haute- Lalgorithme Build CBAHGCB IF ABCG E D G C B A H H

64 -Combinaison haute- Lalgorithme Build CBAGCB IF ABCG E D H

65 -Combinaison haute- Lalgorithme Build CBAGCB IF ABCG E D H G C B A

66 -Combinaison haute- Lalgorithme Build CBAGCB IF ABC E D H G C B A G

67 -Combinaison haute- Lalgorithme Build CBACB IF ABC E D H G

68 -Combinaison haute- Lalgorithme Build CBACB IF ABC E D H G B A C

69 -Combinaison haute- Lalgorithme Build CBACB IF E D H G B A C CAB

70 -Combinaison haute- Lalgorithme Build IF E D H G C B FEDCBAIDHGCB A Build Supertree

71 -Combinaison haute- Lalgorithme Build EDCBADCEBA

72 EDCBADCEBA E C B A D

73 EDCBADCEBA E C B A D D ABCE

74 -Combinaison haute- Lalgorithme Build ECBACEBA D ABCE

75 -Combinaison haute- Lalgorithme Build ECBACEBA D ABCE E C B A ?

76 -Combinaison haute- Lalgorithme MC ECBACEBA D ABCE E C B A

77 -Combinaison haute- Lalgorithme MC ECBACEBA D ABCE E AB C 1 1

78 -Combinaison haute- Lalgorithme MC ECBACEBA D ABCE E AB C

79 -Combinaison haute- Lalgorithme MC ECBACEBA D AB E C E C

80 -Combinaison haute- Lalgorithme MC D A E C B EDCBADCEBA Min Cut Supertree

81 Combinaison haute MRP [Baum 1992, Ragan 1992] MRF [Chen & al. 2001] ?11? ??0?011?0???0010 ?? ??001???? ??00??001?0 111?? ????01

82 -Combinaison haute- La méthode MRP FEDCBAIDHGCB

83 FEDCBAIDHGCB ABCDEFGHIABCDEFGHI ???110000???

84 FEDCBAIDHGCB ABCDEFGHIABCDEFGHI ???110000??? ???111000???

85 FEDCBAIDHGCB ABCDEFGHIABCDEFGHI ???110000??? ???111000??? ???111100??? ???111110??? ???111110???

86 FEDCBAIDHGCB ABCDEFGHIABCDEFGHI ???110000??? ???111000??? ???111100??? ???111110??? ???111111??? ?110??000?110??000 ?110??100?110??100 ?110??110?110??110 ?111??110?111??110 ?111??111?111??111

87 FEDCBAIDHGCB ABCGHDIEFABCGHDIEF 110??0?00110??0?00 111??0?00111??0?00 111??1?00111??1?00 111??1?10111??1?10 111??1?11111??1?11 ?110000???110000?? ?111000???111000?? ?111100???111100?? ?111110???111110?? ?111111???111111?? E F I D H G C BA MRP Supertree

88 Combinaison haute Méthode de quadruplets [Robinson-Rechavi & Graur 2001]

89 Combinaison moyenne Créer à partir de chaque gène un artefact mathématique afin damalgamer plus aisément linformation évolutive contenue dans chacun dentre eux

90 Combinaison moyenne Méthode de quadruplet [Schmidt 2003]

91 Combinaison moyenne « Average consensus supertree » [Lapointe & Cucumel 1997]

92 Combinaison moyenne -ACS-

93 Soit C une collection de k matrices de distance { 1, 2, 3, …, k } Détection de la paire de taxons ab telle que p existe pour tout p = 1, …, k Normalisation des k matrices: p := p / p Moyenne simple pour chaque paire ij ij ab ij ab ij

94 Combinaison moyenne -ACS- A 0.00 B C A 0.00 B D ij 2

95 Combinaison moyenne -ACS- A 0.00 B C A 0.00 B D La paire AB est présente dans les deux matrices 1 ij 2

96 Combinaison moyenne -ACS- A 0.00 B C A 0.00 B D ij 2 La paire AB est présente dans les deux matrices ij

97 Combinaison moyenne -ACS- A 0.00 B C A 0.00 B D ij 2 A 0.00 B C D **** 0.00 ij

98 But Déformer les matrices sans modifier linformation topologique contenue dans chacune dentre elles Effectuer une moyenne simple des différentes distances entre espèces

99 Déformation dune matrice de distance Soient ( ) une matrice de distance et T la topologie de larbre inféré par une méthode de distance MD à partir de ( ). La multiplication de ( ) par un facteur de dilatation ne modifie pas la topologie T de larbre inféré par MD. ij

100 Déformation dune matrice de distance -Dilatation-

101

102 Déformation dune matrice de distance Soient ( ) une matrice de distance et T la topologie de larbre inféré par une méthode de distance MD à partir de ( ). Lajout dune matrice à centre ( a + a ) à ( ) ne modifie (presque) pas la topologie T de larbre inféré par MD. ij ij

103 Déformation dune matrice de distance -Ajustement-

104 i j a a i j ( a + a ) j i Déformation dune matrice de distance -Ajustement-

105 +

106 +=

107 Critère mathématique On cherche à minimiser le critère: où

108 Contraintes Le problème est contraint afin de ne pas globalement déformer les matrices sources.

109 Solution Système linéaire n+2k+nk+1 variables pour k matrices définies sur n espèces Résolution du système en O(n 3 k 3 )

110 Combinaison moyenne « Super Distance Matrix » [Criscuolo, Douzery, Berry & Gascuel 2004]

111 Meilleur type de combinaison? Combinaison basse: –Meilleur critère : vraisemblance –Meilleur logiciel ML : PhyML [Guindon & Gascuel 2003] Combinaison haute: –Meilleure méthode : MRP –Meilleur logiciel MP : TNT [Goloboff et al. 2003] Combinaison moyenne: –Meilleure méthode : SDM –Meilleur logiciel de distance : Fitch [Felsenstein 1993]

112 Simulations: protocole r8s [Sanderson 2002] Création dun arbre modèle ultramétrique UT (i.e. respectant lhorloge moléculaire)

113 Simulations: protocole Obtention dune phylogénie non-ultramétrique AT (i.e. présentant une déviation par rapport à lhorloge moléculaire) par multiplication de chaque branche par (1+X)

114 Simulations: protocole Obtention de k phylogénies AT p par multiplication de chaque branche par X p /TBL

115 Simulations: protocole Seq-Gen [Rambaut & Grassly 1997] Génération de k alignements de b sites suivant le modèle K2P avec b tirée aléatoirement entre 200 et 1000

116 Simulations: protocole Délétion des taxons avec une probabilité de 25%, 50% et 75%

117 Simulations: protocole PhyML PAUP* r8s TNT SDM Fitch PhyML SDM Fitch

118 Critère métrique Erreur de type 1: nombre de mauvais quadruplets résolus inférés Erreur de type 2 : nombre de quadruplets résolus non inférés Distance quadruplet : moyenne des deux types derreurs normalisée par C 5 4 a b c d e c a b e d Arbre modèle Arbre inféré ac|bd ac|be ab|cd ab|ce et2 et1 d q = (2+2)/C 4 = 0.8 n

119 Simulations: résultats k=2k=20 SDM + Fitch <1s + 1s 2s + 23s SDM + Fitch + PhyML <1s + 1s + 89s 2s + 23s + 808s PhyML + MRP 38s + 4s 267s + 23s

120 Simulations: résultats k=2k=20 SDM + Fitch <1s + 6s 4s + 24s SDM + Fitch + PhyML <1s + 6s + 69s 4s + 24s s PhyML + MRP 12s + 3s 153s + 18s

121 Simulations: résultats k=2k=20 SDM + Fitch <1s + 1s 2s + 23s SDM + Fitch + PhyML <1s + 1s + 21s 2s + 23s s PhyML + MRP 6s + 1s 86s + 15s

122 Le jeu de données de Gatesy et al.

123 Jeu de données biologique 75 mammifères placentaires 7 Afrothériens en groupe externe 33 segments de gènes nucléaires 5 segments de gènes mitochondriaux sites gaps caractères absents % de données manquantes

124 Application: la phylogénie des mammifères Carnivores Périssodactyles Camélidés Suidés Ruminants Hippopotamidés Cétacés Rongeurs Primates [Gatesy et al. 2002]

125 Application: la phylogénie des mammifères Carnivores Périssodactyles Camélidés Suidés Ruminants Hippopotamidés Cétacés Rongeurs Primates

126 MERCI…


Télécharger ppt "Lamalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)"

Présentations similaires


Annonces Google