Module « Epidémiologie » Approche progressive en phylogénie Application à un modèle viral C. GAUDY -GRAFFIN INSERM ERI 19/ Virus Pseudovirus, Morphogenèse et antigénicité
PHYLOGENY PROGRAMS http://evolution.genetics.washington.edu/phylip/software.html ??? ??? ???
Comment concevoir la phylogénie ?
Comment concevoir la phylogénie ? SEQUENCES X arbres , X approches # Quel arbre choisir ? METHODE INTUITIVE
Comment concevoir la phylogénie ? SEQUENCES APPROCHE MATHEMATIQUE, METHODE PROGRESSIVE Estimer la faisabilité de l’analyse choisir le modèle de substitution le plus approprié calculer les paramètres de l’analyse plutôt que de les fixer par défaut
Pourquoi une approche progressive ? Faire une analyse préalable avant de débuter l’analyse phylogénétique «proprement dite »
Avant de débuter une analyse phylogénétique Alignements corrects ? Estimer le bruit phylogénétique - Région étudiée trop saturée en mutations ? (mesure de l’entropie) - Séquences trop divergentes pour être comparées ? Méthode du Quartet Puzzling TREE-PUZZLE 5.2 http://www.tree-puzzle.de/ Reconstructing tree topologies with quartet puzzling
La méthode du Quartet Puzzling ?
Méthode du quartet Puzzling (Stimmer and Von Haeseler, 1996) ETUDIER LES LIENS PHYLOGENETIQUES EXISTANT AU SEIN DU QUARTET C…GACACGTTTA…C C…GACACGTCTA…C C…GATAGGTTTA…C n séq à étudier : Regroupé par 4 = Quartet Pour n séquences n!/(n-4!)4! quartets possibles
Méthode du quartet Puzzling (Stimmer and Von Haeseler, 1996) ETUDIER LES LIENS PHYLOGENETIQUES EXISTANT AU SEIN DU QUARTET C…GACACGTTTA…C C…GACACGTCTA…C C…GATAGGTTTA…C n séq à étudier : Regroupé par 4 = Quartet Pour n séquences n!/(n-4!)4! quartets possibles Pour chaque quartet, 3 topologies d’arbres possibles S1 S3 S2 S4 S1 S2 S4 S3 S1 S2 S3 S4 Topologie 1 = Lk1 Topologie 2 = Lk2 Topologie 3 = Lk3 Valeur de vraisemblance de la topologie 1
Méthode du quartet Puzzling (Stimmer and Von Haeseler, 1996) Topologie 1 Lk1 Ln (Lk1) Topologie 2 Lk2 Ln (Lk2) Topologie 3 Lk3 Ln (Lk2) Représentation graphique Valeurs de vraisemblance de chaque topologie d’arbre reportées en distance dans un triangle équilatéral Arbre 2 = Lk2 S1 S2 S4 S3 Situation 1 : Lk3=Lk1= Lk2 Intersection (P1) au centre du triangle Topologie arbre S1,S2,S3,S4 non résolue Lk3 Lk1 Arbre 3 = Lk3 S1 S3 S2 S4 Lk2 S1 S2 S3 S4 Point 1 Arbre 1 = Lk1
Méthode du quartet Puzzling (Stimmer and Von Haeseler, 1996) Lk1 Ln (Lk1) Lk2 Ln (Lk2) Lk3 Ln (Lk3) Arbre 2 = Lk2 S1 S2 S4 S3 Situation 2 : Lk1 > Lk2 > Lk3 Intersection (P2) excentré (coin du triangle) Topologie arbre S1,S2,S3,S4 résolue Arbre 3 = Lk3 S1 S2 S3 S4 S1 S3 S2 S4 Point 2 Arbre 1 = Lk1
Méthode du quartet Puzzling (Stimmer and Von Haeseler, 1996) Renouveller l’opération pour chaque quartet : - Etudier la distribution des points dans le triangle -Majorité de topologies résolues ? -Majorité de topologies non résolues ? Zones des topologies totalement résolues Environ 30 % des points dans chaque coin = Majorité de topologies résolues - Situation idéale
Méthode du quartet Puzzling (Stimmer and Von Haeseler, 1996) Zones des topologies partiellement résolues Majorité de points sur les côtés = majorité de topologie partiellement résolues Situation intermédiaire Topologie finale de l’arbre en «Net-Work»
= + B A C A B D C A B D C D TOPOLOGIE D’UN ARBRE PHYLOGENETIQUE Topologie en réseau « NET-WORK » C D
Méthode du quartet Puzzling (Stimmer and Von Haeseler, 1996) Zone des topologies non résolues Majorité de points dans la région centrale BRUIT PHYLOGENETIQUE ++++++ = Topologie finale de l’arbre «Star-like » Arbre phylogénétique non interprétable
1 « Tree-like » signal = 1+2+3 « Starlike » signal = 7 Network like signal = 4+5+6 4 6 7 3 2 5 LIKELIHOOD MAPPING
Estimer la pertinence d’une analyse phylogénétique Approche progressive : Application à un modèle viral Module « Epidémiologie » Estimer la pertinence d’une analyse phylogénétique par la méthode du quartet Puzzling : Application à l’analyse de la région hypervariable HVR1 du virus de l’hépatite C
de souches de VHC de génotype 1b Objectif initial de notre travail En étudiant un grand nombre de variants du VHC isolés chez des patients répondeurs ou non-répondeurs à la thérapie anti-VHC, Choix d’analyser AVANT TRAITEMENT le polymorphisme de l’enveloppe E2 de souches de VHC de génotype 1b Le polymorphisme de HVR1 avt tt est-il prédictif de la réponse ultérieure ? (hétérogénéité de HVR1 corrélé à la réponse au tt dans la littérature) En étudiant……………………..non répondeurs, nous avons choisi d’analyser…..génotype 1b, prédominant en France et le plus résistant aux thérapies actuelles, POUR tester…………………………..
Région génomique étudiée POLYPROTEINE PRECURSEUR DU VHC (Codons) (Codons) 1 1 192 192 384 384 810 810 1027 1027 1658 1658 1973 1973 2421 2421 C C E1 E1 E2/ E2/ p7 p7 NS2 NS2 NS3 NS3 NS4 NS4 NS5A NS5A NS5B NS5B 384 384 - - 410 410 E1 E1 Protéine E2 Protéine E2 p7 p7 746 746 Avec les amorces décrites par Lee et ses coll , permettant l’obtention d’un fragment de 308 pb incluant HVR1 Avec les amorces décrites par Sarrazin et ses coll, …………………………………………………………357 pb incluant PePHD HVR1 HVR1 Région N terminale de E2 / hypervariable HVR1 (81 pb)
de souches de VHC de génotype 1b Objectif initial de notre travail En étudiant un grand nombre de variants du VHC isolés chez des patients répondeurs ou non-répondeurs, Choix d’analyser AVANT TRAITEMENT le polymorphisme de l’enveloppe E2 de souches de VHC de génotype 1b Le polymorphisme de HVR1 avt tt est-il prédictif de la réponse ultérieure ? Avant tt, peut-on distinguer pylogénétiquement les séquences de HVR1 issus de patients répondeurs et non-répondeurs ? PERTINENCE / FAISABILITE D’UNE ANALYSE PHYLO. REALISEE SUR UNE REGION HYPERVARIABLE En étudiant……………………..non répondeurs, nous avons choisi d’analyser…..génotype 1b, prédominant en France et le plus résistant aux thérapies actuelles, POUR tester…………………………..
ALIGNEMENT = ds BIOEDIT / option CLUSTALW Séquences analysées 150 séquences nucléotidiques de HVR1 (amplification par RT-PCR nichée et clonage dans pCR 2.1) 50 clones issus de souches infectant des patients répondeurs à l’IFN seul (R1) 50 clones issus de souches infectant des répondeurs au tt IFN-Ribavirine (R2) - 50 clones issus de souches infectant des non-répondeurs au tt IFN-Ribavirine (NR) Au total, 160 séq…..ont été obtenues dont 40 ..et 120 ALIGNEMENT = ds BIOEDIT / option CLUSTALW
Analyse des séquences nucléotidiques / Mesure de l’entropie Étude du polymorphisme de HVR1 avant traitement Analyse des séquences nucléotidiques / Mesure de l’entropie HVR1 L’étude du polymorphisme….débute par l ’analyse des séquences nucléotidiques . L’entropie nt a été mesurée pour les 3……………………….(courbe verte, courbe violette). Des valeurs d’entropie nucléotidiques fortes(supr à 1) sont obtenues pour toutes les positions de HVR1 . Elles sont bien supérieur à celles retrouvées dans les régions flanquantes Ceci confirme le domaine HVR1 est hautement tolérance aux substitutions nt. Mesure de l’entropie nucléotidique de HVR1 (logiciel DAMBE®) sur ces 3 groupes de 50 séquences (issues de souches de VHC de génotype 1b) Grande tolérance du domaine HVR1 aux substitutions nucléotidiques
Tolérance du domaine HVR1 aux substitutions en acides aminés 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 E T H V T G G S A A H T A S G L T S L F S P G A K Q N T Y T S A A V G R A T Q S F V G F L T Q P Q K S R I V T Q S Y S V R R V A N I A S S R R G V S Q G M Y T I R N R S D D Q K D N A L Q N R H K V * (aa>2%) Cette diapositive représente un profil de substitutions en aa du domaine HVR1. Ces mutations ont été répertoriées après analyse de 299 domaines HVR1 (issus de souches de différents génotypes). Le domaine HVR1, flanqué de 6 positions conservées, est hautement substitué. N A T F Substitutions* en acides aminés répertoriées après analyse de 299 domaines HVR1 (HCV-1 à 6) Domaine hautement substitué possédant 6 positions conservées (Smith et al. 1999)
Arbre phylogénétique réalisé à partir de 150 séquences de HVR1 (81 nt) 3 groupes de séquences à comparer. R IFN / Rib. (répondeurs biT) R4 R10 R2 R8c2 R5 R5C12 R7 NR2 R8/R9 NR5 NR3/NR4 NR5C5 NR5C6 NR5C4 NR5C8 NR4C2 R6c5 R6c9 R6c10 NR1C1 NR1C9 NR1C14 NR1 R1 R6 NR5C13 R7c3 R9c2 R9c3 R8c11 VHC5A R3 88 94 85 64 69 90 77 28 45 52 32 98 17 62 9 27 4 50 8 7 41 78 5 25 1 2 16 46 0.1 R IFN (répondeurs MonoT) NR IFN / Rib.(non-répondeurs biT) - distance computation : K2P model - Neighbor Joining method - Bootstrap : 500 Unrooted / outgroup 5a Arbre réalisé avec MEGA A multiple alignment of the 150 HVR1 nucleotidique sequences was performed and an unrooted tree was build using a 5a strain as outgroup with Neighbor Joining Method . Sequences from patients who repond to IFN monotherapy are indicated in bleu. For those who respond to bitherapy, red color was used. Gren color mentions seq fron NR. This phylogenetic analyses does not reveal any cluster according to treatment outcome as seq from R and NR were scattrered throughout the tree.
Absence de cluster patient Arbre phylogénétique réalisé à partir de 150 séquences de HVR1 (81 nt) 3 groupes de séquences à comparer. R IFN / Rib. (répondeurs biT) R4 R10 R2 R8c2 R5 R5C12 R7 NR2 R8/R9 NR5 NR3/NR4 NR5C5 NR5C6 NR5C4 NR5C8 NR4C2 R6c5 R6c9 R6c10 NR1C1 NR1C9 NR1C14 NR1 R1 R6 NR5C13 R7c3 R9c2 R9c3 R8c11 VHC5A R3 88 94 85 64 69 90 77 28 45 52 32 98 17 62 9 27 4 50 8 7 41 78 5 25 1 2 16 46 0.1 R IFN (répondeurs MonoT) NR IFN / Rib.(non-répondeurs biT) - distance computation : K2P model - Neighbor Joining method - Bootstrap : 500 Unrooted / outgroup 5a Arbre réalisé avec MEGA NR4 Clones de NR3 et NR4 A multiple alignment of the 150 HVR1 nucleotidique sequences was performed and an unrooted tree was build using a 5a strain as outgroup with Neighbor Joining Method . Sequences from patients who repond to IFN monotherapy are indicated in bleu. For those who respond to bitherapy, red color was used. Gren color mentions seq fron NR. This phylogenetic analyses does not reveal any cluster according to treatment outcome as seq from R and NR were scattrered throughout the tree. Absence de cluster patient Valeurs de Boostrap trop faibles Résultats non interprétables
Présence d’un important bruit phylogénétique Comment tester la fiabilité d’une telle analyse phylogénétique ? (étudiant les liens entre 3 groupes de 50 séquences de HVR1) - Méthode du « Quartet Puzzling » réalisée sur l’alignement de 150 domaines HVR1 Présence d’un important bruit phylogénétique (32% des quartets non résolus) Pour tester la ……………………………………., la méthode ………………a été réalisée .avec TREE PUZZLE L’analyse du triangle de représentation montre un regroupement des quartets au centre donc la présence d’un important bruit phylogénétique. Analyse phylogénétique portant sur HVR1 non interprétable / arbre: topologie « Star-like »
Inclure les régions flanquantes de HVR1 dans cette analyse ? POLYPROTEINE PRECURSEUR DU VHC POLYPROTEINE PRECURSEUR DU VHC (Codons) (Codons) 1 1 192 192 384 384 810 810 1027 1027 1658 1658 1973 1973 2421 2421 C C E1 E1 E2/ E2/ p7 p7 NS2 NS2 NS3 NS3 NS4 NS4 NS5A NS5A NS5B NS5B 384 384 - - 410 410 659 659 - - 670 670 E1 E1 Protéine E2 Protéine E2 p7 p7 746 746 Avec les amorces décrites par Lee et ses coll , permettant l’obtention d’un fragment de 308 pb incluant HVR1 Avec les amorces décrites par Sarrazin et ses coll, …………………………………………………………357 pb incluant PePHD HVR1 HVR1 PePHD 32 32 nt nt (en nucléotides) (en nucléotides) 195 195 nt nt Région HVR1 et son environnement (308 pb)
Réduction du bruit phylogénétique « Quartet Puzzling » réalisé sur l’alignement de 150 séquences E2/HVR1 (308 nt) Réduction du bruit phylogénétique (5.2 % des quartets non résolus) Analyse phylogénétique portant sur E2/HVR1 interprétable / arbre : topologie « Tree-like » Dans ce cas : L’ arbre phylogénétique présentait des clusters / patient
Phylogénie et régions hypervariables Conclusion Phylogénie et régions hypervariables Nécessaire d’estimer au préalable le bruit phylogénétique TREE-PUZZLE : bon outil Rq : dans la littérature : nombreux arbres comparant des séquences de HVR1 - sans analyse préalable avec la méthode de quartet puzzling Quel sens donner à ces arbres ? Conseil 1 : Pour rendre interprétable l’analyse phylogénétique sur une région hypervariable - inclure les séquences flanquantes moins saturées en mutations
Phylogénie et régions hypervariables Conclusion Phylogénie et régions hypervariables Nécessaire d’estimer au préalable le bruit phylogénétique TREE-PUZZLE : bon outil Rq : dans la littérature : nombreux arbres comparant des séquences de HVR1 - sans analyse préalable avec la méthode de quartet puzzling Conseil 2 : Si la région d’intérêt étudiée inclut une région hypervariable - ôter cette région de l’alignement pour éliminer le bruit phylogénétique qui lui est inhérent