La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers.

Présentations similaires


Présentation au sujet: "1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers."— Transcription de la présentation:

1 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

2 2 PLAN I.Introduction : études dassociation génétique II.Problématique des haplotypes. III.Les principales méthodes de reconstruction des haplotypes. IV.Une nouvelle approche : ISHAPE. V.Conclusion.

3 3 I. I. Introduction : études dassociation génétique

4 4 LES VARIATIONS GENETIQUES DU GENOME Père Mère G T A A G T A A 23 paires de chromosomes Mutation G T A A G T C A SNP : Single Nucleotide Polymorphism. 1 SNP tous les ~300 nucléotides. Variation de lADN la plus fréquente chez lhomme (~90% de la variabilité observée).

5 APPROCHE CLASSIQUE DES ÉTUDES DASSOCIATION : Études cas-contrôles sur des g è nes candidats choix dun gène candidat pertinent : suspicion dun rôle dans la pathologie comparaison de la répartition des différents allèles entre des personnes atteintes (cas) et des personnes contrôles Objectif : identifier des différences statistiquement significatives indiquant que le gène ou son produit interviendraient dans le développement de la maladie 5

6 INTÉRÊTS DES ÉTUDES DASSOCIATION GÉNÉTIQUE Identification des facteurs génétiques de risque impliqués dans la susceptibilité de la pathologie Description de la variabilité génétique du génome Amélioration de la compréhension des mécanismes de pathogenèse Développement de nouvelles stratégies diagnostiques et thérapeutiques pour lutter contre la maladie 6

7 LAPPROCHE GÈNE CANDIDAT (1) 1. Établissement dune carte génétique 2. Analyse statistique SNP par SNP p Allèle 1 Allèle 2 CASCTR 7

8 LAPPROCHE GÈNE CANDIDAT (2) 3. Calcul des haplotypes = combinaisons dallèles sur un chromosome 4. Intérêt de l analyse des haplotypes Signal transmis de génération en génération : importance pour les maladies familiales Les combinaisons d all è les peuvent intervenir dans les maladies, notamment au niveau des variants prot é iques 8

9 APPROCHE PAR PUCES DE GÉNOTYPAGE 1.Analyse statistique TagSNP par TagSNP 2.Cartographie fine de la r é gion d int é rêt 3.Analyse statistique SNP par SNP 4.Calcul des haplotypes 5.Analyse statistique sur les haplotypes 9

10 10 II. II. Problématique des haplotypes.

11 Combinaison dallèles sur un même chromosome pour un locus donné. Crées au cours de lévolution par : 1. Les mutations : 2. Les recombinaisons : 3. Les dérives génétiques, les migrations, les sélections, etc DEFINITION DES HAPLOTYPES CACA TTGG Mutation Recombinaison ATG C CG TA AT TA

12 12 POURQUOI PARLE T-ON DE RECONSTRUCTION ? Génotypage Individu C A A G C/A A/G C A A G C G A A Génotype 2 diplotypes possibles 4 haplotypes possibles

13 13 COMPLEXITE DU PROBLEME Un génotype de N SNPs avec S sites hétérozygotes a : 2 S haplotypes compatibles possibles, 2 S-1 diplotypes compatibles possibles. SNP 1SNP 2SNP 3SNP N-2SNP N-1SNP N Nb de sites hétérozygotes Nb dhaplotypes possibles Nb de diplotypes possibles

14 14 QUESTIONS OUVERTES Sur quel ensemble de SNPs doit on définir les haplotypes? Gène, exons, promoteurs? Blocs dhaplotypes de diversité limitée « haplotype blocks »? Quel modèle génétique faut-il utiliser ? Quelle confiance accorder à cette reconstruction in silico ? Quel impact ont les erreurs sur les études dassociations ?

15 15 II. LES PRINCIPALES METHODES DE RECONSTRUCTION DHAPLOTYPES

16 16 II.1. DONNEES GENOMIQUES Génotype#1 G G G G G T A T G A A A A T Génotype#2 G G T T G T A T G A A A A T G G G G T T G G G A A A A T Génotype#152 G G G G T T G G G G A A A G G G G G G T A T G A A A A T Génotype#153 G G G G G T A T G A A A A T G C G G T T A G G A A A A T SNPs Génotypes

17 17 g 1 (2 SHs) g 2 (1 SH) g i (8 SHs) g N (4 SHs) d 11 d 12 d 21 d i1 d i128 d N1 d N8 h1h1 h2h2 hkhk hMhM Diplotypes possibles D 1,*2 Population G Haplotypes possibles H SH = Site Hétérozygote II.2. REPRESENTATION PRATIQUE

18 18 II.3. HISTORIQUE 1990 : Clark AG: Inference of haplotypes from PCR-amplified samples of diploid populations. Molecular biology and evolution : Excoffier L, Slatkin M: Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population. Molecular biology and evolution : Stephens M, Smith NJ, Donnelly P: A new statistical method for haplotype reconstruction from population data. Am J Hum Genet : Delaneau O, Coulonges C, Boelle PY, Nelson G, Spadoni JL, Zagury JF : ISHAPE: new rapid and accurate software for haplotyping. BMC Bioinformatics : Stephens M, Scheet P : Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation. Am J Hum Genet : Scheet P, Stephens M : A fast and flexible statistical model for large-scale population genotype data: applications to inferring missing genotypes and haplotypic phase. Am J Hum Genet.

19 COMPARAISON DES MÉTHODES Switch errorFreq error PHASE v fastPHASE PHASE v PLEM (EM) Switch Error : pourcentage de sites hétérozygotes mal reconstruits (cible les diplotypes). Freq error : Distance entre les fréquences réelles et estimées des haplotypes. A noter : Les erreurs se situent surtout au niveau des haplotypes peu fréquents. Résultats sur HapMap–CEU J. Marchini et Al : A Comparison of Phasing Algorithms for Trios and Unrelated Individuals. Amercan Journal of Human Genetics RA Adkins : Comparison of the accuracy of methods of computational haplotype inference using a large empirical dataset. BMC Genetics 2004.

20 20 EXEMPLE DE LALGORITHME DE PHASE (1) EXEMPLE DE LALGORITHME DE PHASE (1) Pour tout i, on assigne à g i un d i pris aléatoirement parmi les d ij (D). Soit O; un ordre aléatoire de traitement des g i. On itère un grand nombre de fois : Pour chaque g i selon O : On assigne un nouveau diplotype en fonction des autres. 1. Pour tout j, calcul de Pr(d ij |D -i ) : probabilité de d ij sachant D -i = D – {d i }. 2. Echantillonnage sur Pr(d ij |D -i ) pour assigner un nouveau d i à g i

21 21 EXEMPLE DE LALGORITHME DE PHASE (2) EXEMPLE DE LALGORITHME DE PHASE (2) D -i Modèle naif (Haplotyper) Modèle de coalescence (PHASE v1.0) Modèle de recombinaison (PHASE v2.1) d ij : gi:gi: gi:gi: gi:gi: Stephens M, Scheet P : Accounting for Decay of Linkage Disequilibrium in Haplotype Inference and Missing-Data Imputation. American Journal of Human Genetics 2005 Stephens M, Smith NJ, Donnelly P: A new statistical method for haplotype reconstruction from population data. American journal of human genetics 2001 Niu T et al : Bayesian Haplotype Inference for Multiple Linked Single-Nucleotide Polymorphisms. The American Journal of Human Genetics

22 EXEMPLE DE LALGORITHME DE PHASE (3) EXEMPLE DE LALGORITHME DE PHASE (3) Points forts : Modèle génétique le plus réaliste et performant, Fournit un ou plusieurs diplotypes probables pour chaque génotype (multi-diplotypes). Points faibles : Modèle génétique très intensif en temps de calculs. 22

23 23 II.6. ASTUCES : PL GiGi « Partition – Ligation » : stratégie diviser pour conquérir, permet de briser laspect exponentiel du problème, donc de traiter plus de SNPs. Niu T et al : Bayesian Haplotype Inference for Multiple Linked Single-Nucleotide Polymorphisms. The American Journal of Human Genetics segment de 32 sites hétérozygotes = ~ de diplotypes possibles 8 segments de 4 sites hétérozygotes = 2 3 x 8 = 64 diplotypes possibles

24 24 III. UNE NOUVELLE APPROCHE : ISHAPE

25 25 UTILISATION DIEM IEM (Itérative EM) : algorithme EM très rapide où les haplotypes sont construits progressivement en incluant les SNPS un par un. GiGi => Sur 32 diplotypes possibles, on en explore que 12 !

26 26 PROBLÈME : GÉNÉRATION DE DIVERSITÉ INSUFFISANTE Taux de capture de la diversité sur les données GH1 (14 SNPs et 150 individus) Prog / MD0%2%5%10% Phase IEM

27 27 IDÉE : BOOTSTRAP-IEM Bootstrap IEM : On génère X (=500) échantillons bootstrap de P dont on estime les fréquences haplotypiques par IEM avec un ordre aléatoire dinclusion des SNPs. => Lutilisation du bootstrap génére de la diversité ! Taux de capture sur GH1 (14 SNPs et 150 individus) Delaneau et Al : ISHAPE: new rapid and accurate software for haplotyping. BMC Bioinformatics Prog / MD0%2%5%10% Phase IEM BoostrapIEM

28 28 AVANTAGE DU BOOTSTRAP IEM => Permet dobtenir un espace de diplotypes candidats de taille très réduite. Réduction du nombre de diplotypes sur les données GH1 Delaneau et Al : ISHAPE: new rapid and accurate software for haplotyping. BMC Bioinformatics / MD 0%2%5%10% Nb de diplotypes possibles Nb de diplotypes par Bootstrap-IEM

29 29 DERNIÈRE ÉTAPE DE ISHAPE : ADAPTATION DE PHASE SUR LESPACE DES SOLUTIONS LIMITÉ GRÂCE AU BOOTSTRAP-IEM ISHAPE = Utilisation dun échantilloneur de Gibbs de type PHASE sur un nombre réduit de diplotypes candidats. Prog.SERClass.TempsSERClassTemps Ishape Phase Phase fastPhase PLEM SNPs contigusSNPs 5kb Résultats sur les données HapMap–CEU ( 10 à 80 SNPs et 60 individus)

30 30 II.4. CONCLUSION

31 31 II.4. Conclusion et perspectives Nouvelle méthode qui utilise la puissance de lEM et la précision de PHASE, en sappuyant sur la réduction de lespace des solutions possibles. Les résultats obtenus montrent que ce logiciel est jusquà 10 fois plus rapide que PHASE et aussi fiable. Développer un algorithme de reconstruction des haplotypes appliquant le modèle de PHASE en des temps linéaires au nombre de SNPs traités.


Télécharger ppt "1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers."

Présentations similaires


Annonces Google