La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Méthodes de reconstruction

Présentations similaires


Présentation au sujet: "Méthodes de reconstruction"— Transcription de la présentation:

1 Méthodes de reconstruction
Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers 1 1

2 Introduction : études d’association génétique
PLAN Introduction : études d’association génétique Problématique des haplotypes. Les principales méthodes de reconstruction des haplotypes. Une nouvelle approche : ISHAPE. Conclusion. 2

3 I. Introduction : études d’association génétique
3 3

4 LES VARIATIONS GENETIQUES DU GENOME
23 paires de chromosomes G G G G T T T T Mutation A A A C A A A A SNP : Single Nucleotide Polymorphism. 1 SNP tous les ~300 nucléotides. Variation de l’ADN la plus fréquente chez l’homme (~90% de la variabilité observée). Père Mère 4

5 APPROCHE ‘‘CLASSIQUE’’ DES ÉTUDES D’ASSOCIATION :
Études cas-contrôles sur des gènes candidats choix d’un gène candidat pertinent : suspicion d’un rôle dans la pathologie comparaison de la répartition des différents allèles entre des personnes atteintes (‘cas’) et des personnes ‘contrôles’ Objectif : identifier des différences statistiquement significatives indiquant que le gène ou son produit interviendraient dans le développement de la maladie 5

6 INTÉRÊTS DES ÉTUDES D’ASSOCIATION GÉNÉTIQUE
Description de la variabilité génétique du génome Identification des facteurs génétiques de risque impliqués dans la susceptibilité de la pathologie Amélioration de la compréhension des mécanismes de pathogenèse Développement de nouvelles stratégies diagnostiques et thérapeutiques pour lutter contre la maladie 6

7 L’APPROCHE GÈNE CANDIDAT (1)
1. Établissement d’une carte génétique 2. Analyse statistique SNP par SNP p Allèle 1 Allèle 2 CAS CTR 7

8 L’APPROCHE GÈNE CANDIDAT (2)
3. Calcul des haplotypes = combinaisons d’allèles sur un chromosome 4. Intérêt de l’analyse des haplotypes Signal transmis de génération en génération : importance pour les maladies familiales Les combinaisons d’allèles peuvent intervenir dans les maladies, notamment au niveau des variants protéiques 8

9 APPROCHE PAR PUCES DE GÉNOTYPAGE
Analyse statistique TagSNP par TagSNP Cartographie fine de la région d’intérêt Analyse statistique SNP par SNP Calcul des haplotypes Analyse statistique sur les haplotypes 9

10 II. Problématique des haplotypes.
10 10 10

11 DEFINITION DES HAPLOTYPES
Combinaison d’allèles sur un même chromosome pour un locus donné. Crées au cours de l’évolution par : 1. Les mutations : 2. Les recombinaisons : 3. Les dérives génétiques, les migrations, les sélections, etc... C A T G Mutation Recombinaison A T G C 11

12 POURQUOI PARLE T-ON DE RECONSTRUCTION ?
Individu A G C A Génotypage Génotype Génotype C/A A/G 2 diplotypes possibles 4 haplotypes possibles C A A G C G A A 12

13 COMPLEXITE DU PROBLEME
SNP 1 SNP 2 SNP 3 SNP N-2 SNP N-1 SNP N Un génotype de N SNPs avec S sites hétérozygotes a : 2S haplotypes compatibles possibles, 2S-1 diplotypes compatibles possibles. Nb de sites hétérozygotes Nb d’haplotypes possibles Nb de diplotypes possibles 5 32 16 10 1 024 512 20 13

14 Sur quel ensemble de SNPs doit on définir les haplotypes?
QUESTIONS OUVERTES Sur quel ensemble de SNPs doit on définir les haplotypes? Gène, exons, promoteurs? Blocs d’haplotypes de diversité limitée « haplotype blocks »? Quel modèle génétique faut-il utiliser ? Quelle confiance accorder à cette reconstruction in silico ? Quel impact ont les erreurs sur les études d’associations ? 14

15 II. LES PRINCIPALES METHODES DE RECONSTRUCTION D’HAPLOTYPES
15 15

16 SNPs Génotypes II.1. DONNEES GENOMIQUES Génotype#1
G G G G G T A T G A A A A T Génotype#2 G G T T G T A T G A A A A T G G G G T T G G G A A A A T Génotype#152 G G G G T T G G G G A A A G Génotype#153 G C G G T T A G G A A A A T Génotypes 16

17 II.2. REPRESENTATION PRATIQUE
Population G Diplotypes possibles D Haplotypes possibles H g1 (2 SHs)‏ d11 d12 h1 g2 (1 SH)‏ d21 h2 hk gi (8 SHs)‏ di1 di128 hM gN (4 SHs)‏ dN1 dN8 1,* 2 SH = Site Hétérozygote 17

18 II.3. HISTORIQUE 1990 : Clark AG: Inference of haplotypes from PCR-amplified samples of diploid populations. Molecular biology and evolution. 1995 : Excoffier L, Slatkin M: Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population. Molecular biology and evolution. 2001 : Stephens M, Smith NJ, Donnelly P: A new statistical method for haplotype reconstruction from population data. Am J Hum Genet. 2005 : Stephens M, Scheet P : Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation. Am J Hum Genet. 2006 : Scheet P, Stephens M : A fast and flexible statistical model for large-scale population genotype data: applications to inferring missing genotypes and haplotypic phase. Am J Hum Genet. 2007 : Delaneau O, Coulonges C, Boelle PY, Nelson G, Spadoni JL, Zagury JF : ISHAPE: new rapid and accurate software for haplotyping. BMC Bioinformatics. 18

19 COMPARAISON DES MÉTHODES
Switch error Freq error PHASE v2.1 2.41 35.46 fastPHASE 4.47 65.25 PHASE v1.0 6.53 88.62 PLEM (EM) 8.98 61.13 Résultats sur HapMap–CEU Switch Error : pourcentage de sites hétérozygotes mal reconstruits (cible les diplotypes). Freq error : Distance entre les fréquences réelles et estimées des haplotypes. J. Marchini et Al : A Comparison of Phasing Algorithms for Trios and Unrelated Individuals. Amercan Journal of Human Genetics 2006. A noter : Les erreurs se situent surtout au niveau des haplotypes peu fréquents. RA Adkins : Comparison of the accuracy of methods of computational haplotype inference using a large empirical dataset. BMC Genetics 2004. 19

20 EXEMPLE DE L’ALGORITHME DE PHASE (1)‏
Pour tout i, on assigne à gi un di’ pris aléatoirement parmi les dij (D’). Soit O; un ordre aléatoire de traitement des gi . On itère un grand nombre de fois : Pour chaque gi selon O : On assigne un nouveau diplotype en fonction des autres. 1. Pour tout j, calcul de Pr(dij |D-i’) : probabilité de dij sachant D-i’ = D’ – {di’}. 2. Echantillonnage sur Pr(dij |D-i’) pour assigner un nouveau di’ à gi 20

21 EXEMPLE DE L’ALGORITHME DE PHASE (2)‏
Modèle naif (Haplotyper)‏ gi: 32344 23534 dij: 32344 23534 32334 23544 32544 23334 32534 23344 33344 22534 33334 22544 33544 22334 33534 22344 Niu T et al : Bayesian Haplotype Inference for Multiple Linked Single-Nucleotide Polymorphisms. The American Journal of Human Genetics 2002 D-i’ Modèle de coalescence (PHASE v1.0) 22544 33334 23233 14234 32444 23434 32444 23434 32434 23444 33444 22434 33434 22444 gi: dij: Stephens M, Smith NJ, Donnelly P: A new statistical method for haplotype reconstruction from population data. American journal of human genetics 2001 Modèle de recombinaison (PHASE v2.1)‏ gi: 22333 22234 dij: 22333 22234 22334 22233 Stephens M, Scheet P : Accounting for Decay of Linkage Disequilibrium in Haplotype Inference and Missing-Data Imputation. American Journal of Human Genetics 2005 21

22 EXEMPLE DE L’ALGORITHME DE PHASE (3)‏
Points forts : Modèle génétique le plus réaliste et performant, Fournit un ou plusieurs diplotypes probables pour chaque génotype (multi-diplotypes). Points faibles : Modèle génétique très intensif en temps de calculs. 22

23 II.6. ASTUCES : PL « Partition – Ligation » : stratégie diviser pour conquérir, permet de briser l’aspect exponentiel du problème, donc de traiter plus de SNPs. Gi 1 segment de 32 sites hétérozygotes = ~ de diplotypes possibles 8 segments de 4 sites hétérozygotes = 23 x 8 = 64 diplotypes possibles 23 Niu T et al : Bayesian Haplotype Inference for Multiple Linked Single-Nucleotide Polymorphisms. The American Journal of Human Genetics 2002

24 III. UNE NOUVELLE APPROCHE : ISHAPE
24 24

25 => Sur 32 diplotypes possibles, on en explore que 12 !
UTILISATION D’IEM IEM (Itérative EM) : algorithme EM très rapide où les haplotypes sont construits progressivement en incluant les SNPS un par un. Gi => Sur 32 diplotypes possibles, on en explore que 12 ! 25

26 PROBLÈME : GÉNÉRATION DE DIVERSITÉ INSUFFISANTE
Prog / MD 0% 2% 5% 10% Phase 2.1 0.98 0.97 0.96 IEM 0.91 0.90 0.89 0.86 Taux de capture de la diversité sur les données GH1 (14 SNPs et 150 individus)‏ 26 26

27 => L’utilisation du bootstrap génére de la diversité !
IDÉE : BOOTSTRAP-IEM Bootstrap IEM : On génère X (=500) échantillons bootstrap de P dont on estime les fréquences haplotypiques par IEM avec un ordre aléatoire d’inclusion des SNPs. => L’utilisation du bootstrap génére de la diversité ! Prog / MD 0% 2% 5% 10% Phase 2.1 0.98 0.97 0.96 IEM 0.91 0.90 0.89 0.86 BoostrapIEM 0.99 Taux de capture sur GH1 (14 SNPs et 150 individus)‏ 27 Delaneau et Al : ISHAPE: new rapid and accurate software for haplotyping. BMC Bioinformatics 2007.

28 Réduction du nombre de diplotypes sur les données GH1
AVANTAGE DU BOOTSTRAP IEM => Permet d’obtenir un espace de diplotypes candidats de taille très réduite. . / MD 0% 2% 5% 10% Nb de diplotypes possibles 9.6 18.7 48.7 244.1 par Bootstrap-IEM 2.3 3.3 5.4 10.2 Réduction du nombre de diplotypes sur les données GH1 28 Delaneau et Al : ISHAPE: new rapid and accurate software for haplotyping. BMC Bioinformatics 2007. 28

29 Résultats sur les données HapMap–CEU
DERNIÈRE ÉTAPE DE ISHAPE : ADAPTATION DE PHASE SUR L’ESPACE DES SOLUTIONS LIMITÉ GRÂCE AU BOOTSTRAP-IEM ISHAPE = Utilisation d’un échantilloneur de Gibbs de type PHASE sur un nombre réduit de diplotypes candidats. SNPs contigus SNPs 5kb Prog. SER Class. Temps Class Ishape 1.10 1.83 34.8 3.60 1.92 66.1 Phase 2 1.17 2.11 215 3.57 2.03 702 Phase 1 1.39 2.67 52.1 4.92 3.81 142.5 fastPhase 1.31 2.73 100.3 3.98 2.71 88.8 PLEM 1.56 3.07 22.1 5.16 3.71 19.1 Résultats sur les données HapMap–CEU ( 10 à 80 SNPs et 60 individus)‏ 29

30 II.4. CONCLUSION 30 30

31 II.4. Conclusion et perspectives
Nouvelle méthode qui utilise la puissance de l’EM et la précision de PHASE, en s’appuyant sur la réduction de l’espace des solutions possibles. Les résultats obtenus montrent que ce logiciel est jusqu’à 10 fois plus rapide que PHASE et aussi fiable. Développer un algorithme de reconstruction des haplotypes appliquant le modèle de PHASE en des temps linéaires au nombre de SNPs traités. 31


Télécharger ppt "Méthodes de reconstruction"

Présentations similaires


Annonces Google