Génétique des Maladies Multifactorielles

Génétique des Maladies Multifactorielles
Stéphanie Debette MCU-PH Epidémiologie – Neurologie Lariboisière 1 - Introduction to genetic epidemiology

Génétique des maladies multifactorielles
Approche épidémiologique Epidémiologie génétique = Branche de l’épidémiologie qui étudie le rôle de facteurs génétiques et de leur interaction avec des facteurs environnementaux dans la survenue de maladies Khoury et al., Fundamentals of Genetic Epidemiology, Oxford University Press 1993

Génétique des maladies multifactorielles:
pourquoi? Physiopathologie: Meilleure compréhension des mécanismes moléculaires conduisant à la maladie Prédiction de risque: Identification de populations à risque de développer maladie, en fonction de patrimoine génétique Prévention ciblée (ou « Médecine personnalisée ») Pharmacogénétique: Identification de meilleurs répondeurs à traitement ou d’individus à risque accru d’effets secondaires « Traitement personnalisé » McCarthy, Nat Rev Med 2008

Epidemiologie génétique  Physiopathologie
Identification de facteurs de susceptibilité génétique Meilleure compréhension de biologie sous-jacente Nouvelles Cibles thérapeutiques Biomarqueurs Prévention Meilleure prédiction de risque, monitorer l’évolution de la maladie et la réponse à un éventuel traitement Meilleure prévention, par exemple par mise en évidence d’un FDR environnemental. ex: monitorer évolution maladie ex: mise en évidence FDR environnemental McCarthy, Nat Rev Genet 2008 1 - Introduction to genetic epidemiology

Exemple de la maladie de Crohn…
Découverte gènes de susceptibilité maladie de Crohn a révélé rôle central autophagie et exposition à microbes intestinaux Abraham, NEJM 2009; Feero, NEJM 2010 Yano & Kurata, Nat Immunol 2009 catabolic process involving the nonselective degradation of a cell’s own components Indeed most of the genes that have been discovered as increasing the susceptibility to Crohn’s disease are invoived in this process, recognition and defense against luminal bacteria Loss of autophagy  aberrant cytoking production  in turn leads to bowel inflammation in response to luminal bacteria... Clearly / new tartgets Gène NOD2: détecteur intracellulaire de peptidoglycanes bactériens Gène ATG16L1: dirige composants intracellulaires (microbes) vers lysosomes  Nouvelles voies pour approches thérapeutiques Targeting the human microbiome with antibiotics, probiotics, and prebiotics: gastroenterology enters the metagenomics era. Preidis, Gastroenterology 2009 1 - Introduction to genetic epidemiology

Epidemiologie génétique  Physiopathologie
Identification de facteurs de susceptibilité génétique Meilleure compréhension de biologie sous-jacente Nouvelles Cibles thérapeutiques Biomarqueurs Prévention Meilleure prédiction de risque, monitorer l’évolution de la maladie et la réponse à un éventuel traitement Meilleure prévention, par exemple par mise en évidence d’un FDR environnemental. ex: monitorer évolution maladie ex: mise en évidence FDR environnemental McCarthy, Nat Rev Genet 2008 1 - Introduction to genetic epidemiology

Identification de FDR environnementaux
par la génétique… Tabac ↗ risque de polyarthrite rhumatoïde de 1.5 en population générale, mais d’un facteur > 20 si certains variants génétiques sur HLA et PTPN22 sont présents! Klareskog, Arthritis Rheum 2006 Amish porteurs de variant génétique sur gène FTO ↗ risque obésité sont protégés de obésité par activité physique catabolic process involving the nonselective degradation of a cell’s own components Indeed most of the genes that have been discovered as increasing the susceptibility to Crohn’s disease are invoived in this process, recognition and defense against luminal bacteria Loss of autophagy  aberrant cytoking production  in turn leads to bowel inflammation in response to luminal bacteria... Clearly / new tartgets Rampersaud, Arch Intern Med 2008; Kilpeläinen, PLOS Med 2011 1 - Introduction to genetic epidemiology

Epidemiologie génétique  Prédiction de risque?
Décevant jusqu’ici, car variants génétiques identifiés jusqu’ici = associés à augmentation modeste de risque (OR < 1.5) Même quand risque relatif plus élevé, pour l’instant pas d’application clinique dans majorité des cas: Allèle Epsilon4 de l’Apolipoprotéine E pour maladie d’Alzheimer Allèles HLA pour maladies autoimmunes Combiner Différents variants génétiques (« scores de risque ») Variants génétiques + autres biomarqueurs (circulants, imagerie…) Meilleure prédiction de risque, monitorer l’évolution de la maladie et la réponse à un éventuel traitement Meilleure prévention, par exemple par mise en évidence d’un FDR environnemental. dans modèles intégratifs Cho & Gregersen, NEJM 2011 Ripatti, Lancet 2010 1 - Introduction to genetic epidemiology

Pharmacogénétique, Exemple
CYP2C19 = enzyme impliquée dans bioactivation du clopidogrel Allele CYP2C19*2 du variant génétique rs = associé à risque ↑ d’évènements cardiovasculaires Utilisation du Clopidogrel en fonction de génotype rs CYP2C19 chez patients traités par angioplastie pour syndrome coronarien aigu metaboliseurs  FDA / AHA: « boxed warning », évaluer au cas par cas Scott, Clin Pharmacol Ther 2011 1 - Introduction to genetic epidemiology

Maladies complexes/multifactorielles vs. mendéliennes Etudes d’association génétique vs. analyses de liaison Quelques rappels Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison Etudes d’association génétique (EAG) Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques Analyse et interprétation des EAG Tests multiples Hétérogénéité de population Réplication Caractérisation des signaux identifiés, perspectives 1 - Introduction to genetic epidemiology

Maladies mendéliennes
Maladies mendéliennes (ou monogéniques) = causées par mutation dans un seul gène Trois modes de transmission: Autosomique dominant Autosomique récessif Récessif lié à l’X

Maladies complexes ou multifactorielles
Maladies ayant de multiples facteurs de susceptibilité génétiques et facteurs de risque environnementaux Ne suit pas un mode de transmission mendélien Différentes façon de mesurer contribution de facteurs génétiques: Héritabilité: proportion de variance phénotypique due à effets génétiques Risque de récurrence: compare proportion d’apparentés de cas qui sont atteints par maladie versus proportion d’individus atteints en population générale

Outils en épidémiologie génétique
Analyses de liaison (familles): Examiner la co-transmission d’une génération à l’autre du phénotype et des allèles de marqueurs génétiques Etudes d’association génétique (population générale, cas/témoins): Comparer fréquence des variants génétiques, entre patients et témoins Allele 6 seems to be transmitted with the disease Courtesy Dr. Dupuis 1 - Introduction to genetic epidemiology

Outils en épidémiologie génétique
Analyses de liaison (familles): Examiner la co-transmission d’une génération à l’autre du phénotype et des allèles de marqueurs génétiques Etudes d’association génétique (population générale, cas/témoins): Comparer fréquence des variants génétiques, entre patients et témoins Allele 6 seems to be transmitted with the disease plus puissant pour maladies complexes Risch, Science 1996 1 - Introduction to genetic epidemiology

Etudes d’association génétique
Single nucleotide polymorphism (SNP) A T G A/C T T C Copie 1 A T G A/C T T C Copie 2 1000 patients avec AVC: CC: n= 50 AC: n= 250 AA: n= 700 1000 témoins: CC: n= 10 AC: n= 180 AA: n= 810 Can use different models to test whether this difference in genotype distributions is different. Usually, when you don’t know which model is the true one, people tend to use a 1-degree of freedom trend test relating genotype dosage, 0 to 2 copies of the minor allele 1 - Introduction to genetic epidemiology 21

Un allèle est associé à un phénotype si sa fréquence diffère plus entre cas et témoins que par le simple hasard.  Cela n’implique PAS nécessairement un lien de causalité chromosome Phénotype A Variant génotypé B Variant causal non observé Déséquilibre de liaison Association directe (non observée) Association indirecte (observée) Functional / causal variant can Alter protein (enhance, reduce or eliminate function) Change or suppress protein expression Create a novel protein Because genetic variants in a region are generally associated with many other variants in the region (linkage disequilibrium, LD), a variant associated with a disease is a marker for the region it is in, but the LD patterns do not allow a determination of which particular variant or, frequently, which gene or genetic element, causally contributes to the risk for the disease. 1 - Introduction to genetic epidemiology

Quelques chiffres… ~3 milliards de paires de bases (nucléotides) dans séquence d’ADN humain 20,000 – 25,000 gènes: 1.5% du génome (reste contient ADN non-codant, dont introns et séquences régulatrices) Taille variable, de x100 bases à > 2 millions de bases 99.9% de la séquence d’ADN est identique d’un individu à l’autre Portion variable fait la différence…

Types de variation génétique
Single Nucleotide Polymorphism (SNP) = polymorphisme mononucléotidique Variation individuelle dans séquence nucléotidique Plusieurs millions de SNPs, fréq >1% (<1% = mutation ou SNV) A T G A/C T T C Copie 1 Chr (brin+) A T G A/C T T C Copie 2 Chr (brin+) 2 Allèles possibles: C ou A 3 Génotypes possibles: CC, CA, AA

Single Nucleotide Polymorphism (SNP) = polymorphisme mononucléotidique Variation individuelle dans séquence nucléotidique Plusieurs millions de SNPs, fréq >1% (<1% = mutation ou SNV) Conséquences: Neutre: Séquence non codante, non régulatrice Séquence codante mais « synonyme »: exemple: ACC ou ACA  même acide aminé (thréonine) Modification taux d’expression de gène Séquence régulatrice (non codante) Modification composition protéine: Séquence codante «non-synonyme» ou «missense» Séquence codante «non-sense» (induit codon stop) Intron, site d’épissage (non codante)

« Copy number variants » = CNV: segment d’ADN ou gène présent en nombre variable de copies d’un individu à l’autre Perte ou gain Taille variable (10,000 – 5,000,000 bases) Découverte plus récente que SNPs Intra- ou intergénique Polymorphismes de répétition Répétition de séquences en tandem, en nombre variable Taille variable: Microsatellites, STR, VNTR

Calcul de fréquences alléliques pour un SNP
Quelle est la fréquence de l’allèle A? Génotype N individus % AA 200 20% AG 500 50% GG 300 30% TOTAL 1000 100%

Quelle est la fréquence de l’allèle A? Freq (A) = (200x ) / 2000 = 0.45 Quelle est la fréquence de l’allèle G? Génotype N individus N allèles AA 200 400 A AG 500 500 A 500 G GG 300 600 G TOTAL 1000 2000

Quelle est la fréquence de l’allèle A? Freq (A) = (200x ) / 2000 = 0.45 Quelle est la fréquence de l’allèle G? Freq (G) = (300x ) / 2000 = 0.55 Génotype N individus N allèles AA 200 400 A AG 500 500 A 500 G GG 300 600 G TOTAL 1000 2000

Equilibre de Hardy-Weinberg
Dans une population dont l'effectif est infini (très grand), panmictique (mariages au hasard), en l'absence de mutation et de sélection, les fréquences alléliques et génotypiques restent constantes d’une génération à l’autre: Fréquence du génotype aa = p2 Fréquence du génotype aA = 2pq Fréquence du génotype AA = q2 où p = fréquence de l’allèle a q = fréquence de l’allèle A

Conditions de Hardy-Weinberg (HW) ne sont généralement pas strictement remplies dans la plupart des populations, mais généralement les génotypes suivent assez bien l’équilibre de HW En l’absence d’équilibre de HW on doit se poser la question des causes potentielles Par exemple lors de génotypage sur plateformes à haut débit, l’absence d’équilibre de HW dans une population témoin est considéré un signe de génotypage de mauvaise qualité

Comment tester si équilibre de Hardy-Weinberg est présent? Test de « Goodness of Fit » où Oi = effectif observé pour génotype i Ei = effectif attendu pour génotype i si équilibre de HW X2 suit une loi de Chi-2 à 1 degré de liberté En effet, normalement pour un test de chi-2 de 2 x 3 classes (observé/attendu, aa/aA/AA) il y a 2 degrés de liberté, mais ici on retire un degré de liberté supplémentaire, car on estime les fréquences alléliques à partir des génotypes observés Si équilibre de HW, alors test de Chi-2 est non significatif

Déséquilibre de liaison
Soit 2 variants génétiques sur même chromosome Variant 1: Alleles “a” et “A”, fréquences = p(a), p(A) Variant 2: Alleles “b” et “B”, fréquences = p(b), p(B) On a 4 combinaisons (ou haplotypes) possibles: AB Ab aB ab Si les deux variants sont indépendants, i.e. en « équilibre de liaison », alors: p(AB)=p(A) x p(B) A/a B/b

Déséquilibre de liaison
Soit 2 variants génétiques sur même chromosome Variant 1: Alleles “a” et “A”, fréquences = p(a), p(A) Variant 2: Alleles “b” et “B”, fréquences = p(b), p(B) On a 4 combinaisons (ou haplotypes) possibles: AB Ab aB ab Si les deux variants ne sont pas indépendants, ils sont dits en déséquilibre de liaison, i.e. p(AB)≠p(A) x p(B)  Fréquence de AB dépend non seulement de p(A) et p(B) mais aussi du degré de déséquilibre de liaison (r2, D’) A/a B/b

Recombinaison A/a B/b Indépendants

Recombinaison A/a B/b Dépendants

Un allèle est associé à un phénotype si sa fréquence diffère plus entre cas et témoins que par le simple hasard.  Cela n’implique PAS nécessairement un lien de causalité chromosome Phénotype A Variant génotypé B Variant causal non observé Déséquilibre de liaison Association directe (non observée) Association indirecte (observée) Functional / causal variant can Alter protein (enhance, reduce or eliminate function) Change or suppress protein expression Create a novel protein Because genetic variants in a region are generally associated with many other variants in the region (linkage disequilibrium, LD), a variant associated with a disease is a marker for the region it is in, but the LD patterns do not allow a determination of which particular variant or, frequently, which gene or genetic element, causally contributes to the risk for the disease. 1 - Introduction to genetic epidemiology

Etudes d’association sur “gènes candidats”: Tester association de phénotype avec polymorphismes génétiques candidats Basé sur hypothèses a priori sur physiopathologie Centaines d’études d’association gène candidat publiées sur AVC, HSB, infarctus: peu de loci répliqués de façon convaincante Principaux problèmes méthodologiques Petits effectifs Absence de réplication pré-planifiée Mauvais candidat ... Which Hugh Markus will probably touch upon 1 - Introduction to genetic epidemiology

Inactivation gène LRP1 dans cell. Musculaires lisses souris
Etudes gène candidat Exemples d’hypothèses a priori conduisant à la sélection d’un gène candidat: Expérimentation animale: Variants génétiques dans LRP1 = associés aux anévrysmes aorte chez l’homme? Inactivation gène LRP1 dans cell. Musculaires lisses souris Anévrysmes Boucher, Science 2003 1 - Introduction to genetic epidemiology

Etudes gène candidat Exemples d’hypothèses a priori conduisant à la sélection d’un gène candidat: Association connue avec d’autres maladies qui sont corrélées avec la maladie d’intérêt Alzheimer AVC Variants génétiques associés: Gene SNP chr Fréq allèle OR (AD) ApoE epsilon 19 0.11 2.5 CR1 rs 1 1.18 BIN1 rs744373 2 1.17 CLU rs 8 0.85 PICALM rs 11 0.87 ? Which Hugh Markus will probably touch upon Lambert, 2009; Seshadri, 2010; Naj, 2011; Hollingsworth, 2011 1 - Introduction to genetic epidemiology

? Etudes gène candidat AVC
Exemples d’hypothèses a priori conduisant à la sélection d’un gène candidat: Fonction du gène laisse supposer que pourrait être impliqué dans physiopathologie maladie Gène de coagulation, hémostase Genes Polymorphisms OR (IC95%) PAI-1 (Plasminogen activator inhibitor 1) Catto, 1997 rs (-668/4G>5G) NS Jood, 2005 rs CPB2 (Carbopeptidase B2, plasma = Thrombin-activable fibrinolysis inhibitor) Leebeek, 2005 -438A>G, 505A>G,1040C>T Ladenvall, 2007 rs /rs /rs /rs /rs940 OR=2.5( ) PLAT (Plasminogen activator, tissue) rs Yamada, 2006 VKORC1 (vitamin K epoxide reductase complex, subunit 1) Wang, 2006 rs (2255T>C) OR=1.8( ) Shen, 2007 rs OR=1.7( ) ? Which Hugh Markus will probably touch upon AVC Debette & Seshadri, Circ Cardiovasc Genet 2009 1 - Introduction to genetic epidemiology

Etudes gène candidat Choix des SNPs:
1-100 par gènes, en fonction de coût et taille gène SNPs « indépendants » si possible, i.e. pas en déséquilibre de liaison SNPs potentiellement fonctionnels: Codant non-synonyme Dans région régulatrice (promoteur, 3’UTR, site de fixation facteur transcription) Dans intron, site épissage Which Hugh Markus will probably touch upon 1 - Introduction to genetic epidemiology

Etudes d’association génétique pangénomiques = GWAS (genome-wide association study) Génotyper un très grand nombre (500,000-5,000,000) de variants génétiques distribués sur l’ensemble des chromosomes PAS d’hypothèse a priori sur les loci d’intérêt Récemment possible grâce au projet HapMap et aux technologies de génotypage à haut débit HapMap = projet international décrivant les variations génétiques fréquentes dans différents groupes ethniques Génotypage automatisé et rapide de milliers d’échantillons, pour des x100,000 SNPs. Among individuals from various ethnic groups These data are being made available to the community Zeggini, Nature Genet 2005 1 - Introduction to genetic epidemiology

Hybridisation d’ADN « marqué » de fixation « séquence-spécifique »
Création micropuce Interpretation informatisée Détection de fixation « séquence-spécifique » Microarray = microscopic arrangement of oligonucleotides Differential hybrid of fluorescently labeled DNA... of amount and location Interpretation of SNP data by high-throughput compu… With current technologies, information on more than a million unique sequence variants (SNPs) can be provided on a single chip or microarray. First, creation of a structured microscopic arrangement (array) of oligonucleotides (short polymer of nucleotides) of defined sequence on a silicon chip; next, patient DNA gets fluorescently labeled and hybridized to the array; subsequently, array gets scanned by automated procedure to detect the location and amount of sequence specific binding of the patient DNA to the oligonucleotides; finally, computational processing of the raw image data to yield an interpretable readout of SNP data Feero, NEJM 2010 1 - Introduction to genetic epidemiology

GWAS – présentation résultats
GWAS visant à identifier FDR génétiques d’AVC (accident vasculaire cérébral) Population: 19,602 individus d’origine européenne Phénotype: AVC, 1,544 cas incidents SNPs: 2.5 Millions, sur les 22 autosomes « Manhattan plot » - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, 10% heritabilité - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. 1 - Introduction to genetic epidemiology

GWAS visant à identifier FDR génétiques d’AVC (accident vasculaire cérébral) Population: 19,602 individus d’origine européenne Phénotype: AVC, 1,544 cas incidents SNPs: 2.5 Millions, sur les 22 autosomes « Manhattan plot » rs rs NINJ2 (chr12p13) p = 5 x10-8 - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, 10% heritabilité - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. 1 - Introduction to genetic epidemiology

GWAS visant à identifier FDR génétiques d’AVC (accident vasculaire cérébral) Population: 19,602 individus d’origine européenne Phénotype: AVC, 1,544 cas incidents SNPs: 2.5 Millions, sur les 22 autosomes Zoom « Manhattan plot » rs rs NINJ2 (chr12p13) p = 5 x10-8 - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, 10% heritabilité - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. 1 - Introduction to genetic epidemiology

Représentation régionale des associations de SNPs avec AVC (chr 12p13) - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, 10% heritabilité - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. Ikram et al., NEJM 2009 1 - Introduction to genetic epidemiology

GWAS – contraintes logistiques
Gènes candidat (18 ou 11 SNPs) Très grands effectifs nécessaires: > 1,000, voire > 10,000 Plus si variant rare Plus si risque relatif faible GWAS (500,000 ou 300,000 SNPs) - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, 10% heritabilité - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. Zondervan, Nature Protocols 2007 1 - Introduction to genetic epidemiology

Gènes candidat (18 ou 11 SNPs) Très grands effectifs nécessaires: > 1,000, voire > 10,000 Plus si variant rare Plus si risque relatif faible GWAS (500,000 ou 300,000 SNPs) Consortia - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, 10% heritabilité - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. Zondervan, Nature Protocols 2007 1 - Introduction to genetic epidemiology

prestige des U.S.A et d’AMD GWAS – contraintes logistiques Supercalculateurs pour analyser données Nœud de connexion, travail sur Unix 1 - Introduction to genetic epidemiology

Coût encore élevés: ~ 500 Euros pour génotyper 1 SNP sur 2000 sujets ~ 400,000 Euros pour un GWAS sur 600,000 SNPs sur 2000 sujets ~ 800,000 Euros pour un GWAS sur 5,000,000 SNPs sur 2000 sujets - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, 10% heritabilité - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. 1 - Introduction to genetic epidemiology

Gènes candidats Limite analyse à régions sélectionnées sur données ou hypothèses préalables Avantages: Coûte moins cher Nécessite effectifs moindres Inconvénients: Ne permet pas de découvrir de nouveaux gènes, non suspectés Résultats très décevants en moyenne Genome-wide Analyse de variants répartis sur l’ensemble du génome, sans hypothèse préalable Avantages: Permet de découvrir de nouveaux gènes (approche agnostique) Couvre mieux variation génétique A permis découverte x100 gènes Inconvénients: Nécessite très grands effectifs (collaborations…) Coût élevé Infrastructure (supercalculateur) Which Hugh Markus will probably touch upon 1 - Introduction to genetic epidemiology

Tests multiples Tests multiples en étude d’association génétique
Multiples SNPs Dans un ou plusieurs gènes candidats Genome-wide (500,000 à 5,000,000 SNPs) Multiples phénotypes Comment en tenir compte dans interprétation résultats? Which Hugh Markus will probably touch upon 1 - Introduction to genetic epidemiology

Tests multiples H0: pas d’association entre SNP et M Réalité Décision
H0 faux H0 vrai Rejeter H0 correct faux positif Ne pas rejeter H0 faux négatif α = probabilité d’erreur de type I = probabilité de rejeter H0, alors que H0 = vrai = probabilité de déclarer une association à tort α = seuil de significativité pour un seul test statistique (α = 0.05) ß = probabilité d’erreur de type II = probabilité de ne pas rejeter H0, alors que H0 = faux = probabilité de ne pas détecter une association qui existe 1-ß = puissance du test Which Hugh Markus will probably touch upon 1 - Introduction to genetic epidemiology

Correction de Bonferroni
Si n tests: seuil de significativité = 0.05/n ou garder seuil à 0.05 mais multiplier p par n Exemple Test p Test1 0.047 Test2 0.03 Test3 0.009 Test4 0.10 Test5 0.02 1 - Introduction to genetic epidemiology

Correction de Bonferroni
Si n tests: seuil de significativité = 0.05/n ou garder seuil à 0.05 mais multiplier p par n Exemple Test p Test1 0.047 Test2 0.03 Test3 0.009 Test4 0.10 Test5 0.02 Surcorrige (conservateur) si tests ne sont pas indépendants, par exemple: SNPs en déséquilibre de liaison 1 - Introduction to genetic epidemiology

Tests multiples En pratique… Bonferroni
Autres méthodes: False Discovery Rate, Permutations Dans GWAS, généralement seuil fixe à p=5x10-8 Correspond à ~ 1 Million de tests indépendants Reflète à peu près la réalité, quelque soit la densité des puces Pour populations européennes… Which Hugh Markus will probably touch upon 1 - Introduction to genetic epidemiology

Hétérogénéité ethnique
Il faut tenir compte de la structure de la population Faux positifs (associations faussement significatives) si « stratification » de la population, i.e. si population contient plusieurs sous-populations différant par leur caractéristiques génétiques, notamment fréquences alléliques Campbell, Nat Genet 2005 1 - Introduction to genetic epidemiology

Allele 2 = 20% in cases and controls 60% in cases and controls
Population 1 Population 2 Allele 2 = 20% in cases and controls 60% in cases and controls Population 1 + 2 Allele 2 = 33% in cases and 45% in controls! cases controls 1 - Introduction to genetic epidemiology

Hétérogénéité ethnique
Il est donc essentiel de… choisir des témoins de la même origine ethnique que les cas autant que possible du même pays, voire de la même région Si différentes origines géographiques dans population étudiée, on peut: stratifier l’analyse par origine géographique (i.e. par pays) effectuer une analyse groupée en corrigeant sur la stratification par des méthodes statistiques (contrôle génomique, composantes principales) Avoid by excluding individuals with different ethnic backgrounds Explain QQ plot 1 - Introduction to genetic epidemiology

Analyse en composantes principales = appliquée aux données GWAS (génotypes pangénomiques) pour inférer des axes continus de variation génétique Price, Nat Genet 2006

Réplication +++ Essentielle pour confirmer qu’une association est réelle Importance d’utiliser des échantillons de réplication indépendants Credibilité augmentée quand groupes d’investigateurs multiples Ikram, NEJM 2009 Réplication dans article initial 652/3613 caucasiens 2430 personnes avec 215 AVC incidents afro-américains Réplication dans étude asiatique 3784/3102 asiatiques Matsushita, J Hum Genet 2010 1 - Introduction to genetic epidemiology

Réplication +++ Essentielle pour confirmer qu’une association est réelle Importance d’utiliser des échantillons de réplication indépendants Crédibilité augmentée quand groupes d’investigateurs multiples Ikram, NEJM 2009 Réplication dans article initial 652/3613 caucasiens 2430 personnes avec 215 AVC incidents afro-américains Réplication dans étude asiatique 3784/3102 asiatiques Matsushita, J Hum Genet 2010 Rosand, NEJM 2010 1 - Introduction to genetic epidemiology

Réplication +++ Calcul d’effectif nécessaire doit tenir compte du “winner’s curse” L’étude initiale tend typiquement à surestimer la force de l’association Même groupe ethnique initialement Du fait de différences en fréquence allélique, déséquilibre de liaison, force de l’association Extension à d’autres groupes ethniques dans un 2è temps: Important pour la généralisabilité des résultats Permet d’affiner le signal du fait de différences de déséquilibre de liaison, plus forte densité en SNPs... 1 - Introduction to genetic epidemiology

Nature 2011; 475: 1 - Introduction to genetic epidemiology

Refining the signal  Where is the causative variant?
Far from being straightforward. Ioannidis, Nat Rev Genet 2009 1 - Introduction to genetic epidemiology

Refining the signal  Where is the causative variant?
more complete inventory of sequence variation within regions of interest, and to identify putatively causal variants with the strongest effects on disease susceptibility Resequencing and fine mapping around confirmed signals Ioannidis, Nat Rev Genet 2009 1 - Introduction to genetic epidemiology

Refining the signal  Where is the causative gene?
Even when we are sure where the causative variant lies, we still don’t know Ioannidis, Nat Rev Genet 2009 1 - Introduction to genetic epidemiology

Refining the signal  Where is the causative gene? Genome annotation
Even when we are sure where the causative variant lies, we still don’t know Genome annotation Expression quantitative trait loci Experiments… Ioannidis, Nat Rev Genet 2009 1 - Introduction to genetic epidemiology

Succès et limites des GWAS…
En ~5 ans, GWAS ont identifié des centaines de nouveaux loci associé avec diverses maladies, avec réplication solide La plupart dans gènes préalablement non suspectés Catalogue online ( 71 gènes pour maladie de Crohn Franke, Nat Genet 2010 38 gènes pour diabète de type 2 Voight, Nat Genet 2010 25 gènes pour maladie coronaire Shunkert, Nat Genet 2011 12 gènes pour Alzheimer Hollingworth, Nat Genet 2011 4 gènes pour AVC (problème hétérogénéité…) - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, 10% heritabilité - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. 1 - Introduction to genetic epidemiology

Published Genome-Wide Associations through 6/2010,
904 published GWA at p<5x10-8 for 165 traits NHGRI GWA Catalog 1 - Introduction to genetic epidemiology

Prédisposition génétique aux AVC ischémiques
Module tolérance à ischémie cérébrale Ikram, NEJM 2009 NINJ2 Predispose to arterial thrombosis Dissection Influence méchanismes responsables des sous-types d’AVC ischémique PITX2, ZFHX2 Fibrillation auriculaire 9p21, HDAC9 Athérome Gretarsdottir, Ann Neurol 2008 Bellenguez, Nat Genet 2012 Traylor, Lancet Neurol 2012 Maladie petites artères Other ? Diabète Obesité ? ↑ Risque de et susceptibilité aux Facteurs de risque traditionnels HTA Hyperchol Tabac 1 - Introduction to genetic epidemiology

Succès et limites des GWAS…
En ~5 ans, GWAS ont identifié des centaines de nouveaux loci associé avec diverses maladies, avec réplication solide La plupart dans gènes préalablement non suspectés Catalogue online ( 71 gènes pour maladie de Crohn 23% héritabilité 38 gènes pour diabète de type 2 10% héritabilité 25 gènes pour maladie coronaire 10% heritabilité 12 gènes pour Alzheimer 4 gènes pour AVC (problème hétérogénéité…) - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. 1 - Introduction to genetic epidemiology

Perspectives Au-delà du GWAS… Variants rares Copy number variants
1000 génome Séquençage exons / genome entier (ESP-GO, CHARGE-S…) Exome chip Copy number variants Segments d’ADN présents en nombre variable de copies Modifications épigénétiques Modulent « emballage » ADN dans noyau et influencent expression ADN mitochondrial Few publications to date have incorporated interaction testing of GWA data Epigenetics modulate the packaging of the DNA in the nucleus and thereby influence gene expression 1 - Introduction to genetic epidemiology

Merci pour votre attention!
Led to the discovery of… 1 - Introduction to genetic epidemiology

Génétique des Maladies Multifactorielles

Présentations similaires

Présentation au sujet: "Génétique des Maladies Multifactorielles"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Génétique des Maladies Multifactorielles

Présentations similaires

Présentation au sujet: "Génétique des Maladies Multifactorielles"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back