Génétique des Maladies Multifactorielles

Slides:

Advertisements

Présentations similaires

Puissance et NSN.

Advertisements

Développement d’un médicament

Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.

Risques d’erreur statistique et test statistique

Test statistique : principe

UIC I Génétique - Cours 8 MALADIES MULTIFACTORIELLES

La génétique bactérienne cours 5

Cours du 6 novembre 2012 (4 séries de diapos)

Migraine Hémiplégique Familiale Un exemple de maladie génétique très rare existant sous une forme sporadique, non génétique et sous une forme très rare,

Génétique Médicale L3 Hérédité mendélienne

et polyarthrite rhumatoïde

5 critères de qualité d'un test

Variabilité nucléotidique du gène de l'acétyl coenzyme A carboxylase et Signature de sélection par un herbicide chez la plante Alopecurus myosuroides (Huds.)

Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.

Les TESTS STATISTIQUES

Tests de comparaison de pourcentages

Nombre de sujets nécessaires en recherche clinique

Maladie d’Alzheimer L’état de la recherche en France

Les TESTS STATISTIQUES

Dr DEVILLE Emmanuelle J D V 12/07/2006

Unité de Génétique médicale (Pr. Odent)

Génotypage RHD fœtal sur plasma maternel

Travail de génétique G9 :

BIO1130 LAB 4 MICROÉVOLUTION.

Le diagnostic moléculaire des

Traitement de données socio-économiques et techniques d’analyse :

Génétique adaptative des pathogènes

Dépistage du cancer colorectal par l’hémoccult

Genotypic data: concepts and meanings

Introduction Les données épidémiologiques suggèrent que les sujets diabétiques présentent un risque significativement augmenté pour différents types.

Régression linéaire simple

Objectifs du chapitre 12: Interprétation des résultats

BIO 2533 — Chapitre 1 Importance de la génétique et sa portée:

Responsables P. Maury & R. Babilé

Identifier les composants structurels et fonctionnels encodés dans le génome humain.

Paul-Marie Bernard Université Laval

HAMM Flore HAXAIRE Cécile LISKA Claire MENDES Agnès

Faculté de Médecine Lyon-Sud Module Optionnel de préparation à la lecture critique d articles Multiplicité.

Recombination and the Nature of Bacterial Speciation

Matthieu Foll 28 aout 2008 Journées MAS

Etude de la variation génétique du cheval polonais Bilgoraj

CHAPITRE 19 - La génétique des populations

Corrélation Principe fondamental d’une analyse de corrélation

LA LOI DE HARDY-WEINBERG ET LA MICROÉVOLUTION

Objectifs: Etudier l’hétérogénéité des caractères au sein de la composante environnementale de la variance résiduelle Pour cela on tente de minimiser les.

1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.

La syndactylie chez la Holstein allemande

Marcoccio Maude Gony Sophie De Langlois Charles Benani Sliman

LA LOI DE HARDY-WEINBERG ET LA MICROÉVOLUTION

"POLYMORPHISME" Plusieurs Formes

Chapitre 12 : Résistance du VIH-1 aux antirétroviraux

La médecine personnalisée pour traiter le cancer du poumon

Loi de Hardy-Weinberg Base de la Génétique des Populations

La génétique et la biométrie

Dr B.DEMEER Unité de génétique clinique, hôpital Nord, Amiens

Le polymorphisme est régénéré (mutation)

Facteurs génétiques impliqués dans la scoliose idiopathique

JASN August 14, 2014 Lise Lelandais, service de Néphrologie du CHU de Rouen, 18 novembre 2014.

Epidémiologie Dr Lydia Guittet.

Introduction à la Pathologie Moléculaire du Gène

IUMSP Institut universitaire de médecine sociale et préventive, Lausanne Facteurs génétiques associés au risque cardiovasculaire – comparaison entre sexes.

La diversité génétique et les tests d’assignation sur 7 races bovines françaises basés sur l’analyse d’ADN microsatellite.

La génétique et la biométrie

MODULE FTH 2007 Diversité génétique

Stabilité et Variabilité des génomes et Evolution

CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.

EPIDEMIOLOGIE ANALYTIQUE

Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.

Variation et norme du génome : quelles limites à la différence Ph Jonveaux Bruno Leheup Centre de référence syndromes malformatifs et anomalies du développement.

L’histoire du gène depuis le début du 20 e siècle jusqu’à aujourd’hui Michel Morange, Centre Cavaillès, République des savoirs USR 3608, Ecole normale.

Transcription de la présentation:

Génétique des Maladies Multifactorielles Stéphanie Debette MCU-PH Epidémiologie – Neurologie Lariboisière stephanie.debette@lrb.aphp.fr 1 - Introduction to genetic epidemiology

Génétique des maladies multifactorielles Approche épidémiologique Epidémiologie génétique = Branche de l’épidémiologie qui étudie le rôle de facteurs génétiques et de leur interaction avec des facteurs environnementaux dans la survenue de maladies Khoury et al., Fundamentals of Genetic Epidemiology, Oxford University Press 1993

Génétique des maladies multifactorielles: pourquoi? Physiopathologie: Meilleure compréhension des mécanismes moléculaires conduisant à la maladie Prédiction de risque: Identification de populations à risque de développer maladie, en fonction de patrimoine génétique Prévention ciblée (ou « Médecine personnalisée ») Pharmacogénétique: Identification de meilleurs répondeurs à traitement ou d’individus à risque accru d’effets secondaires « Traitement personnalisé » McCarthy, Nat Rev Med 2008

Génétique des maladies multifactorielles: pourquoi? Physiopathologie: Meilleure compréhension des mécanismes moléculaires conduisant à la maladie Prédiction de risque: Identification de populations à risque de développer maladie, en fonction de patrimoine génétique Prévention ciblée (ou « Médecine personnalisée ») Pharmacogénétique: Identification de meilleurs répondeurs à traitement ou d’individus à risque accru d’effets secondaires « Traitement personnalisé » McCarthy, Nat Rev Med 2008

Epidemiologie génétique  Physiopathologie Identification de facteurs de susceptibilité génétique Meilleure compréhension de biologie sous-jacente Nouvelles Cibles thérapeutiques Biomarqueurs Prévention Meilleure prédiction de risque, monitorer l’évolution de la maladie et la réponse à un éventuel traitement Meilleure prévention, par exemple par mise en évidence d’un FDR environnemental. ex: monitorer évolution maladie ex: mise en évidence FDR environnemental McCarthy, Nat Rev Genet 2008 1 - Introduction to genetic epidemiology

Epidemiologie génétique  Physiopathologie Identification de facteurs de susceptibilité génétique Meilleure compréhension de biologie sous-jacente Nouvelles Cibles thérapeutiques Biomarqueurs Prévention Meilleure prédiction de risque, monitorer l’évolution de la maladie et la réponse à un éventuel traitement Meilleure prévention, par exemple par mise en évidence d’un FDR environnemental. ex: monitorer évolution maladie ex: mise en évidence FDR environnemental McCarthy, Nat Rev Genet 2008 1 - Introduction to genetic epidemiology

Exemple de la maladie de Crohn… Découverte gènes de susceptibilité maladie de Crohn a révélé rôle central autophagie et exposition à microbes intestinaux Abraham, NEJM 2009; Feero, NEJM 2010 Yano & Kurata, Nat Immunol 2009 catabolic process involving the nonselective degradation of a cell’s own components Indeed most of the genes that have been discovered as increasing the susceptibility to Crohn’s disease are invoived in this process, recognition and defense against luminal bacteria Loss of autophagy  aberrant cytoking production  in turn leads to bowel inflammation in response to luminal bacteria... Clearly / new tartgets Gène NOD2: détecteur intracellulaire de peptidoglycanes bactériens Gène ATG16L1: dirige composants intracellulaires (microbes) vers lysosomes  Nouvelles voies pour approches thérapeutiques Targeting the human microbiome with antibiotics, probiotics, and prebiotics: gastroenterology enters the metagenomics era. Preidis, Gastroenterology 2009 1 - Introduction to genetic epidemiology

Epidemiologie génétique  Physiopathologie Identification de facteurs de susceptibilité génétique Meilleure compréhension de biologie sous-jacente Nouvelles Cibles thérapeutiques Biomarqueurs Prévention Meilleure prédiction de risque, monitorer l’évolution de la maladie et la réponse à un éventuel traitement Meilleure prévention, par exemple par mise en évidence d’un FDR environnemental. ex: monitorer évolution maladie ex: mise en évidence FDR environnemental McCarthy, Nat Rev Genet 2008 1 - Introduction to genetic epidemiology

Identification de FDR environnementaux par la génétique… Tabac ↗ risque de polyarthrite rhumatoïde de 1.5 en population générale, mais d’un facteur > 20 si certains variants génétiques sur HLA et PTPN22 sont présents! Klareskog, Arthritis Rheum 2006 Amish porteurs de variant génétique sur gène FTO ↗ risque obésité sont protégés de obésité par activité physique catabolic process involving the nonselective degradation of a cell’s own components Indeed most of the genes that have been discovered as increasing the susceptibility to Crohn’s disease are invoived in this process, recognition and defense against luminal bacteria Loss of autophagy  aberrant cytoking production  in turn leads to bowel inflammation in response to luminal bacteria... Clearly / new tartgets Rampersaud, Arch Intern Med 2008; Kilpeläinen, PLOS Med 2011 1 - Introduction to genetic epidemiology

Génétique des maladies multifactorielles: pourquoi? Physiopathologie: Meilleure compréhension des mécanismes moléculaires conduisant à la maladie Prédiction de risque: Identification de populations à risque de développer maladie, en fonction de patrimoine génétique Prévention ciblée (ou « Médecine personnalisée ») Pharmacogénétique: Identification de meilleurs répondeurs à traitement ou d’individus à risque accru d’effets secondaires « Traitement personnalisé » McCarthy, Nat Rev Med 2008

Epidemiologie génétique  Prédiction de risque? Décevant jusqu’ici, car variants génétiques identifiés jusqu’ici = associés à augmentation modeste de risque (OR < 1.5) Même quand risque relatif plus élevé, pour l’instant pas d’application clinique dans majorité des cas: Allèle Epsilon4 de l’Apolipoprotéine E pour maladie d’Alzheimer Allèles HLA pour maladies autoimmunes Combiner Différents variants génétiques (« scores de risque ») Variants génétiques + autres biomarqueurs (circulants, imagerie…) Meilleure prédiction de risque, monitorer l’évolution de la maladie et la réponse à un éventuel traitement Meilleure prévention, par exemple par mise en évidence d’un FDR environnemental. dans modèles intégratifs Cho & Gregersen, NEJM 2011 Ripatti, Lancet 2010 1 - Introduction to genetic epidemiology

Génétique des maladies multifactorielles: pourquoi? Physiopathologie: Meilleure compréhension des mécanismes moléculaires conduisant à la maladie Prédiction de risque: Identification de populations à risque de développer maladie, en fonction de patrimoine génétique Prévention ciblée (ou « Médecine personnalisée ») Pharmacogénétique: Identification de meilleurs répondeurs à traitement ou d’individus à risque accru d’effets secondaires « Traitement personnalisé » McCarthy, Nat Rev Med 2008

Pharmacogénétique, Exemple CYP2C19 = enzyme impliquée dans bioactivation du clopidogrel Allele CYP2C19*2 du variant génétique rs4244285 = associé à risque ↑ d’évènements cardiovasculaires Utilisation du Clopidogrel en fonction de génotype rs4244285 CYP2C19 chez patients traités par angioplastie pour syndrome coronarien aigu metaboliseurs  FDA / AHA: « boxed warning », évaluer au cas par cas Scott, Clin Pharmacol Ther 2011 1 - Introduction to genetic epidemiology

Génétique des maladies multifactorielles Maladies complexes/multifactorielles vs. mendéliennes Etudes d’association génétique vs. analyses de liaison Quelques rappels Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison Etudes d’association génétique (EAG) Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques Analyse et interprétation des EAG Tests multiples Hétérogénéité de population Réplication Caractérisation des signaux identifiés, perspectives 1 - Introduction to genetic epidemiology

Génétique des maladies multifactorielles Maladies complexes/multifactorielles vs. mendéliennes Etudes d’association génétique vs. analyses de liaison Quelques rappels Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison Etudes d’association génétique (EAG) Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques Analyse et interprétation des EAG Tests multiples Hétérogénéité de population Réplication Caractérisation des signaux identifiés, perspectives 1 - Introduction to genetic epidemiology

Maladies mendéliennes Maladies mendéliennes (ou monogéniques) = causées par mutation dans un seul gène Trois modes de transmission: Autosomique dominant Autosomique récessif Récessif lié à l’X

Maladies complexes ou multifactorielles Maladies ayant de multiples facteurs de susceptibilité génétiques et facteurs de risque environnementaux Ne suit pas un mode de transmission mendélien Différentes façon de mesurer contribution de facteurs génétiques: Héritabilité: proportion de variance phénotypique due à effets génétiques Risque de récurrence: compare proportion d’apparentés de cas qui sont atteints par maladie versus proportion d’individus atteints en population générale

Génétique des maladies multifactorielles Maladies complexes/multifactorielles vs. mendéliennes Etudes d’association génétique vs. analyses de liaison Quelques rappels Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison Etudes d’association génétique (EAG) Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques Analyse et interprétation des EAG Tests multiples Hétérogénéité de population Réplication Caractérisation des signaux identifiés, perspectives 1 - Introduction to genetic epidemiology

Outils en épidémiologie génétique Analyses de liaison (familles): Examiner la co-transmission d’une génération à l’autre du phénotype et des allèles de marqueurs génétiques Etudes d’association génétique (population générale, cas/témoins): Comparer fréquence des variants génétiques, entre patients et témoins Allele 6 seems to be transmitted with the disease Courtesy Dr. Dupuis 1 - Introduction to genetic epidemiology

Outils en épidémiologie génétique Analyses de liaison (familles): Examiner la co-transmission d’une génération à l’autre du phénotype et des allèles de marqueurs génétiques Etudes d’association génétique (population générale, cas/témoins): Comparer fréquence des variants génétiques, entre patients et témoins Allele 6 seems to be transmitted with the disease plus puissant pour maladies complexes Risch, Science 1996 1 - Introduction to genetic epidemiology

Etudes d’association génétique Single nucleotide polymorphism (SNP) A T G A/C T T C Copie 1 A T G A/C T T C Copie 2 1000 patients avec AVC: CC: n= 50 AC: n= 250 AA: n= 700 1000 témoins: CC: n= 10 AC: n= 180 AA: n= 810 Can use different models to test whether this difference in genotype distributions is different. Usually, when you don’t know which model is the true one, people tend to use a 1-degree of freedom trend test relating genotype dosage, 0 to 2 copies of the minor allele 1 - Introduction to genetic epidemiology 21

Etudes d’association génétique Un allèle est associé à un phénotype si sa fréquence diffère plus entre cas et témoins que par le simple hasard.  Cela n’implique PAS nécessairement un lien de causalité chromosome Phénotype A Variant génotypé B Variant causal non observé Déséquilibre de liaison Association directe (non observée) Association indirecte (observée) Functional / causal variant can Alter protein (enhance, reduce or eliminate function) Change or suppress protein expression Create a novel protein Because genetic variants in a region are generally associated with many other variants in the region (linkage disequilibrium, LD), a variant associated with a disease is a marker for the region it is in, but the LD patterns do not allow a determination of which particular variant or, frequently, which gene or genetic element, causally contributes to the risk for the disease. 1 - Introduction to genetic epidemiology

Génétique des maladies multifactorielles Maladies complexes/multifactorielles vs. mendéliennes Etudes d’association génétique vs. analyses de liaison Quelques rappels Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison Etudes d’association génétique (EAG) Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques Analyse et interprétation des EAG Tests multiples Hétérogénéité de population Réplication Caractérisation des signaux identifiés, perspectives 1 - Introduction to genetic epidemiology

Quelques chiffres… ~3 milliards de paires de bases (nucléotides) dans séquence d’ADN humain 20,000 – 25,000 gènes: 1.5% du génome (reste contient ADN non-codant, dont introns et séquences régulatrices) Taille variable, de x100 bases à > 2 millions de bases 99.9% de la séquence d’ADN est identique d’un individu à l’autre Portion variable fait la différence…

Types de variation génétique Single Nucleotide Polymorphism (SNP) = polymorphisme mononucléotidique Variation individuelle dans séquence nucléotidique Plusieurs millions de SNPs, fréq >1% (<1% = mutation ou SNV) A T G A/C T T C Copie 1 Chr (brin+) A T G A/C T T C Copie 2 Chr (brin+) 2 Allèles possibles: C ou A 3 Génotypes possibles: CC, CA, AA

Types de variation génétique Single Nucleotide Polymorphism (SNP) = polymorphisme mononucléotidique Variation individuelle dans séquence nucléotidique Plusieurs millions de SNPs, fréq >1% (<1% = mutation ou SNV) Conséquences: Neutre: Séquence non codante, non régulatrice Séquence codante mais « synonyme »: exemple: ACC ou ACA  même acide aminé (thréonine) Modification taux d’expression de gène Séquence régulatrice (non codante) Modification composition protéine: Séquence codante «non-synonyme» ou «missense» Séquence codante «non-sense» (induit codon stop) Intron, site d’épissage (non codante)

Types de variation génétique « Copy number variants » = CNV: segment d’ADN ou gène présent en nombre variable de copies d’un individu à l’autre Perte ou gain Taille variable (10,000 – 5,000,000 bases) Découverte plus récente que SNPs Intra- ou intergénique Polymorphismes de répétition Répétition de séquences en tandem, en nombre variable Taille variable: Microsatellites, STR, VNTR

Calcul de fréquences alléliques pour un SNP Quelle est la fréquence de l’allèle A? Génotype N individus % AA 200 20% AG 500 50% GG 300 30% TOTAL 1000 100%

Calcul de fréquences alléliques pour un SNP Quelle est la fréquence de l’allèle A? Freq (A) = (200x2 + 500) / 2000 = 0.45 Quelle est la fréquence de l’allèle G? Génotype N individus N allèles AA 200 400 A AG 500 500 A 500 G GG 300 600 G TOTAL 1000 2000

Calcul de fréquences alléliques pour un SNP Quelle est la fréquence de l’allèle A? Freq (A) = (200x2 + 500) / 2000 = 0.45 Quelle est la fréquence de l’allèle G? Freq (G) = (300x2 + 500) / 2000 = 0.55 Génotype N individus N allèles AA 200 400 A AG 500 500 A 500 G GG 300 600 G TOTAL 1000 2000

Génétique des maladies multifactorielles Maladies complexes/multifactorielles vs. mendéliennes Etudes d’association génétique vs. analyses de liaison Quelques rappels Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison Etudes d’association génétique (EAG) Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques Analyse et interprétation des EAG Tests multiples Hétérogénéité de population Réplication Caractérisation des signaux identifiés, perspectives 1 - Introduction to genetic epidemiology

Equilibre de Hardy-Weinberg Dans une population dont l'effectif est infini (très grand), panmictique (mariages au hasard), en l'absence de mutation et de sélection, les fréquences alléliques et génotypiques restent constantes d’une génération à l’autre: Fréquence du génotype aa = p2 Fréquence du génotype aA = 2pq Fréquence du génotype AA = q2 où p = fréquence de l’allèle a q = fréquence de l’allèle A

Equilibre de Hardy-Weinberg Conditions de Hardy-Weinberg (HW) ne sont généralement pas strictement remplies dans la plupart des populations, mais généralement les génotypes suivent assez bien l’équilibre de HW En l’absence d’équilibre de HW on doit se poser la question des causes potentielles Par exemple lors de génotypage sur plateformes à haut débit, l’absence d’équilibre de HW dans une population témoin est considéré un signe de génotypage de mauvaise qualité

Equilibre de Hardy-Weinberg Comment tester si équilibre de Hardy-Weinberg est présent? Test de « Goodness of Fit » où Oi = effectif observé pour génotype i Ei = effectif attendu pour génotype i si équilibre de HW X2 suit une loi de Chi-2 à 1 degré de liberté En effet, normalement pour un test de chi-2 de 2 x 3 classes (observé/attendu, aa/aA/AA) il y a 2 degrés de liberté, mais ici on retire un degré de liberté supplémentaire, car on estime les fréquences alléliques à partir des génotypes observés Si équilibre de HW, alors test de Chi-2 est non significatif

Déséquilibre de liaison Soit 2 variants génétiques sur même chromosome Variant 1: Alleles “a” et “A”, fréquences = p(a), p(A) Variant 2: Alleles “b” et “B”, fréquences = p(b), p(B) On a 4 combinaisons (ou haplotypes) possibles: AB Ab aB ab Si les deux variants sont indépendants, i.e. en « équilibre de liaison », alors: p(AB)=p(A) x p(B) A/a B/b

Déséquilibre de liaison Soit 2 variants génétiques sur même chromosome Variant 1: Alleles “a” et “A”, fréquences = p(a), p(A) Variant 2: Alleles “b” et “B”, fréquences = p(b), p(B) On a 4 combinaisons (ou haplotypes) possibles: AB Ab aB ab Si les deux variants ne sont pas indépendants, ils sont dits en déséquilibre de liaison, i.e. p(AB)≠p(A) x p(B)  Fréquence de AB dépend non seulement de p(A) et p(B) mais aussi du degré de déséquilibre de liaison (r2, D’) A/a B/b

Recombinaison A/a B/b Indépendants

Recombinaison A/a B/b Dépendants

Etudes d’association génétique Un allèle est associé à un phénotype si sa fréquence diffère plus entre cas et témoins que par le simple hasard.  Cela n’implique PAS nécessairement un lien de causalité chromosome Phénotype A Variant génotypé B Variant causal non observé Déséquilibre de liaison Association directe (non observée) Association indirecte (observée) Functional / causal variant can Alter protein (enhance, reduce or eliminate function) Change or suppress protein expression Create a novel protein Because genetic variants in a region are generally associated with many other variants in the region (linkage disequilibrium, LD), a variant associated with a disease is a marker for the region it is in, but the LD patterns do not allow a determination of which particular variant or, frequently, which gene or genetic element, causally contributes to the risk for the disease. 1 - Introduction to genetic epidemiology

Génétique des maladies multifactorielles Maladies complexes/multifactorielles vs. mendéliennes Etudes d’association génétique vs. analyses de liaison Quelques rappels Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison Etudes d’association génétique (EAG) Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques Analyse et interprétation des EAG Tests multiples Hétérogénéité de population Réplication Caractérisation des signaux identifiés, perspectives 1 - Introduction to genetic epidemiology

Etudes d’association génétique Etudes d’association sur “gènes candidats”: Tester association de phénotype avec polymorphismes génétiques candidats Basé sur hypothèses a priori sur physiopathologie Centaines d’études d’association gène candidat publiées sur AVC, HSB, infarctus: peu de loci répliqués de façon convaincante Principaux problèmes méthodologiques Petits effectifs Absence de réplication pré-planifiée Mauvais candidat ... Which Hugh Markus will probably touch upon 1 - Introduction to genetic epidemiology

Inactivation gène LRP1 dans cell. Musculaires lisses souris Etudes gène candidat Exemples d’hypothèses a priori conduisant à la sélection d’un gène candidat: Expérimentation animale: Variants génétiques dans LRP1 = associés aux anévrysmes aorte chez l’homme? Inactivation gène LRP1 dans cell. Musculaires lisses souris Anévrysmes Boucher, Science 2003 1 - Introduction to genetic epidemiology

Etudes gène candidat Exemples d’hypothèses a priori conduisant à la sélection d’un gène candidat: Association connue avec d’autres maladies qui sont corrélées avec la maladie d’intérêt Alzheimer AVC Variants génétiques associés: Gene SNP chr Fréq allèle OR (AD) ApoE epsilon 19 0.11 2.5 CR1 rs3818361 1 0.17219 1.18 BIN1 rs744373 2 0.27341 1.17 CLU rs11136000 8 0.40328 0.85 PICALM rs3851179 11 0.37258 0.87 ? Which Hugh Markus will probably touch upon Lambert, 2009; Seshadri, 2010; Naj, 2011; Hollingsworth, 2011 1 - Introduction to genetic epidemiology

? Etudes gène candidat AVC Exemples d’hypothèses a priori conduisant à la sélection d’un gène candidat: Fonction du gène laisse supposer que pourrait être impliqué dans physiopathologie maladie Gène de coagulation, hémostase Genes Polymorphisms OR (IC95%) PAI-1 (Plasminogen activator inhibitor 1) Catto, 1997 rs1799768 (-668/4G>5G) NS Jood, 2005 rs1799768 CPB2 (Carbopeptidase B2, plasma = Thrombin-activable fibrinolysis inhibitor) Leebeek, 2005 -438A>G, 505A>G,1040C>T Ladenvall, 2007 rs3742264/rs7337140/rs9526136/rs1926447/rs940 OR=2.5(1.4-4.4) PLAT (Plasminogen activator, tissue) rs2020918 Yamada, 2006 VKORC1 (vitamin K epoxide reductase complex, subunit 1) Wang, 2006 rs2359612 (2255T>C) OR=1.8(1.3-2.3) Shen, 2007 rs2359612 OR=1.7(1.4-2.1) ? Which Hugh Markus will probably touch upon AVC Debette & Seshadri, Circ Cardiovasc Genet 2009 1 - Introduction to genetic epidemiology

Etudes gène candidat Choix des SNPs: 1-100 par gènes, en fonction de coût et taille gène SNPs « indépendants » si possible, i.e. pas en déséquilibre de liaison SNPs potentiellement fonctionnels: Codant non-synonyme Dans région régulatrice (promoteur, 3’UTR, site de fixation facteur transcription) Dans intron, site épissage Which Hugh Markus will probably touch upon 1 - Introduction to genetic epidemiology

Etudes d’association génétique Etudes d’association génétique pangénomiques = GWAS (genome-wide association study) Génotyper un très grand nombre (500,000-5,000,000) de variants génétiques distribués sur l’ensemble des chromosomes PAS d’hypothèse a priori sur les loci d’intérêt Récemment possible grâce au projet HapMap et aux technologies de génotypage à haut débit HapMap = projet international décrivant les variations génétiques fréquentes dans différents groupes ethniques Génotypage automatisé et rapide de milliers d’échantillons, pour des x100,000 SNPs. Among individuals from various ethnic groups These data are being made available to the community Zeggini, Nature Genet 2005 1 - Introduction to genetic epidemiology

Hybridisation d’ADN « marqué » de fixation « séquence-spécifique » Création micropuce Interpretation informatisée Détection de fixation « séquence-spécifique » Microarray = microscopic arrangement of oligonucleotides Differential hybrid of fluorescently labeled DNA... of amount and location Interpretation of SNP data by high-throughput compu… With current technologies, information on more than a million unique sequence variants (SNPs) can be provided on a single chip or microarray. First, creation of a structured microscopic arrangement (array) of oligonucleotides (short polymer of nucleotides) of defined sequence on a silicon chip; next, patient DNA gets fluorescently labeled and hybridized to the array; subsequently, array gets scanned by automated procedure to detect the location and amount of sequence specific binding of the patient DNA to the oligonucleotides; finally, computational processing of the raw image data to yield an interpretable readout of SNP data Feero, NEJM 2010 1 - Introduction to genetic epidemiology

GWAS – présentation résultats GWAS visant à identifier FDR génétiques d’AVC (accident vasculaire cérébral) Population: 19,602 individus d’origine européenne Phénotype: AVC, 1,544 cas incidents SNPs: 2.5 Millions, sur les 22 autosomes « Manhattan plot » - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, 10% heritabilité - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. 1 - Introduction to genetic epidemiology

GWAS – présentation résultats GWAS visant à identifier FDR génétiques d’AVC (accident vasculaire cérébral) Population: 19,602 individus d’origine européenne Phénotype: AVC, 1,544 cas incidents SNPs: 2.5 Millions, sur les 22 autosomes « Manhattan plot » rs11833579 rs12425791 NINJ2 (chr12p13) p = 5 x10-8 - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, 10% heritabilité - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. 1 - Introduction to genetic epidemiology

GWAS – présentation résultats GWAS visant à identifier FDR génétiques d’AVC (accident vasculaire cérébral) Population: 19,602 individus d’origine européenne Phénotype: AVC, 1,544 cas incidents SNPs: 2.5 Millions, sur les 22 autosomes Zoom « Manhattan plot » rs11833579 rs12425791 NINJ2 (chr12p13) p = 5 x10-8 - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, 10% heritabilité - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. 1 - Introduction to genetic epidemiology

GWAS – présentation résultats Représentation régionale des associations de SNPs avec AVC (chr 12p13) - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, 10% heritabilité - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. Ikram et al., NEJM 2009 1 - Introduction to genetic epidemiology

GWAS – contraintes logistiques Gènes candidat (18 ou 11 SNPs) Très grands effectifs nécessaires: > 1,000, voire > 10,000 Plus si variant rare Plus si risque relatif faible GWAS (500,000 ou 300,000 SNPs) - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, 10% heritabilité - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. Zondervan, Nature Protocols 2007 1 - Introduction to genetic epidemiology

GWAS – contraintes logistiques Gènes candidat (18 ou 11 SNPs) Très grands effectifs nécessaires: > 1,000, voire > 10,000 Plus si variant rare Plus si risque relatif faible GWAS (500,000 ou 300,000 SNPs) Consortia - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, 10% heritabilité - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. Zondervan, Nature Protocols 2007 1 - Introduction to genetic epidemiology

GWAS – contraintes logistiques prestige des U.S.A et d’AMD GWAS – contraintes logistiques Supercalculateurs pour analyser données Nœud de connexion, travail sur Unix http://www.abysse-tech.com 1 - Introduction to genetic epidemiology

GWAS – contraintes logistiques Coût encore élevés: ~ 500 Euros pour génotyper 1 SNP sur 2000 sujets ~ 400,000 Euros pour un GWAS sur 600,000 SNPs sur 2000 sujets ~ 800,000 Euros pour un GWAS sur 5,000,000 SNPs sur 2000 sujets - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, 10% heritabilité - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. 1 - Introduction to genetic epidemiology

Etudes d’association génétique Gènes candidats Limite analyse à régions sélectionnées sur données ou hypothèses préalables Avantages: Coûte moins cher Nécessite effectifs moindres Inconvénients: Ne permet pas de découvrir de nouveaux gènes, non suspectés Résultats très décevants en moyenne Genome-wide Analyse de variants répartis sur l’ensemble du génome, sans hypothèse préalable Avantages: Permet de découvrir de nouveaux gènes (approche agnostique) Couvre mieux variation génétique A permis découverte x100 gènes Inconvénients: Nécessite très grands effectifs (collaborations…) Coût élevé Infrastructure (supercalculateur) Which Hugh Markus will probably touch upon 1 - Introduction to genetic epidemiology

Génétique des maladies multifactorielles Maladies complexes/multifactorielles vs. mendéliennes Etudes d’association génétique vs. analyses de liaison Quelques rappels Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison Etudes d’association génétique (EAG) Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques Analyse et interprétation des EAG Tests multiples Hétérogénéité de population Réplication Caractérisation des signaux identifiés, perspectives 1 - Introduction to genetic epidemiology

Tests multiples Tests multiples en étude d’association génétique Multiples SNPs Dans un ou plusieurs gènes candidats Genome-wide (500,000 à 5,000,000 SNPs) Multiples phénotypes Comment en tenir compte dans interprétation résultats? Which Hugh Markus will probably touch upon 1 - Introduction to genetic epidemiology

Tests multiples H0: pas d’association entre SNP et M Réalité Décision H0 faux H0 vrai Rejeter H0 correct faux positif Ne pas rejeter H0 faux négatif α = probabilité d’erreur de type I = probabilité de rejeter H0, alors que H0 = vrai = probabilité de déclarer une association à tort α = seuil de significativité pour un seul test statistique (α = 0.05) ß = probabilité d’erreur de type II = probabilité de ne pas rejeter H0, alors que H0 = faux = probabilité de ne pas détecter une association qui existe 1-ß = puissance du test Which Hugh Markus will probably touch upon 1 - Introduction to genetic epidemiology

Tests multiples H0: pas d’association entre SNP et M Réalité Décision H0 faux H0 vrai Rejeter H0 correct faux positif Ne pas rejeter H0 faux négatif α = probabilité d’erreur de type I = probabilité de rejeter H0, alors que H0 = vrai = probabilité de déclarer une association à tort α = seuil de significativité pour un seul test statistique (α = 0.05) ß = probabilité d’erreur de type II = probabilité de ne pas rejeter H0, alors que H0 = faux = probabilité de ne pas détecter une association qui existe 1-ß = puissance du test Which Hugh Markus will probably touch upon 1 - Introduction to genetic epidemiology

Correction de Bonferroni Si n tests: seuil de significativité = 0.05/n ou garder seuil à 0.05 mais multiplier p par n Exemple Test p Test1 0.047 Test2 0.03 Test3 0.009 Test4 0.10 Test5 0.02 1 - Introduction to genetic epidemiology

Correction de Bonferroni Si n tests: seuil de significativité = 0.05/n ou garder seuil à 0.05 mais multiplier p par n Exemple Test p Test1 0.047 Test2 0.03 Test3 0.009 Test4 0.10 Test5 0.02 Surcorrige (conservateur) si tests ne sont pas indépendants, par exemple: SNPs en déséquilibre de liaison 1 - Introduction to genetic epidemiology

Tests multiples En pratique… Bonferroni Autres méthodes: False Discovery Rate, Permutations Dans GWAS, généralement seuil fixe à p=5x10-8 Correspond à ~ 1 Million de tests indépendants Reflète à peu près la réalité, quelque soit la densité des puces Pour populations européennes… Which Hugh Markus will probably touch upon 1 - Introduction to genetic epidemiology

Hétérogénéité ethnique Il faut tenir compte de la structure de la population Faux positifs (associations faussement significatives) si « stratification » de la population, i.e. si population contient plusieurs sous-populations différant par leur caractéristiques génétiques, notamment fréquences alléliques Campbell, Nat Genet 2005 1 - Introduction to genetic epidemiology

Allele 2 = 20% in cases and controls 60% in cases and controls Population 1 Population 2 Allele 2 = 20% in cases and controls 60% in cases and controls Population 1 + 2 Allele 2 = 33% in cases and 45% in controls! cases controls 1 - Introduction to genetic epidemiology

Hétérogénéité ethnique Il est donc essentiel de… choisir des témoins de la même origine ethnique que les cas autant que possible du même pays, voire de la même région Si différentes origines géographiques dans population étudiée, on peut: stratifier l’analyse par origine géographique (i.e. par pays) effectuer une analyse groupée en corrigeant sur la stratification par des méthodes statistiques (contrôle génomique, composantes principales) Avoid by excluding individuals with different ethnic backgrounds Explain QQ plot 1 - Introduction to genetic epidemiology

Analyse en composantes principales = appliquée aux données GWAS (génotypes pangénomiques) pour inférer des axes continus de variation génétique Price, Nat Genet 2006

Réplication +++ Essentielle pour confirmer qu’une association est réelle Importance d’utiliser des échantillons de réplication indépendants Credibilité augmentée quand groupes d’investigateurs multiples Ikram, NEJM 2009 Réplication dans article initial 652/3613 caucasiens 2430 personnes avec 215 AVC incidents afro-américains Réplication dans étude asiatique 3784/3102 asiatiques Matsushita, J Hum Genet 2010 1 - Introduction to genetic epidemiology

Réplication +++ Essentielle pour confirmer qu’une association est réelle Importance d’utiliser des échantillons de réplication indépendants Crédibilité augmentée quand groupes d’investigateurs multiples Ikram, NEJM 2009 Réplication dans article initial 652/3613 caucasiens 2430 personnes avec 215 AVC incidents afro-américains Réplication dans étude asiatique 3784/3102 asiatiques Matsushita, J Hum Genet 2010 Rosand, NEJM 2010 1 - Introduction to genetic epidemiology

Réplication +++ Calcul d’effectif nécessaire doit tenir compte du “winner’s curse” L’étude initiale tend typiquement à surestimer la force de l’association Même groupe ethnique initialement Du fait de différences en fréquence allélique, déséquilibre de liaison, force de l’association Extension à d’autres groupes ethniques dans un 2è temps: Important pour la généralisabilité des résultats Permet d’affiner le signal du fait de différences de déséquilibre de liaison, plus forte densité en SNPs... 1 - Introduction to genetic epidemiology

Nature 2011; 475:163-165 1 - Introduction to genetic epidemiology

Génétique des maladies multifactorielles Maladies complexes/multifactorielles vs. mendéliennes Etudes d’association génétique vs. analyses de liaison Quelques rappels Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison Etudes d’association génétique (EAG) Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques Analyse et interprétation des EAG Tests multiples Hétérogénéité de population Réplication Caractérisation des signaux identifiés, perspectives 1 - Introduction to genetic epidemiology

Refining the signal  Where is the causative variant? Far from being straightforward. Ioannidis, Nat Rev Genet 2009 1 - Introduction to genetic epidemiology

Refining the signal  Where is the causative variant? more complete inventory of sequence variation within regions of interest, and to identify putatively causal variants with the strongest effects on disease susceptibility Resequencing and fine mapping around confirmed signals Ioannidis, Nat Rev Genet 2009 1 - Introduction to genetic epidemiology

Refining the signal  Where is the causative gene? Even when we are sure where the causative variant lies, we still don’t know Ioannidis, Nat Rev Genet 2009 1 - Introduction to genetic epidemiology

Refining the signal  Where is the causative gene? Genome annotation Even when we are sure where the causative variant lies, we still don’t know Genome annotation Expression quantitative trait loci Experiments… Ioannidis, Nat Rev Genet 2009 1 - Introduction to genetic epidemiology

Succès et limites des GWAS… En ~5 ans, GWAS ont identifié des centaines de nouveaux loci associé avec diverses maladies, avec réplication solide La plupart dans gènes préalablement non suspectés Catalogue online (http://www.genome.gov/gwastudies) 71 gènes pour maladie de Crohn Franke, Nat Genet 2010 38 gènes pour diabète de type 2 Voight, Nat Genet 2010 25 gènes pour maladie coronaire Shunkert, Nat Genet 2011 12 gènes pour Alzheimer Hollingworth, Nat Genet 2011 4 gènes pour AVC (problème hétérogénéité…) - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, 10% heritabilité - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. 1 - Introduction to genetic epidemiology

Published Genome-Wide Associations through 6/2010, 904 published GWA at p<5x10-8 for 165 traits NHGRI GWA Catalog www.genome.gov/GWAStudies 1 - Introduction to genetic epidemiology

Prédisposition génétique aux AVC ischémiques Module tolérance à ischémie cérébrale Ikram, NEJM 2009 NINJ2 Predispose to arterial thrombosis Dissection Influence méchanismes responsables des sous-types d’AVC ischémique PITX2, ZFHX2 Fibrillation auriculaire 9p21, HDAC9 Athérome Gretarsdottir, Ann Neurol 2008 Bellenguez, Nat Genet 2012 Traylor, Lancet Neurol 2012 Maladie petites artères Other ? Diabète Obesité ? ↑ Risque de et susceptibilité aux Facteurs de risque traditionnels HTA Hyperchol Tabac 1 - Introduction to genetic epidemiology

Succès et limites des GWAS… En ~5 ans, GWAS ont identifié des centaines de nouveaux loci associé avec diverses maladies, avec réplication solide La plupart dans gènes préalablement non suspectés Catalogue online (http://www.genome.gov/gwastudies) 71 gènes pour maladie de Crohn 23% héritabilité 38 gènes pour diabète de type 2 10% héritabilité 25 gènes pour maladie coronaire 10% heritabilité 12 gènes pour Alzheimer 4 gènes pour AVC (problème hétérogénéité…) - Crohn: 20,000/30,000, 23% héritabilité (20% à 23% entre 35 1ers et 35 derniers) - Diabetes: 40,000/60,000, 10% héritabilité - Coronary Artery Disease: 50,000/110,000, - Alzheimer: 20,000/40,000 CAD: We observed a greater than threefold difference in CAD risk between the top and bottom 10% of the risk scores, although this may be a slight overestimation, as we extracted the risk scores from a subset of the discovery sample (Supplementary Fig. 4). Nonetheless, this increase in risk is at least comparable to that of several other traditional risk factors for CAD including hypertension, diabetes and smoking13. Whether risk allele information may improve the performance of current risk profiling strategies for CAD prediction17,18 and whether such an approach is cost effective requires further evaluation in prospective studies. Our findings provide a firm framework for such research. 1 - Introduction to genetic epidemiology

Perspectives Au-delà du GWAS… Variants rares Copy number variants 1000 génome Séquençage exons / genome entier (ESP-GO, CHARGE-S…) Exome chip Copy number variants Segments d’ADN présents en nombre variable de copies Modifications épigénétiques Modulent « emballage » ADN dans noyau et influencent expression ADN mitochondrial Few publications to date have incorporated interaction testing of GWA data Epigenetics modulate the packaging of the DNA in the nucleus and thereby influence gene expression 1 - Introduction to genetic epidemiology

Merci pour votre attention! Led to the discovery of… 1 - Introduction to genetic epidemiology