Méthodes de reconstruction

Slides:



Advertisements
Présentations similaires
LES NOMBRES PREMIERS ET COMPOSÉS
Advertisements

1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Produit Gammes Nomenclatures Modules Techniques Prix de Revient Prix de Vente Modules Techniques Client Marges Mise en route Temps Unitaire Prix (Ex:
Les résultats de l’étude « OBÉSITÉ » menée auprès de patients adultes et de soignants : situation wallonne Pr. M. GUILLAUME C. CRUTZE – S. STREEL – AF.
Soutenance du stage de DEA.
Distance inter-locuteur
1 COMMISSION AFRICAINE DES STATISTIQUES AGRICOLES (AFCAS) Accra, Ghana, 28 – 31 Octobre 2009 Paul NGOMA-KIMBATSA Statisticien Division de la Statistique.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Classe : …………… Nom : …………………………………… Date : ………………..
Localisation fine de QTL par déséquilibre de liaison Simon BOITARD Durée : octobre 2003-septembre 2006 Laboratoire : BIA (biométrie et intelligence artificielle)
Les numéros 70 –
Sud Ouest Est Nord Individuel 36 joueurs
Les Prepositions.
10 place de la Joliette, BP Marseille Cedex 02 Tél CENTRE DÉTUDES ET DE RECHERCHES SUR LES QUALIFICATIONS Pascale.
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
A Pyramid Approach to Subpixel Registration Based on Intensity
INSEE Auvergne. Page 2 La démographie : lAuvergne présente et à venir vieillissement : moins de jeunes, plus de seniors Lemploi une croissance modérée.
Pourquoi le nombre de cancers augmente-t-il ?
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
Étude Comparative : Comparaison (II)
Plus rapide chemin bicritère : un problème d’aménagement du territoire
Analyse de la variance à un facteur
Analyse de la variance à deux facteurs (données déséquilibrées) Michel Tenenhaus.
Minimisation Techniques 1 Assimilation Algorithms: Minimisation Techniques Yannick Trémolet ECMWF Data Assimilation Training Course March 2006.
Révision (p. 130, texte) Nombres (1-100).
07/24/09 1.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
Application des algorithmes génétiques
Dynamique dopinions sur réseaux Amblard F.*, Deffuant G.* *C emagref-LISC.
Classification Multi Source En Intégrant La Texture
Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
H1N1 aux soins intensifs: lexpérience australienne Marc-André Leclair, MD Département de médecine interne Soins intensifs 26 octobre 2009.
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Responsables P. Maury & R. Babilé
Complexe majeur d’histocompatibilité
LES NOMBRES PREMIERS ET COMPOSÉS
HAMM Flore HAXAIRE Cécile LISKA Claire MENDES Agnès
Matthieu Foll 28 aout 2008 Journées MAS
Représentation des systèmes dynamiques dans l’espace d’état
13e édition de la Semaine des infrastructures urbaines 1 PLAN D'INTERVENTION ET STRATÉGIES D'INVESTISSEMENTS DU RÉSEAU ROUTIER, TEL QUE VU PAR LA JAMAICA.
Les modèles linéaires (Generalized Linear Models, GLM)
Les maths en francais 7ième année.
Notre calendrier français MARS 2014
Réduction des stéréotypies chez le vison par la sélection
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.
3ème partie: les filtres
C'est pour bientôt.....
AIP PRIMECA des Pays de La Loire – 9 novembre 2006
Veuillez trouver ci-joint
Ordonnancement de tâches
Les Nombres! de 0 à 20.
La syndactylie chez la Holstein allemande
Filtrage de Kalman et aperçu probabiliste
Équipe 2626 Octobre 2011 Jean Lavoie ing. M.Sc.A.
Copyright 2011 – Les Chiffres Copyright 2011 –
ASI 3 Méthodes numériques pour l’ingénieur
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
1 - Programme de Seconde (juin 2009) Statistique et probabilités
DESIGN D’UN CODEUR- DÉCODEUR CHAOTIQUE AUTO-SYNCHRONISANT EN TEMPS RÉEL ET EN PRÉSENCE DE BRUIT Laboratoire d’Automatique et d’Informatique Industrielle-POITIERS.
CALENDRIER-PLAYBOY 2020.
1. Présentation générale du système
High genomic deleterious mutation rates in hominids Eyre-Walker & P. D. Keightley Letters to Nature, Jan. 99.
Les Chiffres Prêts?
Rappels de statistiques descriptives
Transcription de la présentation:

Méthodes de reconstruction Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers 1 1

Introduction : études d’association génétique PLAN Introduction : études d’association génétique Problématique des haplotypes. Les principales méthodes de reconstruction des haplotypes. Une nouvelle approche : ISHAPE. Conclusion. 2

I. Introduction : études d’association génétique 3 3

LES VARIATIONS GENETIQUES DU GENOME 23 paires de chromosomes G G G G T T T T Mutation A A A C A A A A SNP : Single Nucleotide Polymorphism. 1 SNP tous les ~300 nucléotides. Variation de l’ADN la plus fréquente chez l’homme (~90% de la variabilité observée). Père Mère 4

APPROCHE ‘‘CLASSIQUE’’ DES ÉTUDES D’ASSOCIATION : Études cas-contrôles sur des gènes candidats choix d’un gène candidat pertinent : suspicion d’un rôle dans la pathologie comparaison de la répartition des différents allèles entre des personnes atteintes (‘cas’) et des personnes ‘contrôles’ Objectif : identifier des différences statistiquement significatives indiquant que le gène ou son produit interviendraient dans le développement de la maladie 5

INTÉRÊTS DES ÉTUDES D’ASSOCIATION GÉNÉTIQUE Description de la variabilité génétique du génome Identification des facteurs génétiques de risque impliqués dans la susceptibilité de la pathologie Amélioration de la compréhension des mécanismes de pathogenèse Développement de nouvelles stratégies diagnostiques et thérapeutiques pour lutter contre la maladie 6

L’APPROCHE GÈNE CANDIDAT (1) 1. Établissement d’une carte génétique 2. Analyse statistique SNP par SNP p Allèle 1 Allèle 2 CAS CTR 7

L’APPROCHE GÈNE CANDIDAT (2) 3. Calcul des haplotypes = combinaisons d’allèles sur un chromosome 4. Intérêt de l’analyse des haplotypes Signal transmis de génération en génération : importance pour les maladies familiales Les combinaisons d’allèles peuvent intervenir dans les maladies, notamment au niveau des variants protéiques 8

APPROCHE PAR PUCES DE GÉNOTYPAGE Analyse statistique TagSNP par TagSNP Cartographie fine de la région d’intérêt Analyse statistique SNP par SNP Calcul des haplotypes Analyse statistique sur les haplotypes 9

II. Problématique des haplotypes. 10 10 10

DEFINITION DES HAPLOTYPES Combinaison d’allèles sur un même chromosome pour un locus donné. Crées au cours de l’évolution par : 1. Les mutations : 2. Les recombinaisons : 3. Les dérives génétiques, les migrations, les sélections, etc... C A T G Mutation Recombinaison A T G C 11

POURQUOI PARLE T-ON DE RECONSTRUCTION ? Individu A G C A Génotypage Génotype Génotype C/A A/G 2 diplotypes possibles 4 haplotypes possibles C A A G C G A A 12

COMPLEXITE DU PROBLEME SNP 1 SNP 2 SNP 3 SNP N-2 SNP N-1 SNP N Un génotype de N SNPs avec S sites hétérozygotes a : 2S haplotypes compatibles possibles, 2S-1 diplotypes compatibles possibles. Nb de sites hétérozygotes Nb d’haplotypes possibles Nb de diplotypes possibles 5 32 16 10 1 024 512 20 1 048 576 524 288 13

Sur quel ensemble de SNPs doit on définir les haplotypes? QUESTIONS OUVERTES Sur quel ensemble de SNPs doit on définir les haplotypes? Gène, exons, promoteurs? Blocs d’haplotypes de diversité limitée « haplotype blocks »? Quel modèle génétique faut-il utiliser ? Quelle confiance accorder à cette reconstruction in silico ? Quel impact ont les erreurs sur les études d’associations ? 14

II. LES PRINCIPALES METHODES DE RECONSTRUCTION D’HAPLOTYPES 15 15

SNPs Génotypes II.1. DONNEES GENOMIQUES Génotype#1 G G G G G T A T G A A A A T Génotype#2 G G T T G T A T G A A A A T G G G G T T G G G A A A A T ................................................ Génotype#152 G G G G T T G G G G A A A G Génotype#153 G C G G T T A G G A A A A T Génotypes 16

II.2. REPRESENTATION PRATIQUE Population G Diplotypes possibles D Haplotypes possibles H g1 (2 SHs)‏ d11 d12 h1 g2 (1 SH)‏ d21 h2 hk gi (8 SHs)‏ di1 di128 hM gN (4 SHs)‏ dN1 dN8 1,* 2 SH = Site Hétérozygote 17

II.3. HISTORIQUE 1990 : Clark AG: Inference of haplotypes from PCR-amplified samples of diploid populations. Molecular biology and evolution. 1995 : Excoffier L, Slatkin M: Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population. Molecular biology and evolution. 2001 : Stephens M, Smith NJ, Donnelly P: A new statistical method for haplotype reconstruction from population data. Am J Hum Genet. 2005 : Stephens M, Scheet P : Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation. Am J Hum Genet. 2006 : Scheet P, Stephens M : A fast and flexible statistical model for large-scale population genotype data: applications to inferring missing genotypes and haplotypic phase. Am J Hum Genet. 2007 : Delaneau O, Coulonges C, Boelle PY, Nelson G, Spadoni JL, Zagury JF : ISHAPE: new rapid and accurate software for haplotyping. BMC Bioinformatics. 18

COMPARAISON DES MÉTHODES Switch error Freq error PHASE v2.1 2.41 35.46 fastPHASE 4.47 65.25 PHASE v1.0 6.53 88.62 PLEM (EM) 8.98 61.13 Résultats sur HapMap–CEU Switch Error : pourcentage de sites hétérozygotes mal reconstruits (cible les diplotypes). Freq error : Distance entre les fréquences réelles et estimées des haplotypes. J. Marchini et Al : A Comparison of Phasing Algorithms for Trios and Unrelated Individuals. Amercan Journal of Human Genetics 2006. A noter : Les erreurs se situent surtout au niveau des haplotypes peu fréquents. RA Adkins : Comparison of the accuracy of methods of computational haplotype inference using a large empirical dataset. BMC Genetics 2004. 19

EXEMPLE DE L’ALGORITHME DE PHASE (1)‏ Pour tout i, on assigne à gi un di’ pris aléatoirement parmi les dij (D’). Soit O; un ordre aléatoire de traitement des gi . On itère un grand nombre de fois : Pour chaque gi selon O : On assigne un nouveau diplotype en fonction des autres. 1. Pour tout j, calcul de Pr(dij |D-i’) : probabilité de dij sachant D-i’ = D’ – {di’}. 2. Echantillonnage sur Pr(dij |D-i’) pour assigner un nouveau di’ à gi 20

EXEMPLE DE L’ALGORITHME DE PHASE (2)‏ Modèle naif (Haplotyper)‏ gi: 32344 23534 dij: 32344 23534 32334 23544 32544 23334 32534 23344 33344 22534 33334 22544 33544 22334 33534 22344 Niu T et al : Bayesian Haplotype Inference for Multiple Linked Single-Nucleotide Polymorphisms. The American Journal of Human Genetics 2002 D-i’ Modèle de coalescence (PHASE v1.0) 22544 33334 23233 14234 32444 23434 32444 23434 32434 23444 33444 22434 33434 22444 gi: dij: Stephens M, Smith NJ, Donnelly P: A new statistical method for haplotype reconstruction from population data. American journal of human genetics 2001 Modèle de recombinaison (PHASE v2.1)‏ gi: 22333 22234 dij: 22333 22234 22334 22233 Stephens M, Scheet P : Accounting for Decay of Linkage Disequilibrium in Haplotype Inference and Missing-Data Imputation. American Journal of Human Genetics 2005 21

EXEMPLE DE L’ALGORITHME DE PHASE (3)‏ Points forts : Modèle génétique le plus réaliste et performant, Fournit un ou plusieurs diplotypes probables pour chaque génotype (multi-diplotypes). Points faibles : Modèle génétique très intensif en temps de calculs. 22

II.6. ASTUCES : PL « Partition – Ligation » : stratégie diviser pour conquérir, permet de briser l’aspect exponentiel du problème, donc de traiter plus de SNPs. Gi 1 segment de 32 sites hétérozygotes = ~2 000 000 000 de diplotypes possibles 8 segments de 4 sites hétérozygotes = 23 x 8 = 64 diplotypes possibles 23 Niu T et al : Bayesian Haplotype Inference for Multiple Linked Single-Nucleotide Polymorphisms. The American Journal of Human Genetics 2002

III. UNE NOUVELLE APPROCHE : ISHAPE 24 24

=> Sur 32 diplotypes possibles, on en explore que 12 ! UTILISATION D’IEM IEM (Itérative EM) : algorithme EM très rapide où les haplotypes sont construits progressivement en incluant les SNPS un par un. Gi => Sur 32 diplotypes possibles, on en explore que 12 ! 25

PROBLÈME : GÉNÉRATION DE DIVERSITÉ INSUFFISANTE Prog / MD 0% 2% 5% 10% Phase 2.1 0.98 0.97 0.96 IEM 0.91 0.90 0.89 0.86 Taux de capture de la diversité sur les données GH1 (14 SNPs et 150 individus)‏ 26 26

=> L’utilisation du bootstrap génére de la diversité ! IDÉE : BOOTSTRAP-IEM Bootstrap IEM : On génère X (=500) échantillons bootstrap de P dont on estime les fréquences haplotypiques par IEM avec un ordre aléatoire d’inclusion des SNPs. => L’utilisation du bootstrap génére de la diversité ! Prog / MD 0% 2% 5% 10% Phase 2.1 0.98 0.97 0.96 IEM 0.91 0.90 0.89 0.86 BoostrapIEM 0.99 Taux de capture sur GH1 (14 SNPs et 150 individus)‏ 27 Delaneau et Al : ISHAPE: new rapid and accurate software for haplotyping. BMC Bioinformatics 2007.

Réduction du nombre de diplotypes sur les données GH1 AVANTAGE DU BOOTSTRAP IEM => Permet d’obtenir un espace de diplotypes candidats de taille très réduite. . / MD 0% 2% 5% 10% Nb de diplotypes possibles 9.6 18.7 48.7 244.1 par Bootstrap-IEM 2.3 3.3 5.4 10.2 Réduction du nombre de diplotypes sur les données GH1 28 Delaneau et Al : ISHAPE: new rapid and accurate software for haplotyping. BMC Bioinformatics 2007. 28

Résultats sur les données HapMap–CEU DERNIÈRE ÉTAPE DE ISHAPE : ADAPTATION DE PHASE SUR L’ESPACE DES SOLUTIONS LIMITÉ GRÂCE AU BOOTSTRAP-IEM ISHAPE = Utilisation d’un échantilloneur de Gibbs de type PHASE sur un nombre réduit de diplotypes candidats. SNPs contigus SNPs 5kb Prog. SER Class. Temps Class Ishape 1.10 1.83 34.8 3.60 1.92 66.1 Phase 2 1.17 2.11 215 3.57 2.03 702 Phase 1 1.39 2.67 52.1 4.92 3.81 142.5 fastPhase 1.31 2.73 100.3 3.98 2.71 88.8 PLEM 1.56 3.07 22.1 5.16 3.71 19.1 Résultats sur les données HapMap–CEU ( 10 à 80 SNPs et 60 individus)‏ 29

II.4. CONCLUSION 30 30

II.4. Conclusion et perspectives Nouvelle méthode qui utilise la puissance de l’EM et la précision de PHASE, en s’appuyant sur la réduction de l’espace des solutions possibles. Les résultats obtenus montrent que ce logiciel est jusqu’à 10 fois plus rapide que PHASE et aussi fiable. Développer un algorithme de reconstruction des haplotypes appliquant le modèle de PHASE en des temps linéaires au nombre de SNPs traités. 31