Genotypic data: concepts and meanings

Slides:



Advertisements
Présentations similaires
Comparaison d’une moyenne observée à une moyenne théorique
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Risques d’erreur statistique et test statistique
Les tests d’hypothèses (I)
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
Matrices.
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Dr DEVILLE Emmanuelle J D V 12/07/2006
Régression -corrélation
Simuler une population à échantillonner et évaluer les meilleures stratégies pour faire évoluer et compléter un dispositif existant afin de gagner en précision.
BIO1130 LAB 4 MICROÉVOLUTION.
Traitement de données socio-économiques et techniques d’analyse :
Tests de comparaison de moyennes
Les liens entre les variables et les tests d’hypothèse
How to solve biological problems with math Mars 2012.
Nombre de sujets nécessaires en recherche clinique
Régression linéaire simple
Problème Autre formulation :
Matthieu Foll 28 aout 2008 Journées MAS
Etude de la variation génétique du cheval polonais Bilgoraj
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
CHAPITRE 19 - La génétique des populations
La corrélation et la régression
LA LOI DE HARDY-WEINBERG ET LA MICROÉVOLUTION
Le comportement des coûts Chapitre 3
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
« Geographical genetics » Epperson 2003
Cours 2.
La régression multiple
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Méthodes de Biostatistique
Méthodes de Biostatistique
LA LOI DE HARDY-WEINBERG ET LA MICROÉVOLUTION
LE DESEQUILIBRE DE LIAISON
Loi de Hardy-Weinberg Base de la Génétique des Populations
Théorème de la limite centrale l’inférence statistique
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
M2 Sciences des Procédés - Sciences des Aliments
Génétique des populations La loi de Hardy-Weinberg
TNS et Analyse Spectrale
Concepts fondamentaux: statistiques et distributions
L’erreur standard et les principes fondamentaux du test de t
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :05 Asymétrie fluctuante.
FINANCE Le risque systématique Professor André Farber Solvay Business School Université Libre de Bruxelles Fall 2006.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Comparaison de deux échantillons Principes.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.
MODULE FTH 2007 Diversité génétique
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
Analyse du polymorphisme enzymatique chez le vers marin Phoronopsis viridis. Sur un échantillon de plus de 120 individus, 39 locus ont été étudiés et 12.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Jean Gaudart1 Détection de clusters spatiaux d'évènements Jean Gaudart Labo. Biostatistiques Faculté de Médecine de Marseille.
Transcription de la présentation:

Genotypic data: concepts and meanings Solving biological problems that require math,2012

SNPs (Single Nucleotide Polymorphisms) ATTGCAATCCGTGG...ATCGAGCCA…TACGATTGCACGCCG… ATTGCAAGCCGTGG...ATCTAGCCA…TACGATTGCAAGCCG… ATTGCAAGCCGTGG...ATCTAGCCA…TACGATTGCAAGCCG… Une fois ce catalogue génétique établi, nous trouvons des différences entre individus au niveau de l'ADN comme indiqué par les lettres de couleurs différentes En zoomant sur la séquence d’ADN, on peut voir des différences entre individus. ATTGCAATCCGTGG...ATCGAGCCA…TACGATTGCACGCCG… ATTGCAAGCCGTGG...ATCTAGCCA…TACGATTGCAAGCCG…

SNP array technology Figure 2. Overview of SNP array technology. At the top is the fragment of DNA harboring an A/C SNP to be interrogated by the probes shown. (a) In the Affymetrix assay, there are 25-mer probes for both alleles, and the location of the SNP locus varies from probe to probe. The DNA binds to both probes regardless of the allele it carries, but it does so more efficiently when it is complementary to all 25 bases (bright yellow) rather than mismatching the SNP site (dimmer yellow). This impeded binding manifests itself in a dimmer signal. (b) Attached to each Illumina bead is a 50-mer sequence complementary to the sequence adjacent to the SNP site. The single-base extension (T or G) that is complementary to the allele carried by the DNA (A or C, respectively) then binds and results in the appropriately-colored signal (red or green, respectively). For both platforms, the computational algorithms convert the raw signals into inferences regarding the presence or absence of each of the two alleles.

Intensity of Allele A Intensity of Allele G

Some Genotypes are missing at all …

… but are imputed with different uncertainties

Two easy ways dealing with uncertain genotypes Genotype Calling: Choose the most likely genotype and continue as if it is true (p11=10%, p12=20% p22=70% => G=2) Mean genotype: Use the weighted average genotype (p11=10%, p12=20% p22=70% => G=1.6)

Call rate: Pour chaque échantillon, le ratio entre le nombre de genotypes "called" (au dessus du seuil de détection) sur le nombre total de SNPs. Call rate= nombre de SNPs étant soit AA, BB ou AB sur le nombre total de SNPs Call rate/ SNP= # calls/ (# no-calls + # calls) = # indidvidus génotypés pr ce SNP / # total d’individus Call rate/ individu= # calls/ (# no-calls + # calls) = # SNPs génotypés pr cet individu / # total de SNPs SNPs avec un call rate < 0.9 sont généralement supprimés de l'analyse

MAF: minor allele frequency La fréquence allélique est une mesure de la fréquence relative d'un allèle à un locus précis dans une population. Habituellement, on l'exprime comme une proportion ou un pourcentage. f(AA), f(Aa) et f(aa) : fréquences des trois génotypes à un locus p =Fréquence de l'allèle A q =Fréquence de l'allèle a p+q = f(AA) + f(Aa) + f(aa) =1

Hardy–Weinberg equilibrium :HWE Une théorie qui postule qu'il y a un équilibre de la fréquence des allèles et des génotypes au cours des génération ( les fréquences restent constantes) Quelques hypothèses pour que l'équilibre existe: La population est de taille infinie Espèces diploïde et reproduction sexuée La Panmixie (croisements aléatoires entre individus) généralisée recouvre : Équiprobabilité des gamètes : pangamie Rencontre des gamètes au hasard ou formation aléatoire des couple:Panmixie Absence de mutation sur les allèles considérés Absence de sélection d'individus Les générations ne se chevauchent pas Si équilibre : La loi de distribution génotypique est donc : p² + q² + 2 pq = 1

Deviation de l'équilibre? L'écart par rapport à la loi de Hardy-Weinberg est estimé grâce au Test du χ² de Pearson, en comparant: la structure des fréquences génotypiques obtenues à partir des données observées aux fréquences calculées selon la loi de Hardy-Weinberg. SNPs avec un pvalue de HWE < 1E-6 sont généralement supprimés de l'analyse car cela signifie qu'on rejette l'hypothèse "Dans la population, les fréquences génotypiques et alléliques sont constantes (en équilibre)"

Comptage des génotypes observés (O), déduction des fréquences alléliques et q = 1 − p Calcul des génotypes attendus (E) si HWE Test du χ² : Test à n-1 degré de liberté (ddl), où n est le nombre de classes (allèles). Le seuil de signification à 5% du χ², pour 1 ddl, est à 3.84. Si la valeur du χ² obtenue < à 3.84, l'hypothèse nulle est non rejetée donc la population étudiée suit la loi de Hardy-Weinberg χ²

Linkage Desequilibrium (LD): Déséquilibre de Liaison LD si la fréquence des gamètes porteurs des allèles de deux locus différents A et B est différente du produit des fréquences des allèles c'est-à-dire s'il y a association préférentielle entre deux allèles.

Linkage Disequilibrium 1 2 3 D n Marker LD Markers close together on chromosomes are often transmitted together, yielding a non-zero correlation between the alleles.

Coefficient de correlation Deux vecteurs où

Correction de tests multiples De nombreux tests sont effectués Contrôle la probabilité d’avoir un faux positif par chance Bonferroni correction (diminue le seuil de significativité d’1 test pour que l’ensemble des tests ait un seuil < à alpha ): seuil alpha pour 1 test: 0.05 Seuil alpha pour plusieurs tests (n): alpha/n Augmente la probabilité d’avoir des faux négatifs

Analyse en composantes principales (ACP) L’ACP consiste à transformer des variables liées entre elles (dites "corrélées" en statistique) en nouvelles variables indépendantes les unes des autres (donc "non corrélées"): "composantes principales", ou axes. Permet de réduire l'information en un nombre de composantes plus limité que le nombre initial de variables. Approche géométrique (représentation des variables dans un nouvel espace géométrique selon des directions d'inertie maximale) Approche statistique (recherche d'axes indépendants expliquant au mieux la variabilité - la variance - des données).

Population stratification: PCA (ACP)

Analysis of Genotypes only Principle Component Analysis reveals SNP-vectors explaining largest variation in the data

Example: 2PCs for 3d-data Raw data points: {a, …, z} http://ordination.okstate.edu/PCA.htm

Example: 2PCs for 3d-data Normalized data points: zero mean (& unit std)! http://ordination.okstate.edu/PCA.htm

Example: 2PCs for 3d-data The direction of most variance perpendicular to PCA1 defines PCA2 Most variance is along PCA1 Identification of axes with the most variance http://ordination.okstate.edu/PCA.htm

Ethnic groups cluster according to geographic distances PC2 PC2 PC1 PC1

PCA of POPRES cohort