Méthode d’estimation de la parenté en population naturelle (revue bibliographique) Frédéric Austerlitz 20 juin 2003.

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

STATISTIQUE INFERENTIELLE L ’ESTIMATION
Emmanuelle Génin INSERM U535, Univ. Paris Sud, Villejuif
Regroupement (clustering)
Inférence statistique
Comparaison de plusieurs moyennes observées
T&R 4 juin 2010 Rules&Tools Tâche 2: modelling LD and estimating IBD GABI: Didier Boichard, X1=Pilar Schneider, Hélène Gilbert SAGA: Jean-Michel Elsen,
Nombre de sujets nécessaires en recherche clinique
Matrices.
POLYMORPHISME GENETIQUE
Régression -corrélation
Simuler une population à échantillonner et évaluer les meilleures stratégies pour faire évoluer et compléter un dispositif existant afin de gagner en précision.
Génétique adaptative des pathogènes
Application des algorithmes génétiques
1 - Construction d'un abaque Exemple
Groupe 1: Classes de même intervalle
Responsables P. Maury & R. Babilé
STATISTIQUES – PROBABILITÉS
Chiffrement de Lester Hill
Description génétique de deux lignées de lapins sélectionnés
HAMM Flore HAXAIRE Cécile LISKA Claire MENDES Agnès
Matthieu Foll 28 aout 2008 Journées MAS
La corrélation et la régression multiple
La corrélation et la régression
CHAPITRE 19 - La génétique des populations
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
LA LOI DE HARDY-WEINBERG ET LA MICROÉVOLUTION
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
STT-3220 Méthodes de prévision Section 2 Modèle avec deux variances inconnues: Méthode reposant sur un test préliminaire Version: 21 janvier 2008.
« Geographical genetics » Epperson 2003
Cours 2.
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & tests. Partie 3.
La décomposition en valeurs singulières: un outil fort utile
1 - Programme de Seconde (juin 2009) Statistique et probabilités
Méthodes de Biostatistique
LA LOI DE HARDY-WEINBERG ET LA MICROÉVOLUTION
LE DESEQUILIBRE DE LIAISON
"POLYMORPHISME" Plusieurs Formes
Caswell 2001 Sinauer Associates
TAI DE MATHEMATIQUE Michaël Gallego, Alexis Yvin, Bruno Gabriel Promo 2013 Janvier 2009.
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Loi de Hardy-Weinberg Base de la Génétique des Populations
La formation d’individus tous différents et uniques
Le polymorphisme est régénéré (mutation)
STATISTIQUES DESCRIPTIVES
Déterminisme génétique des caractères quantitatifs :
TNS et Analyse Spectrale
Probabilités et Statistiques
Probabilités et Statistiques Année 2009/2010
Travail de génétique 2°Doc Doppagne M.L. Evrard L. Peduzzi F. Schoenars P.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
LA LOI DE HARDY-WEINBERG ET LA MICROÉVOLUTION
Le concept de consanguinité
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 1 Tableaux de contingence et modèles log-
Rappel de statistiques
1 Licence Stat-info CM4 c 2004 V1Christophe Genolini Estimateur fiable.
Échantillonnage (STT-2000)
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
STT-3220 Méthodes de prévision Section 1 Évaluation des prévisions: Coefficient de Theil Version: 9 septembre 2004.
MODULE FTH 2007 Diversité génétique
ECHANTILLONAGE ET ESTIMATION
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Analyse du polymorphisme enzymatique chez le vers marin Phoronopsis viridis. Sur un échantillon de plus de 120 individus, 39 locus ont été étudiés et 12.
 Comparaison des résultats sur 20 dans 2 classes de 4 élèves  Moyennes identiques  Situation identique dans les 2 classes ?  Pourquoi ?   paramètres.
Calculer l’inverse d’une matrice Louis Mullenbach Housseim Yacoub.
Transcription de la présentation:

Méthode d’estimation de la parenté en population naturelle (revue bibliographique) Frédéric Austerlitz 20 juin 2003

Coefficients d’apparentement (2 gènes)  xy ou r xy  xy = coefficient de coancestralité : probabilité qu’un gène pris au hasard chez X et un gène pris au hasard chez Y soit IBD. r xy = coefficient d’apparentement : probabilité pour un gène de x d’être indentique avec l’un des deux gènes de B. si individus non consanguins r = 2 , sinon r = 2  /(1+F). XY

Coefficients d’apparentement (4 gènes)  xy = probabilité qu’un des gènes soit IBD et pas l’autre.  xy = probabilité que les deux gènes soit IBD XYXY  xy  xy parent – enfant :  xy = 1,  xy = 0 → r xy = 0.5 pleins frères :  xy = 0.5,  xy = 0.25 → r xy = 0.5 demi frères :  xy = 0.25,  xy = 0 → r xy = 0.25 non – apparentés :  xy = 0,  xy = 0 → r xy = 0.125

Méthode de Queller et Goodnight (1/2) si on suppose un allèle a à un locus donné : p Ya = r p Xa + (1-r) p a d’où l’estimateur : (où p Xa et p Ya = 0, 1/2 ou 1) Si locus multiallélique : Plutôt que : XY a bcd

Méthode de Queller et Goodnight (2/2) estimateur sur plusieurs locus : poids implicites donnés : –aux allèles : w a = 1 – p a. –aux locus : w l = 1 –  p a 2 estimateur symétrisé :

Méthode de Ritland (1/3) S i = proportion de paires similaires pour l’allèle i pour un locus donné A i A i – A i A i S i = 1 exemples : A i A i – A i A j S i = 1/2 A i A j – A i A j S i = 1/4 L’espérance de S i vaut : s i =  p i + (1-  ) p i 2 d’où un estimateur

Méthode de Ritland (2/3) Moyenné sur l’ensemble des allèles : où les w i sont calculés pour minimiser la variance de w = vecteur des w i (inconnus). V = matrice des variances / covariances. pas de solution dans le cas général mais seulement si on suppose soit –  = 0 → w i = q i /(n-1) –  = 1 → w i = p i q i /(1-J) où J = homozygotie attendue.

Méthode de Ritland (3/3) Pour un estimateur multilocus, on calcule –où w l = K/var(  l ) –ne se calculent analytiquement aussi que dans les cas  = 0 ou  = 1 On peut aussi développer un estimateur de . Propriétés : –meilleure efficacité obtenue en supposant  = 0 pour le calcul des poids. –Peu de biais des que les fréquences alléliques sont correctement estimées. –variance a peu pres de l’ordre de 1/n où n = le nombre de loci.

Méthode de Lynch et Ritland Basé sur la relation conditionnelle : Par exemple dans le case où X est homozygote : d’où et donc XY a bcd

Méthode de Lynch et Ritland (2) XY a bcd Dans le cas général : où S ab = 1 si a=b, S ab = 0 sinon. Pour un estimateur multilocus, on prend les poids (qui suposent l’apparentement nul) : l’estimateur est symétrisé : moyenne de et

Méthode de Lynch et Li S xy = nombre moyen de gènes de X qui sont identiques à un gène de Y et vice- versa –S xy = 1 si X=ii et Y=ii ou X=ij et Y=ij –S xy = 0.75 si X=ii et Y=ij –S xy = 0.5 si X=ij et Y=ik –S xy = 0 si X = ij et Y = kl XY a bcd E(S xy ) = r xy + (1 – r xy ) S 0 où d’où moyenné sur les locus.

Comparaison de la variance des estimateurs de r 10 locus dialléliques En moyenne le leur marche mieux…

Comparaison de la variance des estimateurs de r Lynch et Ritland et Lynch et Li font mieux que les deux autres en cas de distribution triangulaire des fréquences alléliques. Queller Ritland L et R L et L

Queller Ritland L et R L et L Comparaison de la variance des estimateurs de r Lynch et Li font en général mieux, suivi de Lynch et Ritland,sauf si beaucoup d’allèles en triangulaire..

Comparaison de la variance des estimateurs de  Leur estimateur est meilleur pour de forts apparentements et une distribution triangulaire.

Conclusions à ce niveau-là Estimateurs non biaisés. La variance est intrinsèquement élevée mais leur méthode(s) permet de limiter ça. La façon de pondérer les différents locus n’est pas idéale, mais ils n’ont pas trouvé mieux.  mieux vaut chercher des locus très polymorphes que beaucoup de locus.

Une étude comparative (van de Casteele et al., 2001) Etude comparative à partir de 3 jeux de données de types microsatellites par simulation. Sur les estimateurs suivants : Estimateur de Queller et Goodnight avec des poids aux différents loci estimés grâce aux variances calculées par Lynch et Ritland Estimateur de Lynch et Li avec des poids aux différents loci estimés grâce aux variances calculées par Lynch et Ritland

Comparaison à niveau de parenté donné

Comparaison pour des populations mélangées

Comparaison à niveau de parenté donné

Comparaison pour des populations mélangées

Comparaison à niveau de parenté donné

Comparaison pour des populations mélangées

Conclusions sur cette étude comparative Selon le jeu de données, çà n’est pas le même estimateur qui marche le mieux Ceci diffère des résultats de Lynch et Ritland –Fréquences alléliques particulières et identiques à tous les locus. –Estimateur de Queller et Goodnight dans sa version minimale –Effet de la composition de la population non pris en compte. Recommandation : pour un jeu de données, faire comme eux des simulations pour voir quel est le meilleur estimateur.

Méthode de Wang (1/2) Pour un locus, les estimateurs sont donnés par : On classe les individus en 4 catégories à chaque locus –1 : X=ii et Y=ii ou X=ij et Y=ij –2 : X=ii et Y=ij –3 : X=ij et Y=ik –4 : X = ij et Y = kl Soit P i la probabilité pour une paire d’individu d’être dans une classe donnée XY a bcd

Méthode de Wang (2/2) Méthode de correction de biais d’après Crow et Kimura : où Pour un estimateur multilocus : w l = 1/(U u l ) –avec u l = 2a 2 – a 3 est le niveau de similarité attendue pour 2 individus pris au hasard. –

Comparaison à fréquences alléliques connues (triangulaires)

Comparaison à fréquences alléliques connues (Dirichlet)

Biais et variance lié à l’estimation des fréquences alléliques (individus non-apparentés)

Biais et variance lié à l’estimation des fréquences alléliques (parents - enfants)

Biais lié à la présence de pleins frères pour l’estimation des fréquences (relation parent-enfant)

En conclusion… Des sources inévitables de variance. –variance dans l’IBD entre les loci  par ex. pour r, elle est nulle pour une relation parent-descendant, elle vaut 1/8 pour une relation pleins-frères. –variation dans le niveau d’identité par état. Certains estimateurs (Ritland, Lynch & Ritland) se comportent très mal en cas de mauvaises estimations des fréquences alléliques. Son estimateur marche d’autant mieux pour les niveaux d’apparentement élevé. Dans un cas particulier donné, une étude par simulation utilisant les fréquences alléliques observées paraît toujours souhaitable…