Cours 4
III. Altérations des proportions de Hardy Weinberg suite
III. Altérations des proportions de Hardy Weinberg 2. Excès d'hétérozygotes Superdominance Hétérogamie Anémie falciforme et Plasmodium falciparum MHC ou HLA Clonalité Candida albicans Trypanosoma brucei Sexes séparés et petites populations Biais de dispersion sexe spécifique Ixodes ricinus Hétérosis Schistosoma Bandes echo Loci dupliqués
fNpt²(1-s)+ 2pt(1-pt)fN+ fN(1-pt)²(1-s) Superdominance Panmixie, grande population de taille N, pas de mutation ni de migration, fécondité de f (>1) 2 allèles, A et a de fréquence pt et 1-pt à la génération t AA Aa aa Fitness 1-s 1 Zygotes fNpt²(1-s) 2pt(1-pt) fN fN(1-pt)²(1-s) Régulation fNpt²(1-s)+ 2pt(1-pt)fN+ fN(1-pt)²(1-s) Fréquences t+1
2 allèles, A et a de fréquence pt et 1-pt à la génération t Superdominance 2 allèles, A et a de fréquence pt et 1-pt à la génération t AA Aa aa Fitness 1-s 1 Fréquences t+1
Superdominance 2 allèles, A et a de fréquence pt et 1-pt à la génération t Equilibre quand Δp=pt+1- pt=0 s≤1
2 allèles, A et a de fréquence pt et 1-pt à la génération t Superdominance 2 allèles, A et a de fréquence pt et 1-pt à la génération t peq=0, A éliminé peq=1, A fixé peq=1/2, équilibre polymorphe stable
2 allèles, A et a de fréquence pt et 1-pt à la génération t Superdominance 2 allèles, A et a de fréquence pt et 1-pt à la génération t s<1 =A2*(1-A2)*(1-2*A2)
Superdominance Fardeau génétique
Donc l’équilibre est atteint quand ABeq=ACeq=BCeq=1/3 Hétérogamie AB AC BC ABt ACt BCt Donc l’équilibre est atteint quand ABeq=ACeq=BCeq=1/3
Hétérogamie Allèle D? AB AC BC ABt ACt BCt
Clonalité Pas de mutation ni de migration, grande population, pas de sélection proportion c investie en reproduction clonale et 1-c en panmixie AA Aa aa Dt Ht Rt A l’équilibre Ht=Ht+1=Heq et donc: Convergence vers HW mais forts désequilibres de liaison attendus
Clonalité +Dérive +Mutation AA Aa aa Dt Ht Rt Aa Heq~1
IV. F statistiques de Wright
1. Modèle en îles de Wright
H: probabilité de tirer deux allèles différents, 2. A l'intérieur des individus par rapport à leur sous-population: FIS AA Aa aa Do Ho Ro H: probabilité de tirer deux allèles différents, dans un individu d’une sous-population (HI) dans deux individus de la même sous-population (HS), dans deux individus de sous-populations différentes (HT) Chesser & Nei
H: probabilité de tirer deux allèles différents, 3. A l'intérieur des sous-populations par rapport à la population totale: FST H: probabilité de tirer deux allèles différents, dans un individu d’une sous-population (HI) dans deux individus de la même sous-population (HS), dans deux individus de sous-populations différentes (HT) Chesser & Nei Wright, pour un modèle en îles avec deux allèles Les F de Wright sont aussi des rapports de variance
H: probabilité de tirer deux allèles différents, 4. A l'intérieur des individus par rapport à la population totale: FIT H: probabilité de tirer deux allèles différents, dans un individu d’une sous-population (HI) dans deux individus de la même sous-population (HS), dans deux individus de sous-populations différentes (HT) Chesser & Nei
5. Définitions selon les hétérozygoties Chesser & Nei (1-FIT)=(1-FIS)(1-FST) FIS: Déficit en hétérozygote du à la non-panmixie dans les sous-populations FST: Déficit en hétérozygotes du à la non-panmixie entre sous-population FIT: Déficit global en hétérozygotes résultant des deux précédents FIS=-1 (un seul type d'hétérozygotes) FIS=0 (panmixie locale) FIS=1 (que des homozygotes) FIS<0 => excès d'hétérozygotes (par ex. clonalité) FIS>0 => excès d'homozygotes (par ex. autofécondation) FST=0 => pas de variation entre sous-populations (par ex. migration libre) FST>0 => différenciation entre sous populations FST=1 => chaque sous-population fixée pour l'un ou l'autre des allèles présents (absence de migration) FIT<0 => excès d'hétérozygotes (par ex. clonalité) FIT=0 => panmixie globale ou clonalité + effet Wahlund FIT>0 => excès d'homozygotes (par ex. autofécondation et/ou Wahlund))
6. Définitions selon les consanguinités FIS: Consanguinité des individus relative à la consanguinité des sous-populations FST: Consanguinité des populations relative à la consanguinité totale FIT: Consanguinité des individus relative à la consanguinité totale Q=1-H: probabilité de tirer deux allèles identiques, dans un individu QI, dans deux individus de la même sous-population QS et dans deux sous-populations différentes QT Weir Rousset Formulations plus conforme au sens initial de ces indices (1-FIT)=(1-FIS)(1-FST)
7. Récapitulation FST FIT FIS F IS l
7. Récapitulation FIS: Consanguinité des individus relative à la consanguinité des sous-populations FST: Consanguinité des populations relative à la consanguinité totale FIT: Consanguinité des individus relative à la consanguinité totale FIS=-1 (un seul type d'hétérozygotes) FIS=0 (panmixie locale) FIS=1 (que des homozygotes) FIS<0 => déficit d'homozygotes (par ex. clonalité) FIS>0 => excès d'homozygotes (par ex. autofécondation) FST=0 => pas de variation entre sous-populations (par ex. migration libre) FST>0 => différentiation entre sous populations FST=1 => chaque sous-population fixée pour l'un ou l'autre des allèles présents (absence de migration) FIT<0 => déficit d'homozygotes (par ex. clonalité) FIT=0 => panmixie globale ou clonalité + effet Wahlund FIT>0 => excès d'homozygotes (par ex. autofécondation et/ou Wahlund)
Jour 3 Cours 5
V. Inférences
A l’équilibre, Ht=Ht+1=Heq Formule généralisée de Wright 1. Autofécondation AA Aa aa Dt Ht Rt A l’équilibre, Ht=Ht+1=Heq Formule généralisée de Wright
2. Dispersion en modèle en îles de Wright avec beaucoup d'îles et beaucoup d'allèles Modèle en îles de Wright, n grand, m et u petit, K grand: QT~0 panmixie locale: QI=QS
Modèle en îles de Wright, n grand, m et u petit, K grand: QT~0 panmixie locale: QI=QS Evolution de QS, probabilité de tirer deux fois le même allèle dans une sous-population, entre les générations t et t+1 Parce qu'ils l'étaient déjà en t ou Parce qu'ils le sont devenus en t+1 Les deux allèles sont autochtones et non-mutants et identiques A l’équilibre migration/mutation/dérive
N>0 Modèle en îles de Wright, n grand, m et u petit, K grand: QT~0 panmixie locale: QI=QS A l’équilibre migration/mutation/dérive N>0
Modèle en îles de Wright, n grand, m et u petit, K grand: QT~0 panmixie locale: QI=QS A l’équilibre migration/mutation/dérive On néglige les termes en m et u devant 1 ainsi que les termes en mu devant m
Inférence de la migration Modèle en îles de Wright, n grand, m et u petit, K grand: QT~0 panmixie locale: QI=QS; FST=QS A l’équilibre migration/mutation/dérive si u<<m FST_max si m=0 FST_max ≈QS=1-HS Hedrick Ou méthode de Meirmans par AMOVA FST’ =FST/FST_max
3. Dispersion en modèle en îles fini (n petit), avec homoplasie (K petit) et autofécondation locale (s) Impact de l'homoplasie Microsatellites Microsatellites
1 D 3 D 2 D 4. Dispersion dans d'autres modèles de populations, Stepping stone (en pas Japonais) et Voisinage 1 D 3 D 2 D
Les F-Statistiques de Wright Autres modèles de populations Stepping stone (en pas Japonais) et Voisinage QT 2 D 1 D QT QS QS QS QS QS QS QS QS QS Rousset
Stepping stone (en pas Japonais) et Voisinage Rousset 1 D Pente b Voisinage=1/b De: Densité efficace d’individus (/m ou /m²) σ: distance entre adultes reproducteurs et leurs parents
Stepping stone (en pas Japonais) et Voisinage 2 D Rousset Voisinage=1/b Pente b De: Densité efficace d’individus (/m ou /m²) σ: distance entre adultes reproducteurs et leurs parents
5. Estimations d’effectifs efficaces Différenciation génétiques entre échantillons séparés dans le temps Ne: Waples Dans l’espace et le temps Ne et m: Wang & Whitlock Déséquilibres de liaisons Ne: Bartley et al., Waples & Do Excès d’hétérozygotes (dioïques ou autoincompatibles) Ne: Balloux Déséquilibres inter et intra loci sur données spatiales Ne et m: Vitalis & Couvet Et bien d'autres…
6. Estimateurs non biaisés des F-Statistiques de Wright FIT FIS Taille de sous-échantillons Ns=1 Estimations RAPPEL: Variance: s² = [1/n].Si[(xi-x)²] ; s² = [1/(n-1)].Si[(xi-x)²] Estimateurs f et θ de Weir & Cockerham F IS l
Estimateurs des F de Wright pour K allèles noté de A=1 à K Weir & Cockerham non biaisés variance d’estimation forte Robertson & Hill biaisés variance d’estimation faible (meilleure « statistique ») FIS FST FIT
7. F-statistiques pour plus de trois niveaux hiérarchiques >>0 ~0 ~0 ~0 Yang
8. F-statistiques chez les clones Que des hétérozygotes => QI=0 Si n grand et m petit QT~0 Si m~0 Si n=2 et m petit
Génétique des populations ou partiellement clonaux des diploïdes clonaux ou partiellement clonaux Phylloxera Trypanosoma brucei gambiense Fis -1 Loci C=1, Nm petit FST~0.5 Fis -1 Loci C=1, Nm pas petit Fst<<0.5 Candida albicans Fis -1 Loci C=[0.999-0.99], Nm petit Fst>>0.5 Fis -1 Loci C=[0.99-0.95], Nm pas petit
VI. Procédures statistiques
1. Définitions On recherche avec quelle probabilité, appelée P-value, le hasard permet d'expliquer nos données si ces dernières suivent l'hypothèse nulle H0. Le test, défini a priori, peut être: -bilatéral: dans ce cas l'hypothèse alternative H1 est que les valeurs observées sont trop extrêmes pour être expliquées par le hasard; -unilatéral "plus grand": dans ce cas H1 est que les valeurs observées sont plus grandes qu'attendue par hasard sous H0; -unilatéral "moins grand": dans ce cas H1 est que les observations ont des valeurs plus petites qu'attendues sous H0. Par convention on a choisi arbitrairement la limite 0.05 pour la P-value seuil au dessous de laquelle un test est dit significatif. Mais, selon les circonstances ont peut choisir d'être plus ou moins sévère. La décision statistique ne dépend que du manipulateur. Erreur de première espèce, α: probabilité de se tromper en rejetant H0 (P-value); Erreur de seconde espèce, β: probabilité de se tromper en acceptant l'hypothèse nulle. Un test est puissant si on rejette facilement H0; Un test est robuste s'il ne rejette pas trop souvent H0.
2. Calculs d’intervalles de confiance (IC) des F-statistiques Bootstrap (e.g. sur les loci): on rééchantillonne aléatoirement k fois (e.g. 5000) avec remise. On peut donc tirer plusieurs fois le même item (e.g. locus) et on calcule F à chaque tirage.
2. Calculs d’intervalles de confiance (IC) des F-statistiques Jackknife (e.g. sur les sous-échantillons): on retire un item à la fois (e.g. un sous-échantillon) et on recalcule F sur ceux qui restent. On obtient autant de valeurs qu’il y a d’items dont on tire une moyenne et une variance pour F qui sert au calcul d’une erreur standard du F. Sous l’hypothèse de normalité on peut estimer un IC qui correspond à F±StdErr(F)tα,γ, où t se trouve dans une table du t ou peut être calculé sous Excel, où α correspond au seuil désiré (0.05 pour un CI à 95%, 0.01 pour 99%) et γ au degré de liberté (i.e. nombre d’items-1)
Procédures statistiques: IC 95% du Jackknife Table du t n-1 t(α=0.05) 1 12.706 21 2.08 45 2.014 2 4.303 22 2.074 50 2.009 3 3.182 23 2.069 55 2.004 4 2.776 24 2.064 60 5 2.571 25 2.06 65 1.997 6 2.447 26 2.056 70 1.994 7 2.365 27 2.052 80 1.99 8 2.306 28 2.048 90 1.987 9 2.262 29 2.045 100 1.984 10 2.228 30 2.042 110 1.982 11 2.201 31 2.04 120 1.98 12 2.179 32 2.037 130 1.978 13 2.16 33 2.035 140 1.977 14 2.145 34 2.032 150 1.976 15 2.131 35 2.03 200 1.972 16 2.12 36 2.028 250 1.97 17 2.11 37 2.026 300 1.968 18 2.101 38 2.024 400 1.966 19 2.093 39 2.023 500 1.965 20 2.086 40 2.021 1000 1.962 FIS=0.2 10 loci StdErr(FIS)=0.01 l’IC 95% sera 0.2-2.2620.01 et 0.2+2.2620.01 soit 95% IC=[0.177, 0.223]
3. Tests de significativité par randomisation Tests de randomisations: Simuler H0 un très grand nombre de fois; la P-value du test = la proportion des valeurs simulées qui sont aussi extrêmes ou plus extrêmes que celle observée dans l’échantillon Il est important de bien appréhender ce qu’il y a derrière H0 et H1: que cherche-t-on à tester exactement? Nombre de randomisations: 10000 si permutations, au moins 1 000 000 si chaine de Markhov
Procédures statistiques Tests de significativité des F par randomisation Significativité du FIS = tester la panmixie locale Tester si FIS > 0 P-value P1 ou < 0 P-value P2 ou ≠ 0 P-value P3 Fis FIS ≠ 0 (bilatéral) P3=min(P1,P2)+[1-max(P1,P2)] Utilisation d’autres estimateurs (Robertson & Hill) comme statistique Tests exacts de Haldane (pas de test global sur les sous-échantillons et loci)
Procédures statistiques Tests de significativité des F par randomisation Tester si FST > 0 FST
Procédures statistiques Tester si la répartition des allèles est aléatoire à l’aide de la statistique G H0: le G observé n’est pas plus grand que ceux générés par randomisation des individus entre sous-échantillons Statistique G: logarithme du rapport de maximum de vraisemblance des fréquences alléliques dans les différents sous-échantillons. Propriété additive du G permet de tester globalement sur les loci
Procédures statistiques Tester la significativité d’une corrélation entre deux matrices de distances tel que dans le cas d’un isolement par la distance Les cases sont auto-corrélées Test de Mantel: on permute les cases d’une des matrices et on recalcule la corrélation à chaque fois. La P-value=la proportion de corrélations randomisées aussi grandes ou plus grandes que l’observée Test assez conservateur
Procédures statistiques Déséquilibres de liaison Locus_ 2 11 12 13 14 22 23 24 33 34 44 n 11/11 11/12 11/13 11/14 … 12/11 12/12 12/13 12/14 13/11 13/12 13/13 13/14 14/11 14/12 14/13 14/14 15 15/11 15/12 15/13 15/14 etc… 25 35 45 55 Locus_ 1 Mesures multiLocus
Procédures statistiques Déséquilibres de liaison Les génotypes des loci (nous n’avons en général pas les haplotypes=la phase) sont réassociés un grand nombre de fois et une statistique mesurée à chaque fois. La P-value du test correspond à la proportion des valeurs randomisées supérieures ou égales à l’observée. Tests par paires de loci: Statistique utilisée: G permet un test sur l’ensemble des sous-populations mais par paire de loci=>autant de P-values que de paires de loci Tests multilocus: Statistique utilisée: rD par exemple permet un test sur l’ensemble des loci mais par sous-échantillon=>autant de P-values que de sous-échantillons Dans tous les cas il faudra tenir compte de cette répétition de tests
Procédures statistiques F-statistiques pour plus de trois niveaux hiérarchiques
Procédures statistiques Comparaison de groupes Champêtres Sylvestres S=FIS, FST, AIc, Ho, Hs etc… SObs=(SObs1-SObs2)²
Procédures statistiques Comparaison de catégories d’individus S=FIS, FST, AIc, Ho, Hs etc… Randomisation du statut en gardant le ratio local constant SObs=(SObs1-SObs2)²
4. Facteurs imbriqués et croisés Différenciation entre genres Différenciation géographique FST_2; P-value_2 FST_1; P-value_1 Combiner les k P-values d'une série de k tests
5. Procédures pour combiner k tests P1, P2, P3, …Pk Quels tests sont significatifs? La série des k tests est-elle significative? Bonferroni sequentiel Les test sont indépendants Pmink Pmin-1(k-1) etc.. Les P-values corrigées qui restent significatives désignent les tests qui les ont. Test hyper-conservateur à n’utiliser que sur les tests les plus puissants (gros échantillons les plus polymorphes) k<4 Procédure Z de Stouffer Zi=loi.normale.standard.inverse(Pi) P-value=loi.normale.standard(Z) k≥4 Procédure binomiale généralisée Au moins un test de la série est-il significatif? Les tests ne sont pas indépendants Procédure de Fisher Test binomial
6. Analyses multivariées AFC ACP PC1 (48%inertia) P < 0.001 PC2 (21%inertia) P < 0.001 Mouette Guillemot Macareux Tests d’assignment Macareux – 95% Mouette – 82% Guillemot – 89% ACP des populations de tique
7. Exploration d’une structure cachée d’inférence de structure AFC Méthodes Bayésiennes d’inférence de structure de populations Structure BAPS Flock