Jean-Sébastien Pierre UMR 6553 20/01/2009 L’échantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009
Plan 1. Introduction 2. L’échantillonnage aléatoire Simple Séquentiel en deux étapes 3. L’échantillonnage stratifié Mise en œuvre et analyse Optimisation 4. L’échantillonnage en grappes
Introduction « Pas de modèle sans échantillon, pas d’échantillon sans modèle » Un professionnel du prêt-à-porter « Les tissus, disponibles en quantité limitée, ne peuvent être ni repris ni échangés. Par contre vous pouvez obtenir un échantillon de chacun des tissus pour un prix modique. » La boutique A&A, http://www.a-et-a.com/
Le dictionnaire Robert 1. Vx Étalon de mesure. (1636) Mod. Type réglementaire de certains matériaux de construction. Bois d'échantillon. Brique, pavé d'échantillon. — Mar. Bâtiment de fort, de petit, de faible échantillon, suivant la largeur et l'épaisseur des pièces de construction. 2. (1407) Cour. Petite quantité d'une marchandise qu'on montre pour donner une idée de l'ensemble. Les échantillons d'une gamme de produits. Échantillons de vin, de café. Un cahier d'échantillons (d'étoffe). Une palette d'échantillons (de peinture). Boîte, jeux d'échantillons à usage commercial. Þ collection, présentoir. « Il étale ses échantillons, lentement, devant le client » (Maurois). « Quel danger, quelle folie de choisir sur des échantillons » (Sarraute). Spécimen remarquable d'une espèce, d'un genre. Þ représentant. « Une très jolie servante, charmant échantillon de la beauté des femmes de Malaga » (Gautier). Fig. Aperçu. « Je voulus lui donner un échantillon de mon talent » (Rousseau). Þ exemple. 3. Spécialt (Statist.) Fraction d'une population destinée à être étudiée par sondage. panel. 4. Inform. Élément d'une suite discrète résultant de l'échantillonnage d'une grandeur analogique.
Pourquoi échantillonner ? Impossibilité d’accéder À tous les individus d’une population À la totalité d’une aire => On procède donc par inférence Echantillonnage Sondage
Deux grandes stratégies Aléatoire Simple Stratifié En grappe ou par degrés Systématique Transects et grilles Décimation/quantisation Échantillonnage temporel
Limites du cours On se limitera à l’échantillonnage aléatoire Les problèmes de l’échantillonnage systématique seront abordés dans d’autes UE à propos de La statistique spatiale L’analyse des séries chronologiques
2. L’échantillonnage aléatoire Simple Séquentiel en deux étapes
Echantillonnage aléatoire simple Définition Les individus de la population sont tous équivalents Le nombre d’individus à échantillonner est déterminé à l’avance Chaque individu de la population a la même probabilité a priori d’être choisi Le choix d’un individu ne favorise ni ne défavorise le choix ultérieur d’aucun autre individu de la population (tirages indépendants)
Les individus ou unités d’échantillonnage Naturels Animaux, plantes individualisées Arbitraires Unités de surface, de volume, de poids 0.25 m2 de prairie 1dm3 d’eau dans un étang 1k de sol Attention alors ! Population biologique Population statistique
Deux mode de tirage Avec remise Sans remise Ou non exhaustif La probabilité de sélection reste constante au cours de l’échantillonnage Sans remise Ou exhaustif La probabilité de sélection s’accroît au cours de l’échantillonnage
Une approximation Dans les très grandes populations, on considère souvent l’échantillonnage comme avec remise, même lorsqu’il n’y a pas remise Dans les populations plus petites, il y aura lieu de prendre en compte le taux de sondage f = n/N
Le modèle statistique
Les paramètres de l’échantillon Moyenne de l’échantillon : Variance de l’échantillon :
Paramètres et estimateurs La moyenne est un estimateur sans biais de la moyenne de la population La variance s2 est un estimateur biaisé par défaut (mais asymptotiquement sans biais) de la variance de la population
Voir annexe polycopiée
Le biais
Le biais
La précision d’échantillonnage Quelle connaissance avons nous de la moyenne de la population ?
Les mesures de précision La variance Incommode (exprimée dans le carré des unités) L’erreur standard Utilisée par les anglo-saxons Le coefficient de variation Utilisé par les agronomes Le ½ intervalle de confiance C’est un véritable encadrement
La précision est Proportionnelle à l’écart-type de la moyenne (en général de l’estimateur) ou erreur standard sur la moyenne Comment la calcule-t-on ? Population infinie Ou tirage avec remise Population finie Et tirage sans remise
estimateurs Population infinie Population finie Ou tirage non exhaustif Population finie Et tirage exhaustif
Le demi intervalle de confiance On sait « encadrer » la moyenne avec une probabilité d’erreur définie par l’intervalle de confiance (voir annexe) Ou, si n < 30
Précision absolue et relative La quantité : Ou, pour n>30 Sera utilisée comme « précision absolue » La quantité Sera nommée : « précision relative
La taille du parasitoïde leptomastix dactylopii Un exemple La taille du parasitoïde leptomastix dactylopii
L’animal
L’échantillon On a prélevé au hasard 50 individus femelles à partir de cochenilles du manioc provenant d’un champ du congo (données André Biassangama) > print(biassang) numer tail long fec strate 1 1 0.63 29 52 1 2 2 0.75 25 56 1 3 12 0.85 31 57 1 ………………………………………………………………………… 48 29 2.72 39 115 2 49 32 2.84 39 119 2 50 31 2.92 37 121 2
Exemple : taille de leptomastix > attach(biassang) # définition du jeu de données > sd<-sqrt(var(tail)/n) # calcul de l’erreur standard > qnorm(1-0.025) # calcul de z (alpha/2) [1] 1.959964 > d<-sd*qnorm(1-0.025) # précision absolue > d [1] 0.1474185 > mean(tail) # taille moyenne (mm) [1] 1.7818 > mean(tail)-d # borne inférieure [1] 1.634382 > mean(tail)+d # borne supérieure [1] 1.929218
Encadrement de la moyenne : La taille moyenne de la population d de la population des femelles du parasitoïde Leptomastix dactylopii est estimée à 1.78 mm On peut affirmer – avec 5% des chances de se tromper – qu’elle est comprise entre 1.63 et 1.93 mm
La précision absolue et relative La moyenne est connue à plus ou moins 0.15 mm près C’est à dire à 8.3% près > d/(mean(tail))*100 [1] 8.273571
Contrôler la précision d’échantillonnage La base du travail pratique
Comment évolue la précision ?
Le gain marginal de précision La dérivée de la précision relative donne le gain marginal par unité supplémentaire d’échantillonnage.
Calculer l’effectif nécessaire 1. Définir l’objectif à atteindre Le risque a accepté (le plus souvent 0.05) La précision absolue ou relative désirée 2. Déterminer la variance de la population On a souvent besoin d’un pré-échantillonnage 3. Déterminer n
« Pour faire un bon échantillonnage faites en d’abord un mauvais » Un paradoxe ! « Pour faire un bon échantillonnage faites en d’abord un mauvais » (J.S. Pierre, pensées)
La détermination de n De la définition de la précision On déduit :
Et si on parlait argent ? On définit : L’effort d’échantillonnage : c’est n Le coût de prise en charge de l’échantillonnage Co Fabrication des cadres, pièges, coût du trajet, affrètement d’un bateau, etc… Le coût unitaire de prélèvement d’un individu c Mesuré en temps de travail, en euros, en litres de fuel (chalutier) etc… Le coût total de l’échantillonnage :
Optimisation Stratégies de type « minimax » Maximiser l’information (minimiser la précision) En minimisant, ou au moins en maîtrisant les coûts Pas de solution universelle
Exemple La taille moyenne de la population de Leptomastix est connue à 8.3% près avec un échantillon de 50 femelles Quel échantillon est nécessaire pour atteindre une précision de 5% sur cette moyenne ?
Solution Ecrivons la formule de la précision relative On cherche à résoudre l’inégalité : Donc :
Numériquement : On prendra n=137 Commenter
L’échantillonnage séquentiel en deux étapes Doit-on refaire un échantillon de 137 individus ?
Non ! Il est licite de compléter l’échantillon de 50 individus à 137 C’est à dire d’aller prélever aux hasard 137 - 50 = 87 nouveaux individus Cette procédure s’appelle : « échantillonnage séquentiel en deux étapes »
Ouverture Un échantillonnage est dit séquentiel s’il est conduit par étapes jusqu’à un critère d’arrêt. L’échantillon est alors dit informatif il renseigne au fur et à mesure sur la précision atteinte ou sur d’autres critères d’arrêt Deux types principaux : Echantillonnage séquentiel à précision fixée Echantillonnage décisionnel Voir par exemple le livre de Frontier : stratégies d’échantillonnage en écologie
3. L’échantillonnage stratifié Du bon usage des strates
Que faire si la variance des individus est élevée ? L’obtention d’une bonne précision est alors extrêmement coûteuse Mais la population est peut-être très hétérogène ? On peut alors la diviser en sous populations plus homogènes On gagne alors beaucoup de précision
Le modèle statistique change Mise en oeuvre Le modèle statistique change
Une nouvelle vision de la population Et des paramètres S3 S2 W S1 m,s2 m3,s23 m1,s21 m2,s22
Définition des strates Les strates forment une partition de la population C’est à dire que leurs intersections sont deux à deux vides (elles sont disjointes) Leur réunion est la population totale
Hypothèse : Les variances « intra » sont inférieures à la variance totale
Les poids des strates A chaque strate est affectée un poids : la proportion de la population totale qu’elle représente w1,w2,w3, en général wi
L’échantillon stratifié On tire un échantillon aléatoire simple de taille ni dans la strate i. L’échantillon complet est de taille n On appelle allocation le poids de la strate i dans l’échantillon Si le poids de la strate dans l’échantillon est égal au poids de la strate dans la population on dit que l’allocation est proportionnelle
L’estimateur stratifié On nomme xij la valeur mesurée sur le j ième individu de la strate i On note xi. la moyenne du sous-échantillon de la strate i On a le choix entre deux estimateurs de la moyenne de la population :
Comparaison. a) biais Le premier estimateur est biaisé, sauf si l’allocation est proportionnelle Le second est sans biais à partir du moment où le poids des strates dans la population est connu sans erreur
Comparaison. b) variance, précision Le second estimateur est de variance inférieure au premier
On va optimiser l’allocation sous une contrainte de coût Optimisation On va optimiser l’allocation sous une contrainte de coût
Fonction de coût Coût de prise en charge + coût de prélèvement des unités de chaque strate :
Le problème Minimiser la variance de l’estimateur Par rapport aux ni Sous la contrainte Problème de minimisation sous contrainte
Technique du Lagrangien Ou du multiplicateur de Lagrange Voir annexe 2 On trouve :
Intervalle de confiance et précision L’estimateur stratifié de la moyenne est distribué comme un t à n-m degrés de liberté D’où l’intervalle de confiance : Et la précision
Application à Leptomastix La strate 1 représente 70% des hôtes dans la nature, la strate 2 30% Corriger l’estimation de la moyenne de la population Estimer son intervalle de confiance et sa précision L’allocation est-elle optimale ?
Intérêt des strates Comment juger de l’intérêt de la stratification ? Par analyse de variance Une technique qui permet de comparer la variance inter-strate avec la variance intra-strate Plus le F est grand, plus la stratification est intéressante A l’inverse, si F est non significatif, la stratification est dépourvue d’intérêt
Exemple Taille de Leptomastix > attach(biassang) > anova(lm(tail~strate),test="F") Analysis of Variance Table Response: tail Df Sum Sq Mean Sq F value Pr(>F) strate 1 8.5617 8.5617 77.559 1.367e-11 *** Residuals 48 5.2987 0.1104 --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Contrôle graphique
4. L’échantillonnage en grappes Ou échantillonnage du premier degré (échantillonnage par degrés)
Définition La population peut être subdivisé en unités primaires ou grappes Chaque grappe contient un certain nombre d’individus ou grains Le tirage au hasard s’effectue en deux phases Choix de m grappes Choix de n grains par grappe Analogie : strates très nombreuses, on ne peut les sonder toutes
Image de la population et du tirage W m,s2 Grappe sondée Grain sondé Grappe non sondée Grain non sondé
Un schéma hiérarchique Population W Grappes 1 2 3 Grains 1 2 3 1 2 1 2 3
2.1. Modèle statistique A est une variable aléatoire attachée à la grappe, d’espérance nulle et de variance (variance intergrappes) e est une variable aléatoire attachée à chaque grain, d’espérance nulle et de variance (variance résiduelle ou intra grappe) Par ailleurs, les Ai et eij sont indépendants
2.2. Estimateurs On se limitera au cas simple où les grappes sont d’effectifs égaux, et où on tire un nombre constant de grains par grappe. Dans ces conditions la moyenne générale de l’échantillon : est un estimateur sans biais de µ
Démonstration : Il suffit d’appliquer le modèle :
Sa variance Dépend à la fois de et de
Finalement L’échantillonnage du premier degré est d’autant moins précis que les grappes sont plus différentes les unes des autres. Sans considérations de coût, si le produit n.m est fixé, la précision est optimale pour n=1 (un seul grain par grappe). On voit bien les limites de cette stratégie : il est alors impossible d’estimer
Grappes et analyse de variance Modèle d’analyse de variance aléatoire Un F important signifie que les grappes sont très différentes entre elles, relativement homogènes au niveau intra Incite à faire porter l’effort sur les grappes plutôt que sur les grains Estimation des composantes de la variance
Analyse de variance Source SCE dl CM F Total nm-1 Inter (B) m-1 SCET/(nm-1) Inter (B) m-1 SCEB/(m-1) CMB/CMW Intra (W) nm-m SCEW/(nm-m)
Optimisation
Le problème d’optimisation Minimiser la variance de la moyenne En déterminant à l’avance le coût total de l’opération Combien de grappes ? Combien de grains par grappe ? Il faut déterminer Le coût de prise en charge d’une grappe Le coût de prélèvement d’un grain
On forme le lagrangien Sous la fonction de coût :
Dérivation par rapport à n et m
Et finalement : Grains variables Grappe chère + de grains/grappe + de grains/grappe Grappes variables Grain cher + de grappes + de grappes Evidemment, on en déduit m à partir de la fonction de coût
Bilan On ne fait pas un échantillonnage en grappes pour gagner de la précision En général, au contraire, on en perd par rapport à l’échantillonnage aléatoire simple On l’adopte pour sa commodité et son faible coût N’oubliez pas de l’optimiser dès que vous avez de l’information sur les deux composantes de la variance !
5. Autres plans d’échantillonnage Echantillonnage par degrés, échantillonnage en différentes occasions, échantillonnage par régression
Echantillonnage par degrés Généralisation de l’échantillonnage en grappes Echantillonnage en grappe = échantillonnage du premier degré Echantillonnage du second degré : On tire au hasard des unités primaires Dans chaque unité primaire on tire au hasard des unités secondaires Dans chaque unité secondaire des unités tertiaires (grains) En anglais : cluster sampling
Exemple Etude de la croissance des brochets au Canada : Analyse : Unités primaires = lacs Unités secondaires = barques Unités tertiaires = brochets (grains) Analyse : Analyse de variance hiérarchisée (nested) Estimation des composantes de la variance Ici : trois composantes Entre lacs Entre barques Entre brochets (résiduelle)
Echantillonnage à différentes occasions On tire au hasard un certain nombre d’individus dans une population On les repère On mesure une caractéristique plusieurs fois (occasions) Exemples : croissance sur des animaux ou plantes marquées Analyse : « mesures répétées » (repeated measures)
Echantillonnage par régression On mesure une caractéristique peu coûteuse x sur un très grand nombre N d’individus Sur un sous-échantillon aléatoire de taille n, on mesure une autre caractéristique, très coûteuse, y Ce sous échantillon permet d’estimer le coefficient de corrélation entre les deux caractéristiques L’estimation précise de la moyenne de x permet alors de corriger la moyenne de y
Exemple Chez Leptomastix dactylopii on mesure : La taille sur 1000 individus La taille et la fécondité sur 50 d’entre eux
Exemple > mean(tail) # Echantillon de 50 [1] 1.7818 [1] 1.971004 > lm(fec~tail)->m1 # Régression fécondité / taille > m1 Call: lm(formula = fec ~ tail) Coefficients: (Intercept) tail 22.41 34.33 > mean(fec) # Echantillon de 50 [1] 83.58 > mean(tail2)-mean(tail)->bt # Biais sur la taille > bt*m1$coeff[2]+mean(fec) # Correction du biais fécondité [1] 90.07582 >
Variance de l’estimateur par régression On le donne ci dessous sans démonstration : Variance habituelle Coefficient de corrélation entre x et y
Suite de l’exemple > # Variance de la moyenne fécondité > var(fec)/50 [1] 7.28089 > #correction par la corrélation avec la taille > cor(tail,fec) [1] 0.9570068 > (1-cor(tail,fec))*var(fec)/50 [1] 0.3130290 > v<-(1-cor(tail,fec))*var(fec)/50 > # Erreur standard > sqrt(v) [1] 0.5594899 > # précision > sqrt(v)*1.96 [1] 1.096600 > #précision relative > sqrt(v)*1.96/mean(fec)*100 [1] 1.312037 # 1.31% grace à la mesure des 1000 tailles >
Conclusions En forme de conseils
Conclusions Connaître les plans types est fondamental Il est essentiel de savoir définir Ses objectifs (précision, erreur de décision) Ses moyens L’optimisation permet de gagner du temps et de l’argent Faites simple et si possible standard Evitez les plans « astucieux » qu’on ne sait pas traiter ou qui se révèlent coûteux