La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Jean-Sébastien Pierre UMR /01/2009

Présentations similaires


Présentation au sujet: "Jean-Sébastien Pierre UMR /01/2009"— Transcription de la présentation:

1 Jean-Sébastien Pierre UMR 6553 20/01/2009
L’échantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

2 Plan 1. Introduction 2. L’échantillonnage aléatoire
Simple Séquentiel en deux étapes 3. L’échantillonnage stratifié Mise en œuvre et analyse Optimisation 4. L’échantillonnage en grappes

3 Introduction « Pas de modèle sans échantillon, pas d’échantillon sans modèle » Un professionnel du prêt-à-porter « Les tissus, disponibles en quantité limitée, ne peuvent être ni repris ni échangés. Par contre vous pouvez obtenir un échantillon de chacun des tissus pour un prix modique. » La boutique A&A,

4 Le dictionnaire Robert
1. Vx Étalon de mesure. (1636) Mod. Type réglementaire de certains matériaux de construction. Bois d'échantillon. Brique, pavé d'échantillon. — Mar. Bâtiment de fort, de petit, de faible échantillon, suivant la largeur et l'épaisseur des pièces de construction. 2. (1407) Cour. Petite quantité d'une marchandise qu'on montre pour donner une idée de l'ensemble. Les échantillons d'une gamme de produits. Échantillons de vin, de café. Un cahier d'échantillons (d'étoffe). Une palette d'échantillons (de peinture). Boîte, jeux d'échantillons à usage commercial. Þ collection, présentoir. « Il étale ses échantillons, lentement, devant le client » (Maurois). « Quel danger, quelle folie de choisir sur des échantillons » (Sarraute). Spécimen remarquable d'une espèce, d'un genre. Þ représentant. « Une très jolie servante, charmant échantillon de la beauté des femmes de Malaga » (Gautier). Fig. Aperçu. « Je voulus lui donner un échantillon de mon talent » (Rousseau). Þ exemple. 3. Spécialt (Statist.) Fraction d'une population destinée à être étudiée par sondage. panel. 4. Inform. Élément d'une suite discrète résultant de l'échantillonnage d'une grandeur analogique.

5 Pourquoi échantillonner ?
Impossibilité d’accéder À tous les individus d’une population À la totalité d’une aire => On procède donc par inférence Echantillonnage Sondage

6 Deux grandes stratégies
Aléatoire Simple Stratifié En grappe ou par degrés Systématique Transects et grilles Décimation/quantisation Échantillonnage temporel

7 Limites du cours On se limitera à l’échantillonnage aléatoire
Les problèmes de l’échantillonnage systématique seront abordés dans d’autes UE à propos de La statistique spatiale L’analyse des séries chronologiques

8 2. L’échantillonnage aléatoire
Simple Séquentiel en deux étapes

9 Echantillonnage aléatoire simple
Définition Les individus de la population sont tous équivalents Le nombre d’individus à échantillonner est déterminé à l’avance Chaque individu de la population a la même probabilité a priori d’être choisi Le choix d’un individu ne favorise ni ne défavorise le choix ultérieur d’aucun autre individu de la population (tirages indépendants)

10 Les individus ou unités d’échantillonnage
Naturels Animaux, plantes individualisées Arbitraires Unités de surface, de volume, de poids 0.25 m2 de prairie 1dm3 d’eau dans un étang 1k de sol Attention alors ! Population biologique Population statistique

11 Deux mode de tirage Avec remise Sans remise Ou non exhaustif
La probabilité de sélection reste constante au cours de l’échantillonnage Sans remise Ou exhaustif La probabilité de sélection s’accroît au cours de l’échantillonnage

12 Une approximation Dans les très grandes populations, on considère souvent l’échantillonnage comme avec remise, même lorsqu’il n’y a pas remise Dans les populations plus petites, il y aura lieu de prendre en compte le taux de sondage f = n/N

13 Le modèle statistique

14 Les paramètres de l’échantillon
Moyenne de l’échantillon : Variance de l’échantillon :

15 Paramètres et estimateurs
La moyenne est un estimateur sans biais de la moyenne de la population La variance s2 est un estimateur biaisé par défaut (mais asymptotiquement sans biais) de la variance de la population

16 Voir annexe polycopiée

17 Le biais

18 Le biais

19 La précision d’échantillonnage
Quelle connaissance avons nous de la moyenne de la population ?

20 Les mesures de précision
La variance Incommode (exprimée dans le carré des unités) L’erreur standard Utilisée par les anglo-saxons Le coefficient de variation Utilisé par les agronomes Le ½ intervalle de confiance C’est un véritable encadrement

21 La précision est Proportionnelle à l’écart-type de la moyenne (en général de l’estimateur) ou erreur standard sur la moyenne Comment la calcule-t-on ? Population infinie Ou tirage avec remise Population finie Et tirage sans remise

22 estimateurs Population infinie Population finie
Ou tirage non exhaustif Population finie Et tirage exhaustif

23 Le demi intervalle de confiance
On sait « encadrer » la moyenne avec une probabilité d’erreur définie par l’intervalle de confiance (voir annexe) Ou, si n < 30

24 Précision absolue et relative
La quantité : Ou, pour n>30 Sera utilisée comme « précision absolue » La quantité Sera nommée : « précision relative

25 La taille du parasitoïde leptomastix dactylopii
Un exemple La taille du parasitoïde leptomastix dactylopii

26 L’animal

27 L’échantillon On a prélevé au hasard 50 individus femelles à partir de cochenilles du manioc provenant d’un champ du congo (données André Biassangama) > print(biassang) numer tail long fec strate …………………………………………………………………………

28 Exemple : taille de leptomastix
> attach(biassang) # définition du jeu de données > sd<-sqrt(var(tail)/n) # calcul de l’erreur standard > qnorm( ) # calcul de z (alpha/2) [1] > d<-sd*qnorm( ) # précision absolue > d [1] > mean(tail) # taille moyenne (mm) [1] > mean(tail)-d # borne inférieure [1] > mean(tail)+d # borne supérieure [1]

29 Encadrement de la moyenne :
La taille moyenne de la population d de la population des femelles du parasitoïde Leptomastix dactylopii est estimée à 1.78 mm On peut affirmer – avec 5% des chances de se tromper – qu’elle est comprise entre 1.63 et 1.93 mm

30 La précision absolue et relative
La moyenne est connue à plus ou moins 0.15 mm près C’est à dire à 8.3% près > d/(mean(tail))*100 [1]

31 Contrôler la précision d’échantillonnage
La base du travail pratique

32 Comment évolue la précision ?

33 Le gain marginal de précision
La dérivée de la précision relative donne le gain marginal par unité supplémentaire d’échantillonnage.

34 Calculer l’effectif nécessaire
1. Définir l’objectif à atteindre Le risque a accepté (le plus souvent 0.05) La précision absolue ou relative désirée 2. Déterminer la variance de la population On a souvent besoin d’un pré-échantillonnage 3. Déterminer n

35 « Pour faire un bon échantillonnage faites en d’abord un mauvais »
Un paradoxe ! « Pour faire un bon échantillonnage faites en d’abord un mauvais » (J.S. Pierre, pensées)

36 La détermination de n De la définition de la précision On déduit :

37 Et si on parlait argent ? On définit : L’effort d’échantillonnage : c’est n Le coût de prise en charge de l’échantillonnage Co Fabrication des cadres, pièges, coût du trajet, affrètement d’un bateau, etc… Le coût unitaire de prélèvement d’un individu c Mesuré en temps de travail, en euros, en litres de fuel (chalutier) etc… Le coût total de l’échantillonnage :

38 Optimisation Stratégies de type « minimax »
Maximiser l’information (minimiser la précision) En minimisant, ou au moins en maîtrisant les coûts Pas de solution universelle

39 Exemple La taille moyenne de la population de Leptomastix est connue à 8.3% près avec un échantillon de 50 femelles Quel échantillon est nécessaire pour atteindre une précision de 5% sur cette moyenne ?

40 Solution Ecrivons la formule de la précision relative
On cherche à résoudre l’inégalité : Donc :

41 Numériquement : On prendra n=137 Commenter

42 L’échantillonnage séquentiel en deux étapes
Doit-on refaire un échantillon de 137 individus ?

43 Non ! Il est licite de compléter l’échantillon de 50 individus à 137
C’est à dire d’aller prélever aux hasard = 87 nouveaux individus Cette procédure s’appelle : « échantillonnage séquentiel en deux étapes »

44 Ouverture Un échantillonnage est dit séquentiel s’il est conduit par étapes jusqu’à un critère d’arrêt. L’échantillon est alors dit informatif il renseigne au fur et à mesure sur la précision atteinte ou sur d’autres critères d’arrêt Deux types principaux : Echantillonnage séquentiel à précision fixée Echantillonnage décisionnel Voir par exemple le livre de Frontier : stratégies d’échantillonnage en écologie

45 3. L’échantillonnage stratifié
Du bon usage des strates

46 Que faire si la variance des individus est élevée ?
L’obtention d’une bonne précision est alors extrêmement coûteuse Mais la population est peut-être très hétérogène ? On peut alors la diviser en sous populations plus homogènes On gagne alors beaucoup de précision

47 Le modèle statistique change
Mise en oeuvre Le modèle statistique change

48 Une nouvelle vision de la population
Et des paramètres S3 S2 W S1 m,s2 m3,s23 m1,s21 m2,s22

49 Définition des strates
Les strates forment une partition de la population C’est à dire que leurs intersections sont deux à deux vides (elles sont disjointes) Leur réunion est la population totale

50 Hypothèse : Les variances « intra » sont inférieures à la variance totale

51 Les poids des strates A chaque strate est affectée un poids : la proportion de la population totale qu’elle représente w1,w2,w3, en général wi

52 L’échantillon stratifié
On tire un échantillon aléatoire simple de taille ni dans la strate i. L’échantillon complet est de taille n On appelle allocation le poids de la strate i dans l’échantillon Si le poids de la strate dans l’échantillon est égal au poids de la strate dans la population on dit que l’allocation est proportionnelle

53 L’estimateur stratifié
On nomme xij la valeur mesurée sur le j ième individu de la strate i On note xi. la moyenne du sous-échantillon de la strate i On a le choix entre deux estimateurs de la moyenne de la population :

54 Comparaison. a) biais Le premier estimateur est biaisé, sauf si l’allocation est proportionnelle Le second est sans biais à partir du moment où le poids des strates dans la population est connu sans erreur

55 Comparaison. b) variance, précision
Le second estimateur est de variance inférieure au premier

56 On va optimiser l’allocation sous une contrainte de coût
Optimisation On va optimiser l’allocation sous une contrainte de coût

57 Fonction de coût Coût de prise en charge + coût de prélèvement des unités de chaque strate :

58 Le problème Minimiser la variance de l’estimateur Par rapport aux ni
Sous la contrainte Problème de minimisation sous contrainte

59 Technique du Lagrangien
Ou du multiplicateur de Lagrange Voir annexe 2 On trouve :

60 Intervalle de confiance et précision
L’estimateur stratifié de la moyenne est distribué comme un t à n-m degrés de liberté D’où l’intervalle de confiance : Et la précision

61 Application à Leptomastix
La strate 1 représente 70% des hôtes dans la nature, la strate 2 30% Corriger l’estimation de la moyenne de la population Estimer son intervalle de confiance et sa précision L’allocation est-elle optimale ?

62 Intérêt des strates Comment juger de l’intérêt de la stratification ?
Par analyse de variance Une technique qui permet de comparer la variance inter-strate avec la variance intra-strate Plus le F est grand, plus la stratification est intéressante A l’inverse, si F est non significatif, la stratification est dépourvue d’intérêt

63 Exemple Taille de Leptomastix > attach(biassang)
> anova(lm(tail~strate),test="F") Analysis of Variance Table Response: tail Df Sum Sq Mean Sq F value Pr(>F) strate e-11 *** Residuals --- Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

64 Contrôle graphique

65 4. L’échantillonnage en grappes
Ou échantillonnage du premier degré (échantillonnage par degrés)

66 Définition La population peut être subdivisé en unités primaires ou grappes Chaque grappe contient un certain nombre d’individus ou grains Le tirage au hasard s’effectue en deux phases Choix de m grappes Choix de n grains par grappe Analogie : strates très nombreuses, on ne peut les sonder toutes

67 Image de la population et du tirage
W m,s2 Grappe sondée Grain sondé Grappe non sondée Grain non sondé

68 Un schéma hiérarchique
Population W Grappes 1 2 3 Grains 1 2 3 1 2 1 2 3

69 2.1. Modèle statistique A est une variable aléatoire attachée à la grappe, d’espérance nulle et de variance (variance intergrappes) e est une variable aléatoire attachée à chaque grain, d’espérance nulle et de variance (variance résiduelle ou intra grappe) Par ailleurs, les Ai et eij sont indépendants

70 2.2. Estimateurs On se limitera au cas simple où les grappes sont d’effectifs égaux, et où on tire un nombre constant de grains par grappe. Dans ces conditions la moyenne générale de l’échantillon : est un estimateur sans biais de µ

71 Démonstration : Il suffit d’appliquer le modèle :

72 Sa variance Dépend à la fois de et de  

73 Finalement L’échantillonnage du premier degré est d’autant moins précis que les grappes sont plus différentes les unes des autres. Sans considérations de coût, si le produit n.m est fixé, la précision est optimale pour n=1 (un seul grain par grappe). On voit bien les limites de cette stratégie : il est alors impossible d’estimer

74 Grappes et analyse de variance
Modèle d’analyse de variance aléatoire Un F important signifie que les grappes sont très différentes entre elles, relativement homogènes au niveau intra Incite à faire porter l’effort sur les grappes plutôt que sur les grains Estimation des composantes de la variance

75 Analyse de variance Source SCE dl CM F Total nm-1 Inter (B) m-1
SCET/(nm-1) Inter (B) m-1 SCEB/(m-1) CMB/CMW Intra (W) nm-m SCEW/(nm-m)

76 Optimisation

77 Le problème d’optimisation
Minimiser la variance de la moyenne En déterminant à l’avance le coût total de l’opération Combien de grappes ? Combien de grains par grappe ? Il faut déterminer Le coût de prise en charge d’une grappe Le coût de prélèvement d’un grain

78 On forme le lagrangien Sous la fonction de coût :

79 Dérivation par rapport à n et m

80 Et finalement : Grains variables Grappe chère + de grains/grappe + de grains/grappe Grappes variables Grain cher + de grappes + de grappes Evidemment, on en déduit m à partir de la fonction de coût

81 Bilan On ne fait pas un échantillonnage en grappes pour gagner de la précision En général, au contraire, on en perd par rapport à l’échantillonnage aléatoire simple On l’adopte pour sa commodité et son faible coût N’oubliez pas de l’optimiser dès que vous avez de l’information sur les deux composantes de la variance !

82 5. Autres plans d’échantillonnage
Echantillonnage par degrés, échantillonnage en différentes occasions, échantillonnage par régression

83 Echantillonnage par degrés
Généralisation de l’échantillonnage en grappes Echantillonnage en grappe = échantillonnage du premier degré Echantillonnage du second degré : On tire au hasard des unités primaires Dans chaque unité primaire on tire au hasard des unités secondaires Dans chaque unité secondaire des unités tertiaires (grains) En anglais : cluster sampling

84 Exemple Etude de la croissance des brochets au Canada : Analyse :
Unités primaires = lacs Unités secondaires = barques Unités tertiaires = brochets (grains) Analyse : Analyse de variance hiérarchisée (nested) Estimation des composantes de la variance Ici : trois composantes Entre lacs Entre barques Entre brochets (résiduelle)

85 Echantillonnage à différentes occasions
On tire au hasard un certain nombre d’individus dans une population On les repère On mesure une caractéristique plusieurs fois (occasions) Exemples : croissance sur des animaux ou plantes marquées Analyse : « mesures répétées » (repeated measures)

86 Echantillonnage par régression
On mesure une caractéristique peu coûteuse x sur un très grand nombre N d’individus Sur un sous-échantillon aléatoire de taille n, on mesure une autre caractéristique, très coûteuse, y Ce sous échantillon permet d’estimer le coefficient de corrélation entre les deux caractéristiques L’estimation précise de la moyenne de x permet alors de corriger la moyenne de y

87 Exemple Chez Leptomastix dactylopii on mesure :
La taille sur 1000 individus La taille et la fécondité sur 50 d’entre eux

88 Exemple > mean(tail) # Echantillon de 50 [1] 1.7818
[1] > lm(fec~tail)->m1 # Régression fécondité / taille > m1 Call: lm(formula = fec ~ tail) Coefficients: (Intercept) tail > mean(fec) # Echantillon de 50 [1] 83.58 > mean(tail2)-mean(tail)->bt # Biais sur la taille > bt*m1$coeff[2]+mean(fec) # Correction du biais fécondité [1] >

89 Variance de l’estimateur par régression
On le donne ci dessous sans démonstration : Variance habituelle Coefficient de corrélation entre x et y

90 Suite de l’exemple > # Variance de la moyenne fécondité
> var(fec)/50 [1] > #correction par la corrélation avec la taille > cor(tail,fec) [1] > (1-cor(tail,fec))*var(fec)/50 [1] > v<-(1-cor(tail,fec))*var(fec)/50 > # Erreur standard > sqrt(v) [1] > # précision > sqrt(v)*1.96 [1] > #précision relative > sqrt(v)*1.96/mean(fec)*100 [1] # 1.31% grace à la mesure des 1000 tailles >

91 Conclusions En forme de conseils

92 Conclusions Connaître les plans types est fondamental
Il est essentiel de savoir définir Ses objectifs (précision, erreur de décision) Ses moyens L’optimisation permet de gagner du temps et de l’argent Faites simple et si possible standard Evitez les plans « astucieux » qu’on ne sait pas traiter ou qui se révèlent coûteux


Télécharger ppt "Jean-Sébastien Pierre UMR /01/2009"

Présentations similaires


Annonces Google