Jean-Sébastien Pierre UMR /01/2009

Slides:



Advertisements
Présentations similaires
Introduction à l’analyse
Advertisements

L’échantillonnage & Ses Fluctuations
Base de sondage et Plan de sondage Pres. 5
Corrélation Position du problème Définition covariance (X,Y) r =
Probabilités et statistiques au lycée
Gestion de portefeuille
Gestion de portefeuille
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Test statistique : principe
Les tests d’hypothèses (II)
Les tests d’hypothèses (I)
Echantillonnage Introduction
Collecte de données F. Kohler.
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Comparaison de plusieurs moyennes observées
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
1. Les caractéristiques de dispersion. 11. Utilité.
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Les tests d’hypothèses
Tests de comparaison de moyennes
Chapitre 2 Les indices.
Thème 6 : l'échantillonnage et l'enquête
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Régression linéaire simple
Échantillonnage (STT-2000)
Comprendre la variation
Tableaux de distributions
Comprendre la variation dans les données: Notions de base
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Corrélation Principe fondamental d’une analyse de corrélation
La statistique Définitions et méthodes. La statistique est la branche des mathématiques qui collecte, classe, analyse et interprète des données afin den.
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
Distribution d’échantillonnage
Écart moyen et écart type
La régression multiple
Lectures Volume du cours : Chapitre 7
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
Concepts d’échantillonnage statistique. Introduction Échantillon représentatif – Supprime la subjectivité / biais – Une confiance plus grande dans les.
La régression simple Michel Tenenhaus
Le chalut – l’échantillonnage pour connaître la composition des captures Shrimp trawler:
Echantillonage pour une Evaluation d’Impact
Micro-intro aux stats.
Les Techniques d’enquête quantitative
Intervalles de confiance pour des proportions L’inférence statistique
Probabilités et Statistiques Année 2010/2011
Concepts fondamentaux: statistiques et distributions
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
L’erreur standard et les principes fondamentaux du test de t
Échantillonnage aléatoire simple
Post-optimisation, analyse de sensibilité et paramétrage
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations.

Échantillonnage (STT-2000)
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Introduction aux statistiques Intervalles de confiance
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Transcription de la présentation:

Jean-Sébastien Pierre UMR 6553 20/01/2009 L’échantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Plan 1. Introduction 2. L’échantillonnage aléatoire Simple Séquentiel en deux étapes 3. L’échantillonnage stratifié Mise en œuvre et analyse Optimisation 4. L’échantillonnage en grappes

Introduction « Pas de modèle sans échantillon, pas d’échantillon sans modèle » Un professionnel du prêt-à-porter « Les tissus, disponibles en quantité limitée, ne peuvent être ni repris ni échangés. Par contre vous pouvez obtenir un échantillon de chacun des tissus pour un prix modique. » La boutique A&A, http://www.a-et-a.com/

Le dictionnaire Robert 1. Vx Étalon de mesure. (1636) Mod. Type réglementaire de certains matériaux de construction. Bois d'échantillon. Brique, pavé d'échantillon. — Mar. Bâtiment de fort, de petit, de faible échantillon, suivant la largeur et l'épaisseur des pièces de construction. 2. (1407) Cour. Petite quantité d'une marchandise qu'on montre pour donner une idée de l'ensemble. Les échantillons d'une gamme de produits. Échantillons de vin, de café. Un cahier d'échantillons (d'étoffe). Une palette d'échantillons (de peinture). Boîte, jeux d'échantillons à usage commercial. Þ collection, présentoir. « Il étale ses échantillons, lentement, devant le client » (Maurois). « Quel danger, quelle folie de choisir sur des échantillons » (Sarraute). Spécimen remarquable d'une espèce, d'un genre. Þ représentant. « Une très jolie servante, charmant échantillon de la beauté des femmes de Malaga » (Gautier). Fig. Aperçu. « Je voulus lui donner un échantillon de mon talent » (Rousseau). Þ exemple. 3. Spécialt (Statist.) Fraction d'une population destinée à être étudiée par sondage. panel. 4. Inform. Élément d'une suite discrète résultant de l'échantillonnage d'une grandeur analogique.

Pourquoi échantillonner ? Impossibilité d’accéder À tous les individus d’une population À la totalité d’une aire => On procède donc par inférence Echantillonnage Sondage

Deux grandes stratégies Aléatoire Simple Stratifié En grappe ou par degrés Systématique Transects et grilles Décimation/quantisation Échantillonnage temporel

Limites du cours On se limitera à l’échantillonnage aléatoire Les problèmes de l’échantillonnage systématique seront abordés dans d’autes UE à propos de La statistique spatiale L’analyse des séries chronologiques

2. L’échantillonnage aléatoire Simple Séquentiel en deux étapes

Echantillonnage aléatoire simple Définition Les individus de la population sont tous équivalents Le nombre d’individus à échantillonner est déterminé à l’avance Chaque individu de la population a la même probabilité a priori d’être choisi Le choix d’un individu ne favorise ni ne défavorise le choix ultérieur d’aucun autre individu de la population (tirages indépendants)

Les individus ou unités d’échantillonnage Naturels Animaux, plantes individualisées Arbitraires Unités de surface, de volume, de poids 0.25 m2 de prairie 1dm3 d’eau dans un étang 1k de sol Attention alors ! Population biologique Population statistique

Deux mode de tirage Avec remise Sans remise Ou non exhaustif La probabilité de sélection reste constante au cours de l’échantillonnage Sans remise Ou exhaustif La probabilité de sélection s’accroît au cours de l’échantillonnage

Une approximation Dans les très grandes populations, on considère souvent l’échantillonnage comme avec remise, même lorsqu’il n’y a pas remise Dans les populations plus petites, il y aura lieu de prendre en compte le taux de sondage f = n/N

Le modèle statistique

Les paramètres de l’échantillon Moyenne de l’échantillon : Variance de l’échantillon :

Paramètres et estimateurs La moyenne est un estimateur sans biais de la moyenne de la population La variance s2 est un estimateur biaisé par défaut (mais asymptotiquement sans biais) de la variance de la population

Voir annexe polycopiée

Le biais

Le biais

La précision d’échantillonnage Quelle connaissance avons nous de la moyenne de la population ?

Les mesures de précision La variance Incommode (exprimée dans le carré des unités) L’erreur standard Utilisée par les anglo-saxons Le coefficient de variation Utilisé par les agronomes Le ½ intervalle de confiance C’est un véritable encadrement

La précision est Proportionnelle à l’écart-type de la moyenne (en général de l’estimateur) ou erreur standard sur la moyenne Comment la calcule-t-on ? Population infinie Ou tirage avec remise Population finie Et tirage sans remise

estimateurs Population infinie Population finie Ou tirage non exhaustif Population finie Et tirage exhaustif

Le demi intervalle de confiance On sait « encadrer » la moyenne avec une probabilité d’erreur définie par l’intervalle de confiance (voir annexe) Ou, si n < 30

Précision absolue et relative La quantité : Ou, pour n>30 Sera utilisée comme « précision absolue » La quantité Sera nommée : « précision relative

La taille du parasitoïde leptomastix dactylopii Un exemple La taille du parasitoïde leptomastix dactylopii

L’animal

L’échantillon On a prélevé au hasard 50 individus femelles à partir de cochenilles du manioc provenant d’un champ du congo (données André Biassangama) > print(biassang) numer tail long fec strate 1 1 0.63 29 52 1 2 2 0.75 25 56 1 3 12 0.85 31 57 1 ………………………………………………………………………… 48 29 2.72 39 115 2 49 32 2.84 39 119 2 50 31 2.92 37 121 2

Exemple : taille de leptomastix > attach(biassang) # définition du jeu de données > sd<-sqrt(var(tail)/n) # calcul de l’erreur standard > qnorm(1-0.025) # calcul de z (alpha/2) [1] 1.959964 > d<-sd*qnorm(1-0.025) # précision absolue > d [1] 0.1474185 > mean(tail) # taille moyenne (mm) [1] 1.7818 > mean(tail)-d # borne inférieure [1] 1.634382 > mean(tail)+d # borne supérieure [1] 1.929218

Encadrement de la moyenne : La taille moyenne de la population d de la population des femelles du parasitoïde Leptomastix dactylopii est estimée à 1.78 mm On peut affirmer – avec 5% des chances de se tromper – qu’elle est comprise entre 1.63 et 1.93 mm

La précision absolue et relative La moyenne est connue à plus ou moins 0.15 mm près C’est à dire à 8.3% près > d/(mean(tail))*100 [1] 8.273571

Contrôler la précision d’échantillonnage La base du travail pratique

Comment évolue la précision ?

Le gain marginal de précision La dérivée de la précision relative donne le gain marginal par unité supplémentaire d’échantillonnage.

Calculer l’effectif nécessaire 1. Définir l’objectif à atteindre Le risque a accepté (le plus souvent 0.05) La précision absolue ou relative désirée 2. Déterminer la variance de la population On a souvent besoin d’un pré-échantillonnage 3. Déterminer n

« Pour faire un bon échantillonnage faites en d’abord un mauvais » Un paradoxe ! « Pour faire un bon échantillonnage faites en d’abord un mauvais » (J.S. Pierre, pensées)

La détermination de n De la définition de la précision On déduit :

Et si on parlait argent ? On définit : L’effort d’échantillonnage : c’est n Le coût de prise en charge de l’échantillonnage Co Fabrication des cadres, pièges, coût du trajet, affrètement d’un bateau, etc… Le coût unitaire de prélèvement d’un individu c Mesuré en temps de travail, en euros, en litres de fuel (chalutier) etc… Le coût total de l’échantillonnage :

Optimisation Stratégies de type « minimax » Maximiser l’information (minimiser la précision) En minimisant, ou au moins en maîtrisant les coûts Pas de solution universelle

Exemple La taille moyenne de la population de Leptomastix est connue à 8.3% près avec un échantillon de 50 femelles Quel échantillon est nécessaire pour atteindre une précision de 5% sur cette moyenne ?

Solution Ecrivons la formule de la précision relative On cherche à résoudre l’inégalité : Donc :

Numériquement : On prendra n=137 Commenter

L’échantillonnage séquentiel en deux étapes Doit-on refaire un échantillon de 137 individus ?

Non ! Il est licite de compléter l’échantillon de 50 individus à 137 C’est à dire d’aller prélever aux hasard 137 - 50 = 87 nouveaux individus Cette procédure s’appelle : « échantillonnage séquentiel en deux étapes »

Ouverture Un échantillonnage est dit séquentiel s’il est conduit par étapes jusqu’à un critère d’arrêt. L’échantillon est alors dit informatif il renseigne au fur et à mesure sur la précision atteinte ou sur d’autres critères d’arrêt Deux types principaux : Echantillonnage séquentiel à précision fixée Echantillonnage décisionnel Voir par exemple le livre de Frontier : stratégies d’échantillonnage en écologie

3. L’échantillonnage stratifié Du bon usage des strates

Que faire si la variance des individus est élevée ? L’obtention d’une bonne précision est alors extrêmement coûteuse Mais la population est peut-être très hétérogène ? On peut alors la diviser en sous populations plus homogènes On gagne alors beaucoup de précision

Le modèle statistique change Mise en oeuvre Le modèle statistique change

Une nouvelle vision de la population Et des paramètres S3 S2 W S1 m,s2 m3,s23 m1,s21 m2,s22

Définition des strates Les strates forment une partition de la population C’est à dire que leurs intersections sont deux à deux vides (elles sont disjointes) Leur réunion est la population totale

Hypothèse : Les variances « intra » sont inférieures à la variance totale

Les poids des strates A chaque strate est affectée un poids : la proportion de la population totale qu’elle représente w1,w2,w3, en général wi

L’échantillon stratifié On tire un échantillon aléatoire simple de taille ni dans la strate i. L’échantillon complet est de taille n On appelle allocation le poids de la strate i dans l’échantillon Si le poids de la strate dans l’échantillon est égal au poids de la strate dans la population on dit que l’allocation est proportionnelle

L’estimateur stratifié On nomme xij la valeur mesurée sur le j ième individu de la strate i On note xi. la moyenne du sous-échantillon de la strate i On a le choix entre deux estimateurs de la moyenne de la population :

Comparaison. a) biais Le premier estimateur est biaisé, sauf si l’allocation est proportionnelle Le second est sans biais à partir du moment où le poids des strates dans la population est connu sans erreur

Comparaison. b) variance, précision Le second estimateur est de variance inférieure au premier

On va optimiser l’allocation sous une contrainte de coût Optimisation On va optimiser l’allocation sous une contrainte de coût

Fonction de coût Coût de prise en charge + coût de prélèvement des unités de chaque strate :

Le problème Minimiser la variance de l’estimateur Par rapport aux ni Sous la contrainte Problème de minimisation sous contrainte

Technique du Lagrangien Ou du multiplicateur de Lagrange Voir annexe 2 On trouve :

Intervalle de confiance et précision L’estimateur stratifié de la moyenne est distribué comme un t à n-m degrés de liberté D’où l’intervalle de confiance : Et la précision

Application à Leptomastix La strate 1 représente 70% des hôtes dans la nature, la strate 2 30% Corriger l’estimation de la moyenne de la population Estimer son intervalle de confiance et sa précision L’allocation est-elle optimale ?

Intérêt des strates Comment juger de l’intérêt de la stratification ? Par analyse de variance Une technique qui permet de comparer la variance inter-strate avec la variance intra-strate Plus le F est grand, plus la stratification est intéressante A l’inverse, si F est non significatif, la stratification est dépourvue d’intérêt

Exemple Taille de Leptomastix > attach(biassang) > anova(lm(tail~strate),test="F") Analysis of Variance Table Response: tail Df Sum Sq Mean Sq F value Pr(>F) strate 1 8.5617 8.5617 77.559 1.367e-11 *** Residuals 48 5.2987 0.1104 --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Contrôle graphique

4. L’échantillonnage en grappes Ou échantillonnage du premier degré (échantillonnage par degrés)

Définition La population peut être subdivisé en unités primaires ou grappes Chaque grappe contient un certain nombre d’individus ou grains Le tirage au hasard s’effectue en deux phases Choix de m grappes Choix de n grains par grappe Analogie : strates très nombreuses, on ne peut les sonder toutes

Image de la population et du tirage W m,s2 Grappe sondée Grain sondé Grappe non sondée Grain non sondé

Un schéma hiérarchique Population W Grappes 1 2 3 Grains 1 2 3 1 2 1 2 3

2.1. Modèle statistique A est une variable aléatoire attachée à la grappe, d’espérance nulle et de variance (variance intergrappes) e est une variable aléatoire attachée à chaque grain, d’espérance nulle et de variance (variance résiduelle ou intra grappe) Par ailleurs, les Ai et eij sont indépendants

2.2. Estimateurs On se limitera au cas simple où les grappes sont d’effectifs égaux, et où on tire un nombre constant de grains par grappe. Dans ces conditions la moyenne générale de l’échantillon : est un estimateur sans biais de µ

Démonstration : Il suffit d’appliquer le modèle :

Sa variance Dépend à la fois de et de  

Finalement L’échantillonnage du premier degré est d’autant moins précis que les grappes sont plus différentes les unes des autres. Sans considérations de coût, si le produit n.m est fixé, la précision est optimale pour n=1 (un seul grain par grappe). On voit bien les limites de cette stratégie : il est alors impossible d’estimer

Grappes et analyse de variance Modèle d’analyse de variance aléatoire Un F important signifie que les grappes sont très différentes entre elles, relativement homogènes au niveau intra Incite à faire porter l’effort sur les grappes plutôt que sur les grains Estimation des composantes de la variance

Analyse de variance Source SCE dl CM F Total nm-1 Inter (B) m-1 SCET/(nm-1) Inter (B) m-1 SCEB/(m-1) CMB/CMW Intra (W) nm-m SCEW/(nm-m)

Optimisation

Le problème d’optimisation Minimiser la variance de la moyenne En déterminant à l’avance le coût total de l’opération Combien de grappes ? Combien de grains par grappe ? Il faut déterminer Le coût de prise en charge d’une grappe Le coût de prélèvement d’un grain

On forme le lagrangien Sous la fonction de coût :

Dérivation par rapport à n et m

Et finalement : Grains variables Grappe chère + de grains/grappe + de grains/grappe Grappes variables Grain cher + de grappes + de grappes Evidemment, on en déduit m à partir de la fonction de coût

Bilan On ne fait pas un échantillonnage en grappes pour gagner de la précision En général, au contraire, on en perd par rapport à l’échantillonnage aléatoire simple On l’adopte pour sa commodité et son faible coût N’oubliez pas de l’optimiser dès que vous avez de l’information sur les deux composantes de la variance !

5. Autres plans d’échantillonnage Echantillonnage par degrés, échantillonnage en différentes occasions, échantillonnage par régression

Echantillonnage par degrés Généralisation de l’échantillonnage en grappes Echantillonnage en grappe = échantillonnage du premier degré Echantillonnage du second degré : On tire au hasard des unités primaires Dans chaque unité primaire on tire au hasard des unités secondaires Dans chaque unité secondaire des unités tertiaires (grains) En anglais : cluster sampling

Exemple Etude de la croissance des brochets au Canada : Analyse : Unités primaires = lacs Unités secondaires = barques Unités tertiaires = brochets (grains) Analyse : Analyse de variance hiérarchisée (nested) Estimation des composantes de la variance Ici : trois composantes Entre lacs Entre barques Entre brochets (résiduelle)

Echantillonnage à différentes occasions On tire au hasard un certain nombre d’individus dans une population On les repère On mesure une caractéristique plusieurs fois (occasions) Exemples : croissance sur des animaux ou plantes marquées Analyse : « mesures répétées » (repeated measures)

Echantillonnage par régression On mesure une caractéristique peu coûteuse x sur un très grand nombre N d’individus Sur un sous-échantillon aléatoire de taille n, on mesure une autre caractéristique, très coûteuse, y Ce sous échantillon permet d’estimer le coefficient de corrélation entre les deux caractéristiques L’estimation précise de la moyenne de x permet alors de corriger la moyenne de y

Exemple Chez Leptomastix dactylopii on mesure : La taille sur 1000 individus La taille et la fécondité sur 50 d’entre eux

Exemple > mean(tail) # Echantillon de 50 [1] 1.7818 [1] 1.971004 > lm(fec~tail)->m1 # Régression fécondité / taille > m1 Call: lm(formula = fec ~ tail) Coefficients: (Intercept) tail 22.41 34.33 > mean(fec) # Echantillon de 50 [1] 83.58 > mean(tail2)-mean(tail)->bt # Biais sur la taille > bt*m1$coeff[2]+mean(fec) # Correction du biais fécondité [1] 90.07582 >

Variance de l’estimateur par régression On le donne ci dessous sans démonstration : Variance habituelle Coefficient de corrélation entre x et y

Suite de l’exemple > # Variance de la moyenne fécondité > var(fec)/50 [1] 7.28089 > #correction par la corrélation avec la taille > cor(tail,fec) [1] 0.9570068 > (1-cor(tail,fec))*var(fec)/50 [1] 0.3130290 > v<-(1-cor(tail,fec))*var(fec)/50 > # Erreur standard > sqrt(v) [1] 0.5594899 > # précision > sqrt(v)*1.96 [1] 1.096600 > #précision relative > sqrt(v)*1.96/mean(fec)*100 [1] 1.312037 # 1.31% grace à la mesure des 1000 tailles >

Conclusions En forme de conseils

Conclusions Connaître les plans types est fondamental Il est essentiel de savoir définir Ses objectifs (précision, erreur de décision) Ses moyens L’optimisation permet de gagner du temps et de l’argent Faites simple et si possible standard Evitez les plans « astucieux » qu’on ne sait pas traiter ou qui se révèlent coûteux