Présentation 4 : Sondage stratifié Programme d’appui à la gestion publique et aux statistiques Sous-programme Statistiques (PAGPS/SPS) Atelier de formation sur les techniques d’échantillonnage et le calcul de précision des indicateurs Présentation 4 : Sondage stratifié Ousman KORIKO PAGPS/SPS 1 HTD
SOMMAIRE Introduction Probabilité d’inclusion Estimation du total et de la moyenne dans une strate Estimation du total sur l’univers Estimation de la moyenne sur l’univers Estimation de la variance de l’estimateur Détermination de la taille de l’échantillon par strate Allocation proportionnelle Allocation optimale de Neyman Problèmes de constitution de strates
Introduction Dans un sondage aléatoire simple, on tire directement l’échantillon des individus dans une population totale et unique. Problème de répartition spatiale de l’échantillon tiré pour assurer la représentativité de la population étudiée. Dans un sondage stratifié, la population étudiée est divisée en plusieurs groupes indépendants les uns des autres. Le processus d’établissement des groupes s’appelle la stratification.
Introduction Les strates peuvent répondre à des caractéristiques : économiques (revenu, catégorie socio professionnelle, branche d’activité), sociales (pauvres, non pauvres), géographiques (région, département, etc..). Les strates sont numérotées 1, 2, ..,h, …
Probabilité d’inclusion Un sondage stratifié de base, est un sondage aléatoire simple réalisé indépendamment dans l’ensemble des strates qui forment l’univers. Les tirages des échantillons sont indépendants d’une strate à une autre. Soient Nh et nh désignant respectivement la population totale et la taille de l’échantillon à tirer dans la strate h. Soit N la population totale de l’univers. La probabilité d’inclusion d’une unité dans l’échantillon
Probabilité d’inclusion Un sondage stratifié de base, est un sondage aléatoire simple réalisé indépendamment dans l’ensemble des strates qui forment l’univers. Les tirages des échantillons sont indépendants d’une strate à une autre. Soient Nh et nh désignant respectivement la population totale et la taille de l’échantillon à tirer dans la strate h. Soit N la population totale de l’univers. La probabilité d’inclusion d’une unité dans l’échantillon est : Probabilité d’inclusion dans une strate :
Estimateur du total et de la moyenne dans une strate L’estimateur du total dans une strate s’écrit : L’estimateur de la moyenne dans la strate :
Estimateur du total sur l’univers On note que N l’effectif total des individus sur l’univers a pour expression : Estimateur du total sur l’univers est la somme des estimateurs du total sur les différentes strates:
Estimateur de la moyenne sur l’univers Par définition l’estimateur de la moyenne sur l’univers s’écrit : Ou encore : Avec désignant le poids de sondage d’un individu i sélectionné dans la population de la strate h
Estimateur de la variance de l’estimateur Estimateur de la variance de l’estimateur de la moyenne dans la strate L’estimation de la dispersion corrigée :
Estimateur de la variance de l’estimateur (suite) Estimateur de la variance de l’estimateur du total : Estimateur de la variance de l’estimateur de la moyenne:
Détermination de la taille de l’échantillon par strate La question consiste à savoir comment répartir la taille (n) de l’échantillon global entre les différentes strates constituées. La répartition de l’échantillon entre les strates doit tenir compte de deux critères importants : Le premier critère est la commodité. Il consiste à choisir une méthode simple à appliquer telle que l’allocation proportionnelle. Le second critère est la fiabilité des estimations. D’où l’intérêt souvent porté à la méthode d’allocation optimale de Neyman.
Détermination de la taille de l’échantillon par allocation proportionnelle Cette méthode consiste à répartir la taille de l’échantillon selon la même structure de répartition de l’effectif de la population totale entre les strates. Soient N et Nh désignant respectivement la population totale de l’univers et la population totale de la strate h. Soient n et nh désignant respectivement la taille de l’échantillon global et la taille de l’échantillon affecté à la strate h. Alors on a la relation : k est une constante
Détermination de la taille de l’échantillon par allocation proportionnelle L’estimateur de la moyenne sur l’univers s’écrit : Ou encore : On parle d’un sondage autopondéré
Détermination de la taille de l’échantillon par allocation optimale de Neyman Méthode de répartition de l’échantillon entre les différentes strates sous la contrainte des coûts de réalisation. Soit c le coût total de réalisation d’une enquête sur un échantillon de taille n. Alors ch désigne le coût de réalisation de l’enquête sur un échantillon de taille nh dans une strate h. On a la relation:
Détermination de la taille de l’échantillon par allocation optimale de Neyman La répartition optimale est donnée par l’expression : La variance s’écrit :
Détermination de la taille de l’échantillon par allocation optimale de Neyman Soient VSAS, Vprop et Vopti les estimations respectives de la variance de l’estimateur de la moyenne pour un sondage aléatoire simple, un sondage stratifié à allocation proportionnelle et un sondage stratifié à allocation optimale. Alors on a la relation suivante : La variance s’écrit :
Problèmes de constitution de strates Procéder à la stratification d’un univers c’est chercher à répondre à trois questions : Quelle est la variable de stratification ? Combien de strates faut-il créer ? Quelles sont les limites des strates ? En pratique, le nombre de strates doit être choisi non seulement pour la précision des résultats mais aussi en fonction des coûts de gestion de l’enquête
Exercice En 2016, un pays dénommé Gondouana a réalisé une enquête par sondage sur la production industrielle, Le pays comprend deux régions notées A et B. La région A est le principal pôle de développement du pays. La région B est moins industrialisée. Le statisticien d’enquête a proposé un plan de sondage stratifié aléatoire simple auprès d’un échantillon de 20 entreprises. Les deux régions notées A et B sont les strates. Le tableau suivant porte sur les caractéristiques de l’échantillon :
Exercice (suite) Strates Nombre total d’entreprises Nh Taille de l’échantillon nh A 100 16 B 25 4 Le tableau suivant donne la répartition des chiffres d’affaire selon les entreprises et les strates Strate Numéro des entreprises enquêtés 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Strate A Strate B
Exercice Quel est le type de sondage proposé ? Estimer le chiffre d’affaires total des entreprises par strate Estimer le chiffre d’affaires total des entreprises dans le pays Estimer la variance corrigée du chiffre d’affaires des entreprises par strate Calculer l’estimateur de la variance du chiffre d’affaires moyen des entreprises dans le pays.
MERCI DE VOTRE AIMABLE ATTENTION