La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Collecte de données F. Kohler. Généralités Recensement / Echantillonnage Population Recensement : Tous les sujets de la population sont « examinés » Echantillonnage.

Présentations similaires


Présentation au sujet: "Collecte de données F. Kohler. Généralités Recensement / Echantillonnage Population Recensement : Tous les sujets de la population sont « examinés » Echantillonnage."— Transcription de la présentation:

1 Collecte de données F. Kohler

2 Généralités Recensement / Echantillonnage Population Recensement : Tous les sujets de la population sont « examinés » Echantillonnage : Une partie des sujets de la population sont « examinés » Plusieurs échantillons peuvent être constitués Léchantillon en lui-même nest pas intéressant, ce sont les conclusions sur la population que lon peut tirer de son observation qui en font lintérêt : Inférence

3 Étapes pour sélectionner un échantillon Établir les objectifs de lenquête Évaluer les avantages et les inconvénients dun recensement par rapport à un échantillon ou lutilisation de dossiers administratifs

4 Étapes pour sélectionner un échantillon Définir la population cible Cest la population totale pour laquelle on a besoin de linformation Il faut définir les unités qui composent la population sous forme de caractéristiques les identifiant : Nature des données dont on a besoin : sur des personnes, des hôpitaux… Emplacement géographique : périmètre géographique (région, canton…) Période de référence : Date Autres caractéristiques dont on veut pouvoir tenir compte : caractéristiques sociodémographiques par exemple

5 Étapes pour sélectionner un échantillon Déterminer les données à recueillir : Définition des termes Libellé des questions Définitions des méthodes de mesures Sassurer que les exigences de lenquête seront respectées sur le plan opérationnel Fixer le degré de précision Il y a un degré dincertitude associé aux estimations établies à partir dun échantillon qui dépend notamment de la méthode déchantillonnage et de la taille de léchantillon Quel degré peut-on accepter ? Il faut établir un compromis entre le degré dincertitude et le budget disponible pour lenquête

6 La population observée La population cible est définie à partir des éléments précédant Lenquête prend en compte une population différente : la population observée : Certains membres de la population cible ne sont pas observés par exemple du fait du coût de la collecte des données Les conclusions ne sappliqueront quà la population réellement observée

7 La base de sondage Permet davoir accès à la population Deux types Les nomenclatures Liste de noms et dadresses qui donnent directement accès à des unités Exemple : Liste dhôpitaux Liste des étudiants inscrits en médecine Registre des entrées Les bases aléatoires Liste de « régions » qui donnent accès indirectement à des unités Exemple : Quartier dune ville Service dun hôpital

8 La base de sondage Doit être complète et à jour Aucun membre de la population observée ne devrait en être exclu ni y être représenté plusieurs fois Aucune unité ne faisant pas partie de la population ne doit y figurer (décédé…)

9 Les unités denquête Lunité déchantillonnage Fait partie de la base de sondage Peut être ou non sélectionnée Lunité déclarante Fournit linformation quexige lenquête Lunité danalyse ou de référence Cest lunité au sujet de laquelle linformation est fournie

10 Exemple Enquête sur les nouveau-nés Unité déchantillonnage : Ménage Unité déclarante Lun des deux parents ou le tuteur Unité danalyse Le nouveau-né

11 La taille de léchantillon Est souvent un compromis entre le degré de précision à atteindre et le budget de lenquête mais aussi dautre contraintes opérationnelle comme le temps disponible Repose notamment sur : La variabilité des caractéristiques que lon mesure La taille de la population Les méthodes déchantillonnage et destimation

12 Méthodes aléatoires (probabiliste) Chaque unité a une chance que lon peut quantifier dêtre sélectionnée Méthodes non aléatoires (non probabiliste) Deux approches pour construire un échantillon

13 Les méthodes aléatoires Léchantillon aléatoire simple Léchantillonnage systématique Léchantillonnage avec une probabilité proportionnelle à la taille Léchantillonnage stratifié Léchantillonnage en grappes Léchantillonnage à plusieurs degrés Léchantillonnage à plusieurs phases

14 Léchantillonnage aléatoire simple consiste à choisir des individus de telle sorte que chaque membre de la population a une chance égale de figurer dans léchantillon. Ce choix peut se faire avec remise ou sans remise : Avec remise, un individu peut être choisi plusieurs fois Sans remise, un individu déjà choisi ne peut lêtre de nouveau. Cest le cas habituel.

15 Léchantillonnage aléatoire simple Avantage de cette méthode : On peut espérer un échantillon «représentatif » puisque la méthode donne à chaque individu de la population une chance égale. Difficultés : la méthode nest applicable que lorsquil existe une liste exhaustive de toute la population.

16 Comment procéder ? A- Procédure générale 1. On numérote tous les individus de la liste correspondant aux individus de la population avec des nombres comportant un même nombre de chiffres. 2. En utilisant une table de nombres aléatoires, une calculatrice ou un programme informatique, on obtient des nombres aléatoires comportant le nombre de chiffres désiré. 3. On sélectionne les nombres qui coïncident avec la liste. On rejette les nombres qui ne coïncident pas avec la liste ou qui se répètent, on sarrête après avoir sélectionné n individus (n représentant le nombre dindividus souhaités dans léchantillon).

17 Comment procéder ? Avec Excel Première colonne : identifie avec un nombre chaque individu de la liste de référence. Deuxième colonne : =alea() Recopier les deux colonnes en valeur à la même place. Trier les deux colonnes en fonction de lordre croissant (ou décroissant) de la deuxième colonne. Retenir les n premiers individus dans la colonne 1 Application: Choisir au hasard un échantillon de 10 personnes parmi les individus numérotés de 100 à 199 dune population de 100 individus

18 Combien peut-on réaliser déchantillon ? Si lon note n la taille de léchantillon et N la taille de la population. Avec remise : Sans remise

19 Calcul de la probabilité dinclusion Dans tout sondage à taille fixe n, si on P i la probabilité qua lindividu i dêtre présent dans léchantillon et si on note N la taille de la population, on a Si p(s) est la probabilité de tirer léchantillons, alors on obtient P i par Dans un sondage aléatoire simple <= Fraction de sondage

20 Léchantillonnage systématique Léchantillonnage systématique est une méthode qui exige aussi lexistence dune liste de la population où chaque individu est numéroté de 1 jusquà N. Notons n, le nombre dindividus que doit comporter léchantillon (la taille de léchantillon). Lentier voisin de N/n sera noté r et appelé raison de sondage ou pas de sondage.

21 Léchantillonnage systématique Pour constituer léchantillon il faut : Choisir au hasard un entier naturel d entre 1 et r (cet entier sera le point de départ), Lindividu dont le numéro correspond à d est le premier individu, Pour sélectionner les autres, il suffit dajouter à d la raison de sondage : les individus choisis seront alors ceux dont les numéros correspondent à d + r d + 2r d + 3r etc.

22 Léchantillonnage systématique Avantages : facile à sélectionner parce quun seul individu est choisi au hasard. On peut obtenir une bonne précision parce que la méthode permet de répartir léchantillon dans lensemble de la liste. Désavantages : Les données peuvent être biaisées à cause de la périodicité. Application : Étudier les déplacements par autobus sur 365 jours en prenant un échantillon de taille 60. (N=365 jours et n=60).

23 Léchantillonnage systématique Remarques On a une population de 400 individus, on veut un échantillon de 100 individus R = 4 On a donc que 4 échantillons possibles 1, 5, 9, … , 6, 10, … 398 3, 7, 11, ….399 4, 8, 12, … 400 Si la population est distribuée au hasard dans la base de sondage, un échantillonnage systématique donnera des résultats similaire à ceux dun échantillonnage aléatoire simple Cette méthode est très utilisée dans les contrôles de qualité

24 Léchantillonnage avec une probabilité proportionnelle à la taille Si la base de sondage renferme de linformation sur la taille de chaque unité (comme le nombre de médecins dun hôpital) et si la taille des ces unité varie, on peut utiliser cette information pour accroître lefficacité de léchantillonnage. Plus la taille de lunité est grande, plus sa chance dêtre incluse dans léchantillon est élevée

25 Léchantillonnage stratifié Démarche de sélection : 1. On subdivise la population en strates (groupes relativement homogènes) qui sont mutuellement exclusives 2. Proportionnellement à son importance dans la population, on calcule combien il faut dindividus au sein de léchantillon pour représenter chaque strate. 3.Dans chacune des strates, on choisit au hasard le nombre nécessaire dindividus

26 Léchantillonnage stratifié Les variables de starification doivent être : Simple à utiliser Facile à observer Étroitement reliées au thème de lenquête

27 Léchantillonnage stratifié Avantages : Il est peu probable de choisir un échantillon absurde puisquon sassure de la présence proportionnelle de tous les divers sous-groupes composant la population. Désavantages : La méthode suppose lexistence dune liste de la population. Il faut aussi connaître comment cette population se répartit selon certaines strates. Exemple : choisir par échantillonnage stratifié 10 étudiants dans un groupe de 60, en tenant compte du fait que 50% dentre eux sont en PCEM1, 30% en PCEM2 et 20% en DCEM1.

28 Léchantillonnage stratifié La variance totale est la somme de la variance intrastrate et de la variance interstrate. On cherche a avoir la plus petite variance intrastrate et une grande variance interstrate

29 Estimation Echantillonnage aléatoire simple intrastrate Moyenne générale : H = Nombre de strates Précision Avec : f h = taux de sondage dans la strate h n h = taille de léchantillon de la strate h S 2 h = dispersion vraie au sein de la strate h

30 Application numérique On dispose de 1060 hôpitaux. On sintéresse au nombre moyen Y de médecins par hôpital. La population est définie par 5 strates par tranches de taille en fonction du nombre de médecins. Cette information est obtenue à partir de documents de lAGHN ne donnant pas le nombre exact de médecins mais seulement la tranche de taille. Réalisant un sondage aléatoire simple dans chaque strate h selon un budget permettant denquêter globalement 300 hôpitaux, on mesure y h et la dispersion S h 2 de la variable nombre de médecins dans léchantillon des hôpitaux tirés. Les allocations par strates sont données dans la dernière colonne du tableau. Tranche de taille N h Y h (moyenne) S h 2 nh , , , , et plus ,0 5

31 Application numérique Quel est lestimateur de Y, et quelle est sa précision ?

32 Application numérique Quelle serait lallocation proportionnelle ?

33 Léchantillonnage par grappes Dans les méthodes précédentes, lunité statistique était choisie individuellement. La technique de léchantillonnage en grappes entraîne la division de la population en groupes ou grappes. On sélectionne au hasard un certain nombre de grappes (unités primaires) pour représenter la population. On sélectionne tous les individus des grappes choisies

34 Léchantillonnage par grappes Avantages : la méthode ne nécessite pas une liste globale de la population puisque seules les individus inclus dans les grappes comptent. Elle permet de limiter léchantillon à des groupes compacts ce qui permet de réduire les coûts de déplacement, de suivi et de supervision. Désavantage : la méthode peut entraîner des résultats imprécis (moins précis que les méthodes précédentes) puisque les unités voisines ont tendance se rassembler. Elle ne permet pas de contrôler la taille finale de léchantillon. Exemple : Choisir par grappes 600 individus à laide dun certain nombre de ménages.

35 Léchantillonnage à plusieurs degrés Ressemble à léchantillonnage en grappes, sauf que dans ce cas on prélève un échantillon à lintérieur de chaque grappe On a au moins deux degrés On identifie au premier les grandes grappes (unités primaires). Ces grappes renferment plus dunités quil nen faut dans léchantillon Au second degré, à lintérieur de chaque grappes, on sélectionne les unités (unités secondaires) qui vont faire partie de léchantillon On peut utiliser plus de 2 degrés : Niveau 1 : Ville Niveau 1 : Établissement de santé Niveau 3 : Médecins

36 Léchantillonnage à plusieurs degrés Avantage : Échantillon plus concentré ce qui réduit les coûts, pas besoin de disposer de la liste de toutes les unités. La méthode permet de contrôler la taille de léchantillon notamment par stratification. Désavantage : précision des résultats

37 Léchantillonnage à plusieurs phases Les données de base sont collectées auprès dun échantillon dunité de grande taille, ensuite pour un sous-échantillon de ces unités, la collecte des données est plus détaillée. Le plus couramment on utilise deux phase ou échantillonnage double

38 Léchantillonnage à plusieurs phases Exemple : on a besoin dinformation sur les éleveurs de bétail. Dans la base de sondage sont énumérés les type dexploitation agricoles : bétail, grains, porc, volaille, fruit légumes. mais on ny aucune donnée auxiliaire. On pourrait mener un enquête sur un premier échantillon de grande taille dont la seule question serait Vous consacrez vous en totalité au bétail ? Puis sur la sélection des éleveurs uniquement de bétail on extrait un second échantillon plus petit que le premier auquel on pose des questions détaillées.

39 Méthodes empirique ou non aléatoires On oppose aux méthodes aléatoires les méthodes non aléatoires. Les méthodes non aléatoires sont des méthodes où le concept de «chance égale» est absent. Ce sont des méthodes généralement peu fiables. Elles ne nécessite pas de base de sondage Elles sont souvent utilisées pour des études exploratoires; pour réduire les coûts; quand il est impossible ou non envisageable dutiliser la méthode aléatoire.

40 Méthodes non aléatoires On distingue : léchantillonnage à laveuglette ou de commodité : Ex.:.. Déguster un échantillon de vin. Léchantillonnage de volontaires : Ex : Expériences médicales ou psychologiques. Léchantillonnage au jugé : cette méthode implique la sélection dindividus en fonction de lidée quon se fait de la composition de la population. On le fait pour des essais auprès des groupes cibles. Léchantillonnage par quotas : il est largement utilisé dans les enquêtes dopinion et les études de marché notamment parce quil ne suppose pas de liste des individus de la population. On parle aussi déchantillonnage dirigé ou par choix raisonné. On demande aux enquêteurs de faire un nombre dentrevues dans divers groupes établis en fonction du secteur géographique, de lâge, du sexe ou dautres caractéristiques… Lenquêteur doit respecter son quota.

41 Méthodes non aléatoires Avantages : Moins coûteuse et plus facile à réaliser. Désavantages: Beaucoup de non-réponses; difficulté de trancher lorsquil sagit de sélectionner des individus dun groupe dâge ouvert (Ex : 65 ans et plus : faut-il prendre 66 ans, 70 ans …).

42 Les erreurs Les méthodes déchantillonnage peuvent être sources derreurs. Un certain nombre derreurs pourront être éliminées, certaines pourront être réduites, mais dautres persisteront.

43 Les erreurs dues aux instruments de mesure Un instrument est fidèle sil répond exactement de la même façon quand il est placé dans deux situations identiques. Exemple le thermomètre. Une question claire est dite fidèle quand tout le monde la comprend de la même façon. Un instrument est valide lorsquil mesure vraiment ce quil est censé mesurer.

44 Les erreurs dues à lorganisation Ce sont les erreurs qui se glissent lors de la collecte des données. Est-ce que les consignes ont été respectée? Les enquêteurs ont-ils agi de la même façon? Pour éviter ces erreurs il faut utiliser les mêmes instruments, les mêmes conditions.

45 Les erreurs dues à la méthode déchantillonnage Il faut toujours vérifier, à la lumière des objectifs de létude statistique, que la méthode déchantillonnage est adaptée. En particulier éviter la surreprésentation de certaines parties de la population.

46 Les erreurs dues au phénomène de non-réponse Même avec la meilleure méthode déchantillonnage, il se présente toujours un certain nombre de non-répondants, ce qui peut entacher la représentativité de léchantillon et amener des conclusions erronées.

47 Lerreur déchantillonnage Le fait détudier un échantillon plutôt quun autre engendre forcément une erreur. Cette erreur appelée erreur déchantillonnage est inévitable.

48 Lerreur totale Erreur total = Erreur déchantillonnage + Erreur dobservation + Erreur due au défaut de couverture et au non réponse

49 Pour en savoir plus 13_f.htm 13_f.htm Les techniques de sondage P. Ardilly, édition TECHNIP uin12f0c.htm


Télécharger ppt "Collecte de données F. Kohler. Généralités Recensement / Echantillonnage Population Recensement : Tous les sujets de la population sont « examinés » Echantillonnage."

Présentations similaires


Annonces Google