Les mesures dans les enquêtes

Slides:



Advertisements
Présentations similaires
Théorie de l’échantillonnage (STT-6005)
Advertisements

Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Les systèmes d'information 1- Une pratique quotidienne 2- Les données 3- Approche conceptuelle 4- Notion de serveur 5- Conception d'un système d'information.
Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
1- Introduction 2ème partie Modèle Conceptuel des Données 2- Entités- Associations 4- Associations plurielles 3- Cardinalités 5- Associations réflexives.
LES AUTRES MODALITES DE RUPTURE du CONTRAT de TRAVAIL.
I. Le contexte de l‘enquête par questionnaire II. L’élaboration du questionnaire III. Du traitement des données à la synthèse Module TTU, adaptation M.KHIDER.
Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
I) mesure et erreurs de mesure 1) le vocabulaire à connaitre
Chapitre 6. Introduction à l’échantillonnage Les sondages Notions fondamentales Fluctuations d’échantillonnage d’une moyenne Théorème central limite C6-1.
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
Thème 8 : Stratégie d’échantillonage
Système d’aide à la décision Business Intelligence
Du plan de diagnostic à la planification des études
Cours d’Econométrie de la Finance (Stat des choix de portf. IV 1-2)
Suites ordonnées ou mettre de l’ordre
Outils de Recherche Opérationnelle en Génie MTH 8414
Chapitre 1 Généralités sur les données
Valeurs de toutes les différences observables sous H0
Les distributions en classes
Du projet à la réalisation d’un document de synthèse
Direction Régionale Tanger- Tétouan مديــرية جهــة طنجــة – تطــوان
Enquête de Conjoncture Auprès des Ménages
Les décisions et le processus de décision
Formation sur les statistiques de coût de production agricole
Le traitement de l’incertitude dans les résultats
Chapitre 1 Généralités sur les données
4°) Intervalle de fluctuation :
Résultat de d’une étude auprès des membres du Syndicat de Champlain
Epidémiologie analytique
POL1803: Analyse des techniques quantitatives
La Conclusion.
Les plans de mélange Les plans d’expérience : Présentée par :
Chapitre 1 Généralités sur les données
Plans d’experiences : plans de melanges
Technologies de l’intelligence d’affaires Séance 12
Etude quantitative Elaboration d’un questionnaire
Méthodologie de la recherche Programme du module.
4.3 Estimation d’une proportion
Cyber-Sphinx Séance 2.
4.2 Estimation d’une moyenne
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
ACP Analyse en Composantes Principales
Les mesures dans les enquêtes
Chapitre2: SGBD et Datawarehouse. On pourrait se demander pourquoi ne pas utiliser un SGBD pour réaliser cette structure d'informatique décisionnelle.
OPTIMISATION 1ère année ingénieurs
Les mesures dans les enquêtes
Programme d’appui à la gestion publique et aux statistiques
La recherche au service du communicateur: Cours 4 Automne 2006
Comment analyser en fonction du genre et du sexe?
Présentation 3 : Sondage aléatoire simple
Présentation 5 : Sondage à probabilités inégales
Présentation 8 : Redressement des estimateurs
Présentation 9 : Calcul de précision des estimateurs complexes
Centre d’études et de recherches sur les qualifications
Moteurs de recherches Data mining Nizar Jegham.
Les erreurs de mesure Projet d’Appui au renforcement des capacités
Présentation RDC Environment
Présentation 6 : Sondage à plusieurs degrés
La démarche scientifique
Traitement de non-réponse dans une étude à deux niveaux
Les effets du mode de collecte des données sur la mesure de l'emploi : une comparaison entre le web et le téléphone Johann Neumayr Joachim Schork Guillaume.
Programme d’appui à la gestion publique et aux statistiques
Des chiffres pour être compris
Les méthodes quantitatives en éducation
Tableau de bord d’un système de recommandation
INTELLIGENCE ARTIFICIELLE
Impact Evaluation 4 Peace March 2014, Lisbon, Portugal 1 Echantillonage pour une Evaluation d’Impact Latin America and the Caribbean’s Citizen Security.
DONNÉE DE BASE QM Manuel de formation. Agenda 2  Introduction  Objectif de la formation  Données de base QM: Caractéristique de contrôle Catalogue.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Transcription de la présentation:

Les mesures dans les enquêtes Exemples de traitement de la non réponse dans les enquêtes

Plan Remarques préliminaires Rappel des sources et causes des erreurs Consignes pour minimiser les erreurs Traitement de la non réponse Etapes pratiques d’imputation Exemples de traitement de la non réponse pour les variables quantitatives Exemples de traitement de la non réponse pour les variables qualitatives

Remarques préliminaires Le but majeur de toute investigation statistique est d’obtenir des informations de bonne qualité permettant de donner une image fidèle de l’ampleur du (des ) phénomène(s) étudié (s) , de ses caractéristiques et de sa variabilité La détection de toutes les sources d’insuffisance constitue une étape cruciale dans la réalisation de ce but Toutes les sources de données ( recensements , enquêtes ,statistiques administratives ) sont concernées par ce phénomène Il n’est pas probablement efficace de se focaliser sur une source d’erreur et de négliger les autres sources d’erreurs Il n’est peut être pas efficace d’avoir une grande taille de l’échantillon dans le but de réduire l’erreur d’échantillonnage, si les autres sources d’erreurs sont beaucoup plus grandes que l’erreur d’échantillonnage. Une partie du budget de l’opération peut être alloué plus efficacement pour réduire les autres sources d’erreur. Seule l’erreur d’échantillonnage est propre aux sondages ; les autres erreurs s’appliquent également aux recensements et aux statistiques administratives

Remarques préliminaires Il est important de ne pas confondre non-réponse et réponse sans objet. On ne peut en effet parler de non réponse que pour des variables pour lesquelles on sait qu’il existe une valeur. La non réponse peut apparaître comme une des réponses possibles à une question d’opinion. La modalité ‘sans opinion’ est alors une valeur possible de la réponse. Il ne s’agit pas donc d’une erreur de mesure si l’on admet qu’une personne peut réellement ne pas avoir d’opinion sur un sujet. La non réponse est une erreur de mesure quand on peut raisonnablement supposer que derrière une non réponse se cache une vraie valeur de la variable d’intérêt Un questionnaire bien conçu doit anticiper ces problèmes. Par exemple, si une question est sans objet, pour la clarté de l’entretien, elle ne doit pas être posée. La modalité « sans opinion » doit exister pour les questions d’opinion. Une mauvaise conception du questionnaire amènera inévitablement des confusions entre : -sans objet -non réponse -sans opinion

Rappel des sources et causes d’erreurs Deux grands types d’erreur: Erreur d’échantillonnage : provient du fait qu’on observe uniquement une partie de la population objet d’étude Erreur d’observation ou erreur non due à l’échantillonnage : les erreurs de couverture, les erreurs de mesure et de traitement et les erreurs de non réponse

Erreurs d’observation Erreur de couverture : provient du fait que la base de sondage correspond rarement à la population cible et de l’impossibilité d’appliquer exactement le plan de sondage fixé, Erreur de sur dénombrement : la base de sondage contient des unités qui ne font pas partie de la population cible, Erreur de sous dénombrement: la base de sondage est une sous population de la population cible. Cette erreur va affecter tous les estimateurs d’un biais, puisque certaines unités auront une probabilité nulle d’être sélectionnée. Répétition des unités dans la base de sondage : Ce problème est certainement le plus délicat à traiter. Dans beaucoup de bases de données administratives, certaines unités peuvent être représentées plusieurs fois Erreur de mesure : elle peut provenir ou avoir diverses causes : interviewer , interviewé , mauvaise rédaction du questionnaire, codification, saisie, façon de poser la question,…..etc. Erreur causée par la non réponse : on distingue la non réponse totale et la non réponse partielle.

Non réponse totale  absence complète d’information sur une unité Quand toutes les valeurs de toutes les variables(questions) sont manquantes pour une unité d’échantillonnage,  absence complète d’information sur une unité Causes L’unité d’observation n’a pas pu être contactée, L’unité d’observation est incapable de répondre à l’enquête, Le questionnaire est perdu ou inexploitable, L’unité d’observation abandonne dès le début de l’enquête; Impossibilité d’atteindre des zones couvertes par l’enquête

Non réponse partielle Quand une partie du questionnaire n’est pas renseignée  une ou plusieurs ( pas toutes) des valeurs est manquante. Causes l’unité d’observation refuse de répondre à certaines questions abordant des thèmes sensibles ( ex: revenu, patrimoine…), ou encore tabous (pratique contraceptive, consommation d’alcool, de drogues, opinions particuliers…..) l’unité d’observation sélectionnée ne comprend pas la question, ou l’enquêteur n’a pas compris la réponse de l’enquêté, les réponses sont incohérentes l’unité d’observation abandonne au cours de l’enquête

Consignes pour minimiser les erreurs Trois étapes importantes doivent être séparées pour essayer de minimiser au maximum ces erreurs La phase conceptuelle Une bonne délimitation de l’objet de l’étude Un questionnaire qui répond clairement aux objectifs Actualisation des nomenclatures utilisées Choix judicieux du personnel engagé au niveau de la collecte Formation appropriée Elaboration de formulaires retraçant les difficultés à rencontrer Conception d’un plan de sondage adéquat

Consignes pour minimiser les erreurs La phase de collecte multiplier les efforts pour parvenir à collecter l’information souhaitée (plusieurs visites) insister sur l’interview de l’unité concernée ne pas hésiter à reposer la question en cas de réponse * vague ‚ ambiguë * ou partielle‚ incomplète * ou orientée volontairement vers une sous déclaration

Consignes pour minimiser les erreurs La phase post collecte Assurer une saisie intelligente des différents supports de collecte Garantir une bonne programmation des différents tests (validité cohérence‚ vraisemblance ,,,,,) Pourvoir un choix judicieux des variables auxiliaires pour modéliser la non réponse Sélection de méthode optimale de redressement de la non réponse

Traitement de la non réponse Que faire en présence de non réponse ? Ne rien faire Utiliser uniquement les enregistrements pour lesquels les données sont complètes (se limiter aux données sur les répondants) Utiliser une méthode de repondération Imputer une valeur à la non réponse.

Traitement de la non réponse les méthodes de repondération C’est une approche qui repose sur le principe du caractère aléatoire de la décision de répondre ou non  se formalise donc par une probabilité qu’il faut estimer Les pistes d’estimation de cette probabilité sont multiples, mais souvent on cherche à partitionner la population en sous population au sein desquelles ces probabilités restent constantes. La repondération est une technique satisfaisante pour la non réponse totale N’est pas pratique pour la non réponse partielle, qui touche les différentes variables de façon différente : il faudrait une pondération par variable, et même par couple de variables etc.

Traitement de la non réponse les méthodes d’imputation Imputation simple A- Méthode déterministe l’imputation par la moyenne , par le ratio ; par la régression; par le voisin le plus proche B- Méthodes aléatoires ou stochastiques Ces méthodes se basent sur le concept de donneur. La donnée manquante est remplacée par la valeur observée pour un individu répondant choisi au hasard ( Hot-deck , Clod-deck ) Imputation multiple Principe: chercher à remplacer les valeurs manquantes pour toute unité non répondante à travers une modélisation directe du comportement en utilisant un vecteur d’informations auxiliaires

Etapes pratiques d’imputation Calcul de la moyenne de la variable d’étude au niveau des seuls répondants ( sans les non répondants) Imputer par une méthode quelconque les valeurs des répondants aux non répondants Calcul de nouveau de la moyenne de la variable  que devient cette moyenne  ne pas s’arrêter à ce niveau Mesurer l’effet de cette imputation Calculer Vr : la variance de la variable sans les non répondants Calculer V i : la variance de la variable après imputation Calculer le rapport ( Vr / Vi ) et le comparer à l’unité

Etapes pratiques d’imputation Veiller à recourir à d’autres caractéristiques à même d’aider à expliquer la variabilité de la variable d’étude Chercher des variables auxiliaires supposées être fortement corrélées à la variable d’étude et permettant La subdivision de la population en groupes homogènes vis-à-vis de la variable d’étude La combinaison de plusieurs variables

Traitement de la non réponse pour les variables quantitatives - Exemple 1 Au niveau d’une enquête anthropomètrique, on veut à partir de 12 observations estimer le poids moyen , la taille moyenne et l’IMC ( indice de Quetelet) d’une population d’une classe de 120 étudiants Personne Poids ( Kg) Taille (cm) Sexe 1 ? 2 80 3 70 180 4 55 160 5 60 150 6 7 8 9 170 10 11 75 185 12 90 165

Traitement de la non réponse pour les variables quantitatives - Exemple 2 Au niveau d’une enquête sur les dépenses , on veut à partir de 12 observations estimer la dépense alimentaire mensuelle des 100 ménages constituant une localité ménage Dépense alimentaire Taille Milieu de résidence 1 2000 4 rural 2 2800 urbain 3 2500 1000 5 1700 6 ? 7 8 1800 9 2100 10 11 3000 12 1600

Traitement de la non réponse pour les variables quantitatives - Exemple 3 Au niveau d’une enquête sur les revenus , on veut à partir de 10 observations estimer le revenu mensuel des 100 ménages constituant une localité ménage Revenu du ménage Activité du chef Strate d’habitat 1 20 000 entrepreneur luxe 2 12000 salarié moderne 3 4500 retraité ancienne 4 ? périphérique 5 7000 6 5000 femme au foyer 7 4000 agriculteur rural 8 9 3200 ouvrier agricole 10 3800

Perception de l’évolution de la situation financière Traitement de la non réponse pour les variables qualitatives - Exemple 1 Au niveau d’une enquête qualitative sur la perception de l’évolution future de la situation financière des salariés d’une entreprise ( 10 sur 100) 1: va s’améliorer 2: va stagner 3: va se détériorer Salarié Perception de l’évolution de la situation financière 1 2 3 4 5 ? 6 7 8 9 10

Traitement de la non réponse pour les variables qualitatives - Exemple 2 On reprend l’exemple de l’enquête anthropomètrique, mais cette fois c’est au niveau de la variable sexe qu’il ya des observations manquantes Personne Poids ( Kg) Taille (cm) Sexe 1 85 170 ? 2 80 175 3 70 180 4 55 160 5 60 150 6 7 8 9 10 65 11 75 185 12 90 165