Plan la séance 8 Préparation des données

Slides:



Advertisements
Présentations similaires
Analyse d’items Ensemble de procédés statistiques dont le but est d ’évaluer la qualité d’un instrument de mesure et des items qui le composent. Ensemble.
Advertisements

Base de sondage et Plan de sondage Pres. 5
CYCLE DE VIE D’UNE ENQUÊTE
Comparaison d’une moyenne observée à une moyenne théorique
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Atelier RBM-MERG sur la formation à lEIP, 6 au 9 octobre 2008, Dakar, Sénégal1 Enquête sur les Indicateurs du Paludisme (EIP): Méthodes d'analyse Analyse.
Chapitre 5. Description numérique d’une variable statistique.
LE QUESTIONNAIRE D’ENQUETE
ENQUETE ANNUELLE DENTREPRISES DANS LE SECTEUR DU COMMERCE (EXERCICE 2004) ROYAUME DU MAROC HAUT COMMISSARIAT AU PLAN DIRECTION DE LA STATISTIQUE.
Comparaison de deux moyennes observées
1. Les caractéristiques de dispersion. 11. Utilité.
Les TESTS STATISTIQUES
Du recueil à lexploitation statistique des données.
Un exemple d’enquête multimode à l’Insee :
1 Bases de sondages multiples et redressement des poids extrêmes Le cas de lenquête auprès des intervenants au domicile de personnes fragilisées (IAD –
Dr DEVILLE Emmanuelle J D V 12/07/2006
Initiation au logiciel SPSS 18.0 Formation pratique
Vérification des données
1 Statistiques Séance 5 – 9 Nov Résumé séance précédente Lécart-type σ ou s. Comment le calculer? Les propriétés numériques de la courbe normale.
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Traitement de données socio-économiques et techniques d’analyse :
Plan la séance 11 L’analyse multivariée
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Un neurone élémentaire
Séminaire dAnalyses comparatives et enquête sociologique Séances 8 et 9 Lanalyse des résultats.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
La Régression Multiple
L’inférence statistique
Plan la séance 4 La problématique d’une recherche
Régression linéaire simple
On lance 100 fois de suite une pièce de monnaie.
DataLab® Toute la connaissance client en quelques minutes
Comprendre la variation dans les données: Notions de base
Corrélation et régression linéaire simple
© Benoit Duguay, 2013 Plan la séance 12 Lanalyse multivariée et la présentation des données Les tableaux croisés Lhypothèse Le test du khi carré Démonstration.
Plan la séance 4 Mesures et échelles Conception du questionnaire
Synthèse du bloc 3 Eugénie Dostie-Goulet
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La distribution normale
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Corrélation Principe fondamental d’une analyse de corrélation
Objectifs du chapitre 2 d’Howell sur les statistiques descriptives
STSWEB Bascule Diffusion Nationale TOULOUSE – déc.2008.
CREPUQ - Atelier sur les données numériques / Extraction & Utilisation des données / 5 & 6 février 1998 / Anastassia Khouri / Université McGill /
Plan la séance 10 Analyse des données quantitatives
La régression multiple
ESTIMATION DES PARAMETRES GENETIQUES INFLUANCANT LA TAILLE DE LA PORTEE CHEZ DES PORCS DE RACE PURE LANDRACE ET PIETRAIN.
Plan la séance 2 Le processus de recherche
On cherche des renseignements sur p.
UN OUTIL UTILISE EN SOCIOLOGIE : L’ENQUÊTE
Rappels de statistiques descriptives
ANALYSE DE DONNEES TESTS D’ASSOCIATION
STATISTIQUES DESCRIPTIVES
1 1 Licence Stat-info CM7 a 2004 V1Christophe Genolini Récapitulatif : Variables qualitatives Variables qualitatives : –on se demande si elles sont liées.
Introduction à une analyse statistique de données
Concepts fondamentaux: statistiques et distributions
Études de Marché MBA Mars 2005 La recherche par sondage.
Études de Marché Dess communication de masse
© Benoit Duguay, 2013 Plan la séance 6 Conception du questionnaire  Introduction  Un bon questionnaire  Étapes de la conception d’un questionnaire 
Plan la séance 4 Mesures et échelles
ECOLE DES HAUTES ETUDES COMMERCIALES RECHERCHE MARKETING Dr. KHERRI Abdenacer Mai
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
Transcription de la présentation:

Plan la séance 8 Préparation des données Processus de préparation des données Vérification et édition des questionnaires Codage, transcription et nettoyage des données Ajustement statistique des données Stratégie d’analyse des données Logiciels d’analyse quantitative Atelier : Préparation et validation du guide de codification

Processus de préparation des données Vérification questionnaires Édition questionnaires Codage questions Transcription données Nettoyage données Ajustement statistique données Stratégie d’analyse données Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Vérification et édition des questionnaires (1 de 3) Ne pas attendre la fin de la collecte de données Réponses très peu variées (choix des extrêmes p. ex.) Réponses suspectes (incohérences) Réponses difficiles à lire (questions ouvertes) Réponses multiples à une question à choix unique Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Vérification et édition des questionnaires (2 de 3) Questionnaires incomplets Respect des instructions Pages manquantes Réception après date limite Répondant non éligible (âge p. ex.) Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Vérification et édition des questionnaires (3 de 3) Objectif : améliorer l’exactitude des réponses Solutions si trop de manques sont constatés sur le questionnaire : Gros échantillons : éliminer le répondant (possibilité de biais) Petits échantillons : contacter le répondant pour effectuer des corrections OU en sélectionner un nouveau en respectant la méthode d’échantillonnage Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Codage des questions Transformer les réponses en données quantifiables Identification des variables Identification des valeurs pour chaque variable Code plus élevé à valeur la plus positive : oui = 2, non = 1 Choix d’une ou plusieurs valeurs pour les données manquantes (p. ex. 99) Voir exemple de guide de codage ci-contre Hyperlien : http://eut4115.uqam.ca/projets/omhl/omhl_questionnaire_codifie.pdf Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Codage des questions non structurées (ouvertes) Créer des catégories : Mutuellement exclusives Collectivement exhaustives Lire toutes les réponses Attribuer une catégorie distincte à tout élément critique même si personne n’en fait mention Conserver un niveau de détail le plus élevé possible sans exagérer le nombre de catégories Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Transcription des données Saisie des données Construction d’une base de données (feuille de calcul Excel) Variables : À la verticale Numérotation Une colonne pour chaque variable Questionnaires (répondants) : À l’horizontal Une ligne pour chaque questionnaire (répondant) Voir fichier de saisie de données ci-contre Hyperlien :http://eut4115.uqam.ca/spss/eut4115_saisie_donnees.xls Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Exemple de fichier de données après la saisie Hyperlien : http://eut4115.uqam.ca/spss/eut4115_exemple_fichier_donnees.xls

Transcription automatisée Hyperlien : http://www.abbyy.com/ Hyperlien : http://www.sawtooth.com/

Nettoyage des données : Contrôle d’uniformité Vérifier données hors norme (anormales), p. ex. « 6 » pour une variable codifiée 1 à 5 : Vérifier en triant chaque colonne Si non contrôlé à l’étape de la vérification des questionnaires : Réponses très peu variées (choix des extrêmes p. ex.) Réponses suspectes (incohérences) Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Nettoyage des données : Réponses manquantes (1 de 2) Retourner au questionnaire Substitution par valeur manquante (p. ex. 99) Substitution par valeur neutre (p. ex. moyenne) : Discutable Introduit biais Substitution par valeur imputée (déduction par rapport autres réponses) : Travail considérable mais procédure statistiques Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Nettoyage des données : Réponses manquantes (2 de 2) Suppression du répondant : Si nombreuses réponses manquantes Possibilité de biais lié à l’échantillon Suppression appariée : Plutôt que de supprimer les questionnaires qui présentent de nombreuses réponses manquantes, retenir seulement réponses valides pour chaque variable Utiliser seulement avec échantillon de grande taille, réponses manquantes rares et relations entre variables faibles Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Ajustement statistique des données Pondération : Ajuster le rapport d’importance entre les catégories de répondants Utilisée pour augmenter la représentativité d’un échantillon Voir exemple diapo suivante Création et transformation de variables (voir autre diapo) Changement d’échelle (voir autre diapo) Source : http://www.cosmopolitan.fr/,regime-la-priorite-l-equilibre-alimentaire,2107,1075877.asp Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Exemple de pondération Âge (1) Proportion échantillon (2) population (3) Poids (3/2) 16-25 22% 11% 0,50 26-35 7% 14% 2,00 36-45 20% 18% 0,90 46-55 17% 1,00 56-65 25% 1,14 Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Création et transformation de variables Transformation des variables existantes : Transformer les catégories pour comparer les données d’une étude avec celles d’une autre étude Équilibrer des données manifestement biaisées (standardisation - COMPLEXE) Création d’une nouvelle variable : Calcul d’un indice composé Synthèse de plusieurs variables Création de catégories (p. ex. âge) Fonctions dans SPSS : Compute Recode Voir exemples dans les diapos suivantes Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Création et transformation de variables Estime de soi personnelle (VAR202) Addition des réponses de 8 questions parmi les 40 du test CFSEI-2

Création de variables muettes Variables utilisées pour représenter différents groupes dans la population sans utiliser une échelle ordinale qui aurait peu de sens Utilisées dans les analyses de régression Valeurs les plus fréquentes sont 0 et 1 (binaire) Re-spécification d’une variable avec K catégories nécessite l’utilisation de K-1 variables muettes Voir exemple diapo suivante Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Exemple de variables muettes  Allégeance Codification originale  Variables muettes X1 X2 X3  Conservateur 1  1 0   Libéral 2   Bloc 3   NPD 4 

Stratégie d’analyse des données Schéma d’analyse préliminaire Types d’échelle de mesure Technique d’analyse VS objectif (différences ou dépendance entre variables, prédiction, etc.) Expérience et préférence du chargé d’étude Stratégie finale d’analyse Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Analyse des fréquences Une variable à la fois Distribution des réponses Mesures de position centrale : Moyenne Mode Médiane Mesures de dispersion : Étendue (écart) Variance et écart-type Mesures de forme : Symétrie (skewness) Aplatissement (kurtosis) Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Analyse des relations entre les variables Deuxième variable Nominale ou ordinale Intervalles ou proportion (ratio) Première variable Tris croisés Comparaison moyennes Corrélation ou régression Tiré de : d’Astous, Alain. 2000. Le projet de recherche en marketing, 2ième éd. Montréal (QC) : Chenelière/McGraw-Hill, p. 267

Analyses multivariées Tris croisés : La plus utile et la plus fréquemment utilisée Analyse de la relation existant entre deux variables (bivariée) ou trois variables (multivariée) P. ex., l’influence du sexe sur le choix de destination Comparaison moyennes : Analyse de la différence existant entre les moyennes de deux catégories de personnes P. ex., la différence entre les 26-45 ans et les 46-65 ans par rapport au pourcentage de personnes qui achètent une croisière

Analyses multivariées Corrélation : Analyse de la relation existant entre deux variables métriques Augmentation des valeurs de la première correspond-elle à une augmentation, ou à une diminution, des valeurs de la seconde? P. ex., la relation entre l’investissement publicitaire et les ventes d’un restaurant Régression : Analyse de la relation de dépendance entre deux variables métriques Utilisation de variables muettes lorsque requis P. ex., la relation entre le niveau d’estime de soi et le choix une résidence luxueuse

Tests de comparaison Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Tests de comparaison Khi deux (X2) : Test t : Test du niveau de signification de la relation entre deux variables (tri croisé) X2 ≥ valeur théorique Niveau de signification usuel de 95% (19 fois sur 20), Voir statistique P ≤ 0,05 (95%) Test t : Permet d’énoncer des conclusions sur l’existence de différences significatives entre les moyennes de deux échantillons t ≥ 1,98 ou t ≤ -1,98 Niveau de signification usuel de 0,05 (95%) Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Logiciels d’analyse quantitative

Atelier Préparation du guide de codification Validation du guide de codification