Plan la séance 9 Analyse des données quantitatives Ressource Web Codage et transcription des données Analyse de fréquences Mesures de position centrale Mesures de dispersion Les tableaux croisés L’hypothèse Le test du khi carré Atelier Démonstration du logiciel SPSS
Analyse statistique Ressource Web http://www.statcan.gc.ca/edu/power-pouvoir/toc-tdm/5214718-fra.htm
Codage des questions Transformer les réponses en données quantifiables Identification des variables Identification des valeurs pour chaque variable Code plus élevé à valeur la plus positive : oui = 2, non = 1 Choix d’une ou plusieurs valeurs pour les données manquantes (p. ex. 99) Voir exemple de guide de codage ci-contre Hyperlien : http://eut4115.uqam.ca/projets/omhl/omhl_questionnaire_codifie.pdf Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
Codage des questions non structurées (ouvertes) Créer des catégories : Mutuellement exclusives Collectivement exhaustives Lire toutes les réponses Attribuer une catégorie distincte à tout élément critique même si personne n’en fait mention Conserver un niveau de détail le plus élevé possible sans exagérer le nombre de catégories Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
Transcription des données Saisie des données Construction d’une base de données (feuille de calcul Excel) Variables : À la verticale Numérotation Une colonne pour chaque variable Questionnaires (répondants) : À l’horizontal Une ligne pour chaque questionnaire (répondant) Voir fichier de saisie de données ci-contre Hyperlien : http://mdt8601.uqam.ca/spss/mdt8601_saisie_donnees.xls Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
Exemple de fichier de données après la saisie Hyperlien : http://mdt8601.uqam.ca/spss/mdt8601_exemple_fichier_donnees.xls
Analyse de fréquences (1 de 2) Fondement de l’analyse statistique Analyse de la distribution des réponses une variable à la fois : Selon le nombre de réponses (effectif) Selon le pourcentage de réponses Présentation : Tableau Graphique Source : http://www.mineful.com/analytics/frequency-distribution-analysis.html
Analyse de fréquences (2 de 2) Permet d’évaluer l’importance des réponses manquantes : Pourcentage valide exclue les réponses manquantes Permet d’évaluer la présence de données hors norme (anormales) : P. ex., la valeur 6 pour une variable codifiée de 1 à 5 Source : http://www.mineful.com/analytics/frequency-distribution-analysis.html
Tableau de fréquences Variable Consommation
Graphique de fréquences Variable Consommation
Mesures de position centrale Mode : Valeur la plus fréquente Certaines données peuvent être bimodales Médiane : Valeur centrale d’un ensemble ordonné de réponses Moyenne : Somme des réponses divisée par le nombre de réponses Pour une courbe normale, les trois valeurs sont identiques et centrées sur la courbe Mode Médiane Moyenne
Mesures de position centrale en fonction du type d’échelle utilisé Mesure de tendance centrale Nominale Mode Ordinale Médiane, mode D’intervalles Moyenne, médiane De proportions (rapport, ratio) Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Éducation France.
Problèmes avec la moyenne Statistique très affectée par les valeurs extrêmes Moyenne unique seulement hypothétique pour les courbes bicéphales (voir ci-contre) Souvent peu de réponses , voire aucune, près de la moyenne (grands écarts types) Ne pas exagérer la précision : (5000+3000+2000)/3 = 3333 3300 suffisant Tiré et adapté de: McGown (1979), Marketing Research: Text and Cases, Cambridge : Winthrop Publishers
Mesures de dispersion Écart type (S) : Écart (ou étendue) : Mesure de dispersion autour de la moyenne La plus utilisée Variance = Moyenne des carrés des écarts à la moyenne Écart type = Racine carrée de la variance Écart (ou étendue) : Différence entre les valeurs maximale et minimale Source : http://www.socialresearchmethods.net/kb/statdesc.php
Présentation de la moyenne et de l’écart type pour plusieurs aspects d’une même question Gracieuseté des étudiants suivants du EUT4108 H2009: Marie-Ève Aubry, Alexandre Champagne, Alexandra Fauteux, Mathieu Lavoie, Micheline Petit
Relation entre l’écart type et la courbe normale -1 +1 -2 -3 +2 +3 68% 95% 99% Mode Médiane Moyenne Conventional Product Adoption Life Cycle: Five types of customers who will end up adopting a product INNOVATORS (2.5%): People who are the first to adopt a product. They are trend-setting, risk-taking, and are not typical consumers. Example: See a movie first weekend it’s out or in a preview. EARLY ADOPTERS (13.5%): People who are among the first but not as risk-taking. They adopt ideas early but with consideration, and they enjoy roles as opinion leaders. They spread the word about the product. Example: See a movie the first week of its release. EARLY MAJORITY (34%): Deliberate customers; adopt earlier than most customers but are not leaders. Example: See a movie after a few weeks, after reading all the reviews and getting recommendations from early adopters. LATE MAJORITY (34%): Skeptical customers, will only adopt an idea if the majority of people have tried it. Example: See a movie after it has been nominated for an Oscar. LAGGARDS (16%): Tradition-bound, suspicious of change; will adopt an idea only after it has been around long enough. Example: See a movie after it has come out on video.
Les tableaux croisés Analyse des données en fonction de deux variables (parfois plus) Variable indépendante VS variable dépendante Analyse du pourcentage des réponses selon la variable indépendante Comparaison des différences entre deux catégories de la variable indépendante
Tableau croisé de la variable « Consommation » selon le sexe Existe-t-il des différences entre les hommes et les femmes dans le niveau de consommation? Les différences ne sont ni fortes, ni significatives (47,7%, p = 0,523)
L’hypothèse Proposition, souvent intuitive, qui permet d’expliquer un phénomène, (p. ex. : Les hommes consomment plus que les femmes) Afin de rejeter ou non une hypothèse, on doit démontrer l’existence de différences significatives entre deux catégories d’une variable (p. ex. féminin ou masculin pour le sexe) par rapport à une autre variable (p. e. le niveau de consommation). Formulation H0 : %F = %M (hypothèse nulle : il n’existe pas de différence entre les femmes et les hommes [quant au niveau de consommation]) H1 : %F ≠ %M (hypothèse alternative il existe une différence entre les femmes et les hommes [quant au niveau de consommation]) Dans cet exemple (diapo précédente), on ne rejette PAS l’hypothèse nulle
Test d’hypothèse : le test du khi carré (ou Khi deux – X2) Un test statistique parmi les plus utiles Utilisable avec tout type de données : PCQ tous les types de données peuvent être transformées en données nominales Détection de différence significatives entre les fréquences observées dans l’étude et les fréquences théoriques attendues Seuil de signification : probabilité permettant de rejeter ou non l’hypothèse nulle H0 usuel ≥ 95% (p ≤ 0,05) Tiré et adapté de: McGown, K.L., Marketing Research: Text and Cases, Winthrop Publishers, 1979, p. 236
Tableau croisé de la variable « Restaurant » selon l’estime de soi H0 : %SEI- = %SEI moyen = %SEI+ Il n’existe pas de différences entre le pourcentage des personnes dont l’estime est faible et celui des personnes dont l’estime est forte (quant à la mention du restaurant) L'estime de soi n'influence pas la mention du restaurant comme produit représentatif de l'image de soi H1 : %SEI- ≠ %SEI moyen ≠ %SEI+ Il existe des différences entre le pourcentage des personnes dont l’estime est faible et celui des personnes dont l’estime est forte (quant à la mention du restaurant) L'estime de soi influence la mention du restaurant comme produit représentatif de l'image de soi
Tableau croisé de la variable « Restaurant » selon l’estime de soi H0 : %SEI - = %SEI moyen = %SEI + H1 : %SEI - ≠ %SEI moyen ≠ %SEI +
Tableau croisé de la variable « Restaurant » selon l’estime de soi
Tableau croisé de la variable « Restaurant » selon l’estime de soi On peut rejeter H0 (il existe des différences entre %SEI- et %SEI+) Avec un seuil de signification supérieur à 95 % (p = 0,037) on peut affirmer qu’un pourcentage plus élevé de personnes dont l’estime de soi est faible mentionne le restaurant comme un produit représentatif de l’image de soi L'estime de soi influence la mention du restaurant comme produit représentatif de l'image de soi
Tableau croisé de l’usage d’internet selon le sexe Données du tableau 13.1 H0 : %F = %M Il n’existe pas de différences entre le pourcentage des femmes et celui des hommes (quant l’usage d’Internet) Le sexe n'influence pas l’usage d’internet H1 : %F ≠ %M Il existe des différences entre le pourcentage des femmes et celui des hommes (quant l’usage d’Internet) Le sexe influence l’usage d’internet
Tableau croisé de l’usage d’internet selon le sexe Données du tableau 13.1 H0 : %F = %H H1 : %F ≠ %H
Tableau croisé de l’usage d’internet selon le sexe Données du tableau 13.1
Tableau croisé de l’usage d’internet selon le sexe Données du tableau 13.1 On peut rejeter H0 (il existe des différences entre %F = %M) Avec un seuil de signification égal à 99 % (p = 0,010) on peut affirmer que seulement des hommes utilisent l’Internet 11 heures ou plus par semaine Inversement, on peut également affirmer qu’un pourcentage deux fois plus élevé de femmes que d’hommes utilisent l’Internet 5 heures ou moins par semaine Le sexe influence la durée de l’usage d’Internet
Utilisation du logiciel SPSS Importer des données du fichier Excel à SPSS Ajouter de nouvelles données une fois le fichier Excel importé dans SPSS Identifier les variables et leurs valeurs, et la ou les valeurs pour les données manquantes : Guide interactif « Comment identifier les variables et leurs valeurs » Créer une nouvelle variable avec des catégories : Guide interactif « Comment créer une variable avec des catégories » Réaliser les analyses de fréquences : Guide interactif « Comment réaliser une analyse des fréquences » Ressource Web : Site SPSS de l'Université de Sherbrooke
Atelier Démonstration du logiciel SPSS