Plan la séance 9 Analyse des données quantitatives

Slides:



Advertisements
Présentations similaires
Plan la séance 11 L’analyse multivariée
Advertisements

© Benoit Duguay, 2013 Plan la séance 12 Lanalyse multivariée et la présentation des données Les tableaux croisés Lhypothèse Le test du khi carré Démonstration.
Plan la séance 8 Préparation des données
Plan la séance 10 Analyse des données quantitatives
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
Outils Statistiques Damien Van Gysel CHU de Nice
Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
Auteur : Patrice LEPISSIER Les probabilités  Notions de base Notions de base  Variable aléatoire Variable aléatoire  La loi Normale La loi Normale.
Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
O ij BrunChâtainRouxBlond Total Marron Noisette Vert Bleu Total Dans cet exemple,
Dr. Tarek Barhoumi statistiques descriptives Statistiques descriptives Dr. Tarek Barhoumi.
Notions de statistiques et d’analyse de données
Et maintenant, le mode : fastoche !
Suites ordonnées ou mettre de l’ordre
Corrélation et régression linéaire simple
Les Observations.
Tableau à double entrée
Chapitre 1 Généralités sur les données
Statistiques descriptives univariées
Plan la séance 5 L’hypothèse dans la recherche
Interprétation des indicateurs?
Comparaison de deux pourcentages.
Plan la séance 12 L’analyse multivariée et la présentation des données
Chapitre 1 Généralités sur les données
Loi Normale (Laplace-Gauss)
Reprise du cours ( ) Aujourd’hui :
Résultat de d’une étude auprès des membres du Syndicat de Champlain
Statistique descriptive
Speaking Exam Preparation
Exercice 2 Soit la série statistique
POL1803: Analyse des techniques quantitatives
Technologies de l’intelligence d’affaires Séance 11
Introduction aux Statistiques Variables aléatoires
Technologies de l’intelligence d’affaires Séance 12
Révision et preparation à l’examen
MOYENNE, MEDIANE et ECART TYPE d’une série statistique
Statistiques Sociales LC3
4.5 Tests D’hypothèses sur une proportion
4.4 Tests D’hypothèses sur une moyenne
Theme One Speaking Questions
Cyber-Sphinx Séance 2.
Introduction aux statistiques Intervalles de confiance
Plan la séance 12 L’analyse multivariée et la présentation des données
Statistique. Probabilite ou risque Le risque c’est le pourcentage des valeurs qu’on neglige plus le risqué augmente plus on neglige des valeurs Hypothese.
Statistiques Sociales LC4
ACP Analyse en Composantes Principales
POL1803: Analyse des techniques quantitatives
Initiation au logiciel SPSS 18.0 Formation pratique Journée de formation de la COCQ-sida Formatrice: Marie-Eve Girard, M.A Coordonnatrice de la Chaire.
Rappel (3): les étapes des tests statistiques
P LAMBOLEZ Partie maths V GILLOT Partie anglais
Chapitre 4: Caractéristiques de dispersion
Mode, moyenne et médiane
2.4 La loi de vitesse d’une réaction chimique
Test 2.
Comment analyser en fonction du genre et du sexe?
Mesures de Position Dispersion et Forme
On lance 100 fois de suite une pièce de monnaie.
Centre d’études et de recherches sur les qualifications
Position, dispersion, forme
Programme d’appui à la gestion publique et aux statistiques
Conception cartographique
Utiliser le modèle log-linéaire pour mettre au jour la structure du lien entre les deux variables d’un tableau de contingence : un exemple d’application.
Les méthodes quantitatives en éducation
Tests d’hypothèses paramétriques 1 Cours Statistiques Chapitre 9.
Jour 18 MOT DE PASSE: se débarrasser de… - to get rid of...
Récapitulation du jour 2ème
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Évaluation des Actifs Financiers 1. 2 Valeur capitalisée: Valeur d’un investissement après une ou plusieurs périodes Intérêts simples: Intérêts calculés.
Transcription de la présentation:

Plan la séance 9 Analyse des données quantitatives Ressource Web Codage et transcription des données Analyse de fréquences Mesures de position centrale Mesures de dispersion Les tableaux croisés L’hypothèse Le test du khi carré Atelier Démonstration du logiciel SPSS

Analyse statistique Ressource Web http://www.statcan.gc.ca/edu/power-pouvoir/toc-tdm/5214718-fra.htm

Codage des questions Transformer les réponses en données quantifiables Identification des variables Identification des valeurs pour chaque variable Code plus élevé à valeur la plus positive : oui = 2, non = 1 Choix d’une ou plusieurs valeurs pour les données manquantes (p. ex. 99) Voir exemple de guide de codage ci-contre Hyperlien : http://eut4115.uqam.ca/projets/omhl/omhl_questionnaire_codifie.pdf Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Codage des questions non structurées (ouvertes) Créer des catégories : Mutuellement exclusives Collectivement exhaustives Lire toutes les réponses Attribuer une catégorie distincte à tout élément critique même si personne n’en fait mention Conserver un niveau de détail le plus élevé possible sans exagérer le nombre de catégories Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Transcription des données Saisie des données Construction d’une base de données (feuille de calcul Excel) Variables : À la verticale Numérotation Une colonne pour chaque variable Questionnaires (répondants) : À l’horizontal Une ligne pour chaque questionnaire (répondant) Voir fichier de saisie de données ci-contre Hyperlien : http://mdt8601.uqam.ca/spss/mdt8601_saisie_donnees.xls Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Education France.

Exemple de fichier de données après la saisie Hyperlien : http://mdt8601.uqam.ca/spss/mdt8601_exemple_fichier_donnees.xls

Analyse de fréquences (1 de 2) Fondement de l’analyse statistique Analyse de la distribution des réponses une variable à la fois : Selon le nombre de réponses (effectif) Selon le pourcentage de réponses Présentation : Tableau Graphique Source : http://www.mineful.com/analytics/frequency-distribution-analysis.html

Analyse de fréquences (2 de 2) Permet d’évaluer l’importance des réponses manquantes : Pourcentage valide exclue les réponses manquantes Permet d’évaluer la présence de données hors norme (anormales) : P. ex., la valeur 6 pour une variable codifiée de 1 à 5 Source : http://www.mineful.com/analytics/frequency-distribution-analysis.html

Tableau de fréquences Variable Consommation

Graphique de fréquences Variable Consommation

Mesures de position centrale Mode : Valeur la plus fréquente Certaines données peuvent être bimodales Médiane : Valeur centrale d’un ensemble ordonné de réponses Moyenne : Somme des réponses divisée par le nombre de réponses Pour une courbe normale, les trois valeurs sont identiques et centrées sur la courbe Mode Médiane Moyenne

Mesures de position centrale en fonction du type d’échelle utilisé Mesure de tendance centrale Nominale Mode Ordinale Médiane, mode D’intervalles Moyenne, médiane De proportions (rapport, ratio) Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS,  6e éd.,  Paris: Pearson Éducation France.

Problèmes avec la moyenne Statistique très affectée par les valeurs extrêmes Moyenne unique seulement hypothétique pour les courbes bicéphales (voir ci-contre) Souvent peu de réponses , voire aucune, près de la moyenne (grands écarts types) Ne pas exagérer la précision : (5000+3000+2000)/3 = 3333 3300 suffisant Tiré et adapté de: McGown (1979), Marketing Research: Text and Cases, Cambridge : Winthrop Publishers

Mesures de dispersion Écart type (S) : Écart (ou étendue) : Mesure de dispersion autour de la moyenne La plus utilisée Variance = Moyenne des carrés des écarts à la moyenne Écart type = Racine carrée de la variance Écart (ou étendue) : Différence entre les valeurs maximale et minimale Source : http://www.socialresearchmethods.net/kb/statdesc.php

Présentation de la moyenne et de l’écart type pour plusieurs aspects d’une même question Gracieuseté des étudiants suivants du EUT4108 H2009: Marie-Ève Aubry, Alexandre Champagne, Alexandra Fauteux, Mathieu Lavoie, Micheline Petit

Relation entre l’écart type et la courbe normale -1 +1 -2 -3 +2 +3 68% 95% 99% Mode Médiane Moyenne Conventional Product Adoption Life Cycle: Five types of customers who will end up adopting a product INNOVATORS (2.5%): People who are the first to adopt a product. They are trend-setting, risk-taking, and are not typical consumers. Example: See a movie first weekend it’s out or in a preview. EARLY ADOPTERS (13.5%): People who are among the first but not as risk-taking. They adopt ideas early but with consideration, and they enjoy roles as opinion leaders. They spread the word about the product. Example: See a movie the first week of its release. EARLY MAJORITY (34%): Deliberate customers; adopt earlier than most customers but are not leaders. Example: See a movie after a few weeks, after reading all the reviews and getting recommendations from early adopters. LATE MAJORITY (34%): Skeptical customers, will only adopt an idea if the majority of people have tried it. Example: See a movie after it has been nominated for an Oscar. LAGGARDS (16%): Tradition-bound, suspicious of change; will adopt an idea only after it has been around long enough. Example: See a movie after it has come out on video.

Les tableaux croisés Analyse des données en fonction de deux variables (parfois plus) Variable indépendante VS variable dépendante Analyse du pourcentage des réponses selon la variable indépendante Comparaison des différences entre deux catégories de la variable indépendante

Tableau croisé de la variable « Consommation » selon le sexe Existe-t-il des différences entre les hommes et les femmes dans le niveau de consommation? Les différences ne sont ni fortes, ni significatives (47,7%, p = 0,523)

L’hypothèse Proposition, souvent intuitive, qui permet d’expliquer un phénomène, (p. ex. : Les hommes consomment plus que les femmes) Afin de rejeter ou non une hypothèse, on doit démontrer l’existence de différences significatives entre deux catégories d’une variable (p. ex. féminin ou masculin pour le sexe) par rapport à une autre variable (p. e. le niveau de consommation). Formulation H0 : %F = %M (hypothèse nulle : il n’existe pas de différence entre les femmes et les hommes [quant au niveau de consommation]) H1 : %F ≠ %M (hypothèse alternative il existe une différence entre les femmes et les hommes [quant au niveau de consommation]) Dans cet exemple (diapo précédente), on ne rejette PAS l’hypothèse nulle

Test d’hypothèse : le test du khi carré (ou Khi deux – X2) Un test statistique parmi les plus utiles Utilisable avec tout type de données : PCQ tous les types de données peuvent être transformées en données nominales Détection de différence significatives entre les fréquences observées dans l’étude et les fréquences théoriques attendues Seuil de signification : probabilité permettant de rejeter ou non l’hypothèse nulle H0 usuel ≥ 95% (p ≤ 0,05) Tiré et adapté de: McGown, K.L., Marketing Research: Text and Cases, Winthrop Publishers, 1979, p. 236

Tableau croisé de la variable « Restaurant » selon l’estime de soi H0 : %SEI- = %SEI moyen = %SEI+ Il n’existe pas de différences entre le pourcentage des personnes dont l’estime est faible et celui des personnes dont l’estime est forte (quant à la mention du restaurant) L'estime de soi n'influence pas la mention du restaurant comme produit représentatif de l'image de soi H1 : %SEI- ≠ %SEI moyen ≠ %SEI+ Il existe des différences entre le pourcentage des personnes dont l’estime est faible et celui des personnes dont l’estime est forte (quant à la mention du restaurant) L'estime de soi influence la mention du restaurant comme produit représentatif de l'image de soi

Tableau croisé de la variable « Restaurant » selon l’estime de soi H0 : %SEI - = %SEI moyen = %SEI + H1 : %SEI - ≠ %SEI moyen ≠ %SEI +

Tableau croisé de la variable « Restaurant » selon l’estime de soi

Tableau croisé de la variable « Restaurant » selon l’estime de soi On peut rejeter H0 (il existe des différences entre %SEI- et %SEI+) Avec un seuil de signification supérieur à 95 % (p = 0,037) on peut affirmer qu’un pourcentage plus élevé de personnes dont l’estime de soi est faible mentionne le restaurant comme un produit représentatif de l’image de soi L'estime de soi influence la mention du restaurant comme produit représentatif de l'image de soi

Tableau croisé de l’usage d’internet selon le sexe Données du tableau 13.1 H0 : %F = %M Il n’existe pas de différences entre le pourcentage des femmes et celui des hommes (quant l’usage d’Internet) Le sexe n'influence pas l’usage d’internet H1 : %F ≠ %M Il existe des différences entre le pourcentage des femmes et celui des hommes (quant l’usage d’Internet) Le sexe influence l’usage d’internet

Tableau croisé de l’usage d’internet selon le sexe Données du tableau 13.1 H0 : %F = %H H1 : %F ≠ %H

Tableau croisé de l’usage d’internet selon le sexe Données du tableau 13.1

Tableau croisé de l’usage d’internet selon le sexe Données du tableau 13.1 On peut rejeter H0 (il existe des différences entre %F = %M) Avec un seuil de signification égal à 99 % (p = 0,010) on peut affirmer que seulement des hommes utilisent l’Internet 11 heures ou plus par semaine Inversement, on peut également affirmer qu’un pourcentage deux fois plus élevé de femmes que d’hommes utilisent l’Internet 5 heures ou moins par semaine Le sexe influence la durée de l’usage d’Internet

Utilisation du logiciel SPSS Importer des données du fichier Excel à SPSS Ajouter de nouvelles données une fois le fichier Excel importé dans SPSS Identifier les variables et leurs valeurs, et la ou les valeurs pour les données manquantes : Guide interactif « Comment identifier les variables et leurs valeurs » Créer une nouvelle variable avec des catégories : Guide interactif « Comment créer une variable avec des catégories » Réaliser les analyses de fréquences : Guide interactif « Comment réaliser une analyse des fréquences » Ressource Web : Site SPSS de l'Université de Sherbrooke

Atelier Démonstration du logiciel SPSS