COURS 5 Les tableaux croisés, le chi-carré et la corrélation Étude de marché 53-113-03 COURS 5 Les tableaux croisés, le chi-carré et la corrélation
La nature de la donnée en recherche commerciale Catégorique Nominale Sexe, langue, marque favorite, etc. Ordinale Attribut préféré, catégorie d’âge, etc. Continue Échelles likert ou autres Ratio Salaire, âge, consommation etc
Le croisement entre deux variables (concomitance) 2 ou plus Catégoriques Chi-carré 1-Analyse des correspondance 2-Probit Continues Correlations Régressions Mixte t-Student ANOVA Analyse de variance
Les tableaux croisés permettent De synthétiser l ’information De faire le lien entre deux variables De tester l ’indépendance ou la dépendance entre deux variables Dans ce dernier cas le test utilisé est celui du ÷ 2 (chi-carré)
Pour tout tableau croisé il est tentant de trouver des liens entre les deux variables en cause Exemple: Si je prend un échantillon de 100 personnes, 50 hommes et 50 femmes et que je leurs demande s ’ils écoutent l ’émission Fortier . Je trouve les résultats suivants
Dans cet exemple il semble y avoir un lien entre le sexe et la propension à regarder Fortier. Le deux variables seront donc dépendantes l ’une de l ’autre
Quel serait la composition théorique de mon tableau Si les deux variables étaient indépendantes? Dans ce cas le tableau serait constitué comme suit:
Ce dernier tableau est composé de fréquences théoriques qui sont celles que l ’on aurait si les deux variables étaient parfaitement indépendantes Les données, pour chaque cellule, sont trouvées comme suit:
Cellule ij= ((total rangée i X total colonne j)/total)
Tester l ’indépendance entre deux variables revient à tester la différence entre les cellules observées et les valeurs théoriques. Comme ces dernières sont celles qui seraient obtenues si les deux variables étaient indépendantes on procédera par calcul de différences entre les valeurs théorique et les valeurs observées. Plus la somme de ces différences se rapproche de 0, plus les 2 variables seront dites indépendantes
Le calcul sera alors donné par la formule suivante Chi-carré = S[(f obs.- f théo)2/ fthéo ]
Liens observés entre la catégorie d ’âge des consommateurs et le centre commercial fréquenté
Valeurs théoriques
Exemple
Test du chi carré ÷2
Bref rappel sur le t de student On utilise le t de student afin de tester la différence entre les moyennes de deux groupes. Exemple: consommation hommes= ou ‡ consommation femmes
La corrélation Sert à tester le lien (dépendance) entre deux variables continues/quantitative
Dans certains cas le gestionnaire aura besoin de plus d ’information Dans certains cas le gestionnaire aura besoin de plus d ’information. Afin de se bâtir un tableau de contrôle, il voudra aussi mesurer l ’impact qu ’aura une (ou plusieurs) variable(s) sur une autre. À titre d ’exemple un gestionnaire voudra savoir quel est l ’impact de son investissement publicitaire sur ses ventes. De sa politique de bonus sur la performance de ses employés. C ’est alors qu ’on aura recours à la régression.
Un modèle de régression comporte toujours deux types de variables La variable dépendante (Y) qui est généralement constituée par le phénomène que l ’on veut expliquer (ventes, satisfaction, absentéisme etc) La ou les variable(s) indépendantes (X; ou X1, X2, X3 etc.) qui, selon le gestionnaire , pourrait(ent) être en mesure d ’expliquer la variation de Y.
Lorsqu ’un modèle de régression ne comporte qu ’une variable indépendante on dit que c ’est une régression simple qui s ’exprime comme suit Y= +x+ Lorsqu ’un modèle comporte plusieurs variables indépendantes on aura Y= +1x1+ 2x2 3x3+ 4x4+
La fonctionY= +x+ sera celle qui passera dans un nuage de points liant les Y au X tout en minimisant la différence entre les Y réels et les Y estimés par la droite de régression
Lien entre la part de marché d ’une marque de bière et le budget total de communication (en milliers$)
Analyse de la corrélation entre la dépense en communication et la part de marché
Impact du budget de communication sur les parts de marché
Le modèle peut alors s ’exprimer comme suit: Part de marché (%)= 5 Le modèle peut alors s ’exprimer comme suit: Part de marché (%)= 5.028+ .0013(X* milliers $ en communication)
Autrement dit Le modèle prédit une part de marché constante de 5% Un accroissement de 1% de P .M. pour chaque 1,000,000$ investit
Impact des trois composantes de la communication sur les parts de marché
Résultats de l ’analyse de régression
De une à trois variables Le pouvoir explicatif et managerial de trois variables est souvent plus grands que celui d ’une seule Mais ce n ’est le cas que si les variables indépendantes ne sont pas corrélées entre elles (D ’où leur nom) Autrement le R va augmenter sans que les ne soient significatifs (C ’est le problème dit de la multicollinéarité)
Bref rappel sur le t de student On utilise le t de student afin de tester la différence entre les moyennes de deux groupes. Exemple: consommation hommes= ou ‡ consommation femmes
Tester cette hypothèse revient à tester s ’il y a un lien entre la variable sexe(variable catégorique/qualitative) et la consommation (variable continue/quantitative)
Pour prendre ma décision Je puis utiliser un test du t de student qui vise à comparer deux moyennes Le test part des hypothèses que nb magasins hommes=nb femmes dép. hommes= dépé femmes Ceci reviendrait à tester mag.hommes - mag. Femmes =0 dep.hommes - dep. Femmes = 0
Je chercherai donc à voir Si le 0 est inclus dans l ’intervalle de confiance OÙ, accessoirement quelle est la probabilité de rejeter les hypothèses (les différences entre hommes et femmes=0) et de me tromper. Le tableau suivant nous donne la réponse
Sortie Spssx pour une test de t
On peut conclure que Je ne puis dire que, de façon statistiquement significative, les femmes visitent plus de magasins que les hommes. L ’intervalle de confiance, de 95%, comprenant le 0. Je pourrais cependant dire qu ’à un intervalle de confiance de 72% j ’aurais accepté la différence
On peut conclure que Je ne puis dire que, de façon statistiquement significative, les femmes dépensent moins que les hommes. L ’intervalle de confiance, de 95%, comprenant le 0. Je pourrais cependant dire qu ’à un intervalle de confiance de 90% j ’aurais accepté la différence