COURS 5 Les tableaux croisés, le chi-carré et la corrélation

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Probabilités et statistiques au lycée
D.Gile statscrit1 LUTILISATION DES STATISTIQUES INFERENTIELLES DANS LA RECHERCHE : REFLEXIONS CRITIQUES
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Les tests d’hypothèses (II)
La régression logistique: fondements et conditions d’application
Inférence statistique
C1 Bio-statistiques F. KOHLER
Inférence statistique
Comparaison de plusieurs moyennes observées
Mathématiques classe de seconde professionnelle
Régression -corrélation
La loi normale et l’estimation de paramètres
Corrélation linéaire et la droite de régression
Traitement de données socio-économiques et techniques d’analyse :
Les traitements croisés
Tests de comparaison de moyennes
Séminaire dAnalyses comparatives et enquête sociologique Séances 8 et 9 Lanalyse des résultats.
Les liens entre les variables et les tests d’hypothèse
La Régression Multiple
Régression linéaire simple
Groupe 1: Classes de même intervalle
Howell, Chap. 1 Position générale
Séminaire d’Analyses comparatives et enquête sociologique
La corrélation et la régression multiple
La corrélation et la régression
Le test t. Procédure de linférence statistique 1. Contexte théorique 2. Hypothèses 3. Seuil de signification et puissance 4. Taille de leffet 5. Collecte.
Le test t.
La régression logistique
La corrélation et la régression
Corrélation Principe fondamental d’une analyse de corrélation
La régression multiple
STATISTIQUES COURS 4 La régression. Nous avons vu divers tests statistiques afin de vérifier le degré d ’interdépendance entre 2 variables Test.
Régression linéaire multiple : hypothèses & tests. Partie 3.
Statistique Descriptive Analyse des données
ANALYSE DE DONNEES TESTS D’ASSOCIATION
La régression simple Michel Tenenhaus
LA REGRESSION LINEAIRE
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
M2 Sciences des Procédés - Sciences des Aliments
STATISTIQUES – PROBABILITÉS
Statistique Cours #4 Régression linéaire simple et multiple
Chapitre 12 Régression linéaire simple et corrélation linéaire
Probabilités et Statistiques Année 2010/2011
1 1 Licence Stat-info CM7 a 2004 V1Christophe Genolini Récapitulatif : Variables qualitatives Variables qualitatives : –on se demande si elles sont liées.
Rappels Variables nominales :
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Problème Autre formulation :
Stat-infoCM6a : 1 Rappels.
1 Licence Stat-info CM5a 2004 V1Christophe Genolini Problème Détection d’un phénomène particulier : –Flûtiste exceptionnelle ou moyenne –Groupe de TD super.
Test 2.
1 1 Licence Stat-info CM6 a 2004 V1Christophe Genolini Rappels 1.Variables nominales : –Oui / Non –Bleu / Brun / Roux / Noir Pour déterminer s’il y a un.
JEAN-MARC FONTAN SOC-1101 COURS 4
ou comment savoir si les différences observées sont significatives
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
Chap. III Statistiques inférentielles
Les dossiers patients d’un hôpital contiennent les attributs suivants : – nom – code postal – pression systolique en mm de mercure. – s’il est porteur.
1 Théorie de la finance Gestion de portefeuille Moyenne-variance Master Sciences de Gestion – Semestre II - Université Mohammed V Faculté des Sciences.
Transcription de la présentation:

COURS 5 Les tableaux croisés, le chi-carré et la corrélation Étude de marché 53-113-03 COURS 5 Les tableaux croisés, le chi-carré et la corrélation

La nature de la donnée en recherche commerciale Catégorique Nominale Sexe, langue, marque favorite, etc. Ordinale Attribut préféré, catégorie d’âge, etc. Continue Échelles likert ou autres Ratio Salaire, âge, consommation etc

Le croisement entre deux variables (concomitance) 2 ou plus Catégoriques Chi-carré 1-Analyse des correspondance 2-Probit Continues Correlations Régressions Mixte t-Student ANOVA Analyse de variance

Les tableaux croisés permettent De synthétiser l ’information De faire le lien entre deux variables De tester l ’indépendance ou la dépendance entre deux variables Dans ce dernier cas le test utilisé est celui du ÷ 2 (chi-carré)

Pour tout tableau croisé il est tentant de trouver des liens entre les deux variables en cause Exemple: Si je prend un échantillon de 100 personnes, 50 hommes et 50 femmes et que je leurs demande s ’ils écoutent l ’émission Fortier . Je trouve les résultats suivants

Dans cet exemple il semble y avoir un lien entre le sexe et la propension à regarder Fortier. Le deux variables seront donc dépendantes l ’une de l ’autre

Quel serait la composition théorique de mon tableau Si les deux variables étaient indépendantes? Dans ce cas le tableau serait constitué comme suit:

Ce dernier tableau est composé de fréquences théoriques qui sont celles que l ’on aurait si les deux variables étaient parfaitement indépendantes Les données, pour chaque cellule, sont trouvées comme suit:

Cellule ij= ((total rangée i X total colonne j)/total)

Tester l ’indépendance entre deux variables revient à tester la différence entre les cellules observées et les valeurs théoriques. Comme ces dernières sont celles qui seraient obtenues si les deux variables étaient indépendantes on procédera par calcul de différences entre les valeurs théorique et les valeurs observées. Plus la somme de ces différences se rapproche de 0, plus les 2 variables seront dites indépendantes

Le calcul sera alors donné par la formule suivante Chi-carré = S[(f obs.- f théo)2/ fthéo ]

Liens observés entre la catégorie d ’âge des consommateurs et le centre commercial fréquenté

Valeurs théoriques

Exemple

Test du chi carré ÷2

Bref rappel sur le t de student On utilise le t de student afin de tester la différence entre les moyennes de deux groupes. Exemple: consommation hommes= ou ‡ consommation femmes

La corrélation Sert à tester le lien (dépendance) entre deux variables continues/quantitative

Dans certains cas le gestionnaire aura besoin de plus d ’information Dans certains cas le gestionnaire aura besoin de plus d ’information. Afin de se bâtir un tableau de contrôle, il voudra aussi mesurer l ’impact qu ’aura une (ou plusieurs) variable(s) sur une autre. À titre d ’exemple un gestionnaire voudra savoir quel est l ’impact de son investissement publicitaire sur ses ventes. De sa politique de bonus sur la performance de ses employés. C ’est alors qu ’on aura recours à la régression.

Un modèle de régression comporte toujours deux types de variables La variable dépendante (Y) qui est généralement constituée par le phénomène que l ’on veut expliquer (ventes, satisfaction, absentéisme etc) La ou les variable(s) indépendantes (X; ou X1, X2, X3 etc.) qui, selon le gestionnaire , pourrait(ent) être en mesure d ’expliquer la variation de Y.

Lorsqu ’un modèle de régression ne comporte qu ’une variable indépendante on dit que c ’est une régression simple qui s ’exprime comme suit Y=  +x+ Lorsqu ’un modèle comporte plusieurs variables indépendantes on aura Y=  +1x1+ 2x2 3x3+ 4x4+ 

La fonctionY=  +x+ sera celle qui passera dans un nuage de points liant les Y au X tout en minimisant la différence entre les Y réels et les Y estimés par la droite de régression

Lien entre la part de marché d ’une marque de bière et le budget total de communication (en milliers$)

Analyse de la corrélation entre la dépense en communication et la part de marché

Impact du budget de communication sur les parts de marché

Le modèle peut alors s ’exprimer comme suit: Part de marché (%)= 5 Le modèle peut alors s ’exprimer comme suit: Part de marché (%)= 5.028+ .0013(X* milliers $ en communication)

Autrement dit Le modèle prédit une part de marché constante de 5% Un accroissement de 1% de P .M. pour chaque 1,000,000$ investit

Impact des trois composantes de la communication sur les parts de marché

Résultats de l ’analyse de régression

De une à trois variables Le pouvoir explicatif et managerial de trois variables est souvent plus grands que celui d ’une seule Mais ce n ’est le cas que si les variables indépendantes ne sont pas corrélées entre elles (D ’où leur nom) Autrement le R va augmenter sans que les  ne soient significatifs (C ’est le problème dit de la multicollinéarité)

Bref rappel sur le t de student On utilise le t de student afin de tester la différence entre les moyennes de deux groupes. Exemple: consommation hommes= ou ‡ consommation femmes

Tester cette hypothèse revient à tester s ’il y a un lien entre la variable sexe(variable catégorique/qualitative) et la consommation (variable continue/quantitative)

Pour prendre ma décision Je puis utiliser un test du t de student qui vise à comparer deux moyennes Le test part des hypothèses que nb magasins hommes=nb femmes dép. hommes= dépé femmes Ceci reviendrait à tester mag.hommes - mag. Femmes =0 dep.hommes - dep. Femmes = 0

Je chercherai donc à voir Si le 0 est inclus dans l ’intervalle de confiance OÙ, accessoirement quelle est la probabilité de rejeter les hypothèses (les différences entre hommes et femmes=0) et de me tromper. Le tableau suivant nous donne la réponse

Sortie Spssx pour une test de t

On peut conclure que Je ne puis dire que, de façon statistiquement significative, les femmes visitent plus de magasins que les hommes. L ’intervalle de confiance, de 95%, comprenant le 0. Je pourrais cependant dire qu ’à un intervalle de confiance de 72% j ’aurais accepté la différence

On peut conclure que Je ne puis dire que, de façon statistiquement significative, les femmes dépensent moins que les hommes. L ’intervalle de confiance, de 95%, comprenant le 0. Je pourrais cependant dire qu ’à un intervalle de confiance de 90% j ’aurais accepté la différence