La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Comparaison d’échantillons indépendants

Présentations similaires


Présentation au sujet: "Comparaison d’échantillons indépendants"— Transcription de la présentation:

1 Comparaison d’échantillons indépendants
Master MARKETING / Pierre Desmet

2 Comparaison d’échantillons indépendants
2 Echantillons indépendants Variable binaire : Test d’égalité des proportions Variable nominale : Test du Chi2 d’indépendance Variable ordinale : Test de l’égalité des médianes Test de l’égalité des moyennes Non paramétrique : Wilcoxon somme des rangs / Mann-Whitney-Wilcoxon (U) Test d’égalité des variances (Levene ou de Bartlett, Brown-Forsythe) Variable continue (Paramétrique ) Test en t / Z des différences Plus de deux échantillons Deux étapes D’abord test global de l’existence d’au moins une différence Puis test 2 à 2 (voir ci dessus) Variable continue (Paramétrique ) Test d’égalité des moyennes (anova) Test d’égalité des moyennes si les variances sont différentes (Welch) Variable ordinale : Même « forme » : Test de Kruskal-Wallis (H) Forme différente : Test Jonckheere-Terpstra

3 Comparaison de 2 proportions
Utiliser le test du Chi² (Proc Freq / option CHISQ ) Regarder si l’intervalle de confiance de la différence contient Zéro (avec option riskdiff) proc freq order=data; table Gender * Response / chisq riskdiff; run;

4 Comparaison Ech Indépendants Variable Nominale : Test du Chi²
Si l’on considère RCA comme nominale Test du Chi² H0 : Le segment des « actifs » a une distribution identique à celle du segment des « inactifs » La différence est significative (CHI² Prob <.0001) Rejet de H0 La différence n’est pas très forte V de Cramer = 0,10 TITLE3 H=2 J=l "2 variables nominales : Chi²" ; PROC FREQ DATA=in ; TABLE statut*RCA_1 / CHISQ NOCOL NOPERCENT; FORMAT statut statutfmt. ; RUN;

5 Comparaison +2 Ech Indépendants Variable Nominale : Kruskal-Wallis
Si l’on considère RCA comme ordinale Avec des échantillons non ordonnés Test Kruskal-Wallis (NPAR1WAY) K-W : La distribution du rang des CA dépend de la pression promotionnelle PROC NPAR1WAY DATA=in ; CLASS Promo_1; VAR rca_1; * Kruskal-Wallis ; FORMAT Promo_1 promofmt. ; RUN; PROC FREQ DATA=in ; TABLE Promo_1*rca_1 / NOPERCENT NOCOL JT ; * Jonckheere-Terpstra" ; RUN ;

6 Comparaison 2 Ech Indépendants Variable Ordinale : Test KS : Kolmogorov-Smirnov
Si l’on considère RCA comme ordinale Test KS : Kolmogorov-Smirnov Le segment des « actifs » a une distribution différente du segment des « inactifs » La statistique est significative Pr > KSa <.0001) Les deux distributions sont différentes Le rang de CA est significativement plus élevé pour les « actifs » À l’écart maximum Les actifs sont en dessous de la moyenne Les inactifs sont au dessus de la moyenne TITLE3 H=2 J=l "Différence de rangs - échantillons indépendant : KS"; PROC NPAR1WAY DATA=in edf ; CLASS statut; VAR rca_1; FORMAT statut statutfmt. ; RUN ;

7 Comparaison +2 Ech Indépendants Variable Ordinale : Jonckhere-Terpstra
Si l’on considère RCA comme ordinale Avec des échantillons ordonnés Test de Jonckheere-Terpstra (FREQ) J-T : Plus la pression promotionnelle est forte, plus le rang de chiffre d’affaires est élevé PROC NPAR1WAY DATA=in ; CLASS Promo_1; VAR rca_1; * Kruskal-Wallis ; FORMAT Promo_1 promofmt. ; RUN; PROC FREQ DATA=in ; TABLE Promo_1*rca_1 / NOPERCENT NOCOL JT ; * Jonckheere-Terpstra" ; RUN ;

8 Comparaison Ech Indépendants Variable Score : Test de la Médiane
Si l’on considère CATOTAL comme quantitative mais non normale Test de la Médiane H0 : Les médianes du CA des« actifs » et des « inactifs » sont les mêmes La statistique est significative Bilatéral PR > |Z| <.0001 Les médianes des deux distributions sont différentes La médiane des actifs est significativement plus élevée que celle des inactifs TITLE3 H=2 J=l "Différence de rangs - échantillons indépendant : Test médiane (NPAR1WAY)"; PROC NPAR1WAY DATA=in median; CLASS statut; VAR catotal_1; FORMAT statut statutfmt. ; RUN ;

9 Non paramétrique Test U de Mann-Whitney-Wilcoxon
Autre nom : test de la somme des rangs de Wilcoxon Compare deux groupes (variable nominale) sur les rangs d’une variable ordinale H0 : Les deux groupes ont des rangs identiques Lorsque les hypothèses de normalité, d’égalité des variances ne sont pas respectées Soit R1 la somme des rangs pour l’échantillon 1 (sur le classement total) U1 = n1.n2+n1.(n1+1)/2-R1 Statistique U = Max [U1; U2] si n grand (>20) suit une loi normale (Z) avec m=(n1.n2)/2 et s= racine [n1.n2.(n1+n2+1)/12) Interprétation : U d’autant plus petit que les populations sont différentes Rejet de H0 si Uc < Ua

10 Comparaison Ech Indépendants Variable Score : Test de Wilcoxon - Mann-Whitney
Si l’on considère CATOTAL comme quantitative mais non normale Test de Wilcoxon - Mann-Whitney H0 : Les scores moyens du CA des« actifs » et des « inactifs » sont les mêmes La statistique est significative Bilatéral PR > |Z| <.0001 Les scores moyens des deux distributions sont différentes Le score moyen du CA des actifs est 18% plus élevé que celui des inactifs TITLE3 H=2 J=l "Différence de rangs - échantillons indépendant : Wilcoxon_Mann_Whitney (NPAR1WAY)"; PROC NPAR1WAY DATA=in wilcoxon; CLASS statut; VAR catotal_1; FORMAT statut statutfmt. ;RUN; Master Marketing de Paris-Dauphine

11 Test d’égalité des variances Bartlett, Levene, Brown-Forsythe
D’abord tester l’hypothèse d’égalité des variances avant celle des moyennes Les variances sont-elles significativement différentes ? H0 : s1² = s2² Test de Bartlett très sensible à la non-normalité : à éviter Test de Levene (W) (Test en F ) – peu sensible à la non-normalité Echantillon 1 (n1, m1, s1), Echantillon 2 (n2, m2, s2) F(n1-1, n2-1) = s1²/s2² (plus grande variance / plus petite) < 4 Si Homogénéité (égalité) des variances, la variance globale est : s²=((n1-1)s1²+(n2-1)s2²) / (n1+n2-2) Test de Brown-Forsythe (Levene (Med) Test) Adaptation du test de Levene en remplaçant la Moyenne par la Médiane Si rejet de l’égalité des variances : Transformation des variables Correction ou élimination des déviants (trimming, winsorisation) Test avec hypothèse d’inégalité des variances (TTEST) (+)

12 Homogénéité des variances HOV test de LEVENE / BARTLETT
conditions préalable au test de l’égalité des moyennes 2 groupes : voir TTEST 2 groupes et plus : GLM PROC GLM data=in; class prix; model cherte =prix; means prix / hovtest=LEVENE hovtest=BARTLETT; run; Acceptation de H0 : les variances sont égales

13 Comparaison moyenne Ech Indépendants Variable Métrique
Si l’on considère Log_CATOTAL comme quantitative normale Hypothèses préalables Hypothèse de normalité acceptable Homogénéité des variances semble acceptable (pas de test dans la Proc) H0 : Les moyenne du Log_CA des« actifs » et des « inactifs » sont les mêmes Univariate Pas de test formel d’égalité des moyennes TITLE3 H=2 J=l "Comp des distributions (var quanti) avec Class" ; PROC UNIVARIATE DATA=in Normal; CLASS statut ; * ou par BY (tri obligatoire avant); VAR log_ca1 ; HISTOGRAM /normal ; FORMAT statut statutfmt. ; RUN; Master Marketing de Paris-Dauphine

14 Test égalité des moyennes Ech Indépendants Variable Métrique : test en t de student
Si l’on considère Log_CATOTAL comme quantitative normale Test en t de student H0 : Les moyenne du Log_CA des« actifs » et des « inactifs » sont les mêmes (Hyp de normalité :à vérifier au préalable) Hyp d’homogénéité (égalité) des variances À étudier d’abord Hyp d’égalité des moyennes ensuite Conclusion Les variances sont homogènes Les moyennes sont significativement différentes La moyenne du Log_CA des actifs est 5,5% plus élevée que celle des inactifs L’écart entre les chiffres d’affaires (CA) est de 27% 1 Variances égales TITLE3 H=2 J=l "Comparaison des moyennes avec TTEST "; PROC TTEST DATA=in ; CLASS statut ; VAR log_ca1; FORMAT statut statutfmt. ; RUN ; Master Marketing de Paris-Dauphine

15 Echantillons appariés (mesures répétées)
Master MARKETING / Pierre Desmet

16 Echantillons appariés
Les individus ont-ils changé d’avis ? (Avant / Après) Des groupes associés ont-ils le même comportement ? Attention à la terminologie : échantillons « appariés » Mesures répétées sur les mêmes personnes Traitements d’individus « pairés » (jumeaux ou liés « père-fils ») et affectés aléatoirement à chaque traitement Et NON échantillons ayant la même structure sur des critères particuliers redressement Avantage : plus efficace que des échantillons indépendants : Intervalle de confiance plus restreint (variance réduite) Parce que la variance inter-individuelle a été éliminée L’individu est son propre « contrôle » Mais effets au niveau de la mesure : apprentissage,…

17 Choisir le test adapté aux échantillons appariés
Variable binaire : 2 échant : Test Mc Nemar >=2 échant : Tests en Q de Cochran Variable ordinale : 2 échantillons Test du signe, Test de la médiane Test de Wilcoxon (rangs signés) >=2 échantillons: Test de Friedman (CMH) Variable continue : 2 échant : Test en t / Z de moyenne des différences (+) 1 - 2

18 Mesures répétées Variables nominales 2 x 2 : McNemar
L’appartenance au club est-elle stable ? H0 : l’appartenance au club est indépendante de l’appartenance au club l’année précédente Le Chi2 ne tient pas compte de la mesure répétée McNemar est adapté Principe : étude de la compensation du nombre de répondants qui modifient leurs réponses dans un sens ou dans l’autre Statistique : Khi2 = (|C-B|-1)²/(C+B) ou (C-B)²/(C+B) ddl (n) = 1 Après Avant Oui Non A B C D PROC FREQ DATA=in; TABLE club_0*club_1 / agree nocol nopercent; FORMAT club_0 ouifmt. club_1 ouifmt. ; RUN ; Master Marketing de Paris-Dauphine

19 Mesures répétées Nominales >2modalités : Kappa
Comparaison de 2 « juges » (ligne x colonne) Sur les mêmes « objets » (tableau symétrique, même nb ligne et colonnes) Si 2 x 2 équivaut au McNemar Si objets non classés : lire Kappa simple Tous les effectifs sont sur la diagonale Si objets classés par difficulté croissante : lire Kappa pondéré La dispersion augmente avec la difficulté Master Marketing de Paris-Dauphine

20 Ech appariés Var Ordinale
Perspective Les données sont ordinales Sans connaissance des données individuelles H0 : les rangs de CA sont corrélés Solution : Corrélation des rangs Gamma (concordance-discordance) Kendall : monotone (nxn) Spearman et Pearson : Linéaire proc freq data=in ; tables decil_ca_0*decil_ca_1 / chisq agree measures ; Master Marketing de Paris-Dauphine

21 Ech appariés Var quantitative Test en t « pairé »
Les clients ont-ils augmenté leurs CA ? Perspective Mesures individuelles répétées Données quantitatives, Distribution normale Ne tient pas compte des clients avec une valeur manquante H0 : le CA n’a pas augmenté Solutions Test en t « pairé » Calcul différence de CA pour chaque client et Comparaison à 0 proc ttest data=in ; PAIRED CATOTAL_0:CATOTAL_1; title3 "TTEST Différence de moyennes- échantillons appariés"; run; var dif_ca; Master Marketing de Paris-Dauphine

22 Master MARKETING / Pierre Desmet
Test d’équivalence Confirmation de l’absence d’une différence significative par rapport à un seuil Master MARKETING / Pierre Desmet

23 Test d’équivalence test TOST Two One-Sided Tests
Pour un test de différence entre deux moyennes, La conclusion dépend de la taille de l’échantillon Trop faible, une différence réelle peut ne pas être observée Trop grand, une différence peut être constatée sans qu’elle ait une importance réelle Un test d’équivalence conduit à conclure que la différence des moyennes (d) est inférieure à d (non significative) si on rejette simultanément 2 tests unilatéraux Ha : H0a d  -d ; H1a d > -d (la différence est significative) Hb : H0b d  d ; H1b d < d Dans la Proc TTEST, test TOST Two One-Sided Test  (Schuirmann, 1987) Fixer un intervalle en valeur absolue La probabilité retenue est la plus grande des probabilités des deux tests En français : title3 "Test TOST de l'équivalence" ; proc ttest data=in tost (-20, 20) ; class trait; var temps_restau ; run ;

24 TOST intervalle 20 Les deux tests sont significatifs
La plus grande Les deux tests sont significatifs L ‘IC se trouve à l’intérieur de la zone critique choisie Pas de différence entre les vins


Télécharger ppt "Comparaison d’échantillons indépendants"

Présentations similaires


Annonces Google