Test d’une distribution et Test de normalité La distribution empirique suit-elle une distribution connue ? Master MARKETING / Pierre Desmet
Choisir une distribution théorique Binomiale ou Multinomiale : 2 modalités (pile-face, 0/1) ou plusieurs modalités (choix marques) Poisson : discrète, comptage, fréquence d’un comportement 1 seul paramètre (l) moyenne=variance Normale (Gauss, Laplace-Gauss) variable continue, +/- infini, symétrique 2 paramètres clés (moyenne, écart-type), courbe en « S » Student : Pour les petits effectifs Proche de la loi normale (queues de distribution un peu plus importantes) Chi2 : somme de lois Normales au carré F : rapport de 2 distributions du chi² Logistique : courbe en « S » proche de la loi Normale, plus facile à manipuler, éventuellement à seuil Beta, Gamma, Weibull : lois plus souples http://www.marketing-science-center.com/charge/lois_continues.xls
Variable nominale : Test d’ajustement du Chi² Test de l‘adéquation d’une distribution empirique d’une variable nominale à une distribution théorique. H0 : Les fréquences/proportion observées sont égales aux fréquences/proportion théoriques Soit une distribution théorique à p paramètres Avec v degrés de liberté v= k -1 - pe pe = le nombre de paramètres de la loi estimés sur les données empiriques (déjà classées) Statistique : Q = Somme [(fk-ek)² / ek] pour les k modalités Soit fm les effectifs théoriques ; em les effectifs observés ; k modalités Interprétation : On rejette H0 si Q > Qc Conditions Effectifs pas trop faibles pour que l’approximation soit acceptable (effectifs théoriques > à 5) Peut aussi être utilisé avec une variable ordinale mais perte de l’information contenue dans l’ordre
Comparaison / à une norme (proportion) Variable Binaire : Proc FREQ TITLE3 H=2 J=l "Intervalle de confiance (binaire)"; PROC FREQ DATA=in; TABLE liv_1 /binomial(level='Oui' p=.845) /* choix de la modalité de référence */ alpha=0.05 ; /* choix du risque alpha */ FORMAT liv_1 ouifmt.; run; Test d’une proportion (norme)=84,5% Par défaut la valeur testée est 0,5 L’erreur standard asymptotique (ASE) est de 0,0058 La statistique Z est de 1.75 Le risque d’erreur bilatéral est de 8,01% (> 5%) donc on ne peut pas rejeter H0 : la proportion n’est pas significativement différente de 84,5% Le risque d’erreur unilatéral est de 4% (<5%) donc si l’on avait posé H0 la proportion est inférieure ou égale à 84,5%, on rejette H0. Master Marketing de Paris-Dauphine
Comparaison distribution théorique Var Nominale : Proc FREQ Chi² d’ajustement Ecart relatif * #CHI2AJUST# Test d'une distribution nominale ; *****************************************************************; TITLE3 H=2 J=l "Comparaison d'une proportion à une norme (nominale)"; PROC FREQ DATA=in; TABLE promo_1 /testp=(0.333333, 0.33333, 0.333333) ; * la somme doit faire 1 ! ; FORMAT promo_1 promofmt. ; RUN ; Rejet de H0 Master Marketing de Paris-Dauphine
Variable quantitative : Test empirique de la Normalité La distribution de la variable suit-elle approximativement une loi normale ? Critère 1 : convergence de la tendance centrale Mode = Médiane = Moyenne Critère 2 : indicateurs de forme proches de 0 (H0) aplatissement =0 et symétrie = 0 Etude asymétrie et aplatissement Symétrie (skewness) ou Biais : Si >1 s’écarte de la Normale; >2, gravement; test Skewness/ES >2 (ES : Erreur standard) problème si > 2.racine(6/n); Aplatissement (Kurtosis) : Si >4 s’écarte de la Normale Test si kurtosis/ES >2 problème si > 2 . racine(24/n); >7 gravement; Attention l’information fournie est souvent le « Kurtosis excédentaire » (K-3) par rapport à une Normale qui a un aplatissement de 3 Approche graphique : Ajustement des distributions, Droite de Henry P-P probabilité-probabilité Q-Q quantile-quantile (+) : 1
Test de Normalité Wn de Shapiro-Wilks, Mardia Test de Shapiro-Wilk (Wn) (recommandé) PROC UNIVARIATE FREQ PLOT NORMAL; Statistique Wn (ratio de la variance estimée à partir des statistiques sur la variance calculée) W e [0, 1]; Si W <<1 ou significatif (<5%), rejet de la normalité W:Normal 0.97542 Pr<W 0.8474 La statistique vaut .975, la probabilité associée est .84, ce qui est bien supérieur à 5%, donc on ne peut donc PAS rejeter l’hypothèse de normalité Limites Pas nécessaire d’avoir les valeurs préalables de la loi normale (moy, etype) Très puissant pour déterminer l’anormalité mais aucune indication sur la source Dépend de la taille de l’échantillon, d’où le « n » de « Wn » si n>2000 alors utiliser directement K-S Attention la distribution n’est pas linéaire : W=0.9 est considéré comme « faible » et donc rejet de la normalité même pour des valeurs facialement élevées (+) Shapiro, S. S. and Wilk, M. B. (1965). "An analysis of variance test for normality (complete samples)", Biometrika, 52, 3 and 4, pages 591-611. - 1 Test PK de Mardia : teste la multi-normalité (plusieurs variables) Si PK <3 accepter la multi-normalité
Tests Normalité non paramétriques: Anderson et Darling, Cramér Von Mises, Lilliefors A² de Anderson et Darling Basé, comme K-S, sur la distribution de fréquence empirique mais l’écart est au carré et pondéré Interprétation : Rejet de la normalité si A est trop élevé Intérêt Le plus adapté aux tests préalables à l’utilisation de tests paramétriques Prend mieux en compte les queues de distribution et moins sensible aux valeurs aberrantes Mais les valeurs critiques utilisées pour le diagnostic dépendent de chaque distribution W² de Cramér-Von Mises Même principe que Anderson et Darling sans pondération (w=1) Lilliefors Test non paramétrique (loi normale de paramètres inconnus) Test de la normalité à base de K-S, Sensible aux effectifs (rejet fréquent si n élevé) et à la déviation de la normalité au centre de la distribution (pas aux extrêmes) N’est pas en automatique dans les logiciels En sas : http://www.listserv.uga.edu/cgi-bin/wa?A2=ind0006A&L=sas-l&P=39254 (+) Lilliefors H. (1967) On the Kolmogorov-Smirnov test for normality with mean and variance unknown, Journal of the american statistical association, 62, 339-402
Kolmogorov Smirnov : Test d’une distribution théorique Test de l’ajustement Mettre EDF (empirical distribution function) sas Dans la fonction : avec en plus Shapiro-Wilks dans histogramme (normal, lognormal, gamma, weibull, exp) Rejet de H0 : la distribution normale ne convient pas
Comparaison distribution théorique Var continue : Normalité UNIVARIATE * #NORMALE# Test d'une distribution normale (variable quantitative) ; **********************************************************; TITLE3 H=2 J=l "Test de normalité "; PROC UNIVARIATE DATA=in NORMAL /* demande du test Normal ici */ VAR catotal_0 ; HISTOGRAM catotal_0 / NORMAL (color=red w=2) LOGNORMAL (color=blue w=2) ; QQPLOT catotal_0 / NORMAL ; RUN ; Droite de Henry La distribution n’est pas « normale » Master Marketing de Paris-Dauphine
Correction de la Non normalité Correction par des transformations mathématiques Transformation de Box-Cox : T(y) = (y l –1)/ l / Log (si l = 0) Macro de Friendly (boxcox.sas) Si biais positif + (mode à gauche de la moyenne) Log(x), Racine carrée, inverse (1/x), … Très fréquent, surtout pour des données monétaires Si biais négatif – (mode à droite de la moyenne) Mettre en puissance, carré ou + Tabachnik and Fidell 2001, p. 83 *If there are negative or 0 values in the data, add a constant to Y before performing reciprocal or Log/Ln transformations Y Transformation Data Asymétrie positive modérée Asymétrie négative modérée Racine carrée (Y) Racine carrée(K - Y) (K = Max(Y) + 1) Y_T = SQRT(Y); Y_T = SQRT(K - Y); Asymétrie positive forte Asymétrie négative forte Log deY or Ln de Y Log de (K - Y) or Ln de (K - Y) Y_T = LOG10(Y); or Y_T = LOG(Y); Y_T = LOG10(K - Y); or Y_T = LOG(K - Y); Asymétrie positive extrême ( L) Asymétrie négative extrême (J) Inverse de Y Inverse de (K - Y) Y_T = 1/Y; Y_T = 1/(K - Y);
Transformation en Log pour s’approcher de la normalité La transformation Log redresse bien la distribution PROC UNIVARIATE DATA=in NORMAL ; VAR log_CA0 ; HISTOGRAM log_CA0 / NORMAL ; INSET n="N" (5.0) mean="Moyenne" (5.1) std="Ecart-type" (5.1) / pos=ne height=3 ; /* position nord-est */ RUN ; Master Marketing de Paris-Dauphine
Effet des effectifs sur le test de normalité L’ajustement est visuellement correct mais le test rejette la normalité à cause des effectifs importants On accepte la normalité « approximative » La normalité est acceptable avec un échantillon aléatoire plus petit (n = 500) PROC SURVEYSELECT DATA=data_temp OUT= sample METHOD = SRS /* tirage aléatoire sans remise */ N=500; ID statut rec sex catotal_0 catotal_1 rca_0 rca_1 liv_1 promo_1 club_0 club_1; RUN; Master Marketing de Paris-Dauphine
Centrer – Réduire (Standardiser-Normaliser) Est-ce que la différence de variance est principalement expliquée par la différence d’unité de mesure? Centrer : opération qui consiste à enlever la valeur de la moyenne La variable résultante a une moyenne de 0 Réduire : opération qui consiste à diviser la valeur par l’écart-type La variable résultante a un écart-type de 1 Standardiser c’est centrer et réduire x’= (x – moy)/écart-type La variable résultante a une moyenne de 0 et un écart-type de 1 Intérêt ? Parce que l’écart-type est sensible à l’unité choisie Ramener les variations de différentes variables en une même unité Mais … L’importance de la variance initiale de chaque variable est perdue SAS : Proc Standard
Inférence et Intervalle de confiance Obtenir une estimation « par intervalle » de la « vraie » valeur d’un paramètre sur la population à partir de l’information obtenue sur un échantillon de taille n Et d’une hypothèse sur la distribution Master MARKETING / Pierre Desmet
ECHANTILLON et Inférence A un risque donné Sachant l’information contenue dans l’échantillon Dans quel intervalle se situe la « vraie valeur » du paramètre pour la population m1, s1 ES = s/ racine(n) (N, m, s) (n) t Risque a Echantillon Population = m s = s [mmax; mmin] [smax; smin]
Intervalle de confiance Une valeur empirique simple n’est qu’une information partielle 55% des personnes interrogées préfèrent la marque A à la marque B Ce n’est pas parce qu’un écart semble important (10%) qu’il est statistiquement significatif ! Les valeurs empiriques résultent d’une vraie valeur , d’une erreur de mesure et d’un aléa m = m + aléa On cherche donc à conclure que la « vraie » valeur se trouve à l’intérieur d’un intervalle centré sur la valeur empirique dont l’amplitude dépend de l’écart-type de l’effectif de l’échantillon du degré de certitude/confiance que l’on souhaite avoir sur le fait que la « vraie » valeur se trouve dans cet intervalle
Intervalle de confiance Var Binaire : Test binomial - Proc FREQ TITLE3 H=2 J=l "Intervalle de confiance (binaire)"; PROC FREQ DATA=in; TABLE liv_1 /binomial(level='Oui') /* choix de la modalité de référence */ alpha=0.05 ; /* choix du risque alpha */ FORMAT liv_1 ouifmt.; run; Intervalle de confiance Sur 100 essais successifs, dans 95 cas la vraie valeur de la population fait partie de l’intervalle de confiance Avec un risque d’erreur de 5% on peut conclure que la proportion d’acheteurs de livres supplémentaires sur le fichier client, est de 85% (+/- 1%) Master Marketing de Paris-Dauphine
Calculer a priori l’IC en fonction des effectifs et de la proportion Permet de calculer l’IC avant le terrain pour déterminer la taille de l’échantillon à partir De la proportion Des effectifs data direct ; input proportion effectif ; x=0 ; freq= (1-proportion)*effectif ;output ; x=1 ; freq= effectif-freq ; output ; cards ; 0.3 300 ; proc freq data= direct; weight freq ; tables x /binomial(level="1") ; RUN; Changer ici N = 80 N = 150 N = 300 Master Marketing de Paris-Dauphine
Intervalle de confiance (Moy et Etype) Var Métrique : MEANS & UNIVARIATE Sous une hypothèse de Normalité TITLE3 H=2 J=l "Intervalle de confiance quanti : CA total à 5%« (Means); PROC MEANS DATA = in n mean median min max std skewness kurtosis clm /* limites de l'intervalle de confiance */ t probt /* test en t et sa probabilité */ alpha=0.05 ; * spécifie le risque alpha ; VAR catotal_0; RUN; TITLE3 H=2 J=l "Intervalle de confiance quanti : CA total à 5% (Univariate)"; PROC UNIVARIATE DATA=in CIBASIC; /* IC pour les stat de base */ VAR catotal_0 ; RUN ; Master Marketing de Paris-Dauphine
Comparaison / à une norme (moyenne) Var Métrique : Student - UNIVARIATE Test de H0 : Moyenne = 4.24 Acceptation de H0 car L’IC contient 4,24 Le test de student n’est pas significatif H0 supportée * UNIVARIATE : Comparaison à une norme moyenne=70"; *************************************************; TITLE3 H=2 J=l "IC et Comparaison à moyenne=70 (4,24 en Log)"; PROC UNIVARIATE DATA= sample NORMAL PLOT CIBASIC /* intervalles de confiance pour les stat de base */ mu0=4.24; /* test de la valeur d'une moyenne de 70 (4.24) */ VAR log_ca0; RUN ; Master Marketing de Paris-Dauphine
Association / Corrélation de variables X <-> Z Association / Corrélation de variables Deux variables sont-elles associées ? (sans qu’il y ait un sens spécifique dans la relation) Master MARKETING / Pierre Desmet
Relation entre deux variables discrètes (nominales – ordinales) Tableau croisé Existe-t-il une relation entre deux variables nominales ? Tableau croisé, tri croisé, tableau de contingence Distributions marginales fréquences simples des variables (les marges du tableau) Degré de liberté Connaissant (c-1) valeurs plus la fréquence marginale on peut retrouver la valeur manquante D’où les degrés de liberté Un tableau à m cases (m= c.l , l lignes et c colonnes) dont on connait les marges à v degrés de liberté (ddl) v = (c -1)*( l -1) ou v = (c -1) pour une seule ligne 10 50 60 30 80 110
Ajustements du Khi-2 pour neutraliser l’effet des effectifs et de la taille du tableau Phi (de Pearson) intensité de l’association Seulement pour un tableau 2x2 | j ]>0.7 forte association 0.7>| j ]>0.3 association faible 0.3> | j ] absence d’association (CC) Coefficient de contingence effet de taille Assez peu utilisé, Max dépend des ddl V de Cramer taille des tableaux et Effectifs Beaucoup utilisé <0.25 : Faible / 0.25<<0.50 : Moyen 0.50<<0.75 : Forte / >0.75 : Très forte (T) de Tschuprow (n = degrés de liberté)
Caractéristiques du Chi² / Khi2 Problème 1 : Nécessite un effectif théorique minimal par case : 5 Règle empirique : pas de case =0 et <20% effectifs < 5 Sinon Regrouper les modalités pour avoir ces effectifs minimaux Utiliser le test exact de Fisher Problème 2 : Le khi2 dépend de la structure du tableau (v) On ne peut PAS comparer des Khi2 de tableaux de structures différentes Problème 3 : Le Khi2 dépend des effectifs Plus les effectifs sont importants, plus le khi2 est significatif il sera toujours significatif pour des effectifs importants
Association 2 var nominales & binaires Chi² indépendance et V de cramer Chi² / Coefficient contingence / V Cramer H0 : il n’y a pas de relation entre les deux variables la distribution des fréquences de l’une ne dépend pas de la modalité de l’autre Faible probabilité -> Rejet de H0 V = 0,55 l’association est assez forte Seulement tableau 2 x 2 Max = Racine [ Min(l,c)-1/Min(l,c)] ici CC= 0,68 (0,48/0,70) Normé / à 1 Master Marketing de Paris-Dauphine
Test de Fisher Deux échantillons ont-ils la même structure de réponse sur une variable nominale ? Utilisation : Générale Seule solution lorsque le khi2 est inapplicable les effectifs sont faibles ou mal distribués dans le tableau Hypothèse : H0 : pas de différence entre les échantillons Les marges sont fixées (effectifs des échantillons par exemple) quelle probabilité d’observer la distribution si l’hypothèse H0 est vraie Si les effectifs sont vraiment faibles On utilise un test « exact » Dans la Proc Freq, une ligne supplémentaire « exact fisher ; » Attention ! Calcul très long si les effectifs sont importants
SAS test du Chi2 et test de Fisher data in ; input genre DVD freq @@; cards; 1 0 890 1 1 73 0 0 2811 0 1 168 ; proc freq ; table genre*dvd / nocol norow nopercent expected chisq fisher ; weight freq ; run; Rejet H0 : il y a une forme d’association Mais elle est d’une intensité faible Rejet de H0
Problèmes posés par les tableaux croisés Cas d’une base incorrecte Peut-on conclure que les hommes et les femmes achètent autant de MN ? Cas d’une variable modératrice (paradoxe de Simpson) Pas de différence pour les bons/mauvais clients Selon le mode de commande, ni Selon le mode de paiement Mais une très forte différence pour leur combinaison !
Variable ordinale : Coefficient Gamma G (Goodman et Kruskal, 1954) – Q Yule Existe t il une relation entre deux variables ordinales ? Est-ce que les réponses sur X ont tendance à augmenter si la réponse à Y augmente ? Test de monotonicité de la relation - Simple à interpréter, Étendue [-1; +1] Concordance (P) – discordance (Q) de paires de répondants Concordance : (Xa>Xb et Ya>Yb) Gamma G= (P-Q)/(P+Q) - Extension du Q de Yule pour tableaux > à 2x2 Gamma ne prend pas en compte les « ties » (ex aequo) Interprétation Si G=0,636 « connaître le rang de la première variable réduit l’erreur de prévision sur les rangs de la seconde variable de 63,6% » Dans la version 2 x2 il correspond au Q de Yule Mesure l’intensité de la relation Yule Q = (AD-BC)/(AD+BC) <=.09 négligeable; 0.1=<0.29 faible; 0.3=<0.49 modéré; 0.5=<0.69 fort; >0.69 très fort Oui Non A B C D
Association 2 variables ordinales GAMMA Basé sur la Concordance / Discordance des réponses Gamma = 0.85 : association assez forte Significativement =\= 0 car ( Valeur/ASE) >2 Avec FREQ ou CORR Association
2 variables ordinales Corrélation des rangs Spearman (Rho) Association « linéaire » de 2 variables ordinales (adaptation du Pearson) Calcul sur la base des écarts de rangs au carré entre les n objets Pénalise les inversions importantes Intervalle [0;+1] Plus il tend vers 1 plus la corrélation est forte Test avec une statistique de student à (n-2) degrés de liberté Si t > valeur critique, la corrélation est significative Intérêt Lorsque les données sont ordinales Lorsque des données continues ne suivent pas une loi normale Lorsque l’on veut calculer une corrélation plus stable pour faire une analyse multivariée (ACP par exemple)
2 variables ordinales Corrélation des rangs Kendall (Tau) Association « monotone » de 2 variables ordinales Tri sur la première variable Pour chaque observation, comptage des classements corrects (C) et des inversions (I) pour toutes les valeurs qui la suivent / S = somme (+C-I) Interprétation Tau compris entre –1 et +1 / Tau = 0 si indépendance Tau suit rapidement une loi normale Non Significatif si Tau/ET entre [-1.96; +1.96] Tau b Kendall Corrige pour les égalités (ex aequo) Tableau « carré » même dimension ligne, colonne (sinon max <1) Tau c (Stuart ou Kendall-Stuart) Corrige des effets de taille Tableau non carré et ajustement pour la taille du tableau Préférable au Rho de Spearman si l’ordre n’est pas « quantitatif » Forte différence entre les différences de niveaux de la variable Difficulté : les résultats dépendent de la manière dont sont traités les ex-aequo
Corrélation 2 variables ordinales Kendall / Spearman _ Chi² Mantel-Haenszel Spearman / Kendall / Monotone Linéaire TITLE3 H=2 J=l "Association 2 VAR ordinales (Measures)"; PROC FREQ DATA=in; TABLE rca_1*rca_0 / NOPERCENT NOCOL NOFREQ CHISQ MEASURES ; RUN ; Linéaire Master Marketing de Paris-Dauphine
Polychorique : Ordinal (artificielle) – Ordinal (artificielle) Corrélations entre des variables discrètes fournies par différents « juges » par discrétisation de variables latentes continues (L, Normales) connues à partir de « cas » identiques (T) Exemple : les accords sur des items mesurant une variable latente Modèle avec variables aléatoires normales pour les « juges » et les « cas » Hypothèse forte de distributions normales sous jacentes Le coefficient mesure l’association entre L et T Corrélation polychorique : variables binaires ou ordinales Corrélation tétrachorique : variables binaires (+) : 1 – 2 L1j X1j Ti L2j X2j
Variables ordinales représentant des quantitatives : Corrélation polychorique On voit que la corrélation polychorique est proche du Pearson PROC FREQ DATA=in ; TABLE RCA_1*RCA_0 / NOROW NOPERCENT PLCORR ; RUN ;
2 Variables quantitatives Coefficient de corrélation de Pearson (r) Association linéaire de 2 variables intervalle ou ratio Rapport Cov (x,y)/[Var(x).Var(y)] Intervalle [-1;+1] Plus il est élevé plus la corrélation est forte Test par rapport à une statistique de student à (n-2) degrés de liberté Si t > valeur critique, la corrélation est significative
Corrélation linéaire Hypothèse de linéarité Points alignés title3 'Un graphique point*point individuel'; SYMBOL1 V=circle C=black H=0.5; proc gplot DATA=in; where sex=1; PLOT logca_0*logca_1 ; RUN; Master Marketing de Paris-Dauphine
Corrélation linéaire Proc CORR 2 variables quantitatives : r de Pearson PROC CORR DATA=in Pearson ; VAR catotal_0 catotal_1 ; RUN ; Corrélation linéaire significative et forte Mais la variance de la distribution n’est pas stable, elle dépend de la valeur La transformation logarithmique améliore la linéarité de la relation