Test d’une distribution et Test de normalité

Name: Test d’une distribution et Test de normalité
Uploaded: 2017-07-28T22:55:32+00:00
Duration: PTM32S54
Channel: Anatole Breton
Description: Test d’une distribution et Test de normalité

Test d’une distribution et Test de normalité
La distribution empirique suit-elle une distribution connue ? Master MARKETING / Pierre Desmet

Choisir une distribution théorique
Binomiale ou Multinomiale : 2 modalités (pile-face, 0/1) ou plusieurs modalités (choix marques) Poisson : discrète, comptage, fréquence d’un comportement 1 seul paramètre (l) moyenne=variance Normale (Gauss, Laplace-Gauss) variable continue, +/- infini, symétrique 2 paramètres clés (moyenne, écart-type), courbe en « S » Student : Pour les petits effectifs Proche de la loi normale (queues de distribution un peu plus importantes) Chi2 : somme de lois Normales au carré F : rapport de 2 distributions du chi² Logistique : courbe en « S » proche de la loi Normale, plus facile à manipuler, éventuellement à seuil Beta, Gamma, Weibull : lois plus souples

Variable nominale : Test d’ajustement du Chi²
Test de l‘adéquation d’une distribution empirique d’une variable nominale à une distribution théorique. H0 : Les fréquences/proportion observées sont égales aux fréquences/proportion théoriques Soit une distribution théorique à p paramètres Avec v degrés de liberté v= k -1 - pe pe = le nombre de paramètres de la loi estimés sur les données empiriques (déjà classées) Statistique : Q = Somme [(fk-ek)² / ek] pour les k modalités Soit fm les effectifs théoriques ; em les effectifs observés ; k modalités Interprétation : On rejette H0 si Q > Qc Conditions Effectifs pas trop faibles pour que l’approximation soit acceptable (effectifs théoriques > à 5) Peut aussi être utilisé avec une variable ordinale mais perte de l’information contenue dans l’ordre

Comparaison / à une norme (proportion) Variable Binaire : Proc FREQ
TITLE3 H=2 J=l "Intervalle de confiance (binaire)"; PROC FREQ DATA=in; TABLE liv_1 /binomial(level='Oui' p=.845) /* choix de la modalité de référence */ alpha=0.05 ; /* choix du risque alpha */ FORMAT liv_1 ouifmt.; run; Test d’une proportion (norme)=84,5% Par défaut la valeur testée est 0,5 L’erreur standard asymptotique (ASE) est de 0,0058 La statistique Z est de 1.75 Le risque d’erreur bilatéral est de 8,01% (> 5%) donc on ne peut pas rejeter H0 : la proportion n’est pas significativement différente de 84,5% Le risque d’erreur unilatéral est de 4% (<5%) donc si l’on avait posé H0 la proportion est inférieure ou égale à 84,5%, on rejette H0. Master Marketing de Paris-Dauphine

Comparaison distribution théorique Var Nominale : Proc FREQ
Chi² d’ajustement Ecart relatif * #CHI2AJUST# Test d'une distribution nominale ; *****************************************************************; TITLE3 H=2 J=l "Comparaison d'une proportion à une norme (nominale)"; PROC FREQ DATA=in; TABLE promo_1 /testp=( , , ) ; * la somme doit faire 1 ! ; FORMAT promo_1 promofmt. ; RUN ; Rejet de H0 Master Marketing de Paris-Dauphine

Variable quantitative : Test empirique de la Normalité
La distribution de la variable suit-elle approximativement une loi normale ? Critère 1 : convergence de la tendance centrale Mode = Médiane = Moyenne Critère 2 : indicateurs de forme proches de 0 (H0) aplatissement =0 et symétrie = 0 Etude asymétrie et aplatissement Symétrie (skewness) ou Biais : Si >1 s’écarte de la Normale; >2, gravement; test Skewness/ES >2 (ES : Erreur standard) problème si > 2.racine(6/n); Aplatissement (Kurtosis) : Si >4 s’écarte de la Normale Test si kurtosis/ES >2 problème si > 2 . racine(24/n); >7 gravement; Attention l’information fournie est souvent le « Kurtosis excédentaire » (K-3) par rapport à une Normale qui a un aplatissement de 3 Approche graphique : Ajustement des distributions, Droite de Henry P-P probabilité-probabilité Q-Q quantile-quantile (+) : 1

Test de Normalité Wn de Shapiro-Wilks, Mardia
Test de Shapiro-Wilk (Wn) (recommandé) PROC UNIVARIATE FREQ PLOT NORMAL; Statistique Wn (ratio de la variance estimée à partir des statistiques sur la variance calculée) W e [0, 1]; Si W <<1 ou significatif (<5%), rejet de la normalité W:Normal Pr<W La statistique vaut .975, la probabilité associée est .84, ce qui est bien supérieur à 5%, donc on ne peut donc PAS rejeter l’hypothèse de normalité Limites Pas nécessaire d’avoir les valeurs préalables de la loi normale (moy, etype) Très puissant pour déterminer l’anormalité mais aucune indication sur la source Dépend de la taille de l’échantillon, d’où le « n » de « Wn » si n>2000 alors utiliser directement K-S Attention la distribution n’est pas linéaire : W=0.9 est considéré comme « faible » et donc rejet de la normalité même pour des valeurs facialement élevées (+) Shapiro, S. S. and Wilk, M. B. (1965). "An analysis of variance test for normality (complete samples)", Biometrika, 52, 3 and 4, pages Test PK de Mardia : teste la multi-normalité (plusieurs variables) Si PK <3 accepter la multi-normalité

Tests Normalité non paramétriques: Anderson et Darling, Cramér Von Mises, Lilliefors
A² de Anderson et Darling Basé, comme K-S, sur la distribution de fréquence empirique mais l’écart est au carré et pondéré Interprétation : Rejet de la normalité si A est trop élevé Intérêt Le plus adapté aux tests préalables à l’utilisation de tests paramétriques Prend mieux en compte les queues de distribution et moins sensible aux valeurs aberrantes Mais les valeurs critiques utilisées pour le diagnostic dépendent de chaque distribution W² de Cramér-Von Mises Même principe que Anderson et Darling sans pondération (w=1) Lilliefors Test non paramétrique (loi normale de paramètres inconnus) Test de la normalité à base de K-S, Sensible aux effectifs (rejet fréquent si n élevé) et à la déviation de la normalité au centre de la distribution (pas aux extrêmes) N’est pas en automatique dans les logiciels En sas : (+) Lilliefors H. (1967) On the Kolmogorov-Smirnov test for normality with mean and variance unknown, Journal of the american statistical association, 62,

Kolmogorov Smirnov : Test d’une distribution théorique
Test de l’ajustement Mettre EDF (empirical distribution function) sas Dans la fonction : avec en plus Shapiro-Wilks dans histogramme (normal, lognormal, gamma, weibull, exp) Rejet de H0 : la distribution normale ne convient pas

Comparaison distribution théorique Var continue : Normalité UNIVARIATE
* #NORMALE# Test d'une distribution normale (variable quantitative) ; **********************************************************; TITLE3 H=2 J=l "Test de normalité "; PROC UNIVARIATE DATA=in NORMAL /* demande du test Normal ici */ VAR catotal_0 ; HISTOGRAM catotal_0 / NORMAL (color=red w=2) LOGNORMAL (color=blue w=2) ; QQPLOT catotal_0 / NORMAL ; RUN ; Droite de Henry La distribution n’est pas « normale » Master Marketing de Paris-Dauphine

Correction de la Non normalité
Correction par des transformations mathématiques Transformation de Box-Cox : T(y) = (y l –1)/ l / Log (si l = 0) Macro de Friendly (boxcox.sas) Si biais positif + (mode à gauche de la moyenne) Log(x), Racine carrée, inverse (1/x), … Très fréquent, surtout pour des données monétaires Si biais négatif – (mode à droite de la moyenne) Mettre en puissance, carré ou + Tabachnik and Fidell 2001, p. 83 *If there are negative or 0 values in the data, add a constant to Y before performing reciprocal or Log/Ln transformations Y Transformation Data Asymétrie positive modérée Asymétrie négative modérée Racine carrée (Y) Racine carrée(K - Y) (K = Max(Y) + 1) Y_T = SQRT(Y); Y_T = SQRT(K - Y); Asymétrie positive forte Asymétrie négative forte Log deY or Ln de Y Log de (K - Y) or Ln de (K - Y) Y_T = LOG10(Y); or Y_T = LOG(Y); Y_T = LOG10(K - Y); or Y_T = LOG(K - Y); Asymétrie positive extrême ( L) Asymétrie négative extrême (J) Inverse de Y Inverse de (K - Y) Y_T = 1/Y; Y_T = 1/(K - Y);

Transformation en Log pour s’approcher de la normalité
La transformation Log redresse bien la distribution PROC UNIVARIATE DATA=in NORMAL ; VAR log_CA0 ; HISTOGRAM log_CA0 / NORMAL ; INSET n="N" (5.0) mean="Moyenne" (5.1) std="Ecart-type" (5.1) / pos=ne height=3 ; /* position nord-est */ RUN ; Master Marketing de Paris-Dauphine

Effet des effectifs sur le test de normalité
L’ajustement est visuellement correct mais le test rejette la normalité à cause des effectifs importants On accepte la normalité « approximative » La normalité est acceptable avec un échantillon aléatoire plus petit (n = 500) PROC SURVEYSELECT DATA=data_temp OUT= sample METHOD = SRS /* tirage aléatoire sans remise */ N=500; ID statut rec sex catotal_0 catotal_1 rca_0 rca_1 liv_1 promo_1 club_0 club_1; RUN; Master Marketing de Paris-Dauphine

Centrer – Réduire (Standardiser-Normaliser)
Est-ce que la différence de variance est principalement expliquée par la différence d’unité de mesure? Centrer : opération qui consiste à enlever la valeur de la moyenne La variable résultante a une moyenne de 0 Réduire : opération qui consiste à diviser la valeur par l’écart-type La variable résultante a un écart-type de 1 Standardiser c’est centrer et réduire x’= (x – moy)/écart-type La variable résultante a une moyenne de 0 et un écart-type de 1 Intérêt ? Parce que l’écart-type est sensible à l’unité choisie Ramener les variations de différentes variables en une même unité Mais … L’importance de la variance initiale de chaque variable est perdue SAS : Proc Standard

Inférence et Intervalle de confiance
Obtenir une estimation « par intervalle » de la « vraie » valeur d’un paramètre sur la population à partir de l’information obtenue sur un échantillon de taille n Et d’une hypothèse sur la distribution Master MARKETING / Pierre Desmet

ECHANTILLON et Inférence
A un risque donné Sachant l’information contenue dans l’échantillon Dans quel intervalle se situe la « vraie valeur » du paramètre pour la population m1, s1 ES = s/ racine(n) (N, m, s) (n) t Risque a Echantillon Population = m s = s [mmax; mmin] [smax; smin]

Intervalle de confiance
Une valeur empirique simple n’est qu’une information partielle 55% des personnes interrogées préfèrent la marque A à la marque B Ce n’est pas parce qu’un écart semble important (10%) qu’il est statistiquement significatif ! Les valeurs empiriques résultent d’une vraie valeur , d’une erreur de mesure et d’un aléa m = m + aléa On cherche donc à conclure que la « vraie » valeur se trouve à l’intérieur d’un intervalle centré sur la valeur empirique dont l’amplitude dépend de l’écart-type de l’effectif de l’échantillon du degré de certitude/confiance que l’on souhaite avoir sur le fait que la « vraie » valeur se trouve dans cet intervalle

Intervalle de confiance Var Binaire : Test binomial - Proc FREQ
TITLE3 H=2 J=l "Intervalle de confiance (binaire)"; PROC FREQ DATA=in; TABLE liv_1 /binomial(level='Oui') /* choix de la modalité de référence */ alpha=0.05 ; /* choix du risque alpha */ FORMAT liv_1 ouifmt.; run; Intervalle de confiance Sur 100 essais successifs, dans 95 cas la vraie valeur de la population fait partie de l’intervalle de confiance Avec un risque d’erreur de 5% on peut conclure que la proportion d’acheteurs de livres supplémentaires sur le fichier client, est de 85% (+/- 1%) Master Marketing de Paris-Dauphine

Calculer a priori l’IC en fonction des effectifs et de la proportion
Permet de calculer l’IC avant le terrain pour déterminer la taille de l’échantillon à partir De la proportion Des effectifs data direct ; input proportion effectif ; x=0 ; freq= (1-proportion)*effectif ;output ; x=1 ; freq= effectif-freq ; output ; cards ; ; proc freq data= direct; weight freq ; tables x /binomial(level="1") ; RUN; Changer ici N = 80 N = 150 N = 300 Master Marketing de Paris-Dauphine

Intervalle de confiance (Moy et Etype) Var Métrique : MEANS & UNIVARIATE
Sous une hypothèse de Normalité TITLE3 H=2 J=l "Intervalle de confiance quanti : CA total à 5%« (Means); PROC MEANS DATA = in n mean median min max std skewness kurtosis clm /* limites de l'intervalle de confiance */ t probt /* test en t et sa probabilité */ alpha=0.05 ; * spécifie le risque alpha ; VAR catotal_0; RUN; TITLE3 H=2 J=l "Intervalle de confiance quanti : CA total à 5% (Univariate)"; PROC UNIVARIATE DATA=in CIBASIC; /* IC pour les stat de base */ VAR catotal_0 ; RUN ; Master Marketing de Paris-Dauphine

Comparaison / à une norme (moyenne) Var Métrique : Student - UNIVARIATE
Test de H0 : Moyenne = 4.24 Acceptation de H0 car L’IC contient 4,24 Le test de student n’est pas significatif H0 supportée * UNIVARIATE : Comparaison à une norme moyenne=70"; *************************************************; TITLE3 H=2 J=l "IC et Comparaison à moyenne=70 (4,24 en Log)"; PROC UNIVARIATE DATA= sample NORMAL PLOT CIBASIC /* intervalles de confiance pour les stat de base */ mu0=4.24; /* test de la valeur d'une moyenne de 70 (4.24) */ VAR log_ca0; RUN ; Master Marketing de Paris-Dauphine

Association / Corrélation de variables
X <-> Z Association / Corrélation de variables Deux variables sont-elles associées ? (sans qu’il y ait un sens spécifique dans la relation) Master MARKETING / Pierre Desmet

Relation entre deux variables discrètes (nominales – ordinales) Tableau croisé
Existe-t-il une relation entre deux variables nominales ? Tableau croisé, tri croisé, tableau de contingence Distributions marginales fréquences simples des variables (les marges du tableau) Degré de liberté Connaissant (c-1) valeurs plus la fréquence marginale on peut retrouver la valeur manquante D’où les degrés de liberté Un tableau à m cases (m= c.l , l lignes et c colonnes) dont on connait les marges à v degrés de liberté (ddl) v = (c -1)*( l -1) ou v = (c -1) pour une seule ligne 10 50 60 30 80 110

Ajustements du Khi-2 pour neutraliser l’effet des effectifs et de la taille du tableau
Phi (de Pearson) intensité de l’association Seulement pour un tableau 2x2 | j ]>0.7 forte association 0.7>| j ]>0.3 association faible 0.3> | j ] absence d’association (CC) Coefficient de contingence effet de taille Assez peu utilisé, Max dépend des ddl V de Cramer taille des tableaux et Effectifs Beaucoup utilisé <0.25 : Faible / 0.25<<0.50 : Moyen 0.50<<0.75 : Forte / >0.75 : Très forte (T) de Tschuprow (n = degrés de liberté)

Caractéristiques du Chi² / Khi2
Problème 1 : Nécessite un effectif théorique minimal par case : 5 Règle empirique : pas de case =0 et <20% effectifs < 5 Sinon Regrouper les modalités pour avoir ces effectifs minimaux Utiliser le test exact de Fisher Problème 2 : Le khi2 dépend de la structure du tableau (v) On ne peut PAS comparer des Khi2 de tableaux de structures différentes Problème 3 : Le Khi2 dépend des effectifs Plus les effectifs sont importants, plus le khi2 est significatif il sera toujours significatif pour des effectifs importants

Association 2 var nominales & binaires Chi² indépendance et V de cramer
Chi² / Coefficient contingence / V Cramer H0 : il n’y a pas de relation entre les deux variables la distribution des fréquences de l’une ne dépend pas de la modalité de l’autre Faible probabilité -> Rejet de H0 V = 0,55 l’association est assez forte Seulement tableau 2 x 2 Max = Racine [ Min(l,c)-1/Min(l,c)] ici CC= 0,68 (0,48/0,70) Normé / à 1 Master Marketing de Paris-Dauphine

Test de Fisher Deux échantillons ont-ils la même structure de réponse sur une variable nominale ? Utilisation : Générale Seule solution lorsque le khi2 est inapplicable les effectifs sont faibles ou mal distribués dans le tableau Hypothèse : H0 : pas de différence entre les échantillons Les marges sont fixées (effectifs des échantillons par exemple) quelle probabilité d’observer la distribution si l’hypothèse H0 est vraie Si les effectifs sont vraiment faibles On utilise un test « exact » Dans la Proc Freq, une ligne supplémentaire « exact fisher ; » Attention ! Calcul très long si les effectifs sont importants

SAS test du Chi2 et test de Fisher
data in ; input genre DVD freq cards; ; proc freq ; table genre*dvd / nocol norow nopercent expected chisq fisher ; weight freq ; run; Rejet H0 : il y a une forme d’association Mais elle est d’une intensité faible Rejet de H0

Problèmes posés par les tableaux croisés
Cas d’une base incorrecte Peut-on conclure que les hommes et les femmes achètent autant de MN ? Cas d’une variable modératrice (paradoxe de Simpson) Pas de différence pour les bons/mauvais clients Selon le mode de commande, ni Selon le mode de paiement Mais une très forte différence pour leur combinaison !

Variable ordinale : Coefficient Gamma G (Goodman et Kruskal, 1954) – Q Yule
Existe t il une relation entre deux variables ordinales ? Est-ce que les réponses sur X ont tendance à augmenter si la réponse à Y augmente ? Test de monotonicité de la relation - Simple à interpréter, Étendue [-1; +1] Concordance (P) – discordance (Q) de paires de répondants Concordance : (Xa>Xb et Ya>Yb) Gamma G= (P-Q)/(P+Q) Extension du Q de Yule pour tableaux > à 2x2 Gamma ne prend pas en compte les « ties » (ex aequo) Interprétation Si G=0,636 « connaître le rang de la première variable réduit l’erreur de prévision sur les rangs de la seconde variable de 63,6% » Dans la version 2 x2 il correspond au Q de Yule Mesure l’intensité de la relation Yule Q = (AD-BC)/(AD+BC) <=.09 négligeable; 0.1=<0.29 faible; 0.3=<0.49 modéré; 0.5=<0.69 fort; >0.69 très fort Oui Non A B C D

Association 2 variables ordinales GAMMA
Basé sur la Concordance / Discordance des réponses Gamma = 0.85 : association assez forte Significativement =\= 0 car ( Valeur/ASE) >2 Avec FREQ ou CORR Association

2 variables ordinales Corrélation des rangs Spearman (Rho)
Association « linéaire » de 2 variables ordinales (adaptation du Pearson) Calcul sur la base des écarts de rangs au carré entre les n objets Pénalise les inversions importantes Intervalle [0;+1] Plus il tend vers 1 plus la corrélation est forte Test avec une statistique de student à (n-2) degrés de liberté Si t > valeur critique, la corrélation est significative Intérêt Lorsque les données sont ordinales Lorsque des données continues ne suivent pas une loi normale Lorsque l’on veut calculer une corrélation plus stable pour faire une analyse multivariée (ACP par exemple)

2 variables ordinales Corrélation des rangs Kendall (Tau)
Association « monotone » de 2 variables ordinales Tri sur la première variable Pour chaque observation, comptage des classements corrects (C) et des inversions (I) pour toutes les valeurs qui la suivent / S = somme (+C-I) Interprétation Tau compris entre –1 et +1 / Tau = 0 si indépendance Tau suit rapidement une loi normale Non Significatif si Tau/ET entre [-1.96; +1.96] Tau b Kendall Corrige pour les égalités (ex aequo) Tableau « carré » même dimension ligne, colonne (sinon max <1) Tau c (Stuart ou Kendall-Stuart) Corrige des effets de taille Tableau non carré et ajustement pour la taille du tableau Préférable au Rho de Spearman si l’ordre n’est pas « quantitatif » Forte différence entre les différences de niveaux de la variable Difficulté : les résultats dépendent de la manière dont sont traités les ex-aequo

Corrélation 2 variables ordinales Kendall / Spearman _ Chi² Mantel-Haenszel
Spearman / Kendall / Monotone Linéaire TITLE3 H=2 J=l "Association 2 VAR ordinales (Measures)"; PROC FREQ DATA=in; TABLE rca_1*rca_0 / NOPERCENT NOCOL NOFREQ CHISQ MEASURES ; RUN ; Linéaire Master Marketing de Paris-Dauphine

Polychorique : Ordinal (artificielle) – Ordinal (artificielle)
Corrélations entre des variables discrètes fournies par différents « juges » par discrétisation de variables latentes continues (L, Normales) connues à partir de « cas » identiques (T) Exemple : les accords sur des items mesurant une variable latente Modèle avec variables aléatoires normales pour les « juges » et les « cas » Hypothèse forte de distributions normales sous jacentes Le coefficient mesure l’association entre L et T Corrélation polychorique : variables binaires ou ordinales Corrélation tétrachorique : variables binaires (+) : 1 – 2 L1j X1j Ti L2j X2j

Variables ordinales représentant des quantitatives : Corrélation polychorique
On voit que la corrélation polychorique est proche du Pearson PROC FREQ DATA=in ; TABLE RCA_1*RCA_0 / NOROW NOPERCENT PLCORR ; RUN ;

2 Variables quantitatives Coefficient de corrélation de Pearson (r)
Association linéaire de 2 variables intervalle ou ratio Rapport Cov (x,y)/[Var(x).Var(y)] Intervalle [-1;+1] Plus il est élevé plus la corrélation est forte Test par rapport à une statistique de student à (n-2) degrés de liberté Si t > valeur critique, la corrélation est significative

Corrélation linéaire Hypothèse de linéarité Points alignés
title3 'Un graphique point*point individuel'; SYMBOL1 V=circle C=black H=0.5; proc gplot DATA=in; where sex=1; PLOT logca_0*logca_1 ; RUN; Master Marketing de Paris-Dauphine

Corrélation linéaire Proc CORR 2 variables quantitatives : r de Pearson
PROC CORR DATA=in Pearson ; VAR catotal_0 catotal_1 ; RUN ; Corrélation linéaire significative et forte Mais la variance de la distribution n’est pas stable, elle dépend de la valeur La transformation logarithmique améliore la linéarité de la relation

Test d’une distribution et Test de normalité

Présentations similaires

Présentation au sujet: "Test d’une distribution et Test de normalité"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Test d’une distribution et Test de normalité

Présentations similaires

Présentation au sujet: "Test d’une distribution et Test de normalité"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back