Test d’une distribution et Test de normalité

Slides:



Advertisements
Présentations similaires
Comparaison d’une moyenne observée à une moyenne théorique
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Présentation des données
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Test statistique : principe
Introduction aux statistiques
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Régression ou corrélation
Tests de comparaison de pourcentages
Échantillonnage-Estimation
Dr DEVILLE Emmanuelle J D V 12/07/2006
Les tests d’hypothèses
Autres LOIS de PROBABILITES
Les liens entre les variables et les tests d’hypothèse
Méthodes de Biostatistique
Les principaux résumés de la statistique
Régression linéaire simple
Groupe 1: Classes de même intervalle
Corrélation et régression linéaire simple
La corrélation et la régression
Le test t.
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Corrélation Principe fondamental d’une analyse de corrélation
La régression multiple
ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES
Méthodes statistiques
Régression linéaire multiple : hypothèses & interprétation
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
ANALYSE DE DONNEES TESTS D’ASSOCIATION
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
STATISTIQUES – PROBABILITÉS
Intervalles de confiance pour des proportions L’inférence statistique
Probabilités et Statistiques Année 2010/2011
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :35 1 Comparaisons multiples Ce qu’elles sont.
Concepts fondamentaux: statistiques et distributions
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :52 1 Comparaisons multiples Ce qu’elles sont.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Tests d’ajustement à une distribution théorique
L’erreur standard et les principes fondamentaux du test de t
1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.
Comparaison d’échantillons indépendants
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
BIOSTATISTIQUES Définitions.
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Mesures de description des valeurs des variables
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
TP1: Statistique application chapitre 2. Le tableau suivant reprend le taux d'intérêt (en %) payé par 20 banques sur les dépôts d'épargne de leurs clients.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
23/05/2016 Déterminer la taille des échantillons notion sous-jacente : puissance d'un test Claire Chabanet fonction F4, étendre l'écran configurer le diaporama,
Transcription de la présentation:

Test d’une distribution et Test de normalité La distribution empirique suit-elle une distribution connue ? Master MARKETING / Pierre Desmet

Choisir une distribution théorique Binomiale ou Multinomiale : 2 modalités (pile-face, 0/1) ou plusieurs modalités (choix marques) Poisson : discrète, comptage, fréquence d’un comportement 1 seul paramètre (l) moyenne=variance Normale (Gauss, Laplace-Gauss) variable continue, +/- infini, symétrique 2 paramètres clés (moyenne, écart-type), courbe en « S » Student : Pour les petits effectifs Proche de la loi normale (queues de distribution un peu plus importantes) Chi2 : somme de lois Normales au carré F : rapport de 2 distributions du chi² Logistique : courbe en « S » proche de la loi Normale, plus facile à manipuler, éventuellement à seuil Beta, Gamma, Weibull : lois plus souples http://www.marketing-science-center.com/charge/lois_continues.xls

Variable nominale : Test d’ajustement du Chi² Test de l‘adéquation d’une distribution empirique d’une variable nominale à une distribution théorique. H0 : Les fréquences/proportion observées sont égales aux fréquences/proportion théoriques Soit une distribution théorique à p paramètres Avec v degrés de liberté v= k -1 - pe pe = le nombre de paramètres de la loi estimés sur les données empiriques (déjà classées) Statistique : Q = Somme [(fk-ek)² / ek] pour les k modalités Soit fm les effectifs théoriques ; em les effectifs observés ; k modalités Interprétation : On rejette H0 si Q > Qc Conditions Effectifs pas trop faibles pour que l’approximation soit acceptable (effectifs théoriques > à 5) Peut aussi être utilisé avec une variable ordinale mais perte de l’information contenue dans l’ordre

Comparaison / à une norme (proportion) Variable Binaire : Proc FREQ TITLE3 H=2 J=l "Intervalle de confiance (binaire)"; PROC FREQ DATA=in; TABLE liv_1 /binomial(level='Oui' p=.845) /* choix de la modalité de référence */ alpha=0.05 ; /* choix du risque alpha */ FORMAT liv_1 ouifmt.; run; Test d’une proportion (norme)=84,5% Par défaut la valeur testée est 0,5 L’erreur standard asymptotique (ASE) est de 0,0058 La statistique Z est de 1.75 Le risque d’erreur bilatéral est de 8,01% (> 5%) donc on ne peut pas rejeter H0 : la proportion n’est pas significativement différente de 84,5% Le risque d’erreur unilatéral est de 4% (<5%) donc si l’on avait posé H0 la proportion est inférieure ou égale à 84,5%, on rejette H0. Master Marketing de Paris-Dauphine

Comparaison distribution théorique Var Nominale : Proc FREQ Chi² d’ajustement Ecart relatif * #CHI2AJUST# Test d'une distribution nominale ; *****************************************************************; TITLE3 H=2 J=l "Comparaison d'une proportion à une norme (nominale)"; PROC FREQ DATA=in; TABLE promo_1 /testp=(0.333333, 0.33333, 0.333333) ; * la somme doit faire 1 ! ; FORMAT promo_1 promofmt. ; RUN ; Rejet de H0 Master Marketing de Paris-Dauphine

Variable quantitative : Test empirique de la Normalité La distribution de la variable suit-elle approximativement une loi normale ? Critère 1 : convergence de la tendance centrale Mode = Médiane = Moyenne Critère 2 : indicateurs de forme proches de 0 (H0) aplatissement =0 et symétrie = 0 Etude asymétrie et aplatissement Symétrie (skewness) ou Biais : Si >1 s’écarte de la Normale; >2, gravement; test Skewness/ES >2 (ES : Erreur standard) problème si > 2.racine(6/n); Aplatissement (Kurtosis) : Si >4 s’écarte de la Normale Test si kurtosis/ES >2 problème si > 2 . racine(24/n); >7 gravement; Attention l’information fournie est souvent le « Kurtosis excédentaire » (K-3) par rapport à une Normale qui a un aplatissement de 3 Approche graphique : Ajustement des distributions, Droite de Henry P-P probabilité-probabilité Q-Q quantile-quantile (+) : 1

Test de Normalité Wn de Shapiro-Wilks, Mardia Test de Shapiro-Wilk (Wn) (recommandé) PROC UNIVARIATE FREQ PLOT NORMAL; Statistique Wn (ratio de la variance estimée à partir des statistiques sur la variance calculée) W e [0, 1]; Si W <<1 ou significatif (<5%), rejet de la normalité W:Normal 0.97542 Pr<W 0.8474 La statistique vaut .975, la probabilité associée est .84, ce qui est bien supérieur à 5%, donc on ne peut donc PAS rejeter l’hypothèse de normalité Limites Pas nécessaire d’avoir les valeurs préalables de la loi normale (moy, etype) Très puissant pour déterminer l’anormalité mais aucune indication sur la source Dépend de la taille de l’échantillon, d’où le « n » de « Wn » si n>2000 alors utiliser directement K-S Attention la distribution n’est pas linéaire : W=0.9 est considéré comme « faible » et donc rejet de la normalité même pour des valeurs facialement élevées (+) Shapiro, S. S. and Wilk, M. B. (1965). "An analysis of variance test for normality (complete samples)", Biometrika, 52, 3 and 4, pages 591-611. - 1 Test PK de Mardia : teste la multi-normalité (plusieurs variables) Si PK <3 accepter la multi-normalité

Tests Normalité non paramétriques: Anderson et Darling, Cramér Von Mises, Lilliefors A² de Anderson et Darling Basé, comme K-S, sur la distribution de fréquence empirique mais l’écart est au carré et pondéré Interprétation : Rejet de la normalité si A est trop élevé Intérêt Le plus adapté aux tests préalables à l’utilisation de tests paramétriques Prend mieux en compte les queues de distribution et moins sensible aux valeurs aberrantes Mais les valeurs critiques utilisées pour le diagnostic dépendent de chaque distribution W² de Cramér-Von Mises Même principe que Anderson et Darling sans pondération (w=1) Lilliefors Test non paramétrique (loi normale de paramètres inconnus) Test de la normalité à base de K-S, Sensible aux effectifs (rejet fréquent si n élevé) et à la déviation de la normalité au centre de la distribution (pas aux extrêmes) N’est pas en automatique dans les logiciels En sas : http://www.listserv.uga.edu/cgi-bin/wa?A2=ind0006A&L=sas-l&P=39254 (+) Lilliefors H. (1967) On the Kolmogorov-Smirnov test for normality with mean and variance unknown, Journal of the american statistical association, 62, 339-402

Kolmogorov Smirnov : Test d’une distribution théorique Test de l’ajustement Mettre EDF (empirical distribution function) sas Dans la fonction : avec en plus Shapiro-Wilks dans histogramme (normal, lognormal, gamma, weibull, exp) Rejet de H0 : la distribution normale ne convient pas

Comparaison distribution théorique Var continue : Normalité UNIVARIATE * #NORMALE# Test d'une distribution normale (variable quantitative) ; **********************************************************; TITLE3 H=2 J=l "Test de normalité "; PROC UNIVARIATE DATA=in NORMAL /* demande du test Normal ici */ VAR catotal_0 ; HISTOGRAM catotal_0 / NORMAL (color=red w=2) LOGNORMAL (color=blue w=2) ; QQPLOT catotal_0 / NORMAL ; RUN ; Droite de Henry La distribution n’est pas « normale » Master Marketing de Paris-Dauphine

Correction de la Non normalité Correction par des transformations mathématiques Transformation de Box-Cox : T(y) = (y l –1)/ l / Log (si l = 0) Macro de Friendly (boxcox.sas) Si biais positif + (mode à gauche de la moyenne) Log(x), Racine carrée, inverse (1/x), … Très fréquent, surtout pour des données monétaires Si biais négatif – (mode à droite de la moyenne) Mettre en puissance, carré ou + Tabachnik and Fidell 2001, p. 83 *If there are negative or 0 values in the data, add a constant to Y before performing reciprocal or Log/Ln transformations Y Transformation Data Asymétrie positive modérée Asymétrie négative modérée Racine carrée (Y) Racine carrée(K - Y) (K = Max(Y) + 1) Y_T = SQRT(Y); Y_T = SQRT(K - Y); Asymétrie positive forte Asymétrie négative forte Log deY or Ln de Y Log de (K - Y) or Ln de (K - Y) Y_T = LOG10(Y); or Y_T = LOG(Y); Y_T = LOG10(K - Y); or Y_T = LOG(K - Y); Asymétrie positive extrême ( L) Asymétrie négative extrême (J) Inverse de Y Inverse de (K - Y) Y_T = 1/Y; Y_T = 1/(K - Y);

Transformation en Log pour s’approcher de la normalité La transformation Log redresse bien la distribution PROC UNIVARIATE DATA=in NORMAL ; VAR log_CA0 ; HISTOGRAM log_CA0 / NORMAL ; INSET n="N" (5.0) mean="Moyenne" (5.1) std="Ecart-type" (5.1) / pos=ne height=3 ; /* position nord-est */ RUN ; Master Marketing de Paris-Dauphine

Effet des effectifs sur le test de normalité L’ajustement est visuellement correct mais le test rejette la normalité à cause des effectifs importants On accepte la normalité « approximative » La normalité est acceptable avec un échantillon aléatoire plus petit (n = 500) PROC SURVEYSELECT DATA=data_temp OUT= sample METHOD = SRS /* tirage aléatoire sans remise */ N=500; ID statut rec sex catotal_0 catotal_1 rca_0 rca_1 liv_1 promo_1 club_0 club_1; RUN; Master Marketing de Paris-Dauphine

Centrer – Réduire (Standardiser-Normaliser) Est-ce que la différence de variance est principalement expliquée par la différence d’unité de mesure? Centrer : opération qui consiste à enlever la valeur de la moyenne La variable résultante a une moyenne de 0 Réduire : opération qui consiste à diviser la valeur par l’écart-type La variable résultante a un écart-type de 1 Standardiser c’est centrer et réduire x’= (x – moy)/écart-type La variable résultante a une moyenne de 0 et un écart-type de 1 Intérêt ? Parce que l’écart-type est sensible à l’unité choisie Ramener les variations de différentes variables en une même unité Mais … L’importance de la variance initiale de chaque variable est perdue SAS : Proc Standard

Inférence et Intervalle de confiance Obtenir une estimation « par intervalle » de la « vraie » valeur d’un paramètre sur la population à partir de l’information obtenue sur un échantillon de taille n Et d’une hypothèse sur la distribution Master MARKETING / Pierre Desmet

ECHANTILLON et Inférence A un risque donné Sachant l’information contenue dans l’échantillon Dans quel intervalle se situe la « vraie valeur » du paramètre pour la population m1, s1 ES = s/ racine(n) (N, m, s) (n) t Risque a Echantillon Population = m s = s [mmax; mmin] [smax; smin]

Intervalle de confiance Une valeur empirique simple n’est qu’une information partielle 55% des personnes interrogées préfèrent la marque A à la marque B Ce n’est pas parce qu’un écart semble important (10%) qu’il est statistiquement significatif ! Les valeurs empiriques résultent d’une vraie valeur , d’une erreur de mesure et d’un aléa m = m + aléa On cherche donc à conclure que la « vraie » valeur se trouve à l’intérieur d’un intervalle centré sur la valeur empirique dont l’amplitude dépend de l’écart-type de l’effectif de l’échantillon du degré de certitude/confiance que l’on souhaite avoir sur le fait que la « vraie » valeur se trouve dans cet intervalle

Intervalle de confiance Var Binaire : Test binomial - Proc FREQ TITLE3 H=2 J=l "Intervalle de confiance (binaire)"; PROC FREQ DATA=in; TABLE liv_1 /binomial(level='Oui') /* choix de la modalité de référence */ alpha=0.05 ; /* choix du risque alpha */ FORMAT liv_1 ouifmt.; run; Intervalle de confiance Sur 100 essais successifs, dans 95 cas la vraie valeur de la population fait partie de l’intervalle de confiance Avec un risque d’erreur de 5% on peut conclure que la proportion d’acheteurs de livres supplémentaires sur le fichier client, est de 85% (+/- 1%) Master Marketing de Paris-Dauphine

Calculer a priori l’IC en fonction des effectifs et de la proportion Permet de calculer l’IC avant le terrain pour déterminer la taille de l’échantillon à partir De la proportion Des effectifs data direct ; input proportion effectif ; x=0 ; freq= (1-proportion)*effectif ;output ; x=1 ; freq= effectif-freq ; output ; cards ; 0.3 300 ; proc freq data= direct; weight freq ; tables x /binomial(level="1") ; RUN; Changer ici N = 80 N = 150 N = 300 Master Marketing de Paris-Dauphine

Intervalle de confiance (Moy et Etype) Var Métrique : MEANS & UNIVARIATE Sous une hypothèse de Normalité TITLE3 H=2 J=l "Intervalle de confiance quanti : CA total à 5%«  (Means); PROC MEANS DATA = in n mean median min max std skewness kurtosis clm /* limites de l'intervalle de confiance */ t probt /* test en t et sa probabilité */ alpha=0.05 ; * spécifie le risque alpha ; VAR catotal_0; RUN; TITLE3 H=2 J=l "Intervalle de confiance quanti : CA total à 5% (Univariate)"; PROC UNIVARIATE DATA=in CIBASIC; /* IC pour les stat de base */ VAR catotal_0 ; RUN ; Master Marketing de Paris-Dauphine

Comparaison / à une norme (moyenne) Var Métrique : Student - UNIVARIATE Test de H0 : Moyenne = 4.24 Acceptation de H0 car L’IC contient 4,24 Le test de student n’est pas significatif H0 supportée * UNIVARIATE : Comparaison à une norme moyenne=70"; *************************************************; TITLE3 H=2 J=l "IC et Comparaison à moyenne=70 (4,24 en Log)"; PROC UNIVARIATE DATA= sample NORMAL PLOT CIBASIC /* intervalles de confiance pour les stat de base */ mu0=4.24; /* test de la valeur d'une moyenne de 70 (4.24) */ VAR log_ca0; RUN ; Master Marketing de Paris-Dauphine

Association / Corrélation de variables X <-> Z Association / Corrélation de variables Deux variables sont-elles associées ? (sans qu’il y ait un sens spécifique dans la relation) Master MARKETING / Pierre Desmet

Relation entre deux variables discrètes (nominales – ordinales) Tableau croisé Existe-t-il une relation entre deux variables nominales ? Tableau croisé, tri croisé, tableau de contingence Distributions marginales fréquences simples des variables (les marges du tableau) Degré de liberté Connaissant (c-1) valeurs plus la fréquence marginale on peut retrouver la valeur manquante D’où les degrés de liberté Un tableau à m cases (m= c.l , l lignes et c colonnes) dont on connait les marges à v degrés de liberté (ddl) v = (c -1)*( l -1) ou v = (c -1) pour une seule ligne 10 50 60 30 80 110

Ajustements du Khi-2 pour neutraliser l’effet des effectifs et de la taille du tableau Phi (de Pearson) intensité de l’association Seulement pour un tableau 2x2 | j ]>0.7 forte association 0.7>| j ]>0.3 association faible 0.3> | j ] absence d’association (CC) Coefficient de contingence effet de taille Assez peu utilisé, Max dépend des ddl V de Cramer taille des tableaux et Effectifs Beaucoup utilisé <0.25 : Faible / 0.25<<0.50 : Moyen 0.50<<0.75 : Forte / >0.75 : Très forte (T) de Tschuprow (n = degrés de liberté)

Caractéristiques du Chi² / Khi2 Problème 1 : Nécessite un effectif théorique minimal par case : 5 Règle empirique : pas de case =0 et <20% effectifs < 5 Sinon Regrouper les modalités pour avoir ces effectifs minimaux Utiliser le test exact de Fisher Problème 2 : Le khi2 dépend de la structure du tableau (v) On ne peut PAS comparer des Khi2 de tableaux de structures différentes Problème 3 : Le Khi2 dépend des effectifs Plus les effectifs sont importants, plus le khi2 est significatif il sera toujours significatif pour des effectifs importants

Association 2 var nominales & binaires Chi² indépendance et V de cramer Chi² / Coefficient contingence / V Cramer H0 : il n’y a pas de relation entre les deux variables la distribution des fréquences de l’une ne dépend pas de la modalité de l’autre Faible probabilité -> Rejet de H0 V = 0,55 l’association est assez forte Seulement tableau 2 x 2 Max = Racine [ Min(l,c)-1/Min(l,c)] ici CC= 0,68 (0,48/0,70) Normé / à 1 Master Marketing de Paris-Dauphine

Test de Fisher Deux échantillons ont-ils la même structure de réponse sur une variable nominale ? Utilisation : Générale Seule solution lorsque le khi2 est inapplicable les effectifs sont faibles ou mal distribués dans le tableau Hypothèse : H0 : pas de différence entre les échantillons Les marges sont fixées (effectifs des échantillons par exemple) quelle probabilité d’observer la distribution si l’hypothèse H0 est vraie Si les effectifs sont vraiment faibles On utilise un test « exact » Dans la Proc Freq, une ligne supplémentaire « exact fisher ; » Attention ! Calcul très long si les effectifs sont importants

SAS test du Chi2 et test de Fisher data in ; input genre DVD freq @@; cards; 1 0 890 1 1 73 0 0 2811 0 1 168 ; proc freq ; table genre*dvd / nocol norow nopercent expected chisq fisher ; weight freq ; run; Rejet H0 : il y a une forme d’association Mais elle est d’une intensité faible Rejet de H0

Problèmes posés par les tableaux croisés Cas d’une base incorrecte Peut-on conclure que les hommes et les femmes achètent autant de MN ? Cas d’une variable modératrice (paradoxe de Simpson) Pas de différence pour les bons/mauvais clients Selon le mode de commande, ni Selon le mode de paiement Mais une très forte différence pour leur combinaison !

Variable ordinale : Coefficient Gamma G (Goodman et Kruskal, 1954) – Q Yule Existe t il une relation entre deux variables ordinales ? Est-ce que les réponses sur X ont tendance à augmenter si la réponse à Y augmente ? Test de monotonicité de la relation - Simple à interpréter, Étendue [-1; +1] Concordance (P) – discordance (Q) de paires de répondants Concordance : (Xa>Xb et Ya>Yb) Gamma G= (P-Q)/(P+Q) - Extension du Q de Yule pour tableaux > à 2x2 Gamma ne prend pas en compte les « ties » (ex aequo) Interprétation Si G=0,636 « connaître le rang de la première variable réduit l’erreur de prévision sur les rangs de la seconde variable de 63,6% » Dans la version 2 x2 il correspond au Q de Yule Mesure l’intensité de la relation Yule Q = (AD-BC)/(AD+BC) <=.09 négligeable; 0.1=<0.29 faible; 0.3=<0.49 modéré; 0.5=<0.69 fort; >0.69 très fort Oui Non A B C D

Association 2 variables ordinales GAMMA Basé sur la Concordance / Discordance des réponses Gamma = 0.85 : association assez forte Significativement =\= 0 car ( Valeur/ASE) >2 Avec FREQ ou CORR Association

2 variables ordinales Corrélation des rangs Spearman (Rho) Association « linéaire » de 2 variables ordinales (adaptation du Pearson) Calcul sur la base des écarts de rangs au carré entre les n objets Pénalise les inversions importantes Intervalle [0;+1] Plus il tend vers 1 plus la corrélation est forte Test avec une statistique de student à (n-2) degrés de liberté Si t > valeur critique, la corrélation est significative Intérêt Lorsque les données sont ordinales Lorsque des données continues ne suivent pas une loi normale Lorsque l’on veut calculer une corrélation plus stable pour faire une analyse multivariée (ACP par exemple)

2 variables ordinales Corrélation des rangs Kendall (Tau) Association « monotone » de 2 variables ordinales Tri sur la première variable Pour chaque observation, comptage des classements corrects (C) et des inversions (I) pour toutes les valeurs qui la suivent / S = somme (+C-I) Interprétation Tau compris entre –1 et +1 / Tau = 0 si indépendance Tau suit rapidement une loi normale Non Significatif si Tau/ET entre [-1.96; +1.96] Tau b Kendall Corrige pour les égalités (ex aequo) Tableau « carré » même dimension ligne, colonne (sinon max <1) Tau c (Stuart ou Kendall-Stuart) Corrige des effets de taille Tableau non carré et ajustement pour la taille du tableau Préférable au Rho de Spearman si l’ordre n’est pas « quantitatif » Forte différence entre les différences de niveaux de la variable Difficulté : les résultats dépendent de la manière dont sont traités les ex-aequo

Corrélation 2 variables ordinales Kendall / Spearman _ Chi² Mantel-Haenszel Spearman / Kendall / Monotone Linéaire TITLE3 H=2 J=l "Association 2 VAR ordinales (Measures)"; PROC FREQ DATA=in; TABLE rca_1*rca_0 / NOPERCENT NOCOL NOFREQ CHISQ MEASURES ; RUN ; Linéaire Master Marketing de Paris-Dauphine

Polychorique : Ordinal (artificielle) – Ordinal (artificielle) Corrélations entre des variables discrètes fournies par différents « juges » par discrétisation de variables latentes continues (L, Normales) connues à partir de « cas » identiques (T) Exemple : les accords sur des items mesurant une variable latente Modèle avec variables aléatoires normales pour les « juges » et les « cas » Hypothèse forte de distributions normales sous jacentes Le coefficient mesure l’association entre L et T Corrélation polychorique : variables binaires ou ordinales Corrélation tétrachorique : variables binaires (+) : 1 – 2 L1j X1j Ti L2j X2j

Variables ordinales représentant des quantitatives : Corrélation polychorique On voit que la corrélation polychorique est proche du Pearson PROC FREQ DATA=in ; TABLE RCA_1*RCA_0 / NOROW NOPERCENT PLCORR ; RUN ;

2 Variables quantitatives Coefficient de corrélation de Pearson (r) Association linéaire de 2 variables intervalle ou ratio Rapport Cov (x,y)/[Var(x).Var(y)] Intervalle [-1;+1] Plus il est élevé plus la corrélation est forte Test par rapport à une statistique de student à (n-2) degrés de liberté Si t > valeur critique, la corrélation est significative

Corrélation linéaire Hypothèse de linéarité Points alignés title3 'Un graphique point*point individuel'; SYMBOL1 V=circle C=black H=0.5; proc gplot DATA=in; where sex=1; PLOT logca_0*logca_1 ; RUN; Master Marketing de Paris-Dauphine

Corrélation linéaire Proc CORR 2 variables quantitatives : r de Pearson PROC CORR DATA=in Pearson ; VAR catotal_0 catotal_1 ; RUN ; Corrélation linéaire significative et forte Mais la variance de la distribution n’est pas stable, elle dépend de la valeur La transformation logarithmique améliore la linéarité de la relation