corrélations alternatives Statistiques, licence Troisième séance 17 septembre 2018 corrélations alternatives
Techniques alternatives de corrélation Pour variables non quantitatives 17 septembre 2018 corrélations alternatives
corrélations alternatives Plan Position du problème Données dichotomiques Corrélation bisérielle de points Coefficient phi Données rangées (Coefficient de Spearman) Coefficient de Kendall Quelques exemples Compléments. 17 septembre 2018 corrélations alternatives
corrélations alternatives 1. Position du problème 17 septembre 2018 corrélations alternatives
corrélations alternatives Il arrive que l’on souhaite connaître le lien entre deux variables (cas de la régression linéaire simple), mais que les variables ne soient pas quantitatives. On voudrait pouvoir arranger la méthode de corrélation linéaire à ces cas. 17 septembre 2018 corrélations alternatives
corrélations alternatives Exemple Supposons par exemple qu’on souhaite connaître le QI en fonction de la réussite ou non au baccalauréat. On posera « échec »=0 et « réussite »=1 La variable « réussite éventuelle » est maintenant codée. Elle n’est pas vraiment numérique, mais on peut toutefois appliquer formellement les méthodes pour variables quantitatives. 17 septembre 2018 corrélations alternatives
corrélations alternatives Exemple En réalité, dans cet exemple, il est plus simple d’utiliser la régression (tout court). Cela revient à calculer les moyennes conditionnelles. La corrélation est alors mesurée par 17 septembre 2018 corrélations alternatives
corrélations alternatives Exemple 17 septembre 2018 corrélations alternatives
corrélations alternatives Mais… En revanche, si le facteur est véritablement numérique et si la VD est dichotomique, aucune méthode élémentaire ne semble convenir. On pourra alors utiliser le codage précédent (0 et 1) et utiliser la corrélation linéaire comme si on avait vraiment deux variables quantitatives. 17 septembre 2018 corrélations alternatives
corrélations alternatives Données rangées Le même type de problème (et de solution) apparaît avec les données ordonnées. Une variable est ordinale si l’échelle de mesure est un ensemble ordonné mais que la variable n’est pas quantitative. C’est le cas de variables utilisées dans les sondages, comme par exemple : jamais / rarement / parfois / souvent / toujours 17 septembre 2018 corrélations alternatives
Les corrélations alternatives Les « corrélations alternatives » ne sont bien souvent rien d’autres que des corrélations linéaires appliquées à des variables codées. Comme elles ne sont pas automatiquement légitimes, on leur donne un nom différent, et on les traite autrement. Pourtant, le principe est toujours le même. 17 septembre 2018 corrélations alternatives
2. Variables dichotomiques 17 septembre 2018 corrélations alternatives
2.1 Corrélation bisérielle de points Une variable dichotomique 17 septembre 2018 corrélations alternatives
corrélations alternatives Exemple On relève par un score numérique C la confiance en soi chez des chômeurs et des travailleurs en activité. Le but est de déterminer si la confiance en soi dépend du fait d’avoir du travail Ici, la VI (T, travail) est dichotomique. On la code par « chômeur » = 0 et « travailleur » = 1. La VD (C, confiance en soi) est continue. On pourrait donc utiliser le test de Student pour montrer que les moyennes de C sont différents. Cela donnerait une valeur t. 17 septembre 2018 corrélations alternatives
Coefficient de corrélation bisériel de points Exemple On peut aussi, même si c’est a priori moins naturel, calculer le coefficient de corrélation r(T,C), que nous appellerons dans ce cas Coefficient de corrélation bisériel de points Parce qu’on considère qu’il y a deux séries de valeurs. On le note 17 septembre 2018 corrélations alternatives
Exemple moyenne de C pour les chômeurs moyenne de C pour les employés 17 septembre 2018 corrélations alternatives
corrélations alternatives Lien entre r et t En réalité les deux méthodes (Student et corrélation bisérielle) sont liées par une relation assez simple : Avec dl = n-1 (n est la taille totale de l’échantillon). 17 septembre 2018 corrélations alternatives
corrélations alternatives Le sens de r Le coefficient r prend un sens un peu plus concret au carré : r² (coefficient de détermination) peut être compris comme la partie de la variation due au facteur. Ainsi, dans notre cas, si r² = 0.12, cela veut dire que le fait d’avoir du travail ou non explique 12% de la variation constatée des scores de confiance en soi. 17 septembre 2018 corrélations alternatives
Deux variables dichotomiques 2.2 Coefficient phi Deux variables dichotomiques 17 septembre 2018 corrélations alternatives
corrélations alternatives Exemple Les enfants uniques sont-ils plus susceptibles que les autres de développer des névroses? Sur des enfants, on relève le fait d’être unique ou non (variable dichotomique U), et un psychologue clinicien qui ne connaît pas U fait un diagnostique D. La question du lien entre les variables peut se résoudre, bien qu’on soit loin de la situation de référence, avec la méthode de régression (adaptée aux données numériques) 17 septembre 2018 corrélations alternatives
corrélations alternatives Coefficient phi Le coefficient de corrélation se note alors Mais on s’intéresse surtout à 17 septembre 2018 corrélations alternatives
Phi et khi Il serait également envisageable de procéder au test du khi². Le résultat du test du khi² est lié de manière très simple au coefficient phi par la relation Taille de l’échantillon 17 septembre 2018 corrélations alternatives
Interprétation intuitive de phi Le coefficient phi² peut être conçu comme une mesure (mais attention : il s’agit d’une interprétation assez vague) de l’importance de l’effet d’une variable sur l’autre. Comme pour le r², on raisonne en terme de variations. Si par exemple dans notre exemple nous trouvions Cela pourrait signifier que le fait d’être unique est une cause possible de névrose, mais non la seule. Que l’effet de U sur la névrose est réel, mais relativement faible. 17 septembre 2018 corrélations alternatives
corrélations alternatives 3. Variables ordinales 17 septembre 2018 corrélations alternatives
corrélations alternatives Problème Dans le cas où les variables sont ordinales mais pas réellement numériques, l’idée est toujours de travailler sur les rangs dans l’échantillon Le rang est le numéro d’ordre. Le rang dans l’échantillon n’est pas la restriction d’une variable sur la population entière. Cependant, on peut utiliser le coefficient r, calculé sur l’échantillon 17 septembre 2018 corrélations alternatives
corrélations alternatives Problème Par exemple, dans la série 0,4,3, les rangs sont respectivement 1,3,2. Le problème des ex æquo est important. Trop d’ex æquo rend toujours les procédures impossibles. On s’affranchira des cas où il y a quelques ex æquo par contre assez facilement ; en prenant la moyenne des rangs prévus. 17 septembre 2018 corrélations alternatives
3.1 Coefficient de Spearman Application directe de la corrélation 17 septembre 2018 corrélations alternatives
corrélations alternatives Définition Lorsqu’on calcule le coefficient de corrélation sur les rangs dans un échantillon de taille n, on parle de coefficient de corrélation de Spearman pour données rangées (ou coefficient de Spearman). On le note habituellement 17 septembre 2018 corrélations alternatives
corrélations alternatives Calcul Il se calcule très facilement grâce à la formule (d est la différence des rangs) 17 septembre 2018 corrélations alternatives
corrélations alternatives Exemple La même série de 10 copies de philosophie des sciences est proposée à un professeur de philosophie et à un enseignant de mathématiques, qui doivent les classer. On a donc deux rangs : M (maths) et P(philo). La question est de savoir si les deux juges évaluent de la même manière les copies. 17 septembre 2018 corrélations alternatives
corrélations alternatives Exemple S’ils ont les mêmes critères de jugement, on doit avoir à peu près le même classement, et donc M=P, soit r=1 S’ils ont des critères contradictoires, on s’attend à avoir r<0 S’ils notent indépendamment l’un de l’autre, on devrait avoir r=0 (à peu près) 17 septembre 2018 corrélations alternatives
corrélations alternatives Données M 1 4 3 6 7 5 2 10 9 8 P d 17 septembre 2018 corrélations alternatives
corrélations alternatives M 1 4 3 6 7 5 2 9 8 P d Données On a donc 17 septembre 2018 corrélations alternatives
corrélations alternatives Interprétation Ce qui laisse penser que les deux juges notent sur des critères indépendants. Si les données proviennent de variables continues, rs mesure le lien monotone entre les variables. On notera cependant que la significativité de rs est difficile à déterminer. Comme les échantillons sont souvent petits (un juge classant mal un grand nombre d’items), nous prendrons toujours rs comme une indication. 17 septembre 2018 corrélations alternatives
Une alternative au coefficient de Spearman 3.2 Tau de Kendall Une alternative au coefficient de Spearman 17 septembre 2018 corrélations alternatives
corrélations alternatives Principe Le coefficient « tau » de Kendall est équivalent au rs pour ce qui est de l’interprétation. Il est plus facile à tester (on connaît mieux la loi de distribution de t), ce qui en fait une alternative plus agréable. Il n’est pas fondé sur le coefficient de Pearson (rs) contrairement à ses concurrents. 17 septembre 2018 corrélations alternatives
Calcul tau taille de l’échantillon 17 septembre 2018 corrélations alternatives
corrélations alternatives Calcul Où K est le nombre d’inversions (nombre de couple (i,j) qui ne sont pas dans le même ordre pour les deux variables. On peut déterminer simplement K en comptant le nombre de croisements dans le dessin qui suit. 17 septembre 2018 corrélations alternatives
corrélations alternatives K 1 2 3 4 5 K = 3 3 1 2 5 4 17 septembre 2018 corrélations alternatives
corrélations alternatives 3. Exemples 17 septembre 2018 corrélations alternatives
Attention et alcoolisme Y’a t-il un lien ? 17 septembre 2018 corrélations alternatives
corrélations alternatives Situation [Howell, p 336, 10.11. Les données sont les mêmes que dans l’exercice] On souhaite étudier le lien éventuel entre les troubles de l’attention dans l’enfance et l’alcoolisme à l’âge adulte. On note 1 en cas de présence du problème, et 0 sinon. Des psychologues déterminent si le problème est présent ou non. 17 septembre 2018 corrélations alternatives
corrélations alternatives Situation Les variables sont donc : L’alcoolisme, codé par une valeur A (variable dichotomique) Les troubles de l’attention T, codés de la même manière (variable dichotomique également) On cherche le lien entre ces deux variables A est ici la VD, car les troubles de l’attention T de l’étude datent de l’enfance. 17 septembre 2018 corrélations alternatives
corrélations alternatives Données T A 1 20 3 2 7 17 septembre 2018 corrélations alternatives
corrélations alternatives Données Effectif observé T A 1 Total 20 15.8 3 7.2 23 2 6.2 7 2.8 9 22 10 32 Effectif théorique 17 septembre 2018 corrélations alternatives
corrélations alternatives 20 15.8 3 7.2 2 6.2 7 2.8 Calculs On peut calculer le khi² correspondant à l’exemple : Attendu (expected) Observé (observed) 17 septembre 2018 corrélations alternatives
corrélations alternatives 20 15.8 3 7.2 2 6.2 7 2.8 Calculs Ce qui donne 17 septembre 2018 corrélations alternatives
corrélations alternatives 20 15.8 3 7.2 2 6.2 7 2.8 Calculs Il s’agit ici d’un coefficient significatif. Méfions-nous toutefois du résultat : l’un des effectifs théoriques est inférieur à 5. Pourtant, il semble bien que le lien entre les variables soit réel. Il va dans le sens d’un lien positif. Les cases 00 et 11 sont en effet plus « remplies » que ce que prévoit l’indépendance. Il y a donc un lien positif entre les deux variables (au moins sur l’échantillon) 17 septembre 2018 corrélations alternatives
Difficulté langagière Double classement 17 septembre 2018 corrélations alternatives
corrélations alternatives Situation [d’après Howell, p 336, 10.12] Un chercheur a classé 10 mots selon leur difficulté. Peu sûr de son classement, il demande à un collègue de classer à son tour les 10 mots. Les « variables » sont (sur l’échantillon de 10 mots) R1 et R2 (rang pour le premier chercheur / pour le second). On cherche un lien entre les deux variables. Un lien positif conforte le premier chercheur, un lien négatif ou nul remet son analyse en question. 17 septembre 2018 corrélations alternatives
corrélations alternatives Données R1 1 2 3 4 5 6 7 8 9 10 R2 17 septembre 2018 corrélations alternatives
corrélations alternatives Analyse 1 2 3 4 5 6 7 8 9 10 Les variables sont ordinales mais non numériques (du moins pas « réellement »). Les deux possibilité pour étudier le lien (croissant ou décroissant : monotone) sont les coefficients de Spearman et de Kendall (tau). Il n’y a pas de méthode efficace pour choisir entre les deux coefficients, même si on préfère généralement le tau de Kendall, pour des raisons déjà évoquées. 17 septembre 2018 corrélations alternatives
corrélations alternatives Analyse 1 2 3 4 5 6 7 8 9 10 Utilisons toutefois le coefficient de Spearman ici. Il est plus facile à calculer (à la machine), puisqu’il s’agit d’un simple coefficient de corrélation linéaire. Avec SPSS, par exemple, on obtient aisément le résultat. 17 septembre 2018 corrélations alternatives
corrélations alternatives Résultats 1 2 3 4 5 6 7 8 9 10 Il vient 17 septembre 2018 corrélations alternatives
corrélations alternatives Interprétation Soit un coefficient positif et très significatif (on imagine) Les deux variables sont fortement corrélées, et de manière croissante : les deux chercheurs ont classé les mots a peu près dans le même ordre. Cela conforte sans la prouver l’idée de départ que le classement du premier chercheur est plus ou moins le classement « universel ». 17 septembre 2018 corrélations alternatives
coefficients tétrachorique, bisériel, et de concordance Compléments coefficients tétrachorique, bisériel, et de concordance 17 septembre 2018 corrélations alternatives
Coefficient bisériel rb Exemple : on cherche si « le génie » est liée à la vitesse de lecture. On relève la vitesse par un score V et l’intelligence par une variable dichotomique à partir du QI, en notant 0 pour toute valeur inférieure à 130 et 1 sinon. On trouve rb= 0.02, non significatif. Le fait d’être « très intelligent » (au sens du QI) ne prédit pas une disposition à la lecture. Dans le cas où un coefficient de corrélation bisériel de points paraît naturel, il se peut que la variable dichotomique soit en réalité la dichotomie arbitraire d’une variable sous-jacente normale. Dans ce cas, mieux vaut utiliser à la place du coefficent bisériel de points le coefficient bisériel, qui se lit de la même manière. 17 septembre 2018 corrélations alternatives
Coefficient tétrachorique rt Still, A.W., & MacMilan, A. St. C. (1977). Response bias and the measurement of choice alternation. Quarterly Journal of Experimental Psychology, 29, 319-325. Coefficient tétrachorique rt Exemple : Pour mesurer le biais d’alternance, on part du principe que le sujet hésite entre les deux possibilités « Pile » et « Face », et décide en fonction d’un seuil. La variable sous-jacente est supposée normale. Il est dans ce cas logique d’utiliser rt comme une mesure de biais d’alternance, avec les deux variables « premier tirage » et « second tirage » par exemple. On trouve rt = – 0.35. Dans le cas où un coefficient phi paraît naturel (deux variables dichotomiques), mais que les variables sont des dichotomies artificielles provenant d’un découpage sur une variable sous-jacente normale, on utilise de préférence à phi le coefficient de corrélation tétrachorique rt. Comme pour le coefficient bisériel, cela n’est pas valable pour des variables non-normales… 17 septembre 2018 corrélations alternatives
Coefficient de concordance Exemple : Pour savoir si les jugements de beauté sont culturels ou au contraire sujets à des variations personnelles importantes, on demande à six personnes de classer par ordre de beauté une série de 9 portraits (on dépasse rarement 9). On trouve avec nos données (n = 80) une valeur de W = 0.58. Bien qu’il n’y ait que 6 sujets, cette valeur est concluante. Il arrive que l’on cherche à mesure le degré d’accord sur les rangs non entre deux juges, mais entre trois juges ou plus. Dans ce cas, le coefficient de Spearman ou le tau de Kendall n’est pas suffisant, et il faut utiliser une généralisation du coefficient tau de Kendall, le W de Kendall, ou coefficient de concordance. Il se lit comme un r2. 17 septembre 2018 corrélations alternatives
corrélations alternatives On cherche le lien entre deux (ou plus) variables X et Y, qui ne sont pas toutes deux numériques. Pour résumer On pense que X est une dichotomie issue d’une variable continue normale. Coefficient bisériel rb L’une des deux variables est dichotomiques (X), mais l’autre est numérique (Y) X est une vraie dichotomie (ou une dichotomie issue d’une variable non normale). Coefficient bisériel de points rbp 17 septembre 2018 corrélations alternatives
corrélations alternatives On cherche le lien entre deux (ou plus) variables X et Y, qui ne sont pas toutes deux numériques. Pour résumer Il s’agit de fausses dichotomies issues de variables normales. Coefficient tétrachorique rt Les deux variables (disons encore X et Y) sont dichotomiques. Il s’agit de vraies dichotomies ou de dichotomies issues de variables non normales Coefficient phi. 17 septembre 2018 corrélations alternatives
corrélations alternatives On cherche le lien entre deux (ou plus) variables X et Y, qui ne sont pas toutes deux numériques. Pour résumer Il n’y a que deux variables (par exemple deux juges) Coefficient de Spearman rs Coefficient tau de Kendall Toutes les variables sont ordinales (ou seuls les rangs nous intéressent) Il y a plus de deux variables (par exemplejuges) Coefficient W de Kendall 17 septembre 2018 corrélations alternatives