corrélations alternatives

Slides:



Advertisements
Présentations similaires
Interprétation des données d’enquête Rappel 1: l’essentiel vu jusqu’ici : Intervention inéluctable du hasard dans le choix de l’échantillon Par définition,
Advertisements

Outils Statistiques Damien Van Gysel CHU de Nice
Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
1 Chapitre 2 La numération binaire. 2 Chapitre 2 : La numération binaire Introduction 1 - Le système binaire 2 - La conversion des nombres entiers 2.1.
Comparaison des méthodes de calcul de quartiles On considère la série statistique ci-dessous : Effectif total : 12.
Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
Chapitre 6. Introduction à l’échantillonnage Les sondages Notions fondamentales Fluctuations d’échantillonnage d’une moyenne Théorème central limite C6-1.
Réalisé par : Sébastien Lachance MATHS 3 E SECONDAIRE FONCTIONS polynomiales.
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
PERFORMANCES D’TEST DE DEPISTAGE Dr S.AMAROUCHE Maître assistante Epidémiologie Université 3 Constantine SEMEP CHU Constantine.
Chapitre 5 Interprétation des données d’enquête
Et maintenant, le mode : fastoche !
Suites ordonnées ou mettre de l’ordre
Corrélation et régression linéaire simple
Outils de Recherche Opérationnelle en Génie MTH 8414
Chapitre 1 Généralités sur les données
Statistiques descriptives univariées
Valeurs de toutes les différences observables sous H0
Les distributions en classes
Deuxième partie : La courbe d’indifférence
Comparaison de deux pourcentages.
Représentation de l’information en binaire:
Chapitre 1 Généralités sur les données
4°) Intervalle de fluctuation :
7.1 Transformation linéaire
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Comment prend-t-on une décision?
Pour aller directement à la reprise du cours
Coefficient de corrélation linéaire
POL1803: Analyse des techniques quantitatives
Je préfère le dire tout de suite : je trouve le message lié à cette activité assez difficile. Mais je le garde dans cette formation (C.f. le paragraphe.
Les plans de mélange Les plans d’expérience : Présentée par :
Chapitre 1 Généralités sur les données
Plans d’experiences : plans de melanges
Technologies de l’intelligence d’affaires Séance 11
Technologies de l’intelligence d’affaires Séance 12
Exploitation de mesures scientifiques.
4.3 Estimation d’une proportion
2.2 Probabilité conditionnelle
4.2 Estimation d’une moyenne
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
Structure D’une Base De Données Relationnelle
Free Powerpoint Templates Page 1 Free Powerpoint Templates L’indicateur technique: Relative Strength Index (RSI)
ACP Analyse en Composantes Principales
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
 1____Probabilité  2______variables aléatoires discrètes et continues  3______loi de probabilités d’une v a  4_______les moyens et les moyens centraux.
1/15 STABILITE 1)- NOTION DE STABILITE 2)- CONDITIONS DE STABILITE.
4°) Intervalle de fluctuation :
sur la « philosophie » des tests et des modèles en statistiques
P LAMBOLEZ Partie maths V GILLOT Partie anglais
2.4 La loi de vitesse d’une réaction chimique
Test 2.
Présentation 3 : Sondage aléatoire simple
Présentation 5 : Sondage à probabilités inégales
Présentation 8 : Redressement des estimateurs
On lance 100 fois de suite une pièce de monnaie.
L’ANALYSE DES DONNEES Samuel MAYOL S. Mayol - L’analyse des données.
Position, dispersion, forme
Chapitre 1 Formulation d’un programme linéaire (PL) Georges Abboudeh BUST 347.
La démarche scientifique
Programme d’appui à la gestion publique et aux statistiques
Conception cartographique
Utiliser le modèle log-linéaire pour mettre au jour la structure du lien entre les deux variables d’un tableau de contingence : un exemple d’application.
Les méthodes quantitatives en éducation
Impact Evaluation 4 Peace March 2014, Lisbon, Portugal 1 Echantillonage pour une Evaluation d’Impact Latin America and the Caribbean’s Citizen Security.
Conception d’un QCM F. Loizeau ; Clermont-Ferrand.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
TD Comment les économistes, les sociologues et les politistes travaillent-ils et raisonnent-ils ? M. Osenda.
Outils de Recherche Opérationnelle en Génie MTH 8414
Note de service du 25/04/2018 l.Leclercq, IEN MLJ 1
Transcription de la présentation:

corrélations alternatives Statistiques, licence Troisième séance 17 septembre 2018 corrélations alternatives

Techniques alternatives de corrélation Pour variables non quantitatives 17 septembre 2018 corrélations alternatives

corrélations alternatives Plan Position du problème Données dichotomiques Corrélation bisérielle de points Coefficient phi Données rangées (Coefficient de Spearman) Coefficient de Kendall Quelques exemples Compléments. 17 septembre 2018 corrélations alternatives

corrélations alternatives 1. Position du problème 17 septembre 2018 corrélations alternatives

corrélations alternatives Il arrive que l’on souhaite connaître le lien entre deux variables (cas de la régression linéaire simple), mais que les variables ne soient pas quantitatives. On voudrait pouvoir arranger la méthode de corrélation linéaire à ces cas. 17 septembre 2018 corrélations alternatives

corrélations alternatives Exemple Supposons par exemple qu’on souhaite connaître le QI en fonction de la réussite ou non au baccalauréat. On posera « échec »=0 et « réussite »=1 La variable « réussite éventuelle » est maintenant codée. Elle n’est pas vraiment numérique, mais on peut toutefois appliquer formellement les méthodes pour variables quantitatives. 17 septembre 2018 corrélations alternatives

corrélations alternatives Exemple En réalité, dans cet exemple, il est plus simple d’utiliser la régression (tout court). Cela revient à calculer les moyennes conditionnelles. La corrélation est alors mesurée par 17 septembre 2018 corrélations alternatives

corrélations alternatives Exemple 17 septembre 2018 corrélations alternatives

corrélations alternatives Mais… En revanche, si le facteur est véritablement numérique et si la VD est dichotomique, aucune méthode élémentaire ne semble convenir. On pourra alors utiliser le codage précédent (0 et 1) et utiliser la corrélation linéaire comme si on avait vraiment deux variables quantitatives. 17 septembre 2018 corrélations alternatives

corrélations alternatives Données rangées Le même type de problème (et de solution) apparaît avec les données ordonnées. Une variable est ordinale si l’échelle de mesure est un ensemble ordonné mais que la variable n’est pas quantitative. C’est le cas de variables utilisées dans les sondages, comme par exemple : jamais / rarement / parfois / souvent / toujours 17 septembre 2018 corrélations alternatives

Les corrélations alternatives Les « corrélations alternatives » ne sont bien souvent rien d’autres que des corrélations linéaires appliquées à des variables codées. Comme elles ne sont pas automatiquement légitimes, on leur donne un nom différent, et on les traite autrement. Pourtant, le principe est toujours le même. 17 septembre 2018 corrélations alternatives

2. Variables dichotomiques 17 septembre 2018 corrélations alternatives

2.1 Corrélation bisérielle de points Une variable dichotomique 17 septembre 2018 corrélations alternatives

corrélations alternatives Exemple On relève par un score numérique C la confiance en soi chez des chômeurs et des travailleurs en activité. Le but est de déterminer si la confiance en soi dépend du fait d’avoir du travail Ici, la VI (T, travail) est dichotomique. On la code par « chômeur » = 0 et « travailleur » = 1. La VD (C, confiance en soi) est continue. On pourrait donc utiliser le test de Student pour montrer que les moyennes de C sont différents. Cela donnerait une valeur t. 17 septembre 2018 corrélations alternatives

Coefficient de corrélation bisériel de points Exemple On peut aussi, même si c’est a priori moins naturel, calculer le coefficient de corrélation r(T,C), que nous appellerons dans ce cas Coefficient de corrélation bisériel de points Parce qu’on considère qu’il y a deux séries de valeurs. On le note 17 septembre 2018 corrélations alternatives

Exemple moyenne de C pour les chômeurs moyenne de C pour les employés 17 septembre 2018 corrélations alternatives

corrélations alternatives Lien entre r et t En réalité les deux méthodes (Student et corrélation bisérielle) sont liées par une relation assez simple : Avec dl = n-1 (n est la taille totale de l’échantillon). 17 septembre 2018 corrélations alternatives

corrélations alternatives Le sens de r Le coefficient r prend un sens un peu plus concret au carré : r² (coefficient de détermination) peut être compris comme la partie de la variation due au facteur. Ainsi, dans notre cas, si r² = 0.12, cela veut dire que le fait d’avoir du travail ou non explique 12% de la variation constatée des scores de confiance en soi. 17 septembre 2018 corrélations alternatives

Deux variables dichotomiques 2.2 Coefficient phi Deux variables dichotomiques 17 septembre 2018 corrélations alternatives

corrélations alternatives Exemple Les enfants uniques sont-ils plus susceptibles que les autres de développer des névroses? Sur des enfants, on relève le fait d’être unique ou non (variable dichotomique U), et un psychologue clinicien qui ne connaît pas U fait un diagnostique D. La question du lien entre les variables peut se résoudre, bien qu’on soit loin de la situation de référence, avec la méthode de régression (adaptée aux données numériques) 17 septembre 2018 corrélations alternatives

corrélations alternatives Coefficient phi Le coefficient de corrélation se note alors Mais on s’intéresse surtout à 17 septembre 2018 corrélations alternatives

Phi et khi Il serait également envisageable de procéder au test du khi². Le résultat du test du khi² est lié de manière très simple au coefficient phi par la relation Taille de l’échantillon 17 septembre 2018 corrélations alternatives

Interprétation intuitive de phi Le coefficient phi² peut être conçu comme une mesure (mais attention : il s’agit d’une interprétation assez vague) de l’importance de l’effet d’une variable sur l’autre. Comme pour le r², on raisonne en terme de variations. Si par exemple dans notre exemple nous trouvions Cela pourrait signifier que le fait d’être unique est une cause possible de névrose, mais non la seule. Que l’effet de U sur la névrose est réel, mais relativement faible. 17 septembre 2018 corrélations alternatives

corrélations alternatives 3. Variables ordinales 17 septembre 2018 corrélations alternatives

corrélations alternatives Problème Dans le cas où les variables sont ordinales mais pas réellement numériques, l’idée est toujours de travailler sur les rangs dans l’échantillon Le rang est le numéro d’ordre. Le rang dans l’échantillon n’est pas la restriction d’une variable sur la population entière. Cependant, on peut utiliser le coefficient r, calculé sur l’échantillon 17 septembre 2018 corrélations alternatives

corrélations alternatives Problème Par exemple, dans la série 0,4,3, les rangs sont respectivement 1,3,2. Le problème des ex æquo est important. Trop d’ex æquo rend toujours les procédures impossibles. On s’affranchira des cas où il y a quelques ex æquo par contre assez facilement ; en prenant la moyenne des rangs prévus. 17 septembre 2018 corrélations alternatives

3.1 Coefficient de Spearman Application directe de la corrélation 17 septembre 2018 corrélations alternatives

corrélations alternatives Définition Lorsqu’on calcule le coefficient de corrélation sur les rangs dans un échantillon de taille n, on parle de coefficient de corrélation de Spearman pour données rangées (ou coefficient de Spearman). On le note habituellement 17 septembre 2018 corrélations alternatives

corrélations alternatives Calcul Il se calcule très facilement grâce à la formule (d est la différence des rangs) 17 septembre 2018 corrélations alternatives

corrélations alternatives Exemple La même série de 10 copies de philosophie des sciences est proposée à un professeur de philosophie et à un enseignant de mathématiques, qui doivent les classer. On a donc deux rangs : M (maths) et P(philo). La question est de savoir si les deux juges évaluent de la même manière les copies. 17 septembre 2018 corrélations alternatives

corrélations alternatives Exemple S’ils ont les mêmes critères de jugement, on doit avoir à peu près le même classement, et donc M=P, soit r=1 S’ils ont des critères contradictoires, on s’attend à avoir r<0 S’ils notent indépendamment l’un de l’autre, on devrait avoir r=0 (à peu près) 17 septembre 2018 corrélations alternatives

corrélations alternatives Données M 1 4 3 6 7 5 2 10 9 8 P d 17 septembre 2018 corrélations alternatives

corrélations alternatives M 1 4 3 6 7 5 2 9 8 P d Données On a donc 17 septembre 2018 corrélations alternatives

corrélations alternatives Interprétation Ce qui laisse penser que les deux juges notent sur des critères indépendants. Si les données proviennent de variables continues, rs mesure le lien monotone entre les variables. On notera cependant que la significativité de rs est difficile à déterminer. Comme les échantillons sont souvent petits (un juge classant mal un grand nombre d’items), nous prendrons toujours rs comme une indication. 17 septembre 2018 corrélations alternatives

Une alternative au coefficient de Spearman 3.2 Tau de Kendall Une alternative au coefficient de Spearman 17 septembre 2018 corrélations alternatives

corrélations alternatives Principe Le coefficient « tau » de Kendall est équivalent au rs pour ce qui est de l’interprétation. Il est plus facile à tester (on connaît mieux la loi de distribution de t), ce qui en fait une alternative plus agréable. Il n’est pas fondé sur le coefficient de Pearson (rs) contrairement à ses concurrents. 17 septembre 2018 corrélations alternatives

Calcul tau taille de l’échantillon 17 septembre 2018 corrélations alternatives

corrélations alternatives Calcul Où K est le nombre d’inversions (nombre de couple (i,j) qui ne sont pas dans le même ordre pour les deux variables. On peut déterminer simplement K en comptant le nombre de croisements dans le dessin qui suit. 17 septembre 2018 corrélations alternatives

corrélations alternatives K 1 2 3 4 5 K = 3 3 1 2 5 4 17 septembre 2018 corrélations alternatives

corrélations alternatives 3. Exemples 17 septembre 2018 corrélations alternatives

Attention et alcoolisme Y’a t-il un lien ? 17 septembre 2018 corrélations alternatives

corrélations alternatives Situation [Howell, p 336, 10.11. Les données sont les mêmes que dans l’exercice] On souhaite étudier le lien éventuel entre les troubles de l’attention dans l’enfance et l’alcoolisme à l’âge adulte. On note 1 en cas de présence du problème, et 0 sinon. Des psychologues déterminent si le problème est présent ou non. 17 septembre 2018 corrélations alternatives

corrélations alternatives Situation Les variables sont donc : L’alcoolisme, codé par une valeur A (variable dichotomique) Les troubles de l’attention T, codés de la même manière (variable dichotomique également) On cherche le lien entre ces deux variables A est ici la VD, car les troubles de l’attention T de l’étude datent de l’enfance. 17 septembre 2018 corrélations alternatives

corrélations alternatives Données T A 1 20 3 2 7 17 septembre 2018 corrélations alternatives

corrélations alternatives Données Effectif observé T A 1 Total 20 15.8 3 7.2 23 2 6.2 7 2.8 9 22 10 32 Effectif théorique 17 septembre 2018 corrélations alternatives

corrélations alternatives 20 15.8 3 7.2 2 6.2 7 2.8 Calculs On peut calculer le khi² correspondant à l’exemple : Attendu (expected) Observé (observed) 17 septembre 2018 corrélations alternatives

corrélations alternatives 20 15.8 3 7.2 2 6.2 7 2.8 Calculs Ce qui donne 17 septembre 2018 corrélations alternatives

corrélations alternatives 20 15.8 3 7.2 2 6.2 7 2.8 Calculs Il s’agit ici d’un coefficient significatif. Méfions-nous toutefois du résultat : l’un des effectifs théoriques est inférieur à 5. Pourtant, il semble bien que le lien entre les variables soit réel. Il va dans le sens d’un lien positif. Les cases 00 et 11 sont en effet plus « remplies » que ce que prévoit l’indépendance. Il y a donc un lien positif entre les deux variables (au moins sur l’échantillon) 17 septembre 2018 corrélations alternatives

Difficulté langagière Double classement 17 septembre 2018 corrélations alternatives

corrélations alternatives Situation [d’après Howell, p 336, 10.12] Un chercheur a classé 10 mots selon leur difficulté. Peu sûr de son classement, il demande à un collègue de classer à son tour les 10 mots. Les « variables » sont (sur l’échantillon de 10 mots) R1 et R2 (rang pour le premier chercheur / pour le second). On cherche un lien entre les deux variables. Un lien positif conforte le premier chercheur, un lien négatif ou nul remet son analyse en question. 17 septembre 2018 corrélations alternatives

corrélations alternatives Données R1 1 2 3 4 5 6 7 8 9 10 R2 17 septembre 2018 corrélations alternatives

corrélations alternatives Analyse 1 2 3 4 5 6 7 8 9 10 Les variables sont ordinales mais non numériques (du moins pas « réellement »). Les deux possibilité pour étudier le lien (croissant ou décroissant : monotone) sont les coefficients de Spearman et de Kendall (tau). Il n’y a pas de méthode efficace pour choisir entre les deux coefficients, même si on préfère généralement le tau de Kendall, pour des raisons déjà évoquées. 17 septembre 2018 corrélations alternatives

corrélations alternatives Analyse 1 2 3 4 5 6 7 8 9 10 Utilisons toutefois le coefficient de Spearman ici. Il est plus facile à calculer (à la machine), puisqu’il s’agit d’un simple coefficient de corrélation linéaire. Avec SPSS, par exemple, on obtient aisément le résultat. 17 septembre 2018 corrélations alternatives

corrélations alternatives Résultats 1 2 3 4 5 6 7 8 9 10 Il vient 17 septembre 2018 corrélations alternatives

corrélations alternatives Interprétation Soit un coefficient positif et très significatif (on imagine) Les deux variables sont fortement corrélées, et de manière croissante : les deux chercheurs ont classé les mots a peu près dans le même ordre. Cela conforte sans la prouver l’idée de départ que le classement du premier chercheur est plus ou moins le classement « universel ». 17 septembre 2018 corrélations alternatives

coefficients tétrachorique, bisériel, et de concordance Compléments coefficients tétrachorique, bisériel, et de concordance 17 septembre 2018 corrélations alternatives

Coefficient bisériel rb Exemple : on cherche si « le génie » est liée à la vitesse de lecture. On relève la vitesse par un score V et l’intelligence par une variable dichotomique à partir du QI, en notant 0 pour toute valeur inférieure à 130 et 1 sinon. On trouve rb= 0.02, non significatif. Le fait d’être « très intelligent » (au sens du QI) ne prédit pas une disposition à la lecture. Dans le cas où un coefficient de corrélation bisériel de points paraît naturel, il se peut que la variable dichotomique soit en réalité la dichotomie arbitraire d’une variable sous-jacente normale. Dans ce cas, mieux vaut utiliser à la place du coefficent bisériel de points le coefficient bisériel, qui se lit de la même manière. 17 septembre 2018 corrélations alternatives

Coefficient tétrachorique rt Still, A.W., & MacMilan, A. St. C. (1977). Response bias and the measurement of choice alternation. Quarterly Journal of Experimental Psychology, 29, 319-325. Coefficient tétrachorique rt Exemple : Pour mesurer le biais d’alternance, on part du principe que le sujet hésite entre les deux possibilités « Pile » et « Face », et décide en fonction d’un seuil. La variable sous-jacente est supposée normale. Il est dans ce cas logique d’utiliser rt comme une mesure de biais d’alternance, avec les deux variables « premier tirage » et « second tirage » par exemple. On trouve rt = – 0.35. Dans le cas où un coefficient phi paraît naturel (deux variables dichotomiques), mais que les variables sont des dichotomies artificielles provenant d’un découpage sur une variable sous-jacente normale, on utilise de préférence à phi le coefficient de corrélation tétrachorique rt. Comme pour le coefficient bisériel, cela n’est pas valable pour des variables non-normales… 17 septembre 2018 corrélations alternatives

Coefficient de concordance Exemple : Pour savoir si les jugements de beauté sont culturels ou au contraire sujets à des variations personnelles importantes, on demande à six personnes de classer par ordre de beauté une série de 9 portraits (on dépasse rarement 9). On trouve avec nos données (n = 80) une valeur de W = 0.58. Bien qu’il n’y ait que 6 sujets, cette valeur est concluante. Il arrive que l’on cherche à mesure le degré d’accord sur les rangs non entre deux juges, mais entre trois juges ou plus. Dans ce cas, le coefficient de Spearman ou le tau de Kendall n’est pas suffisant, et il faut utiliser une généralisation du coefficient tau de Kendall, le W de Kendall, ou coefficient de concordance. Il se lit comme un r2. 17 septembre 2018 corrélations alternatives

corrélations alternatives On cherche le lien entre deux (ou plus) variables X et Y, qui ne sont pas toutes deux numériques. Pour résumer On pense que X est une dichotomie issue d’une variable continue normale. Coefficient bisériel rb L’une des deux variables est dichotomiques (X), mais l’autre est numérique (Y) X est une vraie dichotomie (ou une dichotomie issue d’une variable non normale). Coefficient bisériel de points rbp 17 septembre 2018 corrélations alternatives

corrélations alternatives On cherche le lien entre deux (ou plus) variables X et Y, qui ne sont pas toutes deux numériques. Pour résumer Il s’agit de fausses dichotomies issues de variables normales. Coefficient tétrachorique rt Les deux variables (disons encore X et Y) sont dichotomiques. Il s’agit de vraies dichotomies ou de dichotomies issues de variables non normales Coefficient phi. 17 septembre 2018 corrélations alternatives

corrélations alternatives On cherche le lien entre deux (ou plus) variables X et Y, qui ne sont pas toutes deux numériques. Pour résumer Il n’y a que deux variables (par exemple deux juges) Coefficient de Spearman rs Coefficient tau de Kendall Toutes les variables sont ordinales (ou seuls les rangs nous intéressent) Il y a plus de deux variables (par exemplejuges) Coefficient W de Kendall 17 septembre 2018 corrélations alternatives