Télécharger la présentation
Publié parValérie Jardin Modifié depuis plus de 11 années
1
Corrélation Position du problème Définition covariance (X,Y) r =
On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes ou, au contraire, si elles sont liées en étudiant les variation de l’une en fonction de l’autre et réciproquement Si les variables sont indépendantes yi doit avoir, en moyenne, la même valeur quelque soit xi et inversement. Pour répondre au problème posé, on reléve sur un échantillon de N individus, les N couples de valeurs x,y Définition covariance (X,Y) r = var(X) * var (Y) Le coefficient de corrélation mesure l’association linéaire entre X et Y Il fait jouer un rôle symétrique à X et Y Il reste identique si on change d’unité ou d’origine
2
Représentation graphique
Corrélation Tableau des valeurs : Représentation graphique Nuage de points Paramètres : Moyennes, Écarts type estimés, Covariance, Coefficient de corrélation Éléments nécessaires : Nombre de couples : N Total des produits X*Y Total des X et des Y Total des carrés des X et des Y
3
Corrélation Calculs : sx = Tx2 N ^ • Covariance
Effectifs N (nombre de couple) Total des valeurs (somme) Tx et Ty Total des carrés des valeurs Ux et Uy Total des produits Txy SCEx = Ux - Tx2 N Sx = SCEx N sx = SCEx ^ Nx- 1 S (x - x)*(y - y) • Covariance cov (x,y) = N = Txy - Tx *Ty N
4
Régression et corrélation :
x et y sont deux variables aléatoires : x en fonction de y et y en fonction de x ont un sens (poids/taille) => corrélation y est explicable par x (action /dose) => régression Droite de régression des moindres carrés Droite de régression de y en x y x • d1 d2 y = a + b X Minimise la somme des d1i S [yi - y(x)] = S ( yi - a - b * xi) 2 Cette somme, xi et yi étant connus, est fonction uniquement de a et b. Le minimum est connu en annulant les dérivées partielles par rapport à a et par rapport à b Droite de régression de x en y Minimise la somme des d2i
5
Calcul du coefficient de corrélation
cov(x,y) Sx 2 * Sy = Sx * Sy Txy - Tx *Ty N SCEx * SCEy r varie de -1 à + 1 si r = 0 pas de liaison si r = 1 (ou -1) la connaissance de x (ou de y) donne toute l'information. Il est alors inutile de mesurer l'autre variable. Test du coefficient de corrélation contre 0 Hypothèse nulle x et y sont indépendants. r fluctue autour de 0 du fait du hasard. Hypothèses alternatives Test bilatéral x et y sont liés. r est différent de 0
6
Corrélation Conditions d'applications
Si N est petit pour une valeur de x donnée, la distribution des y (distribution liée) est normale et de variance constante (et réciproquement). Le modèle linéaire a un sens Utilisation de la table du coefficient de corrélation (N<100) Calcul d'une statistique t de Student r 2 t = N - 2 DDL = N - 2 1-r Recherche dans la table (r ou t) de la valeur correspondant à alpha choisi. Si r ou t > r ou t alpha on rejette H0 : les deux variables sont liées Si r ou t < r ou t alpha on ne peut pas rejeter H0. Les deux variables sont indépendantes mais ATTENTION au risque beta. Si il y a une liaison, dans le cas où la distribution (xy) est normale, r mesure la force de la liaison
7
Divers types de résultats
Importance de la visualisation du nuage de points « Amande à petit ventre » Forte corrélation positive r > +0,9 Forte corrélation négative r < -0,9 « Amande à gros ventre » Faible corrélation positive Faible corrélation négative Pas de corrélation r voisin de 0
8
Coefficient de corrélation de rang de Spearman
Si condition d'application pour le coefficient de corrélation usuelle ne sont pas remplies, on calcul le coefficient de corrélation non pas entre les valeurs mais entre leur rang. Coefficient de corrélation Rs : di = xi - yi S di 2 i=1 n 6 ________ rs = 1 - 2 N(N - 1) • Test du rs Spearman utilisation de table ou calcul d’un t de Student
9
Situation du problème :
Régression linéaire Situation du problème : Étude da l’association de deux variables quantitatives X et Y telle que X explique Y. Cela revient à étudier la distribution de Y pour chaque valeur de X. S’il y a une association entre X et Y la distribution conditionnelle de Y varie selon les valeurs de X. La moyenne et la variance conditionnelle de Y dépendent de X. Ici on ne va s'intéresser qu’à la variation de la moyenne mY/X. La fonction de régression de Y en X est la fonction f décrivant la variation de la moyenne conditionnelle de Y par rapport à X : f(x) = E(Y/X) Exemple : Poids de naissance en fonction du terme de la grossesse, Baisse de la tension artérielle en fonction de la dose d’anti-hypertenseur... Tableau des valeurs : Terme Poids moyen Ecart type estimé ,46 ,02 ,39 ....
10
Représentation des données
Exemple Poids de naissance / Terme Pour chaque valeur du terme on a la moyenne et l’écart type du poids de naissance. On trace le nuage de points. On envisage des fonctions simples entre lesquelles on essaie de choisir : droite, exponentielle, parabole. En pratique, par transformation de variable, on se ramène à une droite : E(Y/x) = f(x) = a + bx Si l’on se ramène aux valeurs individuelles on a : y = a + by + e ou e est l’écart entre la valeur individuelle y de chaque sujet et la moyenne de y pour une valeur e x donnée.
11
Régression linéaire Droite de régression
Estimation par le méthode des moindres carrés : Chaque sujet de la population est représenté par un couple de valeur (x,y) sur le graphique. La droite de régression est parmi toutes les droites possible celle qui résume le mieux le nuage de points. Le critère retenu pour mesurer la distance d’un point à la droite est la distance verticale entre le point xiyi et la droite. La distance de la droite à l’ensemble des points est par définition la somme des carrés des distances. La droite de régression est celle qui minimise cette distance.
12
Estimation des paramètres de la droite
Régression linéaire Estimation des paramètres de la droite Données nécessaires Y = a + bX N = Nombre de couple Tx = Xi Ty = Yi Txy = XiYi Ux = Xi i=1 N 2 b = Txy - Tx*Ty N Ux - Tx 2 a = b * Ty Tx N
13
Test de la pente de la droite de régression
Régression linéaire Test de la pente de la droite de régression Hypothèses Hypothèse nulle : b = 0 : il n’y a pas d'association entre X et Y Hypothèse alternative : b différent de 0 (test bilatéral) Conditions : La régression doit être linéaire Pour X fixé, les valeurs de Y doivent être indépendantes de distribution normale et de variance constante Écart type de la pente : sy ^ 2 2 b sx ^ sb 2 ^ = N - 2
14
Test de la pente de la droite de régression
Régression linéaire Test de la pente de la droite de régression Statistique : t de Student b DDL = N-2 t = sb ^ - Décision : Si t est supérieur à t alpha on rejette H0. Il existe une relation entre les variation de X et de Y : Pour chaque valeur de X, Y augment en moyenne de b. Sinon, la pente peut être considérée comme nulle : les valeurs de Y sont indépendantes de X - Prédiction : S’il pente est différente de 0, on peut prédire la valeur de Y à partir de celle de X. On ne doit pas extrapoler en dehors des valeurs de X que l’on a observé. On peut calculer un intervalle de confiance pour les valeurs prédites
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.