La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes.

Présentations similaires


Présentation au sujet: "1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes."— Transcription de la présentation:

1 1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes ou, au contraire, si elles sont liées en étudiant les variation de lune en fonction de lautre et réciproquement –Si les variables sont indépendantes y i doit avoir, en moyenne, la même valeur quelque soit x i et inversement. –Pour répondre au problème posé, on reléve sur un échantillon de N individus, les N couples de valeurs x,y Définition r = covariance (X,Y) var(X) * var (Y) Le coefficient de corrélation mesure lassociation linéaire entre X et Y Il fait jouer un rôle symétrique à X et Y Il reste identique si on change dunité ou dorigine

2 2 Corrélation Tableau des valeurs : Représentation graphique Nuage de points Paramètres : Moyennes, Écarts type estimés, Covariance, Coefficient de corrélation Éléments nécessaires : Nombre de couples : N Total des produits X*Y Total des X et des Y Total des carrés des X et des Y

3 3 Corrélation Calculs : Effectifs N (nombre de couple) Total des valeurs (somme) T x et T y Total des carrés des valeurs U x et U y Total des produits T xy SCE x = U x - T x 2 N S x = SCE x N N x - 1 Covariance cov (x,y) = (x - x)*(y - y) N = T xy - T x *T y N N x = SCE x ^

4 4 Corrélation Régression et corrélation : –x et y sont deux variables aléatoires : x en fonction de y et y en fonction de x ont un sens (poids/taille) => corrélation –y est explicable par x (action /dose) => régression Droite de régression des moindres carrés y x d1 d2 y = a + b X Droite de régression de y en x Minimise la somme des d1 i [y i - y(x)] = ( y i - a - b * x i ) 2 2 Cette somme, x i et y i étant connus, est fonction uniquement de a et b. Le minimum est connu en annulant les dérivées partielles par rapport à a et par rapport à b Droite de régression de x en y Minimise la somme des d2 i

5 5 Corrélation Calcul du coefficient de corrélation r = cov(x,y) SxSx 2 * SxSx SySy = S x * S y = T xy - T x *T y N SCE x * SCE y r varie de -1 à + 1 si r = 0 pas de liaison si r = 1 (ou -1) la connaissance de x (ou de y) donne toute l'information. Il est alors inutile de mesurer l'autre variable. Test du coefficient de corrélation contre 0 Hypothèse nulle x et y sont indépendants. r fluctue autour de 0 du fait du hasard. Hypothèses alternatives Test bilatéral x et y sont liés. r est différent de 0

6 6 Corrélation Conditions d'applications –Si N est petit pour une valeur de x donnée, la distribution des y (distribution liée) est normale et de variance constante (et réciproquement). Le modèle linéaire a un sens Utilisation de la table du coefficient de corrélation (N<100) Calcul d'une statistique t de Student Recherche dans la table (r ou t) de la valeur correspondant à alpha choisi. Si r ou t > r ou t alpha on rejette H0 : les deux variables sont liées Si r ou t < r ou t alpha on ne peut pas rejeter H0. Les deux variables sont indépendantes mais ATTENTION au risque beta. r 2 t = N - 2 DDL = N r Si il y a une liaison, dans le cas où la distribution (xy) est normale, r mesure la force de la liaison

7 7 Divers types de résultats Importance de la visualisation du nuage de points « Amande à petit ventre » Forte corrélation positive r > +0,9 Forte corrélation négative r < -0,9 « Amande à gros ventre » Faible corrélation positiveFaible corrélation négative Pas de corrélation r voisin de 0

8 8 Coefficient de corrélation de rang de Spearman Si condition d'application pour le coefficient de corrélation usuelle ne sont pas remplies, on calcul le coefficient de corrélation non pas entre les valeurs mais entre leur rang. Coefficient de corrélation Rs : r s = 1 - ________ d i 2 i=1 n d i = x i - y i 6 2 N(N - 1) Test du r s Spearman utilisation de table ou calcul dun t de Student

9 9 Régression linéaire Situation du problème : –Étude da lassociation de deux variables quantitatives X et Y telle que X explique Y. Cela revient à étudier la distribution de Y pour chaque valeur de X. –Sil y a une association entre X et Y la distribution conditionnelle de Y varie selon les valeurs de X. La moyenne et la variance conditionnelle de Y dépendent de X. Ici on ne va s'intéresser quà la variation de la moyenne m Y/X. –La fonction de régression de Y en X est la fonction f décrivant la variation de la moyenne conditionnelle de Y par rapport à X : –f(x) = E(Y /X ) –Exemple : Poids de naissance en fonction du terme de la grossesse, Baisse de la tension artérielle en fonction de la dose danti- hypertenseur... Tableau des valeurs : Terme Poids moyenEcart type estimé , , ,39....

10 10 Représentation des données Exemple –Poids de naissance / Terme Pour chaque valeur du terme on a la moyenne et lécart type du poids de naissance. On trace le nuage de points. On envisage des fonctions simples entre lesquelles on essaie de choisir : droite, exponentielle, parabole. En pratique, par transformation de variable, on se ramène à une droite : E(Y/x) = f(x) = a + bx Si lon se ramène aux valeurs individuelles on a : y = a + by + e ou e est lécart entre la valeur individuelle y de chaque sujet et la moyenne de y pour une valeur e x donnée.

11 11 Régression linéaire Droite de régression –Estimation par le méthode des moindres carrés : Chaque sujet de la population est représenté par un couple de valeur (x,y) sur le graphique. La droite de régression est parmi toutes les droites possible celle qui résume le mieux le nuage de points. Le critère retenu pour mesurer la distance dun point à la droite est la distance verticale entre le point xiyi et la droite. La distance de la droite à lensemble des points est par définition la somme des carrés des distances. La droite de régression est celle qui minimise cette distance.

12 12 Régression linéaire Estimation des paramètres de la droite –Données nécessaires Y = a + bX N = Nombre de couple Tx = X i Ty = Y i Txy=X i Y i Ux=X i i=1 N N N N 2 b = Txy - Tx*Ty N Ux - Tx 2 N a =b * TyTx NN

13 13 Régression linéaire Test de la pente de la droite de régression –Hypothèses Hypothèse nulle : –b = 0 : il ny a pas d'association entre X et Y Hypothèse alternative : –b différent de 0 (test bilatéral) –Conditions : La régression doit être linéaire Pour X fixé, les valeurs de Y doivent être indépendantes de distribution normale et de variance constante –Écart type de la pente : b 2 ^ = y ^ x ^ 2 b 2 N - 2

14 14 Régression linéaire Test de la pente de la droite de régression –Statistique : t de Student t = b b ^ DDL = N-2 - Décision : Si t est supérieur à t alpha on rejette H0. Il existe une relation entre les variation de X et de Y : Pour chaque valeur de X, Y augment en moyenne de b. Sinon, la pente peut être considérée comme nulle : les valeurs de Y sont indépendantes de X - Prédiction : Sil pente est différente de 0, on peut prédire la valeur de Y à partir de celle de X. On ne doit pas extrapoler en dehors des valeurs de X que lon a observé. On peut calculer un intervalle de confiance pour les valeurs prédites


Télécharger ppt "1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes."

Présentations similaires


Annonces Google