Régression -corrélation FRT C3
Rappel sur les tests statistiques (1) Recherche une relation entre 2 variables : Hypothèse nulle H0 : indépendance Hypothèse alternative H1: relation Fonction de la loi de distribution des variables : 2 variables qualitatives : H0 : p1=p2 ; H1 : p1p2 test du ² ou test de comparaison de 2 % 2 variables qualitatives : H0 : p1 = p2; H1 : p1 p2 1 var qualitative, 1 var quantitative (loi N) H0 : 1 = 2 ; H1 : 1 2 test de comparaison de moyennes
Rappel sur les tests statistiques (2) Chaque sujet de la population étudiée est défini par une valeur de chacune des 2 variables 2 var qualitatives : Traitement A ou B et réponse succès ou échec 1 var qualit et 1 var quantit : somnifère A ou B et durée de sommeil en heures S’il s’agit de 2 variables quantitatives mesurées chez chaque sujet : la relation recherchée entre les 2 variables est celle d’une régression : Dose d’interferon et réduction de la charge virale Taille de la tumeur et survie après traitement
Régression – corrélation Principe On étudie un échantillon de n sujets chez lesquels 2 variables x et y sont mesurées n couples de valeurs (x,y) nuage de points d’abscisse xi et ordonnée yi en supposant la relation linéaire, déterminer la droite qui décrit « au mieux » la relation entre x et y il s’agit de la droite de régression observée, définie par sa pente et son ordonnée à l’origine E(y/x) = + x y = a + bx
5.5 5 4.5 4 3.5 3 2.5 2 1.5 Taille des adypocytes () 3.5 4 4.5 5 5.5 6 6.5 Glycémie (mmol/l) Ici : y = variable aléatoire x = variable dépendante, prédictive,explicative Il s’agit de la droite de régression de y sur x
Droite de régression de y sur x E(y/x) = + x x sert à prédire y E(y/x) = espérance de y pour un x donné = ordonnée à l’origine c-à-d : y pour x = 0 = paramètre mesurant la pente de la droite de régression Estimation de la droite de régression y = a + bx Par la méthode des moindres carrés : minimise la somme des carrés des points à la droite
La droite minimise : (yi – y’i)² = [yi – (a + b xi)]² i i 5.5 5 4.5 4 3.5 3 2.5 2 1.5 Taille des adypocytes () Y’i yi 3.5 4 4.5 5 5.5 6 6.5 Glycémie (mmol/l)
Caractéristiques de la droite observée Do passe par le centre de gravité G (mx, my) b est la pente de la droite (po) (x – mx) (y – my) estimation de la cov(x,y) (x – mx)² estimation de la var(x) a, valeur de y pour x = 0 a pour valeur : y = my – b mx Que signifie Do pour la relation entre x et y ? H0 : indépendance entre x et y x, y a en moyenne la même valeur la pente est nulle (covariance nulle) H1 : relation entre x et y la pente s’écarte de 0 b =
Coefficient de régression linéaire r La pente b (po) dépend des unités de x et de y pour dire si b s’éloigne ou non de zéro, on considère la pente en « unités réduites » : r = po / (sy/sx) = po x (sx / sy) r = (x – mx) (y – my) estimation de la cov(x,y) (x – mx)². (y – my)² var x . var y la valeur de r fluctue toujours entre -1 et +1 le signe du numérateur donne le sens de la relation : + : y augmente quand x augmente - : y diminue quand x augmente
Sous H0, fluctue autour de 0 - la droite Do donnant my en fonction de x fluctue autour de l’horizontale - le coefficient r qui exprime la pente po en coordonnées réduites fluctue autour de 0 La loi de probabilité précisant ces fluctuations est résumée par la table du coefficient de régression r qui donne pour (n-2) ddl l’intervalle de fluctuation (-r,+r) pour un risque donné Si r sort de l’intervalle, on rejette H0 On peut aussi utiliser la table t après avoir calculé : r n-2 (1 – r2) t =
Conditions d’application du test Distribution de y normale pou un x donné = distribution liée De variance constante x N (1,2y/x1) N (1,2y/x2) N (1,2y/x3) y 3 2 1 x1 x2 x3 x Le test est robuste, valide si « n est grand »
Limites de la régression linéaire Les variables x et y peuvent être liées par une relation non linéaire. La recherche d’une relation par la droite des moindres carrés et le coefficient r ne permettra pas de rejeter H0 y .. .. … . . . . .. . .. . … . . … .. . . .. . .. .. . . .. .. .. … . .. .. .. . .. . .. . . .. . .. .. . .. . . . … …. . .. . .. .. .. . . . . . . .. … .. .. .. .. … .. .. . y … . .. .. .. .. … . .. … .. … …. ….; .. . …… .. .. …. …… … … .. .. x x b 0 mais dispersion des points (Var ++) r < valeur seuil, non rejet H0 r = 0 on retient H0 Pourtant <une relation entre x et y
Régression – corrélation (1) Étudie la dépendance de y par rapport à x La distribution de x peut être contrôlée : Ex : étude d’une activité enzymatique y pour des doses croissantes d’une substance x À partir de la droite, on peut prédire y pour les doses de x comprises dans l’intervalle testé La régression x/y n’a pas de sens
Prédiction de y pour des valeurs de x dans [0 – 4] Y 40 30 20 10 0 0,5 1 2 3 4 x
Régression – corrélation (2) Étudie l’interdépendance de x et de y X et Y sont aléatoires par nature et par distribution Chacune des droites y/x et x/y permet de prédire la valeur la plus probable d’une variable pour une valeur donnée de l’autre Le coefficient r = coefficient de corrélation de x et y . Est le même pour les 2 droites permet de tester l’indépendance de mesurer l’intensité de la liaison
b b’ même coefficient r y x = a’ + b’y y = a + bx x
Force de l’association entre X et Y 2 notions complémentaires r s’éloigne significativement de 0, rejet H0 Force de l’association représentée par la valeur de r : Entre 0,8 et 1 : force d’association importante Entre 0,5 et 0,8 : force d’association modérée Entre 0,2 et 0,5 : force d’association faible < 0,2 : force d’association très faible Précision de la prédiction