Régression -corrélation

Régression -corrélation
FRT C3

Rappel sur les tests statistiques (1)
Recherche une relation entre 2 variables : Hypothèse nulle H0 : indépendance Hypothèse alternative H1: relation Fonction de la loi de distribution des variables : 2 variables qualitatives : H0 : p1=p2 ; H1 : p1p2 test du ² ou test  de comparaison de 2 % 2 variables qualitatives : H0 : p1 = p2; H1 : p1  p2 1 var qualitative, 1 var quantitative (loi N) H0 : 1 = 2 ; H1 : 1  2 test  de comparaison de moyennes

Rappel sur les tests statistiques (2)
Chaque sujet de la population étudiée est défini par une valeur de chacune des 2 variables 2 var qualitatives : Traitement A ou B et réponse succès ou échec 1 var qualit et 1 var quantit : somnifère A ou B et durée de sommeil en heures S’il s’agit de 2 variables quantitatives mesurées chez chaque sujet : la relation recherchée entre les 2 variables est celle d’une régression : Dose d’interferon et réduction de la charge virale Taille de la tumeur et survie après traitement

Régression – corrélation
Principe On étudie un échantillon de n sujets chez lesquels 2 variables x et y sont mesurées  n couples de valeurs (x,y) nuage de points d’abscisse xi et ordonnée yi en supposant la relation linéaire, déterminer la droite qui décrit « au mieux » la relation entre x et y il s’agit de la droite de régression observée, définie par sa pente et son ordonnée à l’origine E(y/x) =  + x y = a + bx

                     
            5.5 5 4.5 4 3.5 3 2.5 2 1.5       Taille des adypocytes ()     Glycémie (mmol/l) Ici : y = variable aléatoire x = variable dépendante, prédictive,explicative Il s’agit de la droite de régression de y sur x

Droite de régression de y sur x
E(y/x) =  + x x sert à prédire y E(y/x) = espérance de y pour un x donné  = ordonnée à l’origine c-à-d : y pour x = 0  = paramètre mesurant la pente de la droite de régression Estimation de la droite de régression y = a + bx Par la méthode des moindres carrés : minimise la somme des carrés des points à la droite

                      La droite minimise :
(yi – y’i)² =  [yi – (a + b xi)]² i i             5.5 5 4.5 4 3.5 3 2.5 2 1.5       Taille des adypocytes () Y’i     yi Glycémie (mmol/l)

Caractéristiques de la droite observée Do
passe par le centre de gravité G (mx, my) b est la pente de la droite (po)  (x – mx) (y – my) estimation de la cov(x,y)  (x – mx)² estimation de la var(x) a, valeur de y pour x = 0 a pour valeur : y = my – b mx Que signifie Do pour la relation entre x et y ? H0 : indépendance entre x et y  x, y a en moyenne la même valeur la pente  est nulle (covariance nulle) H1 : relation entre x et y la pente  s’écarte de 0 b =

Coefficient de régression linéaire r
La pente b (po) dépend des unités de x et de y pour dire si b s’éloigne ou non de zéro, on considère la pente en « unités réduites » : r = po / (sy/sx) = po x (sx / sy) r = (x – mx) (y – my) estimation de la cov(x,y)   (x – mx)². (y – my)²  var x . var y la valeur de r fluctue toujours entre -1 et +1 le signe du numérateur donne le sens de la relation : + : y augmente quand x augmente - : y diminue quand x augmente

Sous H0,  fluctue autour de 0 
- la droite Do donnant my en fonction de x fluctue autour de l’horizontale - le coefficient r qui exprime la pente po en coordonnées réduites fluctue autour de 0 La loi de probabilité précisant ces fluctuations est résumée par la table du coefficient de régression r qui donne pour (n-2) ddl l’intervalle de fluctuation (-r,+r) pour un risque  donné Si r sort de l’intervalle, on rejette H0 On peut aussi utiliser la table t après avoir calculé : r n-2 (1 – r2) t =

Conditions d’application du test
Distribution de y normale pou un x donné = distribution liée De variance constante x N (1,2y/x1) N (1,2y/x2) N (1,2y/x3) y 3 2 1 x1 x2 x3 x Le test est robuste, valide si « n est grand »

Limites de la régression linéaire
Les variables x et y peuvent être liées par une relation non linéaire. La recherche d’une relation par la droite des moindres carrés et le coefficient r ne permettra pas de rejeter H0 y … … . . … .. … … … … … y … … . .. … … … ….; …… …. …… … … x x b 0 mais dispersion des points (Var ++)  r < valeur seuil, non rejet H0 r = 0 on retient H0 Pourtant  <une relation entre x et y

Régression – corrélation (1)
Étudie la dépendance de y par rapport à x La distribution de x peut être contrôlée : Ex : étude d’une activité enzymatique y pour des doses croissantes d’une substance x À partir de la droite, on peut prédire y pour les doses de x comprises dans l’intervalle testé La régression x/y n’a pas de sens

Prédiction de y pour des valeurs de x dans [0 – 4] Y 40 30 20 10
0 0, x

Régression – corrélation (2)
Étudie l’interdépendance de x et de y X et Y sont aléatoires par nature et par distribution Chacune des droites y/x et x/y permet de prédire la valeur la plus probable d’une variable pour une valeur donnée de l’autre Le coefficient r = coefficient de corrélation de x et y . Est le même pour les 2 droites permet de tester l’indépendance de mesurer l’intensité de la liaison

b  b’ même coefficient r
y x = a’ + b’y y = a + bx x

Force de l’association entre X et Y
2 notions complémentaires r s’éloigne significativement de 0, rejet H0 Force de l’association représentée par la valeur de r : Entre 0,8 et 1 : force d’association importante Entre 0,5 et 0,8 : force d’association modérée Entre 0,2 et 0,5 : force d’association faible < 0,2 : force d’association très faible Précision de la prédiction

Régression -corrélation

Présentations similaires

Présentation au sujet: "Régression -corrélation"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Régression -corrélation

Présentations similaires

Présentation au sujet: "Régression -corrélation"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back