Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Régression -corrélation
FRT C3
2
Rappel sur les tests statistiques (1)
Recherche une relation entre 2 variables : Hypothèse nulle H0 : indépendance Hypothèse alternative H1: relation Fonction de la loi de distribution des variables : 2 variables qualitatives : H0 : p1=p2 ; H1 : p1p2 test du ² ou test de comparaison de 2 % 2 variables qualitatives : H0 : p1 = p2; H1 : p1 p2 1 var qualitative, 1 var quantitative (loi N) H0 : 1 = 2 ; H1 : 1 2 test de comparaison de moyennes
3
Rappel sur les tests statistiques (2)
Chaque sujet de la population étudiée est défini par une valeur de chacune des 2 variables 2 var qualitatives : Traitement A ou B et réponse succès ou échec 1 var qualit et 1 var quantit : somnifère A ou B et durée de sommeil en heures S’il s’agit de 2 variables quantitatives mesurées chez chaque sujet : la relation recherchée entre les 2 variables est celle d’une régression : Dose d’interferon et réduction de la charge virale Taille de la tumeur et survie après traitement
4
Régression – corrélation
Principe On étudie un échantillon de n sujets chez lesquels 2 variables x et y sont mesurées n couples de valeurs (x,y) nuage de points d’abscisse xi et ordonnée yi en supposant la relation linéaire, déterminer la droite qui décrit « au mieux » la relation entre x et y il s’agit de la droite de régression observée, définie par sa pente et son ordonnée à l’origine E(y/x) = + x y = a + bx
5
5.5 5 4.5 4 3.5 3 2.5 2 1.5 Taille des adypocytes () Glycémie (mmol/l) Ici : y = variable aléatoire x = variable dépendante, prédictive,explicative Il s’agit de la droite de régression de y sur x
6
Droite de régression de y sur x
E(y/x) = + x x sert à prédire y E(y/x) = espérance de y pour un x donné = ordonnée à l’origine c-à-d : y pour x = 0 = paramètre mesurant la pente de la droite de régression Estimation de la droite de régression y = a + bx Par la méthode des moindres carrés : minimise la somme des carrés des points à la droite
7
La droite minimise :
(yi – y’i)² = [yi – (a + b xi)]² i i 5.5 5 4.5 4 3.5 3 2.5 2 1.5 Taille des adypocytes () Y’i yi Glycémie (mmol/l)
8
Caractéristiques de la droite observée Do
passe par le centre de gravité G (mx, my) b est la pente de la droite (po) (x – mx) (y – my) estimation de la cov(x,y) (x – mx)² estimation de la var(x) a, valeur de y pour x = 0 a pour valeur : y = my – b mx Que signifie Do pour la relation entre x et y ? H0 : indépendance entre x et y x, y a en moyenne la même valeur la pente est nulle (covariance nulle) H1 : relation entre x et y la pente s’écarte de 0 b =
9
Coefficient de régression linéaire r
La pente b (po) dépend des unités de x et de y pour dire si b s’éloigne ou non de zéro, on considère la pente en « unités réduites » : r = po / (sy/sx) = po x (sx / sy) r = (x – mx) (y – my) estimation de la cov(x,y) (x – mx)². (y – my)² var x . var y la valeur de r fluctue toujours entre -1 et +1 le signe du numérateur donne le sens de la relation : + : y augmente quand x augmente - : y diminue quand x augmente
10
Sous H0, fluctue autour de 0
- la droite Do donnant my en fonction de x fluctue autour de l’horizontale - le coefficient r qui exprime la pente po en coordonnées réduites fluctue autour de 0 La loi de probabilité précisant ces fluctuations est résumée par la table du coefficient de régression r qui donne pour (n-2) ddl l’intervalle de fluctuation (-r,+r) pour un risque donné Si r sort de l’intervalle, on rejette H0 On peut aussi utiliser la table t après avoir calculé : r n-2 (1 – r2) t =
11
Conditions d’application du test
Distribution de y normale pou un x donné = distribution liée De variance constante x N (1,2y/x1) N (1,2y/x2) N (1,2y/x3) y 3 2 1 x1 x2 x3 x Le test est robuste, valide si « n est grand »
12
Limites de la régression linéaire
Les variables x et y peuvent être liées par une relation non linéaire. La recherche d’une relation par la droite des moindres carrés et le coefficient r ne permettra pas de rejeter H0 y … … . . … .. … … … … … y … … . .. … … … ….; …… …. …… … … x x b 0 mais dispersion des points (Var ++) r < valeur seuil, non rejet H0 r = 0 on retient H0 Pourtant <une relation entre x et y
13
Régression – corrélation (1)
Étudie la dépendance de y par rapport à x La distribution de x peut être contrôlée : Ex : étude d’une activité enzymatique y pour des doses croissantes d’une substance x À partir de la droite, on peut prédire y pour les doses de x comprises dans l’intervalle testé La régression x/y n’a pas de sens
14
Prédiction de y pour des valeurs de x dans [0 – 4] Y 40 30 20 10
0 0, x
15
Régression – corrélation (2)
Étudie l’interdépendance de x et de y X et Y sont aléatoires par nature et par distribution Chacune des droites y/x et x/y permet de prédire la valeur la plus probable d’une variable pour une valeur donnée de l’autre Le coefficient r = coefficient de corrélation de x et y . Est le même pour les 2 droites permet de tester l’indépendance de mesurer l’intensité de la liaison
16
b b’ même coefficient r
y x = a’ + b’y y = a + bx x
17
Force de l’association entre X et Y
2 notions complémentaires r s’éloigne significativement de 0, rejet H0 Force de l’association représentée par la valeur de r : Entre 0,8 et 1 : force d’association importante Entre 0,5 et 0,8 : force d’association modérée Entre 0,2 et 0,5 : force d’association faible < 0,2 : force d’association très faible Précision de la prédiction
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.