La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Cours de statistiques – ISBS - 2006 - Régression linéaire -

Présentations similaires


Présentation au sujet: "Cours de statistiques – ISBS - 2006 - Régression linéaire -"— Transcription de la présentation:

1 Cours de statistiques – ISBS - 2006 - Régression linéaire -

2 Définition et généralités Liaison entre 2 variables quantitatives Décrire au mieux la façon dont Y varie en fonction de X connaître la distribution de Y pour chaque valeur de X. Définition : La régression de Y en X est la fonction qui lie X et µ Y/x : E(Y/x) = µ Y/x = f(x)

3 Régression des valeurs moyennes des poids de naissance à terme fixé En général, on ne cherche pas la forme exacte de la fonction f(x) On se limite à quelques fonctions « simples » => Modélisation de la réalité 0 1000 2000 3000 4000 2728293031323334353637383940414243 Terme de naissance Moyenne du poids de naissance

4 Exemples de fonctions de f possibles Le choix de f est un compromis entre : une représentation adéquate des observations pour pouvoir prédire correctement Y en fonction de X : la courbe doit passer le plus près possible des moyennes µ Y/x. la possibilité dinterpréter les coefficients de la fonction f pour répondre à la question initiale : Y a-t-il un lien entre X et Y ?

5 Le plus souvent, on choisit pour f une fonction linéaire. f(x)= α+βx => On représente la liaison entre Y et X sous la forme dune droite. On va voir les problèmes suivants : Estimation : Comment estimer α et β à partir de données issues dun échantillon ? Test : La pente β de la droite de régression est–elle différente de 0 ?

6 Estimations de α et de β : méthode des moindres carrés Observations : n paires (x 1,y 1 ), ….., (x n,y n ) Exemple : X = Poids maternel Y = Poids de naissances N°YX YX YX 13850832232004543125040 24400502334005044380066 32950702435506245445068 43350642542009246375059 53550502634505547315065 63700542742007048305058 73550472841007349345055 83400482943005550330053 94350673028504051315051 103500553133006052465068 113100633235005053365048 123550643334005554350062 133500713427005855315070 143300703527504656310063 154350663632505057330060 161750623733006058290065 172400403831005559305054 182750463936506260330062 193600474044005061340070 202700464133005562320050 212700474232504063310064

7 Représentation graphique des observations Nuage de points 1000 2000 3000 4000 5000 30405060708090100 Poids maternel (kg) Poids de naissance (g) (x 29,y 29 )

8 Représentation graphique des observations Droites 1000 2000 3000 4000 5000 30405060708090100 Poids maternel (kg) Poids de naissance (g) Droite 1 Droite 3 Droite 2

9 Droites des moindres carrés (1) Définition : la droite des moindres carrés est la droite qui permet de mieux prédire la valeur de Y quand on connaît X. Valeur observée de Y : y i Valeur prédite par la droite de régression ŷ = a + bx i Ecart : y i - ŷ 1000 2000 3000 4000 5000 30405060708090100 Poids maternel (kg) Poids de naissance (g) Droite : Y = a + bX (x i,y i ) (x i,ŷ i ) (y i - ŷ i )

10 1000 2000 3000 4000 5000 30405060708090100 Poids maternel (kg) Poids de naissance (g) Droite : Y = a + bX (x i,y i ) (x i,ŷ i ) (y i - ŷ i ) Droites des moindres carrés (2) SCE = somme des carrés des écarts = Σ(y i – ŷ i ) 2 = Σ(y i - a – bx i ) 2 La droite des moindres carrés est celle pour laquelle SCE est minimun.

11 1 1 n Σx i y i - Σ(x i )Σ(y i ) n Calcul de a et b a et b doivent être telles que SCE = Σ(y i – ŷ i ) 2 = Σ(y i - a – bx i ) 2 soit minimum. Données : (x i,y i ) Inconnues : a et b On montre que les valeurs de a et b qui correspondent à SCE minimum sont : b = Σx i 2 - Σ(x i ) 2 a = - b = m y – b m x ΣyiΣyi n ΣxiΣxi n On trouve : a = 2006 et b = 23,8 (SCE = 18500067) a et b sont appelés les estimations des moindres carrés des paramètres α et β de la droite de régression.

12 Expressions équivalentes de b 1 1 n Σx i y i - Σ(x i )Σ(y i ) n b = Σx i 2 - Σ(x i ) 2 Σ(x i –m x )(y i – m Y ) b = Σ(x i - m X ) 2 Σx i y i - n m X m Y b = (n-1)s x 2 ou

13 Test de la pente de la droite de régression (1) La droite de régression vraie correspond à : ŷ = α + βx Les hypothèses testées sont : Ho : β = 0 H 1 : β 0 (Ho correspond à labsence dassociation entre X et Y). Les observations faites sur un échantillon sont les couples de valeurs (x i, y i ) doù on en déduit les coefficients estimés a et b. Pour réaliser le test, il faut déterminer quelle est la valeur attendue de b si Ho est vraie. Pour cela, il faut que soient vérifiées certaines hypothèses sur les distributions de X et Y

14 Test de la pente de la droite de régression (2) Hypothèses nécessaires : la régression doit être linéaire, à X fixé, les valeurs de Y doivent être de distribution normale et de variance constante, cest-à-dire que : Pour X = x 1, Y a une distribution normale de moyenne ŷ 1 et de variance σ 2 Y/x 1 Pour X = x 2, Y a une distribution normale de moyenne ŷ 2 et de variance σ 2 Y/x 2...….. On suppose donc que : σ 2 Y/x 1 = σ 2 Y/x 2 = ……

15 Test de la pente de la droite de régression (3) Calcul de ce que devrait être b si Ho vraie si les hypothèses précédentes sont satisfaites (régression linéaire et distributions de Y à X fixé normales et de variance constante) b (pente observée) a une distribution normale de moyenne 0 et dont la variance est : s 2 b = = s 2 Y/X s 2 X (n-1) sYsY sXsX 2 - b 2 (n-2) Donc : T = = suit une loi de Student à (n – 2) ddl b - 0 s2bs2b b s2bs2b

16 Test de la pente de la droite de régression (4) Test : A partir des valeurs x i et y i, on calcule t o = b s2bs2b On compare la valeur obtenue à la valeur seuil dune loi de Student à n-2 ddl : t n-2;α/2

17 Exemple 1000 2000 3000 4000 5000 30405060708090100 Poids maternel (kg) Poids de naissance (g) s 2 X = 108,52 s 2 Y = 359851,51 ŷ = 2006 + 23,80x s 2 b = = sYsY sXsX 2 - b 2 (n-2) 359851,51 108,52 - 23,80 2 61 = 45,07

18 45,07 Exemple 1000 2000 3000 4000 5000 30405060708090100 Poids maternel (kg) Poids de naissance (g) s 2 X = 108,52 s 2 Y = 359851,51 ŷ = 2006 + 23,80x t o = = 3,55 à 61 ddl (significatif) 23,80

19 Interprétation du test de la pente Ho : β = 0 Si Ho nest pas rejetée, cela signifie que la pente de la droite de régression ne sécarte pas significativement de lhorizontale Deux possibilités : pas de lien entre X et Y (figure 1) lien entre X et Y, mais la régression de X et Y nest pas linéaire et la droite des moindres carrés est horizontale (figure 2) Figure 1 Figure 2

20 Interprétation du test de la pente Ho : β = 0 Si Ho est rejetée, cela signifie que la pente de la droite de régression nest pas horizontale Deux possibilités : la liaison entre X et Y est linéaire avec une pente non nulle (figure 3) la liaison entre X et Y nest pas linéaire, mais sa composante linéaire » nest pas horizontale (figure 4) Quand le test est significatif, il y a toujours un lien entre X et Y (au risque derreur α près) Figure 3 Figure 4

21 Cours de statistiques – ISBS - 2006 - Corrélation linéaire -

22 var(X) var(Y) cov (X, Y) ρ = Le coefficient de corrélation : ρ Définition : cov(X, Y) = covariance entre X et Y = Σ (x i - µ X ) (y i - µ Y ) N Comme var (X) = var (Y) = Σ (x i - µ X ) 2 N Σ (y i - µ Y ) 2 N Σ (x i - µ X ) (y i - µ Y ) Σ (x i - µ X ) 2 Σ (y i - µ Y ) 2 ρ = ρ est symétrique entre X et Y

23 Σ (x i - µ X ) 2 /N Relation entre ρ et β (pente de la droite de régression) Σ (x i - µ X ) (y i - µ Y ) Σ (x i - µ X ) 2 Σ (y i - µ Y ) 2 ρ = Σ (x i - µ X ) (y i - µ Y ) Σ (x i - µ X ) 2 Σ (y i - µ Y ) 2 = Σ (x i - µ X ) 2 Σ (x i - µ X ) (y i - µ Y ) Σ (x i - µ X ) 2 Σ (y i - µ Y ) 2 /N = = β σx2σx2 σY2σY2

24 Propriétés du coefficient de corrélation (1) ρ = β σxσx σYσY ρ est lié à β par : ρ a le même signe que β p > 0 => Y augmente en moyenne lorsque X augmente ρ est inchangé si on change dunité et/ ou dorigine pour X et Y X => X = aX + b (a > 0) et/ou ρ = ρ Y => Y = cY + d (c > 0) Le coefficient de corrélation mesure lassociation entre X et Y indépendamment des unités choisies pour ces variables.

25 Propriétés du coefficient de corrélation (2) ρ est toujours compris entre -1 et +1 Ces bornes ne peuvent être atteintes que si Y = aX+b X et Y : variables indépendantes => ρ = 0 Attention, linverse nest pas vrai. Les trois premières propriétés du coefficient de corrélation sont valables aussi bien pour la valeur vraie ρ que pour lestimation r : - r a le même signe que b - r est inchangé si on change dunité et/ou dorigine pour X et Y - r est toujours compris entre -1 et +1 ρ mesure le force de lassociation entre X et Y : plus ρ est proche de +1 ou de -1, plus lassociation est forte.

26 Estimation du coefficient de corrélation var(X) var(Y) cov (X, Y) ρ = Estimation de Cov(X, Y) = Σ (x i - m X ) (y i - m Y ) n-1 Estimation de var (X) = Estimation de var (Y) = Σ (x i - m X ) 2 n-1 Σ (y i - m Y ) 2 n-1 Σ (x i - m X ) (y i - m Y ) Σ (x i - m X ) 2 Σ (y i - m Y ) 2 Estimation de ρ : r =

27 Σ (x i - m X ) (y i - m Y ) Σ (x i - m X ) 2 Σ (y i - m Y ) 2 Estimation de ρ : r = r = Σ x i y i - n m X m Y s X 2 s Y 2 n-1 r = b sXsX sYsY Autre façon décrire r :

28 Exemple Poids de naissance de 63 nouveau-nés, poids maternel et paternel N°PNPM=XPP+YN°PNPM=XPP+Y 13850831003334005575 24400501003427005875 32950701203527504675 4335064853632505083 5355050723733006070 6370054643831005575 7355047803936506286 8340048784044005075 9435067834133005578 10350055854232504075 11310063684312504051 12355064 4438006661 13350071724544506867 14330070954637505976 15435066804731506568 16175062704830505890 17240040764934505570 18275046725033005362 19360047805131505166 20270046655246506867 21270047785336504862 22320045695435006272 233400506755315070104 24355062825631006390 25420092765733006075 26345055675829006582 27420070645930505469 28410073656033006269 29430055736134007060 30285040636232005069 31330060776331006462 3235005080

29 Σxi = 3644 Σyi = 4729 Σxi 2 = 217502 Σyi 2 = 363527 Σxiyi = 275480 r = = 0,26 275480 - 1 63 4729 x 3644 (217502 - 1 63 3644 2 )(363527 - 1 63 4729 2 )

30 Test de ρ Hypothèse nulle Ho : ρ = 0 Hypothèse alternative H 1 : ρ0 Si Ho est vraie, on montre que : t o = suit une loi de Student à (n-2) ddl Le test consiste à calculer t 0 et à le comparer à la valeur seuil de Student à (n-2) ddl Rejet de Ho si I t 0 I t n-2;α/2 Conditions dapplication : - régression entre X et Y linéaire - une des deux distributions conditionnelles est normale et de variance constante ( cest-à-dire distribution de Y à X fixé, ou de X à Y fixé). r n-2 1-r 2

31 Exemple Corrélation entre le poids maternel et le poids paternel : r = 0,26 ; n = 63 Ho : ρ = 0 H 1 : ρ 0 to = = 2,10 0,26 61 1-0,26 2 t 61;0,025 2,00 Rejet de Ho Le coefficient de corrélation entre le poids maternel et le poids paternel est différent de 0 Conditions dapplication : -La régression du poids maternel sur le poids paternel est linéaire - la distribution du poids paternel à poids maternel constant est normale et de variance constante (ou linverse)

32 Régression : Adaptée au cas où les variables X et Y jouent des rôles dissymétriques : on veut prédire Y en fonction de X exemple : Poids de naissance / poids maternel Corrélation : Adaptée au cas où les variables X et Y jouent des rôles symétriques : on cherche une relation dinterdépendance entre elles exemple : Poids paternel / poids maternel Cependant : - Il y a une forte parenté entre ρ et β : - les tests dhypothèses β = 0 et ρ = 0 sont identiques Régression et corrélation ρ = β σxσx σYσY

33 Régression et corrélation En pratique, les problèmes de régression et de corrélation peuvent être traités par les mêmes méthodes. La distinction entre régression et corrélation ne concerne que le contexte dans lequel le problème est posé.

34 Si la régression est linéaire, on montre que : r 2 = Doù Lorsque n est assez grand, on a (n-1) (n-2), doù : Coefficient de corrélation et force de lassociation entre X et Y s 2 Y - s2Ys2Y s 2 Y/X (n-2) (n-1) s 2 Y/X = s 2 Y (1-r 2 ) (n-1) (n-2) s 2 Y/X = s 2 Y (1-r 2 )

35 Coefficient de corrélation et force de lassociation entre X et Y s 2 Y/X = s 2 Y (1-r 2 ) Plus I r I (ou r 2 ) est grand (proche de 1), plus la variance de Y à X fixé (s 2 Y/X ) est petite. I r I = 1 s 2 Y/X = 0 Y est connu exactement quand on connaît la valeur de X La relation entre X et Y est parfaite Le coefficient de corrélation (plus exactement son carré) peut être interprété comme une mesure de la force de lassociation entre X et Y

36 Coefficient de corrélation et force de lassociation entre X et Y Exemple Le coefficient de corrélation entre le poids de naissance et le poids maternel : r 1 = 0,41 la part du poids de naissance expliquée par le poids maternel = 0,41 2 = 0,17 (17%) Le coefficient de corrélation entre le poids de naissance et le poids paternel : r 2 = 0,11 la part du poids de naissance expliquée par le poids maternel = 0,11 2 = 1% On peut donc dire que : lassociation entre le poids de naissance et le poids maternel et plus forte quentre le poids de naissance et le poids paternel.


Télécharger ppt "Cours de statistiques – ISBS - 2006 - Régression linéaire -"

Présentations similaires


Annonces Google