La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Cours de statistiques – ISBS - 2006 - Régression linéaire -

Présentations similaires


Présentation au sujet: "Cours de statistiques – ISBS - 2006 - Régression linéaire -"— Transcription de la présentation:

1 Cours de statistiques – ISBS Régression linéaire -

2 Définition et généralités Liaison entre 2 variables quantitatives Décrire au mieux la façon dont Y varie en fonction de X connaître la distribution de Y pour chaque valeur de X. Définition : La régression de Y en X est la fonction qui lie X et µ Y/x : E(Y/x) = µ Y/x = f(x)

3 Régression des valeurs moyennes des poids de naissance à terme fixé En général, on ne cherche pas la forme exacte de la fonction f(x) On se limite à quelques fonctions « simples » => Modélisation de la réalité Terme de naissance Moyenne du poids de naissance

4 Exemples de fonctions de f possibles Le choix de f est un compromis entre : une représentation adéquate des observations pour pouvoir prédire correctement Y en fonction de X : la courbe doit passer le plus près possible des moyennes µ Y/x. la possibilité dinterpréter les coefficients de la fonction f pour répondre à la question initiale : Y a-t-il un lien entre X et Y ?

5 Le plus souvent, on choisit pour f une fonction linéaire. f(x)= α+βx => On représente la liaison entre Y et X sous la forme dune droite. On va voir les problèmes suivants : Estimation : Comment estimer α et β à partir de données issues dun échantillon ? Test : La pente β de la droite de régression est–elle différente de 0 ?

6 Estimations de α et de β : méthode des moindres carrés Observations : n paires (x 1,y 1 ), ….., (x n,y n ) Exemple : X = Poids maternel Y = Poids de naissances N°YX YX YX

7 Représentation graphique des observations Nuage de points Poids maternel (kg) Poids de naissance (g) (x 29,y 29 )

8 Représentation graphique des observations Droites Poids maternel (kg) Poids de naissance (g) Droite 1 Droite 3 Droite 2

9 Droites des moindres carrés (1) Définition : la droite des moindres carrés est la droite qui permet de mieux prédire la valeur de Y quand on connaît X. Valeur observée de Y : y i Valeur prédite par la droite de régression ŷ = a + bx i Ecart : y i - ŷ Poids maternel (kg) Poids de naissance (g) Droite : Y = a + bX (x i,y i ) (x i,ŷ i ) (y i - ŷ i )

10 Poids maternel (kg) Poids de naissance (g) Droite : Y = a + bX (x i,y i ) (x i,ŷ i ) (y i - ŷ i ) Droites des moindres carrés (2) SCE = somme des carrés des écarts = Σ(y i – ŷ i ) 2 = Σ(y i - a – bx i ) 2 La droite des moindres carrés est celle pour laquelle SCE est minimun.

11 1 1 n Σx i y i - Σ(x i )Σ(y i ) n Calcul de a et b a et b doivent être telles que SCE = Σ(y i – ŷ i ) 2 = Σ(y i - a – bx i ) 2 soit minimum. Données : (x i,y i ) Inconnues : a et b On montre que les valeurs de a et b qui correspondent à SCE minimum sont : b = Σx i 2 - Σ(x i ) 2 a = - b = m y – b m x ΣyiΣyi n ΣxiΣxi n On trouve : a = 2006 et b = 23,8 (SCE = ) a et b sont appelés les estimations des moindres carrés des paramètres α et β de la droite de régression.

12 Expressions équivalentes de b 1 1 n Σx i y i - Σ(x i )Σ(y i ) n b = Σx i 2 - Σ(x i ) 2 Σ(x i –m x )(y i – m Y ) b = Σ(x i - m X ) 2 Σx i y i - n m X m Y b = (n-1)s x 2 ou

13 Test de la pente de la droite de régression (1) La droite de régression vraie correspond à : ŷ = α + βx Les hypothèses testées sont : Ho : β = 0 H 1 : β 0 (Ho correspond à labsence dassociation entre X et Y). Les observations faites sur un échantillon sont les couples de valeurs (x i, y i ) doù on en déduit les coefficients estimés a et b. Pour réaliser le test, il faut déterminer quelle est la valeur attendue de b si Ho est vraie. Pour cela, il faut que soient vérifiées certaines hypothèses sur les distributions de X et Y

14 Test de la pente de la droite de régression (2) Hypothèses nécessaires : la régression doit être linéaire, à X fixé, les valeurs de Y doivent être de distribution normale et de variance constante, cest-à-dire que : Pour X = x 1, Y a une distribution normale de moyenne ŷ 1 et de variance σ 2 Y/x 1 Pour X = x 2, Y a une distribution normale de moyenne ŷ 2 et de variance σ 2 Y/x 2...….. On suppose donc que : σ 2 Y/x 1 = σ 2 Y/x 2 = ……

15 Test de la pente de la droite de régression (3) Calcul de ce que devrait être b si Ho vraie si les hypothèses précédentes sont satisfaites (régression linéaire et distributions de Y à X fixé normales et de variance constante) b (pente observée) a une distribution normale de moyenne 0 et dont la variance est : s 2 b = = s 2 Y/X s 2 X (n-1) sYsY sXsX 2 - b 2 (n-2) Donc : T = = suit une loi de Student à (n – 2) ddl b - 0 s2bs2b b s2bs2b

16 Test de la pente de la droite de régression (4) Test : A partir des valeurs x i et y i, on calcule t o = b s2bs2b On compare la valeur obtenue à la valeur seuil dune loi de Student à n-2 ddl : t n-2;α/2

17 Exemple Poids maternel (kg) Poids de naissance (g) s 2 X = 108,52 s 2 Y = ,51 ŷ = ,80x s 2 b = = sYsY sXsX 2 - b 2 (n-2) ,51 108, , = 45,07

18 45,07 Exemple Poids maternel (kg) Poids de naissance (g) s 2 X = 108,52 s 2 Y = ,51 ŷ = ,80x t o = = 3,55 à 61 ddl (significatif) 23,80

19 Interprétation du test de la pente Ho : β = 0 Si Ho nest pas rejetée, cela signifie que la pente de la droite de régression ne sécarte pas significativement de lhorizontale Deux possibilités : pas de lien entre X et Y (figure 1) lien entre X et Y, mais la régression de X et Y nest pas linéaire et la droite des moindres carrés est horizontale (figure 2) Figure 1 Figure 2

20 Interprétation du test de la pente Ho : β = 0 Si Ho est rejetée, cela signifie que la pente de la droite de régression nest pas horizontale Deux possibilités : la liaison entre X et Y est linéaire avec une pente non nulle (figure 3) la liaison entre X et Y nest pas linéaire, mais sa composante linéaire » nest pas horizontale (figure 4) Quand le test est significatif, il y a toujours un lien entre X et Y (au risque derreur α près) Figure 3 Figure 4

21 Cours de statistiques – ISBS Corrélation linéaire -

22 var(X) var(Y) cov (X, Y) ρ = Le coefficient de corrélation : ρ Définition : cov(X, Y) = covariance entre X et Y = Σ (x i - µ X ) (y i - µ Y ) N Comme var (X) = var (Y) = Σ (x i - µ X ) 2 N Σ (y i - µ Y ) 2 N Σ (x i - µ X ) (y i - µ Y ) Σ (x i - µ X ) 2 Σ (y i - µ Y ) 2 ρ = ρ est symétrique entre X et Y

23 Σ (x i - µ X ) 2 /N Relation entre ρ et β (pente de la droite de régression) Σ (x i - µ X ) (y i - µ Y ) Σ (x i - µ X ) 2 Σ (y i - µ Y ) 2 ρ = Σ (x i - µ X ) (y i - µ Y ) Σ (x i - µ X ) 2 Σ (y i - µ Y ) 2 = Σ (x i - µ X ) 2 Σ (x i - µ X ) (y i - µ Y ) Σ (x i - µ X ) 2 Σ (y i - µ Y ) 2 /N = = β σx2σx2 σY2σY2

24 Propriétés du coefficient de corrélation (1) ρ = β σxσx σYσY ρ est lié à β par : ρ a le même signe que β p > 0 => Y augmente en moyenne lorsque X augmente ρ est inchangé si on change dunité et/ ou dorigine pour X et Y X => X = aX + b (a > 0) et/ou ρ = ρ Y => Y = cY + d (c > 0) Le coefficient de corrélation mesure lassociation entre X et Y indépendamment des unités choisies pour ces variables.

25 Propriétés du coefficient de corrélation (2) ρ est toujours compris entre -1 et +1 Ces bornes ne peuvent être atteintes que si Y = aX+b X et Y : variables indépendantes => ρ = 0 Attention, linverse nest pas vrai. Les trois premières propriétés du coefficient de corrélation sont valables aussi bien pour la valeur vraie ρ que pour lestimation r : - r a le même signe que b - r est inchangé si on change dunité et/ou dorigine pour X et Y - r est toujours compris entre -1 et +1 ρ mesure le force de lassociation entre X et Y : plus ρ est proche de +1 ou de -1, plus lassociation est forte.

26 Estimation du coefficient de corrélation var(X) var(Y) cov (X, Y) ρ = Estimation de Cov(X, Y) = Σ (x i - m X ) (y i - m Y ) n-1 Estimation de var (X) = Estimation de var (Y) = Σ (x i - m X ) 2 n-1 Σ (y i - m Y ) 2 n-1 Σ (x i - m X ) (y i - m Y ) Σ (x i - m X ) 2 Σ (y i - m Y ) 2 Estimation de ρ : r =

27 Σ (x i - m X ) (y i - m Y ) Σ (x i - m X ) 2 Σ (y i - m Y ) 2 Estimation de ρ : r = r = Σ x i y i - n m X m Y s X 2 s Y 2 n-1 r = b sXsX sYsY Autre façon décrire r :

28 Exemple Poids de naissance de 63 nouveau-nés, poids maternel et paternel N°PNPM=XPP+YN°PNPM=XPP+Y

29 Σxi = 3644 Σyi = 4729 Σxi 2 = Σyi 2 = Σxiyi = r = = 0, x 3644 ( )( )

30 Test de ρ Hypothèse nulle Ho : ρ = 0 Hypothèse alternative H 1 : ρ0 Si Ho est vraie, on montre que : t o = suit une loi de Student à (n-2) ddl Le test consiste à calculer t 0 et à le comparer à la valeur seuil de Student à (n-2) ddl Rejet de Ho si I t 0 I t n-2;α/2 Conditions dapplication : - régression entre X et Y linéaire - une des deux distributions conditionnelles est normale et de variance constante ( cest-à-dire distribution de Y à X fixé, ou de X à Y fixé). r n-2 1-r 2

31 Exemple Corrélation entre le poids maternel et le poids paternel : r = 0,26 ; n = 63 Ho : ρ = 0 H 1 : ρ 0 to = = 2,10 0, ,26 2 t 61;0,025 2,00 Rejet de Ho Le coefficient de corrélation entre le poids maternel et le poids paternel est différent de 0 Conditions dapplication : -La régression du poids maternel sur le poids paternel est linéaire - la distribution du poids paternel à poids maternel constant est normale et de variance constante (ou linverse)

32 Régression : Adaptée au cas où les variables X et Y jouent des rôles dissymétriques : on veut prédire Y en fonction de X exemple : Poids de naissance / poids maternel Corrélation : Adaptée au cas où les variables X et Y jouent des rôles symétriques : on cherche une relation dinterdépendance entre elles exemple : Poids paternel / poids maternel Cependant : - Il y a une forte parenté entre ρ et β : - les tests dhypothèses β = 0 et ρ = 0 sont identiques Régression et corrélation ρ = β σxσx σYσY

33 Régression et corrélation En pratique, les problèmes de régression et de corrélation peuvent être traités par les mêmes méthodes. La distinction entre régression et corrélation ne concerne que le contexte dans lequel le problème est posé.

34 Si la régression est linéaire, on montre que : r 2 = Doù Lorsque n est assez grand, on a (n-1) (n-2), doù : Coefficient de corrélation et force de lassociation entre X et Y s 2 Y - s2Ys2Y s 2 Y/X (n-2) (n-1) s 2 Y/X = s 2 Y (1-r 2 ) (n-1) (n-2) s 2 Y/X = s 2 Y (1-r 2 )

35 Coefficient de corrélation et force de lassociation entre X et Y s 2 Y/X = s 2 Y (1-r 2 ) Plus I r I (ou r 2 ) est grand (proche de 1), plus la variance de Y à X fixé (s 2 Y/X ) est petite. I r I = 1 s 2 Y/X = 0 Y est connu exactement quand on connaît la valeur de X La relation entre X et Y est parfaite Le coefficient de corrélation (plus exactement son carré) peut être interprété comme une mesure de la force de lassociation entre X et Y

36 Coefficient de corrélation et force de lassociation entre X et Y Exemple Le coefficient de corrélation entre le poids de naissance et le poids maternel : r 1 = 0,41 la part du poids de naissance expliquée par le poids maternel = 0,41 2 = 0,17 (17%) Le coefficient de corrélation entre le poids de naissance et le poids paternel : r 2 = 0,11 la part du poids de naissance expliquée par le poids maternel = 0,11 2 = 1% On peut donc dire que : lassociation entre le poids de naissance et le poids maternel et plus forte quentre le poids de naissance et le poids paternel.


Télécharger ppt "Cours de statistiques – ISBS - 2006 - Régression linéaire -"

Présentations similaires


Annonces Google