- Régression linéaire -

Slides:



Advertisements
Présentations similaires
Comparaison d’une moyenne observée à une moyenne théorique
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Les tests d’hypothèses (II)
Les tests d’hypothèses (I)
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Comparaison de plusieurs moyennes observées
Les TESTS STATISTIQUES
Régression ou corrélation
Tests de comparaison de pourcentages
Nombre de sujets nécessaires en recherche clinique
Les TESTS STATISTIQUES
Les Tests dhypothèses. 1)Définition Un test cest une méthode qui permet de prendre une décision à partir des résultats dun échantillon.
Échantillonnage-Estimation
Corrélations et ajustements linéaires.
Les tests d’hypothèses
Régression -corrélation
Corrélation linéaire et la droite de régression
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Tests de comparaison de moyennes
Chapitre 2 Les indices.
La Régression Multiple
Nombre de sujets nécessaires en recherche clinique
Régression linéaire simple
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
La corrélation et la régression
Le test t.
La corrélation et la régression
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Lien entre alpha et bêta
La régression multiple
Tests d’hypothèses.
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
Régression linéaire (STT-2400)
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Méthodes de Biostatistique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Lien entre deux variables
La régression simple Michel Tenenhaus
LA REGRESSION LINEAIRE
Présentation du marché obligataire
Probabilités et Statistiques Année 2010/2011
1 1 Licence Stat-info CM7 a 2004 V1Christophe Genolini Récapitulatif : Variables qualitatives Variables qualitatives : –on se demande si elles sont liées.
Gestion budgétaire des ventes
Rappels Variables nominales :
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
L’erreur standard et les principes fondamentaux du test de t
Méthode des moindres carrés (1)
Stat-infoCM6a : 1 Rappels.
ETUDE DE 2 VARIABLES QUANTITATIVES
1 1 Licence Stat-info CM6 a 2004 V1Christophe Genolini Rappels 1.Variables nominales : –Oui / Non –Bleu / Brun / Roux / Noir Pour déterminer s’il y a un.
Régression linéaire (STT-2400)
STATISTIQUES.
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Statistiques à 2 variables
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Transcription de la présentation:

- Régression linéaire - Cours de statistiques – ISBS - 2006

Définition et généralités Liaison entre 2 variables quantitatives Décrire au mieux la façon dont Y varie en fonction de X <=> connaître la distribution de Y pour chaque valeur de X. Définition : La régression de Y en X est la fonction qui lie X et µY/x : E(Y/x) = µY/x = f(x)

Régression des valeurs moyennes des poids de naissance à terme fixé 1000 2000 3000 4000 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 Terme de naissance Moyenne du poids de naissance En général, on ne cherche pas la forme exacte de la fonction f(x) On se limite à quelques fonctions « simples » => Modélisation de la réalité

Exemples de fonctions de f possibles Le choix de f est un compromis entre : une représentation adéquate des observations pour pouvoir prédire correctement Y en fonction de X : la courbe doit passer le plus près possible des moyennes µY/x. la possibilité d’interpréter les coefficients de la fonction f pour répondre à la question initiale : Y a-t-il un lien entre X et Y ?

Le plus souvent, on choisit pour f une fonction linéaire. f(x)= α+βx => On représente la liaison entre Y et X sous la forme d’une droite. On va voir les problèmes suivants : Estimation : Comment estimer α et β à partir de données issues d’un échantillon ? Test : La pente β de la droite de régression est–elle différente de 0 ?

Estimations de α et de β : méthode des moindres carrés Observations : n paires (x1,y1), ….., (xn,yn) Exemple : X = Poids maternel Y = Poids de naissances N° Y X N° Y X N° Y X 1 3850 83 22 3200 45 43 1250 40 2 4400 50 23 3400 50 44 3800 66 3 2950 70 24 3550 62 45 4450 68 4 3350 64 25 4200 92 46 3750 59 5 3550 50 26 3450 55 47 3150 65 6 3700 54 27 4200 70 48 3050 58 7 3550 47 28 4100 73 49 3450 55 8 3400 48 29 4300 55 50 3300 53 9 4350 67 30 2850 40 51 3150 51 10 3500 55 31 3300 60 52 4650 68 11 3100 63 32 3500 50 53 3650 48 12 3550 64 33 3400 55 54 3500 62 13 3500 71 34 2700 58 55 3150 70 14 3300 70 35 2750 46 56 3100 63 15 4350 66 36 3250 50 57 3300 60 16 1750 62 37 3300 60 58 2900 65 17 2400 40 38 3100 55 59 3050 54 18 2750 46 39 3650 62 60 3300 62 19 3600 47 40 4400 50 61 3400 70 20 2700 46 41 3300 55 62 3200 50 21 2700 47 42 3250 40 63 3100 64

Représentation graphique des observations Nuage de points 5000 (x29,y29) 4000 Poids de naissance (g) 3000 2000 1000 30 40 50 60 70 80 90 100 Poids maternel (kg)

Représentation graphique des observations Droites 5000 Droite 1 Droite 2 4000 Droite 3 Poids de naissance (g) 3000 2000 1000 30 40 50 60 70 80 90 100 Poids maternel (kg)

Droites des moindres carrés (1) Définition : la droite des moindres carrés est la droite qui permet de mieux prédire la valeur de Y quand on connaît X. Valeur observée de Y : yi Valeur prédite par la droite de régression ŷ = a + bxi Ecart : yi - ŷ 1000 2000 3000 4000 5000 30 40 50 60 70 80 90 100 Poids maternel (kg) Poids de naissance (g) Droite : Y = a + bX (xi,yi) (xi,ŷi) (yi - ŷi)

Droites des moindres carrés (2) 1000 2000 3000 4000 5000 30 40 50 60 70 80 90 100 Poids maternel (kg) Poids de naissance (g) Droite : Y = a + bX (xi,yi) (xi,ŷi) (yi - ŷi) SCE = somme des carrés des écarts = Σ(yi – ŷi)2 = Σ(yi - a – bxi)2 La droite des moindres carrés est celle pour laquelle SCE est minimun.

Calcul de a et b Données : (xi,yi) Inconnues : a et b a et b doivent être telles que SCE = Σ(yi – ŷi)2 = Σ(yi - a – bxi)2 soit minimum. On montre que les valeurs de a et b qui correspondent à SCE minimum sont : 1 Σxiyi - Σ(xi)Σ(yi) n b = a et b sont appelés les estimations des moindres carrés des paramètres α et β de la droite de régression. 1 Σxi2 - Σ(xi)2 n Σyi n Σxi n a = - b = my – b mx On trouve : a = 2006 et b = 23,8 (SCE = 18500067)

Expressions équivalentes de b 1 Σxiyi - Σ(xi)Σ(yi) n b = 1 Σxi2 - Σ(xi)2 n Σ(xi –mx)(yi – mY) b = Σ(xi - mX)2 Σxiyi - n mXmY b = (n-1)sx2 ou

Test de la pente de la droite de régression (1) La droite de régression vraie correspond à : ŷ = α + βx Les hypothèses testées sont : Ho : β = 0 H1 : β ≠ 0 (Ho correspond à l’absence d’association entre X et Y). Les observations faites sur un échantillon sont les couples de valeurs (xi, yi) d’où on en déduit les coefficients estimés a et b. Pour réaliser le test, il faut déterminer quelle est la valeur attendue de b si Ho est vraie. Pour cela, il faut que soient vérifiées certaines hypothèses sur les distributions de X et Y

Test de la pente de la droite de régression (2) Hypothèses nécessaires : la régression doit être linéaire, à X fixé, les valeurs de Y doivent être de distribution normale et de variance constante, c’est-à-dire que : Pour X = x1, Y a une distribution normale de moyenne ŷ1 et de variance σ2Y/x1 Pour X = x2, Y a une distribution normale de moyenne ŷ2 et de variance σ2Y/x2 ...….. On suppose donc que : σ2Y/x1 = σ2Y/x2 = ……

Test de la pente de la droite de régression (3) Calcul de ce que devrait être b si Ho vraie si les hypothèses précédentes sont satisfaites (régression linéaire et distributions de Y à X fixé normales et de variance constante) b (pente observée) a une distribution normale de moyenne 0 et dont la variance est : s2b = = s2Y/X s2X (n-1) sY sX 2 - b2 (n-2) b - 0 b Donc : T = = suit une loi de Student à (n – 2) ddl s2b s2b

Test de la pente de la droite de régression (4) A partir des valeurs xi et yi, on calcule to = b s2b On compare la valeur obtenue à la valeur seuil d’une loi de Student à n-2 ddl : tn-2;α/2

Exemple 1000 2000 3000 4000 5000 30 40 50 60 70 80 90 100 Poids maternel (kg) Poids de naissance (g) s2X = 108,52 s2Y = 359851,51 ŷ = 2006 + 23,80x s2b = = sY sX 2 - b2 (n-2) 359851,51 108,52 - 23,802 61 = 45,07

Exemple 1000 2000 3000 4000 5000 30 40 50 60 70 80 90 100 Poids maternel (kg) Poids de naissance (g) s2X = 108,52 s2Y = 359851,51 ŷ = 2006 + 23,80x 23,80 to = = 3,55 à 61 ddl (significatif) 45,07

Interprétation du test de la pente Ho : β = 0 Si Ho n’est pas rejetée, cela signifie que la pente de la droite de régression ne s’écarte pas significativement de l’horizontale Deux possibilités : pas de lien entre X et Y (figure 1) lien entre X et Y, mais la régression de X et Y n’est pas linéaire et la droite des moindres carrés est horizontale (figure 2) Figure 1 Figure 2

Quand le test est significatif, il y a toujours un lien entre X et Y Interprétation du test de la pente Ho : β = 0 Si Ho est rejetée, cela signifie que la pente de la droite de régression n’est pas horizontale Deux possibilités : la liaison entre X et Y est linéaire avec une pente non nulle (figure 3) la liaison entre X et Y n’est pas linéaire, mais sa composante linéaire » n’est pas horizontale (figure 4) Figure 3 Figure 4 Quand le test est significatif, il y a toujours un lien entre X et Y (au risque d’erreur α près)

- Corrélation linéaire - Cours de statistiques – ISBS - 2006

ρ est symétrique entre X et Y Le coefficient de corrélation : ρ cov (X, Y) ρ = var(X) var(Y) Définition : cov(X, Y) = covariance entre X et Y = Σ (xi - µX) (yi - µY) N Σ (xi - µX)2 Comme var (X) = var (Y) = N Σ (yi - µY)2 N Σ (xi - µX) (yi - µY) ρ = Σ (xi - µX)2 Σ (yi - µY)2 ρ est symétrique entre X et Y

Relation entre ρ et β (pente de la droite de régression) Σ (xi - µX) (yi - µY) ρ = Σ (xi - µX)2 Σ (yi - µY)2 Σ (xi - µX) (yi - µY) Σ (xi - µX) 2 = Σ (xi - µX)2 Σ (yi - µY) 2 Σ (xi - µX) (yi - µY) Σ (xi - µX) 2/N = Σ (xi - µX)2 Σ (yi - µY) 2 /N = β σx2 σY2

Propriétés du coefficient de corrélation (1) ρ = β σx σY ρ est lié à β par : ρ a le même signe que β p > 0 => Y augmente en moyenne lorsque X augmente ρ est inchangé si on change d’unité et/ ou d’origine pour X et Y X => X’ = aX + b (a > 0) et/ou ρ’ = ρ Y => Y’ = cY + d (c > 0) Le coefficient de corrélation mesure l’association entre X et Y indépendamment des unités choisies pour ces variables.

Propriétés du coefficient de corrélation (2) ρ est toujours compris entre -1 et +1 Ces bornes ne peuvent être atteintes que si Y = aX+b X et Y : variables indépendantes => ρ = 0 Attention, l’inverse n’est pas vrai. Les trois premières propriétés du coefficient de corrélation sont valables aussi bien pour la valeur vraie ρ que pour l’estimation r : - r a le même signe que b - r est inchangé si on change d’unité et/ou d’origine pour X et Y - r est toujours compris entre -1 et +1 ρ mesure le force de l’association entre X et Y : plus ρ est proche de +1 ou de -1, plus l’association est forte.

Estimation du coefficient de corrélation cov (X, Y) ρ = var(X) var(Y) Σ (xi - mX)2 Estimation de var (X) = Estimation de var (Y) = n-1 Σ (yi - mY)2 n-1 Estimation de Cov(X, Y) = Σ (xi - mX) (yi - mY) n-1 Σ (xi - mX) (yi - mY) Estimation de ρ : r = Σ (xi - mX)2 Σ (yi - mY)2

Σ (xi - mX) (yi - mY) Estimation de ρ : r = Σ (xi - mX)2 Σ (yi - mY)2 Autre façon d’écrire r : Σ xi yi - n mX mY sX r = r = b sY n-1 sX2 sY2

Exemple Poids de naissance de 63 nouveau-nés, poids maternel et paternel N° PN PM=X PP+Y 1 3850 83 100 33 3400 55 75 2 4400 50 34 2700 58 3 2950 70 120 35 2750 46 4 3350 64 85 36 3250 5 3550 72 37 3300 60 6 3700 54 38 3100 7 47 80 39 3650 62 86 8 48 78 40 9 4350 67 41 10 3500 42 11 63 68 43 1250 51 12 44 3800 66 61 13 71 45 4450 14 95 3750 59 76 15 3150 65 16 1750 3050 90 17 2400 49 3450 18 53 19 3600 20 52 4650 21 22 3200 69 23 104 24 82 56 25 4200 92 57 26 2900 27 28 4100 73 29 4300 30 2850 31 77 32

Σxi = 3644 Σyi = 4729 Σxi2 = 217502 Σyi2 = 363527 Σxiyi = 275480 r = = 0,26 1 275480 - 4729 x 3644 63 1 1 (217502 - 36442) (363527 - 47292) 63 63

Test de ρ Hypothèse nulle Ho : ρ = 0 Hypothèse alternative H1 : ρ≠0 Si Ho est vraie, on montre que : to = suit une loi de Student à (n-2) ddl Le test consiste à calculer t0 et à le comparer à la valeur seuil de Student à (n-2) ddl Rejet de Ho si It0I≥ tn-2;α/2 Conditions d’application : - régression entre X et Y linéaire - une des deux distributions conditionnelles est normale et de variance constante ( c’est-à-dire distribution de Y à X fixé, ou de X à Y fixé). r n-2 1-r2

Exemple Corrélation entre le poids maternel et le poids paternel : r = 0,26 ; n = 63 Ho : ρ = 0 H1 : ρ  0 to = = 2,10 0,26 61 1-0,262 t61;0,025  2,00 Rejet de Ho Le coefficient de corrélation entre le poids maternel et le poids paternel est différent de 0 Conditions d’application : La régression du poids maternel sur le poids paternel est linéaire la distribution du poids paternel à poids maternel constant est normale et de variance constante (ou l’inverse)

Régression et corrélation Adaptée au cas où les variables X et Y jouent des rôles dissymétriques : on veut prédire Y en fonction de X exemple : Poids de naissance / poids maternel Corrélation : Adaptée au cas où les variables X et Y jouent des rôles symétriques : on cherche une relation d’interdépendance entre elles exemple : Poids paternel / poids maternel Cependant : - Il y a une forte parenté entre ρ et β : - les tests d’hypothèses β = 0 et ρ = 0 sont identiques ρ = β σx σY

Régression et corrélation En pratique, les problèmes de régression et de corrélation peuvent être traités par les mêmes méthodes. La distinction entre régression et corrélation ne concerne que le contexte dans lequel le problème est posé.

Coefficient de corrélation et force de l’association entre X et Y Si la régression est linéaire, on montre que : r2 = D’où Lorsque n est assez grand, on a (n-1)  (n-2), d’où : (n-2) (n-1) s2Y - s2Y/X s2Y (n-1) (n-2) s2Y/X = s2Y (1-r2) s2Y/X = s2Y (1-r2)

Coefficient de corrélation et force de l’association entre X et Y s2Y/X = s2Y (1-r2) Plus IrI (ou r2) est grand (proche de 1), plus la variance de Y à X fixé (s2Y/X) est petite. IrI = 1 s2Y/X = 0 Y est connu exactement quand on connaît la valeur de X La relation entre X et Y est parfaite Le coefficient de corrélation (plus exactement son carré) peut être interprété comme une mesure de la force de l’association entre X et Y

Coefficient de corrélation et force de l’association entre X et Y Exemple Le coefficient de corrélation entre le poids de naissance et le poids maternel : r1 = 0,41 la part du poids de naissance expliquée par le poids maternel = 0,412 = 0,17 (17%) Le coefficient de corrélation entre le poids de naissance et le poids paternel : r2 = 0,11 la part du poids de naissance expliquée par le poids maternel = 0,112 = 1% On peut donc dire que : l’association entre le poids de naissance et le poids maternel et plus forte qu’entre le poids de naissance et le poids paternel.