Régression linéaire (STT-2400)

Slides:



Advertisements
Présentations similaires
Approche graphique du nombre dérivé
Advertisements

ECONOMIE INTERNATIONALE Cécile COUHARDE
Initiation à l’utilisation du logiciel STATISTICA
3. Variantes de l’algorithme
2. Méthodes du simplexe et son analyse.
Classification et prédiction
Inférence statistique
1. Les caractéristiques de dispersion. 11. Utilité.
LE SURPLUS DU CONSOMMATEUR
Laboratoire Inter-universitaire de Psychologie Cours 6
Chapitre VII :Commande par retour d’état
Régression linéaire (STT-2400) Section 3 Tests dhypothèses et lhypothèse linéaire générale Version: 26 janvier 2007.
Christelle Scharff IFI 2004
Chapitre V : Cinétique chimique
Le modèle de croissance de Solow
Paul-Marie Bernard Université Laval
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Méthode des k plus proches voisins
Régression linéaire simple
Échantillonnage (STT-2000)
Équations Différentielles
Régression linéaire (STT-2400)
Méthodes de prévision (STT-3220)
Méthodes de prévision (STT-3220) Section 4 Concepts fondamentaux de séries chronologiques Version: 8 novembre 2004.
Méthodes de prévision (STT-3220)
Introduction à léconométrie Mario Fortin Université de Sherbrooke Hiver 2009.
Modeles Lineaires.
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Gestion de Portefeuille.
LE CHOIX DU CONSOMMATEUR ET LA DEMANDE… (suite)
LE CHOIX EN CONTEXTE D’INCERTITUDE
LE CHOIX DU CONSOMMATEUR ET LA DEMANDE
Les Arbres de décision ou régression
Régression linéaire (STT-2400)
Résoudre une équation du 1er degré à une inconnue
MATHÉMATIQUES FINANCIÈRES I
Questions des 4 carrés Prêts ? B A Regardez bien ce diagramme
Théorie de l’échantillonnage (STT-6005)
STT-3220 Méthodes de prévision
Régression linéaire (STT-2400)
La régression multiple
Méthodes de prévision (STT-3220)
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
Régression linéaire (STT-2400)
Méthodes de prévision (STT-3220)
Échantillonnage (STT-2000) Section 2 Tirage de Bernoulli (plan BE). Version: 4 septembre 2003.
Chapitre 5 Prévisions.
l’algorithme du simplexe
Régression linéaire (STT-2400)
STT-3220 Méthodes de prévision
Mesures dans le temps Claude Marois 2012.
MATHÉMATIQUES FINANCIÈRES I
Présentation de la méthode des Eléments Finis
STT-3220 Méthodes de prévision
Présentation du marché obligataire
Outils d’analyse: la méthode des moindres carrées
Rappels Variables nominales :
MATHÉMATIQUES FINANCIÈRES I
02/10/07 MATHÉMATIQUES FINANCIÈRES I Neuvième cours.
2. Méthode du simplexe et son analyse.
MATHÉMATIQUES FINANCIÈRES I
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Régression linéaire (STT-2400)
STT-3220 Méthodes de prévision Section 1 Évaluation des prévisions: Coefficient de Theil Version: 9 septembre 2004.
Méthodes de prévision (STT-3220)
Régression linéaire (STT-2400) Section 5 Transformations Version: 9 février 2007.
Corrélation et causalité
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
STT-3220; Méthodes de prévision 1 Exemple: Test d’une dépendance d’ordre un Supposons que l’on a observé une série chronologique de taille n = 100. La.
Transcription de la présentation:

Régression linéaire (STT-2400) Section 3 Interprétation des paramètres, paramétrisation et problèmes de surparamétrisation Version: 21 janvier 2007

Interprétation des paramètres Exemple des données sur l’essence: On a déjà vu que la fonction moyenne ajustée était: On a vu que chaque coefficient avait pour interprétation « l’augmentation dans la réponse moyenne lorsque le préviseur associé augmente de une unité, gardant tous les autres préviseurs fixés ». STT-2400; Régression linéaire

Système d’unité des paramètres On note que puisque la variable « Fuel » est exprimé en gallons, alors l’ordonnée à l’origine 154.19 est exprimé en gallons. Puisque la variable « Income » est en milliers de dollars, alors coefficient -6.14 est en gallons/(milliers de dollars de revenu). De même, « Tax » est en sous, donc -4.23 est en gallons/(sous de la variable taxe): augmenter la variable « Tax » de un sous devrait faire décroître la consommation d’essence, tous les autres préviseurs étant gardés fixés, de 4.23 gallons par personne. STT-2400; Régression linéaire

Observation versus expérimentation Il faut cependant demeurer prudent avec l’interprétation usuelle des coefficients de régression. Deux grandes situations peuvent survenir en pratique concernant les préviseurs: Les valeurs prises par les préviseurs sont contrôlées par le statisticien: on parle alors d’expérimentation. Les valeurs prises par les préviseurs sont observées par le statisticien, comme en fait l’est la variable réponse. STT-2400; Régression linéaire

Données sur l’essence: les préviseurs étaient en fait observés Puisque les valeurs prises par les préviseurs n’étaient pas sous le contrôle du statisticien, les préviseurs étaient observés. Nous ne sommes donc pas assuré que l’on peut augmenter un préviseur d’une unité tout en gardant les autres fixés puisqu’il n’y a pas de garantie que les données s’appliquent lorsque le préviseur est ainsi changé. On dira que l’on peut étudier des associations entre les variables, mais pas la causalité. STT-2400; Régression linéaire

STT-2400; Régression linéaire Données sur l’essence Ainsi, il serait plus approprié de dire qu’un changement de une unité de la variable « log(Miles) » est associé avec une augmentation de 18.55 gallons par personne en consommation d’essence. Un intérêt du log en base 2 (comme ici): si la variable « Miles » double, alors la consommation d’essence augmente de 18.55 gallons par personne. Puisque log2(x) = log10(x) / log10(2), réexprimer en base 10 la variable « log(Miles) » donnerait: STT-2400; Régression linéaire

Échelle logarithmique pour un préviseur Considérons la fonction moyenne: Pour obtenir l’interprétation comme un taux de changement, il suffit de dériver par rapport à x: STT-2400; Régression linéaire

Échelle logarithmique pour un préviseur (suite) Si la fonction moyenne est maintenant: La dérivée par rapport à x est simplement: Ceci suggère, par exemple pour les données sur l’essence, que les effets de changements de « Miles » sur la fonction moyenne sont plus importants pour de petites valeurs de « Miles » et qu’ils deviennent moins importants à mesure que « Miles » augmente. STT-2400; Régression linéaire

Échelle logarithmique pour la variable réponse On peut faire une analyse similaire pour la fonction moyenne suivante: Si l’approximation suivante est bonne: On trouve alors: Autrement formulé: STT-2400; Régression linéaire

Signes des coefficients Il est bien de souligner que le signe des coefficients amène naturellement une interprétation entre le préviseur et la variable réponse. Ce qui est embêtant en pratique est que si des préviseurs sont relativement corrélés, alors le signe d’un coefficient estimé peut changer tout dépendant des autres préviseurs inclus dans le modèle. Il est recommandé de choisir des préviseurs qui ont un sens et qui par conséquent sont plus faciles à interpréter. STT-2400; Régression linéaire

Exemple: Étude de Berkeley Les données de l’étude Berkeley Guidance Study portent sur la croissance de garçons et filles. On se concentre sur les variables suivantes: Soma: variable discrète, allant de un (très mince) à sept (obésité) prise à l’âge de 18 ans. WT2 = poids à deux ans; WT9 = poids à neuf ans; WT18 = poids à dix-nuit ans. STT-2400; Régression linéaire

Étude de Berkeley (suite) Commandes SAS pour un premier ajustement: data BGS; set alr3.BGSgirls; DW9 = WT9-WT2; DW18 = WT18-WT9; run; proc reg data=BGS; model Soma = WT2 WT9 WT18; STT-2400; Régression linéaire

Étude de Berkeley (suite) Commandes SAS pour un second ajustement: data BGS; set alr3.BGSgirls; DW9 = WT9 - WT2; DW18 = WT18 - WT9; run; proc reg data=BGS; model Soma = WT2 DW9 DW18; STT-2400; Régression linéaire

Paramétrisation et problèmes de sur-paramétrisation L’exemple précédent illustre qu’il est parfois souhaitable de reparamétriser les préviseurs afin de gagner potentiellement en interprétation. Il faut faire attention à l’ajout d’un trop grand nombre de combinaisons linéaires des préviseurs. Si la matrice de design a un rang de p+1 avec p préviseurs, on note que l’on peut considérer que p combinaisons linéaires linéairement indépendantes des préviseurs. STT-2400; Régression linéaire

Exemple: sur-paramétrisation avec SAS data BGS; set alr3.BGSgirls; DW9 = WT9-WT2; DW18 = WT18-WT9; run; proc reg data=BGS; model Soma = WT2 DW9 DW18 WT9 WT18; STT-2400; Régression linéaire

Exemple d’un problème fréquent de sur-paramétrisation Exemple: Supposons que la variable réponse consiste de la réaction à un certain traitement. De plus, trois traitements différents sont administrés à trois groupes. On pose X1 = 1 si l’unité est dans le groupe un. On pose X2 = 1 si l’unité est dans le groupe deux. On pose X3 = 3 si l’unité est dans le groupe trois. On considère la fonction moyenne: STT-2400; Régression linéaire

Solutions à ce genre de problèmes Puisque la somme de X1, X2 et X3 donne la colonne de uns dans la matrice de design, la matrice de design X n’est pas de plein rang. Pour contrer cela, on peut opter pour une des options suivantes: 1) Considérer la contrainte b1 + b2 + b3 = 1; 2) Ou exclure un des Xi du modèle; 3) Ou retirer le terme constant b0; Toutes ces paramétrisations sont équivalentes, mais l’interprétation des paramètres n’est pas la même. STT-2400; Régression linéaire