Régression linéaire (STT-2400) Section 5 Transformations Version: 9 février 2007.

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Inférence statistique
Méthodes statistiques. Ajustements et corrélation
Échantillonnage-Estimation
Corrélations et ajustements linéaires.
FONCTIONS EXPONENTIELLES ET LOGARITHMES
EXPONENTIELLES FONCTIONS EXPONENTIELLES EN TERMINALE ST2S auteur : Philippe Angot (version adaptée)
variable aléatoire Discrète
Régression linéaire (STT-2400) Section 3 Tests dhypothèses et lhypothèse linéaire générale Version: 26 janvier 2007.
Méthodes de prévision (STT-3220)
Un neurone élémentaire
Géométrie vectorielle
Fonction puissance Montage préparé par : André Ross
Régression linéaire simple
Échantillonnage (STT-2000)
Groupe 1: Classes de même intervalle
Comprendre la variation dans les données: Notions de base
Corrélation et régression linéaire simple
Régression linéaire (STT-2400)
Méthodes de prévision (STT-3220)
Méthodes de prévision (STT-3220) Section 4 Concepts fondamentaux de séries chronologiques Version: 8 novembre 2004.
Méthodes de prévision (STT-3220)
Courbes de Hermite Michael E. Mortenson, Geometric Modeling. Wiley, 1997, 523p.
Courbes de Bézier.
La régression logistique
Le comportement des coûts Chapitre 3
Régression linéaire (STT-2400)
STT-3220 Méthodes de prévision Section 2 Modèle avec deux variances inconnues: Méthode reposant sur un test préliminaire Version: 21 janvier 2008.
STT-3220 Méthodes de prévision
Régression linéaire (STT-2400)
La régression multiple
Régression linéaire (STT-2400)
Régression linéaire (STT-2400)
Modélisation géométrique de base
Méthodes de prévision (STT-3220)
Régression linéaire (STT-2400)
Méthodes de prévision (STT-3220) Section 6 Exemple: Prévisions dans un modèle AR(1) Version: 18 décembre 2008.
La régression simple Michel Tenenhaus
L’écriture des grands nombres: les puissances de 10
Présentation du marché obligataire
Couche limite atmosphérique
Micro-intro aux stats.
Vers les fonctions …. Objectifs Travailler sur les tableaux (type tableaux de proportionnalité, mais pas seulement !) Travailler sur la représentation.
Intervalles de confiance pour des proportions L’inférence statistique
Échantillonnage (STT-2000)
Probabilités (suite).
Probabilités et Statistiques Année 2010/2011
Chapitre 3: Variables aléatoires réelles continues
Les fonctions de référence
Outils d’analyse: la méthode des moindres carrées
Rappels Variables nominales :
Méthode des moindres carrés (1)
Séries chronologiques univariées (STT-6615)
La proportionnalité Au cycle 3.
Interpolation et Approximation
Régression linéaire (STT-2400)
Séries chronologiques univariées (STT-6615)
STATISTIQUES.
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Méthodes de prévision (STT-3220)
Distribution à deux variables
Distribution de la taille des aérosols
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
Introduction aux statistiques Intervalles de confiance
Bienvenue au cours MAT-350 Probabilités et statistiques.
Transcription de la présentation:

Régression linéaire (STT-2400) Section 5 Transformations Version: 9 février 2007

STT-2400; Régression linéaire 2 Introduction Il est plutôt rare que nous sachions que la fonction moyenne E(Y | X ) est linéaire. Parfois la fonction moyenne est dictée par une théorie; sinon toute formulation paramétrique est au mieux une approximation. Un exemple où la fonction moyenne est linéaire est dans le cas où la variable réponse et le préviseur sont conjointement de distributions normales.

STT-2400; Régression linéaire 3 Loi normale à deux dimensions Si On sait que: Ainsidans cette situation la fonction moyenne est linéaire.

STT-2400; Régression linéaire 4 Transformations des variables On espère qu’une relation linéaire entre la variable réponse et les préviseurs procure une approximation raisonnable au phénomène étudié. Lorsque ce n’est pas le cas, on peut considérer l’utilisation de variables transformées: – Transformation des préviseurs; – Transformation de la variable réponse; – Transformation à la fois des préviseurs et de la variable réponse.

STT-2400; Régression linéaire 5 Transformations et changements d’échelle Il importe de réaliser que le choix d’une transformation implique un changement d’échelle. Exemple: Étude des données des Nations- Unies. – On avait considéré l’utilisation de variables telles log 2 (Fertility), log 2 (PNBpp). La variable réponse est dans une échelle logarithmique, plutôt que dans le système d’unité de mesure de la variable Fertility, qui était un taux de natalité.

STT-2400; Régression linéaire 6 Exemple: poids du cerveau versus poids du corps Les données portent sur le poids en kilogramme de 62 mammifères. On dispose également du poids du cerveau de ces espèces. Puisque l’on dispose que d’un seul préviseur, une analyse graphique est particulièrement utile et recommandée. (En présence de plusieurs préviseurs la situation est évidemment plus compliquée).

STT-2400; Régression linéaire 7 Exemple (suite) On note que ce jeu de données montre un problème d’échelle: trois points isolés cachent la relation entre les deux variables. Plusieurs espèces ont des petits poids de quelques grammes (et donc avec un cerveau plus petit) versus des espèces comme l’éléphant d’Asie et d’Afrique qui sont beaucoup plus lourds. Les trois points isolés sont les éléphants d’Asie et d’Afrique et l’espèce humaine. C’est un exemple typique où il serait une bonne idée de transformer.

STT-2400; Régression linéaire 8 Famille de transformations Une famille de transformation est un ensemble de transformations indexé par un ou plusieurs paramètres. Le modèle de régression linéaire multiple est un exemple de modèle paramétrique, avec typiquement p+1 paramètres à estimer. Dans cet esprit, il pourrait être une bonne idée de rajouter un petit nombre de paramètres supplémentaires pour le choix de l’échelle. On pourra même considérer d’effectuer des tests d’hypothèses sur ces nouveaux paramètres.

STT-2400; Régression linéaire 9 Transformations « puissance » Supposons que l’on dispose d’une variable aléatoire U strictement positive (on verra ce qui peut être fait dans le cas de variables aléatoires qui pourraient prendre des valeurs négatives). La famille de transformation puissance est:

STT-2400; Régression linéaire 10 Choix populaires On note que le choix = 1 correspond à la situation où la variable U n’est pas transformée. Les transformation racine carrée et racine cubique sont respectivement: = 1/2, 1/3. Par définition = 0 correspond à la transformation logarithmique. Parfois = -1, la transformation inverse, peut également être d’intérêt. Habituellement = [-2, 2] et même on pourrait restreindre davantage à l’intervalle = [-1, 1].

STT-2400; Régression linéaire 11 Exemple sur les poids des espèces La transformation logarithmique semble adéquate pour ce problème. C’est une bonne idée d’utiliser PROC LOESS afin d’ajouter un estimateur nonparamétrique de la fonction moyenne. Règles empiriques: – Règle du log Lorsque l’étendue d’une variable couvre plus d’un ordre de magnitude (ici le poids du corps échelonne de kg à 6654 kg), et si la variable est strictement positive: prendre une transformation logarithmique. – Règle de l’étendue Si l’étendue est considérablement inférieur à un ordre de magnitude: ne pas transformer.

STT-2400; Régression linéaire 12 Modèle allométrique pour le poids des espèces Il y avait une théorie physique et le modèle suivant est appelé un modèle allométrique: En prenant le logarithmique de chaque côté: On note que ce ne sont pas toutes les transformations qui sont interprétables comme des modèles physiques.

STT-2400; Régression linéaire 13 Transformations puissance mises à l’échelle Pour une variable aléatoire X strictement positive cette famille de transformation est définie par: Cette famille ressemble mais aussi diffère de la famille de transformation puissance sur de nombreux aspects.

STT-2400; Régression linéaire 14 Propriétés de la famille de transformation puissance mise à l’échelle 1. Comme fonction de,  s (X, ) est une fonction continue de En effet par une application de la règle de l’Hospital: 2. Cette transformation préserve la direction de l’association: si (X,Y) sont reliés positivement, alors (  s (X, ), Y) sont également positivement reliés pour toutes les valeurs de 

STT-2400; Régression linéaire 15 Choix de lors de la transformation d’un préviseur Dans le cas d’un seul préviseur, nous pourrions formuler la fonction moyenne: Si était connu, on obtiendrait l’estimateur des moindres carrés usuels et on pourrait déterminer RSS( ). On estime  en déterminant: En pratique,on pourrait calculer RSS( ) pour la fourchette de valeurs:

STT-2400; Régression linéaire 16 Exemple: hauteur des arbres en fonction du diamètre Données prélevées en 1991 portant sur les cèdres de l’ouest (Western Cedar) dans le Upper Flat Creek (Idaho) de l’University of Idaho Experimental Forest. Variable réponse: Height, en décimètres; Préviseur: Dbh, le diamètre de l’arbre en mm à 137 cm au-dessus du sol.

STT-2400; Régression linéaire 17 Analyse graphique Pour les valeurs de dans la palette {-1, 0, 1}, on effectue la régression de: – Transformation inverse: Y sur  (X, -1); – Transformation log: Y sur  (X, 0); – Pas de transformation: Y sur  (X, 1). On récupère les valeurs prédites de ces trois régressions et on représente sur un même graphique (X,Y) en plus de.

STT-2400; Régression linéaire 18 Analyse graphique (suite) Comme on peut le constater, le choix = 0 semble décrire les données adéquatement. Concernant le choix = 1, il semble que de ne pas transformer occasionne des problèmes pour des arbres avec de petits ou grands diamètres. La transformation inverse pour sa part semble afficher une courbure trop prononcée, et la courbe ne semble pas décrire correctement les arbres avec de grands diamètres.

STT-2400; Régression linéaire 19 Approche alternative: régression nonlinéaire et PROC NLIN Une approche alternative est d’ajuster un modèle de régression par moindres carrés non linéaire. On note que la fonction moyenne est: En adoptant le critère des moindres carrés, on cherche à minimiser par rapport aux paramètres  0,  1 et. Ceci offre l’avantage d’une estimation simultanée et on obtient une estimation de et de son erreur standard. On note que donnant un intervalle de confiance de niveau 95% pour

STT-2400; Régression linéaire 20 Méthode de Box-Cox Cette technique a été proposée par Box et Cox (JRSS B, 1964). Elle se concentre sur la transformation de la variable réponse. Elle est applicable pour les problèmes de régression linéaire simple et multiple. Elle repose sur une version légèrement modifiée de la famille de transformation puissance.

STT-2400; Régression linéaire 21 Famille de transformation puissance modifiée Considérons la moyenne géométrique: La famille de transformation puissance modifiée est:

STT-2400; Régression linéaire 22 Introduction à la méthode de Box- Cox On présume que la fonction moyenne suivante est valable pour un certain : Si on connaissait  on pourrait effectuer la régression usuelle des moindres carrés et trouver RSS( ). Remarque: la multiplication par la moyenne géométrique assure que RSS( ) comme fonction de est dans le même système d’unités.

STT-2400; Régression linéaire 23 Méthode de Box-Cox (suite) Afin de trouver le paramètre, on chercher à minimiser RSS( ). D’un point de vue pratique, on peut encore considérer la sélection de  à l’aide d’une grille. En SAS, la procédure PROC TRANSREG permet de trouver le paramètre 

STT-2400; Régression linéaire 24 Transformation vers la normalité La méthode de Box-Cox n’a pas été proposée initialement afin de transformer vers la linéarité, mais bien pour transformer vers la normalité. Le paramètre est choisit afin de rendre les résidus de la régression de  (Y, ) sur X les plus près possible d’une distribution normale. La technique permet également de considérer des intervalles de confiance pour.

STT-2400; Régression linéaire 25 Exemple: données sur les accidents sur l’autoroute (Minnesota) Les variables suivantes sont considérées (les données sont de 1973): – Rate: taux d’accident par million de véhicules-milles parcourus. – Len: longueur du segment routier en milles; – ADT: Estimation du trafic journalier moyen en milliers; – Trucks: Volume des camions comme pourcentage du volume total; – Slim: Limite de vitesse; – Shld: Largeur de l’accotement; – Sigs: Nombre de signaux relatifs aux changements de voies par mille dans le segment.

STT-2400; Régression linéaire 26 Exemple (suite) Les transformations suivantes sont considérées: – Sigs1 = (Sigs x Len + 1)/Len; Sigs est le nombre de lumières par mille. La transformation vise essentiellement à rendre la variable positive pour considérer une « transformation puissance ». – ADT et Len ont de grandes étendues: la règle du log pourrait s’appliquer ici directement: logADT = log(ADT); logLen = log(Len). – Slim varie seulement de 40 mph à 70 mph; la règle de l’étendue suggère de ne pas transformer. – On transforme Sigs1 et Trks: logSigs1 = log(Sigs1); LogTrks = log(Trks). – On ne transforme pas Shld.

STT-2400; Régression linéaire 27 PROC TRANSREG pour mettre en œuvre la méthode de Box-Cox data highway; set alr3.highway; logLen=log2(Len); logADT=log2(ADT); logTrks=log2(Trks); logSigs1=log2((Len*Sigs+1)/Len); proc transreg data=highway; model boxcox(Rate /convenient lambda=-1 to 1 by.005)= identity(logLen logADT logTrks Slim Shld logSigs1); run;

STT-2400; Régression linéaire 28 PROC TRANSREG On trouve que le meilleur est donné par: On trouve la meilleur valeur en localisant « < ». L’intervalle de confiance consiste des valeurs de  associées avec des « * ». Ainsi l’intervalle de confiance est: Puisque 0 est dans l’intervalle cela semble plutôt compatible avec une transformation de type logarithmique.

STT-2400; Régression linéaire 29 Transformations de variables pas forcément positives Une possibilité est de considérer comme famille de transformation: Typiquement on spécifie  a priori et on le prend suffisamment grand afin de s’assurer que Y+  est strictement positive.