Régression linéaire (STT-2400) Section 5 Transformations Version: 9 février 2007.

Régression linéaire (STT-2400) Section 5 Transformations Version: 9 février 2007

STT-2400; Régression linéaire 2 Introduction Il est plutôt rare que nous sachions que la fonction moyenne E(Y | X ) est linéaire. Parfois la fonction moyenne est dictée par une théorie; sinon toute formulation paramétrique est au mieux une approximation. Un exemple où la fonction moyenne est linéaire est dans le cas où la variable réponse et le préviseur sont conjointement de distributions normales.

STT-2400; Régression linéaire 3 Loi normale à deux dimensions Si On sait que: Ainsidans cette situation la fonction moyenne est linéaire.

STT-2400; Régression linéaire 4 Transformations des variables On espère qu’une relation linéaire entre la variable réponse et les préviseurs procure une approximation raisonnable au phénomène étudié. Lorsque ce n’est pas le cas, on peut considérer l’utilisation de variables transformées: – Transformation des préviseurs; – Transformation de la variable réponse; – Transformation à la fois des préviseurs et de la variable réponse.

STT-2400; Régression linéaire 5 Transformations et changements d’échelle Il importe de réaliser que le choix d’une transformation implique un changement d’échelle. Exemple: Étude des données des Nations- Unies. – On avait considéré l’utilisation de variables telles log 2 (Fertility), log 2 (PNBpp). La variable réponse est dans une échelle logarithmique, plutôt que dans le système d’unité de mesure de la variable Fertility, qui était un taux de natalité.

STT-2400; Régression linéaire 6 Exemple: poids du cerveau versus poids du corps Les données portent sur le poids en kilogramme de 62 mammifères. On dispose également du poids du cerveau de ces espèces. Puisque l’on dispose que d’un seul préviseur, une analyse graphique est particulièrement utile et recommandée. (En présence de plusieurs préviseurs la situation est évidemment plus compliquée).

STT-2400; Régression linéaire 7 Exemple (suite) On note que ce jeu de données montre un problème d’échelle: trois points isolés cachent la relation entre les deux variables. Plusieurs espèces ont des petits poids de quelques grammes (et donc avec un cerveau plus petit) versus des espèces comme l’éléphant d’Asie et d’Afrique qui sont beaucoup plus lourds. Les trois points isolés sont les éléphants d’Asie et d’Afrique et l’espèce humaine. C’est un exemple typique où il serait une bonne idée de transformer.

STT-2400; Régression linéaire 8 Famille de transformations Une famille de transformation est un ensemble de transformations indexé par un ou plusieurs paramètres. Le modèle de régression linéaire multiple est un exemple de modèle paramétrique, avec typiquement p+1 paramètres à estimer. Dans cet esprit, il pourrait être une bonne idée de rajouter un petit nombre de paramètres supplémentaires pour le choix de l’échelle. On pourra même considérer d’effectuer des tests d’hypothèses sur ces nouveaux paramètres.

STT-2400; Régression linéaire 9 Transformations « puissance » Supposons que l’on dispose d’une variable aléatoire U strictement positive (on verra ce qui peut être fait dans le cas de variables aléatoires qui pourraient prendre des valeurs négatives). La famille de transformation puissance est:

STT-2400; Régression linéaire 10 Choix populaires On note que le choix = 1 correspond à la situation où la variable U n’est pas transformée. Les transformation racine carrée et racine cubique sont respectivement: = 1/2, 1/3. Par définition = 0 correspond à la transformation logarithmique. Parfois = -1, la transformation inverse, peut également être d’intérêt. Habituellement = [-2, 2] et même on pourrait restreindre davantage à l’intervalle = [-1, 1].

STT-2400; Régression linéaire 11 Exemple sur les poids des espèces La transformation logarithmique semble adéquate pour ce problème. C’est une bonne idée d’utiliser PROC LOESS afin d’ajouter un estimateur nonparamétrique de la fonction moyenne. Règles empiriques: – Règle du log Lorsque l’étendue d’une variable couvre plus d’un ordre de magnitude (ici le poids du corps échelonne de 0.005 kg à 6654 kg), et si la variable est strictement positive: prendre une transformation logarithmique. – Règle de l’étendue Si l’étendue est considérablement inférieur à un ordre de magnitude: ne pas transformer.

STT-2400; Régression linéaire 12 Modèle allométrique pour le poids des espèces Il y avait une théorie physique et le modèle suivant est appelé un modèle allométrique: En prenant le logarithmique de chaque côté: On note que ce ne sont pas toutes les transformations qui sont interprétables comme des modèles physiques.

STT-2400; Régression linéaire 13 Transformations puissance mises à l’échelle Pour une variable aléatoire X strictement positive cette famille de transformation est définie par: Cette famille ressemble mais aussi diffère de la famille de transformation puissance sur de nombreux aspects.

STT-2400; Régression linéaire 14 Propriétés de la famille de transformation puissance mise à l’échelle 1. Comme fonction de,  s (X, ) est une fonction continue de En effet par une application de la règle de l’Hospital: 2. Cette transformation préserve la direction de l’association: si (X,Y) sont reliés positivement, alors (  s (X, ), Y) sont également positivement reliés pour toutes les valeurs de 

STT-2400; Régression linéaire 15 Choix de lors de la transformation d’un préviseur Dans le cas d’un seul préviseur, nous pourrions formuler la fonction moyenne: Si était connu, on obtiendrait l’estimateur des moindres carrés usuels et on pourrait déterminer RSS( ). On estime  en déterminant: En pratique,on pourrait calculer RSS( ) pour la fourchette de valeurs:

STT-2400; Régression linéaire 16 Exemple: hauteur des arbres en fonction du diamètre Données prélevées en 1991 portant sur les cèdres de l’ouest (Western Cedar) dans le Upper Flat Creek (Idaho) de l’University of Idaho Experimental Forest. Variable réponse: Height, en décimètres; Préviseur: Dbh, le diamètre de l’arbre en mm à 137 cm au-dessus du sol.

STT-2400; Régression linéaire 17 Analyse graphique Pour les valeurs de dans la palette {-1, 0, 1}, on effectue la régression de: – Transformation inverse: Y sur  (X, -1); – Transformation log: Y sur  (X, 0); – Pas de transformation: Y sur  (X, 1). On récupère les valeurs prédites de ces trois régressions et on représente sur un même graphique (X,Y) en plus de.

STT-2400; Régression linéaire 18 Analyse graphique (suite) Comme on peut le constater, le choix = 0 semble décrire les données adéquatement. Concernant le choix = 1, il semble que de ne pas transformer occasionne des problèmes pour des arbres avec de petits ou grands diamètres. La transformation inverse pour sa part semble afficher une courbure trop prononcée, et la courbe ne semble pas décrire correctement les arbres avec de grands diamètres.

STT-2400; Régression linéaire 19 Approche alternative: régression nonlinéaire et PROC NLIN Une approche alternative est d’ajuster un modèle de régression par moindres carrés non linéaire. On note que la fonction moyenne est: En adoptant le critère des moindres carrés, on cherche à minimiser par rapport aux paramètres  0,  1 et. Ceci offre l’avantage d’une estimation simultanée et on obtient une estimation de et de son erreur standard. On note que donnant un intervalle de confiance de niveau 95% pour

STT-2400; Régression linéaire 20 Méthode de Box-Cox Cette technique a été proposée par Box et Cox (JRSS B, 1964). Elle se concentre sur la transformation de la variable réponse. Elle est applicable pour les problèmes de régression linéaire simple et multiple. Elle repose sur une version légèrement modifiée de la famille de transformation puissance.

STT-2400; Régression linéaire 21 Famille de transformation puissance modifiée Considérons la moyenne géométrique: La famille de transformation puissance modifiée est:

STT-2400; Régression linéaire 22 Introduction à la méthode de Box- Cox On présume que la fonction moyenne suivante est valable pour un certain : Si on connaissait  on pourrait effectuer la régression usuelle des moindres carrés et trouver RSS( ). Remarque: la multiplication par la moyenne géométrique assure que RSS( ) comme fonction de est dans le même système d’unités.

STT-2400; Régression linéaire 23 Méthode de Box-Cox (suite) Afin de trouver le paramètre, on chercher à minimiser RSS( ). D’un point de vue pratique, on peut encore considérer la sélection de  à l’aide d’une grille. En SAS, la procédure PROC TRANSREG permet de trouver le paramètre 

STT-2400; Régression linéaire 24 Transformation vers la normalité La méthode de Box-Cox n’a pas été proposée initialement afin de transformer vers la linéarité, mais bien pour transformer vers la normalité. Le paramètre est choisit afin de rendre les résidus de la régression de  (Y, ) sur X les plus près possible d’une distribution normale. La technique permet également de considérer des intervalles de confiance pour.

STT-2400; Régression linéaire 25 Exemple: données sur les accidents sur l’autoroute (Minnesota) Les variables suivantes sont considérées (les données sont de 1973): – Rate: taux d’accident par million de véhicules-milles parcourus. – Len: longueur du segment routier en milles; – ADT: Estimation du trafic journalier moyen en milliers; – Trucks: Volume des camions comme pourcentage du volume total; – Slim: Limite de vitesse; – Shld: Largeur de l’accotement; – Sigs: Nombre de signaux relatifs aux changements de voies par mille dans le segment.

STT-2400; Régression linéaire 26 Exemple (suite) Les transformations suivantes sont considérées: – Sigs1 = (Sigs x Len + 1)/Len; Sigs est le nombre de lumières par mille. La transformation vise essentiellement à rendre la variable positive pour considérer une « transformation puissance ». – ADT et Len ont de grandes étendues: la règle du log pourrait s’appliquer ici directement: logADT = log(ADT); logLen = log(Len). – Slim varie seulement de 40 mph à 70 mph; la règle de l’étendue suggère de ne pas transformer. – On transforme Sigs1 et Trks: logSigs1 = log(Sigs1); LogTrks = log(Trks). – On ne transforme pas Shld.

STT-2400; Régression linéaire 27 PROC TRANSREG pour mettre en œuvre la méthode de Box-Cox data highway; set alr3.highway; logLen=log2(Len); logADT=log2(ADT); logTrks=log2(Trks); logSigs1=log2((Len*Sigs+1)/Len); proc transreg data=highway; model boxcox(Rate /convenient lambda=-1 to 1 by.005)= identity(logLen logADT logTrks Slim Shld logSigs1); run;

STT-2400; Régression linéaire 28 PROC TRANSREG On trouve que le meilleur est donné par: On trouve la meilleur valeur en localisant « < ». L’intervalle de confiance consiste des valeurs de  associées avec des « * ». Ainsi l’intervalle de confiance est: Puisque 0 est dans l’intervalle cela semble plutôt compatible avec une transformation de type logarithmique.

STT-2400; Régression linéaire 29 Transformations de variables pas forcément positives Une possibilité est de considérer comme famille de transformation: Typiquement on spécifie  a priori et on le prend suffisamment grand afin de s’assurer que Y+  est strictement positive.

Régression linéaire (STT-2400) Section 5 Transformations Version: 9 février 2007.

Présentations similaires

Présentation au sujet: "Régression linéaire (STT-2400) Section 5 Transformations Version: 9 février 2007."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Régression linéaire (STT-2400) Section 5 Transformations Version: 9 février 2007.

Présentations similaires

Présentation au sujet: "Régression linéaire (STT-2400) Section 5 Transformations Version: 9 février 2007."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back