La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La régression multiple

Présentations similaires


Présentation au sujet: "La régression multiple"— Transcription de la présentation:

1 La régression multiple
Econométrie appliquée Cours de M1 deuxième partie Armand Taranco

2 Quand utiliser la régression multiple
Pour estimer la relation entre une variable dépendante (Y ) et plusieurs variables indépendantes (X1, X2, …) Exemples Expliquer les ventes d’un magasin par le marché total, le prix, l’investissement, la publicité,… Expliquer la consommation des véhicules par le prix, la cylindrée, la puissance et le poids.

3 Le modèle général de régression multiple
Equation de régression multiple Cette équation précise la façon dont la variable dépendante est reliée aux variables explicatives : où b0, b1, b2, , bp sont les paramètres et e est un bruit aléatoire représentant le terme d’erreur.

4 Le modèle général de régression multiple
Les termes de l’équation ième observation de Y Terme constant Influence de la variable Xp Influence de la variable X1 Résidu de la ième observation

5 Le modèle général de régression multiple
Ecriture matricielle du modèle

6 Le modèle général de régression multiple
Les hypothèses du modèle Les hypothèses de nature probabiliste Les variables Xi sont aléatoires E(ei)=0 pour tout i V(ei)=s2 pour tout 1≤i≤p (homoscédasticité des erreurs) Cov(ei , ei )=0 pour tout i≠j Le vecteur aléatoire e suit une loi normale à n dimensions N(0, s 2In) Les hypothèses structurelles Det(XTX)≠0 (absence de colinéarité entre les variables explicatives). n>p+1

7 Le modèle général de régression multiple
Interprétation géométrique Le modèle général définit un hyperplan de dimension p. Nous illustrons le cas p=2. E(Yi|X1i, X2i) = 0+1X1i+2X2i Yi : observation Y b0 ei X2 (X1i, X2i) X1

8 Le processus d’estimation
Modèle de régression multiple Y = 0 + 1X1 + 2X pXp + e Equation de régression multiple E(Y|X1,…,Xp) = 0 + 1X1 + 2X pXp Paramètres inconnus b0, b1, b2, , bp Données: x1 x xp y Equation estimée Estimateurs de b0, b1, b2, , bp Estimateurs

9 Le processus d’estimation
Interprétation géométrique Illustration du cas p=2. yi : observation Y X2 (X1i, X2i) X1

10 Le processus d’estimation
Estimation des coefficients de régression La méthode : les moindres carrés ordinaires Le principe de l’estimation des coefficients de régression : consiste à minimiser la somme des carrés des résidus : Le calcul numérique lui-même (calcul matriciel) peut s’effectuer à l’aide de logiciels statistiques (SAS, SPSS, S+, R, Gretl,…).

11 Le processus d’estimation
Estimation des coefficients du modèle La méthode des moindres carrés donne pour résultat : suit une loi est sans biais : Parmi les estimateurs de b linéaires par rapport à X, sans biais, les éléments de ont la plus petite variance.

12 Le processus d’estimation
Interprétation des coefficients de régression estimés La pente (k≠0) L’estimée de Y varie d’un facteur égal à lorsque Xk augmente d’une unité, les autres variables étant maintenues constantes. L’ordonnée à l’origine C’est la valeur moyenne de Y lorsque toutes les Xi sont nulles.

13 Le processus d’estimation
Estimation de la variance des résidus

14 Le processus d’estimation
Les données Taille de l’échantillon Les données doivent être suffisamment nombreuses : 15 à 20 par variable au moins. La nature des variables Dans la pratique, Y est une variable quantitative et les Xi peuvent être quantitatives ou binaires.

15 La qualité de la régression
Décomposition de la somme des carrés totale SCT : somme des carrés totale SCR : somme des carrés du modèle de régression SCE : somme des carrés résiduels SCT = SSR + SCE

16 Qualité de la régression
Les coefficients de détermination Le coefficient de détermination R2 Il exprime le pourcentage de la variance de Y expliquée par le modèle. Il donne une idée globale de l'ajustement du modèle. Le R2 ajusté se calcule en fonction du R2 : Il traduit à la fois la qualité de l’ajustement (liaison entre Y et les Xi) et la complexité du modèle (nombre de variables explicatives). R2 = SCR/SCT

17 Qualité de la régression
Le test de Fisher Il permet de répondre à la question : la liaison globale entre Y et les Xi est-elle significative ? Hypothèses H0: 1 = 2 = ... = p = 0 Y ne dépend pas des variables Xi . H1: Au moins un coefficient est non nul Y dépend d’au moins une variable Xi .

18 Qualité de la régression
Statistique utilisée Règle de décision Au risque a, on rejette H0 si : F  F1- où F1- est un fractile d’une loi de Fisher à p et n-p-1 degrés de liberté.

19 Qualité de la régression
R2 et test de Fisher F bon, R² mauvais F bon, R² bon

20 Qualité de la régression
Le test de Student Il permet de répondre à la question suivante : l’apport marginal d’une variable Xi est-il significatif ? Hypothèses H0 : j = 0 (j≠0) On peut supprimer la variable Xj H1 : j  0 Il faut conserver la variable Xj

21 Qualité de la régression
Statistique utilisée Règle de décision Au risque a, on rejette H0 si : |t| ≥ t1- où t1- est un fractile d’une loi de Student à n-p-1 degrés de liberté.

22 Analyse des résidus Normalité Homoscédasticité
QQ plot Tests de normalité Homoscédasticité La variance des résidus n’est pas stable. Transformation des données Indépendance des résidus Test de Durbin-Watson Détection des valeurs atypiques

23 Les variables indicatrices
Variable indicatrice (dummy variable) Variable prenant les valeurs 0 ou 1 pour indiquer que l’observation présente une certaine caractéristique, par exemple une périodicité (trimestre, mois,…). Exemple : la consommation de fuel trimestrielle di = 1 pour le iéme trimestre di = 0 sinon


Télécharger ppt "La régression multiple"

Présentations similaires


Annonces Google