Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Qualité de l’estimation Tests de significativité NB: Pour déterminer les quantiles au seuil de risque à 5%, il faudra se reporter à la table relative à la loi appropriée. Intervalles de confiance
Hypothèses du modèle Résumé hypothèse #1 : Linéarité du modèle en ses paramètres hypothèse #2 : Echantillon aléatoire hypothèse #3: Moyenne conditionnelle nulle hypothèse #4 : Pas de colinéarité parfaite hypothèse #5: Homoscédasticité
Hypothèses du modèle hypothèse #1 : Linéarité du modèle en ses paramètres Bj
Hypothèses du modèle hypothèse #2 : Echantillon aléatoire L'échantillon des n individus a été tiré aléatoirement sur la population Eviter un biais de sélection
Hypothèses du modèle hypothèse #3: Moyenne conditionnelle nulle Interprétation : Quelque soit le sous-groupe de l’échantillon étudié, la moyenne du terme d’erreur (qui inclut les autres variables explicatives non intégrées au modèle) reste nulle Interprétation : les variables explicative xj, prises une à une, ne sont pas corrélées avec le terme d’erreur u Cette hypothèse est d’autant plus probable que le nombre de variables explicatives est important (on empêche que xj soit corrélée avec une autre variable explicative xj’ contenu dans le terme d’erreur). Quand cette hypothèse est vérifiée, on dit que les variables explicatives sont exogènes. Sinon, elles sont dites endogènes
Hypothèses du modèle hypothèse #4 : Pas de colinéarité parfaite Contre exemple : homme égal 1 si l’individu est une homme et 0 sinon. Interprétation :les variables explicatives ne doivent pas être liées par une relation linéaire parfaite et aucune variable explicative xj ne doit être constante
Hypothèses du modèle hypothèse #5: Homoscédasticité Interprétation : Quelque soit le sous groupe de l’échantillon étudié, la variance du terme d’erreur reste constante Si cette hypothèse est violée, on parle d’hétéroscédasticité. Cela se produit lorsqu’on récolte des informations sur des individus de taille différentes (villes ou salaires). Les variables explicatives contenues dans le terme d’erreur, non intégrées au modèle, peuvent présenter des ordres de grandeurs plus importants pour les villes les grandes ou les salaires les plus élevés. Exemple: la dispersion des salaires parmi les individus les plus diplômés est plus importante que celle parmi les individus les moins diplômés.
Propriétés des estimateurs Sous les hypothèses 1 -> 4, les estimateurs ne sont pas biaisés. Introduire des variables explicatives non pertinentes n’affecte pas l’absence de biais des estimateurs. En revanche, omettre des variables explicatives pertinentes peut affecter l’absence de biais des estimateurs (risque de corrélation entre une variable explicative et le terme d’erreur). En cas de corrélation entre l’une des variables explicatives et le terme d’erreur, tous les estimateurs sont biaisés.
Propriétés des estimateurs Sous les hypothèses 1 -> 5, les estimateurs sont dits BLUE (best linear unbiaised estimators) NB : Best = estimateurs de variance minimale. On peut montrer que la variance des estimateurs Bj est où SSRj est tirée de la régression de xj sur les autres régresseurs. et est que cette variance est la plus petite parmi tous les estimateurs linéaires. Sans l’hypothèse 5, les estimateurs restent non biaisés mais leur variance n’est plus minimale parmi les classes des estimateurs linéaires non biaisés.
Méthodologie de l’étude économétrique On s’intéresse aux déterminants du niveau de salaire. Étape 1 : le salaire est la variable expliquée y, en l’occurrence le salaire. Etude préalable à l’aide des statistiques descriptives classiques : boîte à moustache (moyenne, médiane, quartiles, mode, min, max) taux de non renseignés, histogramme et distribution des salaires. Étape 2 : choix des variables explicatives, les x_i, en l’occurrence le plus haut niveau d’étude, expérience professionnelle et formation continue. Utiliser la littérature économique en s’appuyant sur un ou plusieurs articles de référence (revue de littérature). Etude préalable des variables explicatives à l’aide des statistiques descriptives à nouveau. Tracer les courbes de la variable expliquée y en fonction de chacune des variables explicatives x_i pour connaître la forme du modèle (modèle 1, 2 ou 3). Étape 3 : On pose le modèle. Exemple : log(salaire) = β0 + β1 educ + β2 exp + β3 form +υ Étape 4 : On estime les coefficients B_j et on interprète les coefficients conformément au modèle choisi. Étape 5 : étude du pouvoir descriptif du modèle. On analyse la qualité de la modélisation en utilisant le R^2, les tests et les intervalles de confiance. Etape 6 : étude du pouvoir prédictif du modèle . On applique les coefficients estimés sur des individus qui n’ont pas servis de base à l’étude (qui ne font pas partie de l’échantillon qui a permis d’estimer le modèle). On compare ainsi la valeur observée du salaire avec la valeur estimé du salaire.