Régression linéaire multiple : hypothèses & interprétation. Partie 2.

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Présentation des données
Probabilités et statistiques au lycée
STATISTIQUE INFERENTIELLE L ’ESTIMATION
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Inférence statistique
C1 Bio-statistiques F. KOHLER
Inférence statistique
Comparaison de plusieurs moyennes observées
Les TESTS STATISTIQUES
Les TESTS STATISTIQUES
Scoring Séance II.
Échantillonnage-Estimation
Statistique descriptive
Régression -corrélation
Statistiques et Probabilités au lycée
Tests de comparaison de moyennes

La Régression Multiple
STATISTIQUES – PROBABILITÉS
Corrélation et régression linéaire simple
Modeles Lineaires.
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression
Le test t.
La corrélation et la régression
Corrélation Principe fondamental d’une analyse de corrélation
Prédiction multi-step de la volatilité : le modèle ARIMA-GARCH appliqué aux séries temporelles d’affaiblissement par la pluie sur les liaisons Terre-Satellite.
Le comportement des coûts Chapitre 3
La régression multiple
Régression linéaire (STT-2400)
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
M1 2013/2014 Implémentation des procédures statistiques Introduction aux régressions linéaires.
Corrélation et régression linéaire
1 - Programme de Seconde (juin 2009) Statistique et probabilités
Méthodes de Biostatistique
Méthodes de Biostatistique
Méthodes de Biostatistique
Statistique Descriptive Analyse des données
Probabilités et Statistiques
Méthodologie expérimentale : l’analyse des données
Introduction à l’analyse statistique
2. Modèles linéaires.
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Rappels de statistiques descriptives
Lien entre deux variables
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
Vers une loi à densité. Masse en gEffectifFréquence % [600,800[1162,32 [800,900[3957,9 [900,1000[91818,36 [1000,1100[124824,96 [1100,1200[121824,36 [1200,1300[71514,3.
Introduction à une analyse statistique de données
TNS et Analyse Spectrale
Étude de l’écoulement moyen
Méthode des moindres carrés (1)
PARAMETRES STATISTIQUES
Traitement de la turbulence
Échantillonnage (STT-2000)
Remise à niveau en statistique Eric Marcon – Module FTH 2006.
Statistique Descriptive Les Paramètres de Tendance Centrale
ECHANTILLONAGE ET ESTIMATION
LECTURE CRITIQUE D’UN ARTICLE
Mesures de description des valeurs des variables
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
TP1: Statistique application chapitre 2. Le tableau suivant reprend le taux d'intérêt (en %) payé par 20 banques sur les dépôts d'épargne de leurs clients.
Transcription de la présentation:

Régression linéaire multiple : hypothèses & interprétation. Partie 2.

Qualité de l’estimation Tests de significativité NB: Pour déterminer les quantiles au seuil de risque à 5%, il faudra se reporter à la table relative à la loi appropriée. Intervalles de confiance

Hypothèses du modèle Résumé hypothèse #1 : Linéarité du modèle en ses paramètres hypothèse #2 : Echantillon aléatoire hypothèse #3: Moyenne conditionnelle nulle hypothèse #4 : Pas de colinéarité parfaite hypothèse #5: Homoscédasticité

Hypothèses du modèle hypothèse #1 : Linéarité du modèle en ses paramètres Bj

Hypothèses du modèle hypothèse #2 : Echantillon aléatoire L'échantillon des n individus a été tiré aléatoirement sur la population Eviter un biais de sélection

Hypothèses du modèle hypothèse #3: Moyenne conditionnelle nulle Interprétation : Quelque soit le sous-groupe de l’échantillon étudié, la moyenne du terme d’erreur (qui inclut les autres variables explicatives non intégrées au modèle) reste nulle Interprétation : les variables explicative xj, prises une à une, ne sont pas corrélées avec le terme d’erreur u Cette hypothèse est d’autant plus probable que le nombre de variables explicatives est important (on empêche que xj soit corrélée avec une autre variable explicative xj’ contenu dans le terme d’erreur). Quand cette hypothèse est vérifiée, on dit que les variables explicatives sont exogènes. Sinon, elles sont dites endogènes

Hypothèses du modèle hypothèse #4 : Pas de colinéarité parfaite Contre exemple : homme égal 1 si l’individu est une homme et 0 sinon. Interprétation :les variables explicatives ne doivent pas être liées par une relation linéaire parfaite et aucune variable explicative xj ne doit être constante

Hypothèses du modèle hypothèse #5: Homoscédasticité Interprétation : Quelque soit le sous groupe de l’échantillon étudié, la variance du terme d’erreur reste constante Si cette hypothèse est violée, on parle d’hétéroscédasticité. Cela se produit lorsqu’on récolte des informations sur des individus de taille différentes (villes ou salaires). Les variables explicatives contenues dans le terme d’erreur, non intégrées au modèle, peuvent présenter des ordres de grandeurs plus importants pour les villes les grandes ou les salaires les plus élevés. Exemple: la dispersion des salaires parmi les individus les plus diplômés est plus importante que celle parmi les individus les moins diplômés.

Propriétés des estimateurs Sous les hypothèses 1 -> 4, les estimateurs ne sont pas biaisés. Introduire des variables explicatives non pertinentes n’affecte pas l’absence de biais des estimateurs. En revanche, omettre des variables explicatives pertinentes peut affecter l’absence de biais des estimateurs (risque de corrélation entre une variable explicative et le terme d’erreur). En cas de corrélation entre l’une des variables explicatives et le terme d’erreur, tous les estimateurs sont biaisés.

Propriétés des estimateurs Sous les hypothèses 1 -> 5, les estimateurs sont dits BLUE (best linear unbiaised estimators) NB : Best = estimateurs de variance minimale. On peut montrer que la variance des estimateurs Bj est où SSRj est tirée de la régression de xj sur les autres régresseurs. et est que cette variance est la plus petite parmi tous les estimateurs linéaires. Sans l’hypothèse 5, les estimateurs restent non biaisés mais leur variance n’est plus minimale parmi les classes des estimateurs linéaires non biaisés.

Méthodologie de l’étude économétrique On s’intéresse aux déterminants du niveau de salaire. Étape 1 : le salaire est la variable expliquée y, en l’occurrence le salaire. Etude préalable à l’aide des statistiques descriptives classiques : boîte à moustache (moyenne, médiane, quartiles, mode, min, max) taux de non renseignés, histogramme et distribution des salaires. Étape 2 : choix des variables explicatives, les x_i, en l’occurrence le plus haut niveau d’étude, expérience professionnelle et formation continue. Utiliser la littérature économique en s’appuyant sur un ou plusieurs articles de référence (revue de littérature). Etude préalable des variables explicatives à l’aide des statistiques descriptives à nouveau. Tracer les courbes de la variable expliquée y en fonction de chacune des variables explicatives x_i pour connaître la forme du modèle (modèle 1, 2 ou 3). Étape 3 : On pose le modèle. Exemple : log(salaire) = β0 + β1 educ + β2 exp + β3 form +υ Étape 4 : On estime les coefficients B_j et on interprète les coefficients conformément au modèle choisi. Étape 5 : étude du pouvoir descriptif du modèle. On analyse la qualité de la modélisation en utilisant le R^2, les tests et les intervalles de confiance. Etape 6 : étude du pouvoir prédictif du modèle . On applique les coefficients estimés sur des individus qui n’ont pas servis de base à l’étude (qui ne font pas partie de l’échantillon qui a permis d’estimer le modèle). On compare ainsi la valeur observée du salaire avec la valeur estimé du salaire.