Plan du cours Introduction Statistique descriptive Echantillonnage Calcul des probabilités et variables aléatoires Inférence statistique Estimation Tests d’hypothèses Régression linéaire 2006/2007
Introduction Objectifs Modèle linéaire Expliquer : Mettre en relation une variable dépendante et plusieurs variables explicatives. Prévoir : Estimer la valeur de la variable dépendante en fonction de valeurs prises par les variables explicatives. Modèle linéaire Généralisation de la régression simple (une seule variable explicative). 2006/2007
Modèle y : variable dépendante (à expliquer, endogène), x1,…, xp : variables indépendantes (explicatives, exogènes), e : terme d’erreur, perturbation. Estimer les paramètres b1,…,bp à partir d’un échantillon de n observations : 2006/2007
Exemple 1 – MBA 2006/2007
Exemple 2 – La Quinta 2006/2007
Exemple 2 (suite) 2006/2007
Modèle y : variable dépendante (à expliquer, endogène), x1,…, xp : variables indépendantes (explicatives, exogènes), e : terme d’erreur, perturbation. Estimer les paramètres b1,…,bp à partir d’un échantillon de n observations : 2006/2007
Ecriture matricielle Avec : 2006/2007
Hypothèses H1: H2: Variables explicatives prédéterminées, données. Indépendantes de l’erreur e. H3: Homoscédasticité : 2006/2007
Exemples MBA La Quinta 2006/2007
Exemples Régression simple Régression polynomiale 2006/2007
Variables indicatrices (0-1) 2006/2007
Estimation des paramètres Principe des moindres carrés (MC) : Sous forme matricielle : 2006/2007
Estimation des paramètres 2006/2007
Définitions Résidus Estimateur de s2 Valeur observée Valeur ajustée 2006/2007
Coefficient de détermination Comparaison de 2 modèles : Qualité du modèle M1 par rapport à M2 ? 2006/2007
Coefficient de détermination Ecart-type du terme d’erreur : 2006/2007
Coefficient de détermination Mesure de qualité de M1 par rapport à M2 : Coefficient de détermination corrigé (« adjusted R-square ») 2006/2007
Coefficient de détermination Interprétation : qualité M1 qualité M2 qualité M1 >> qualité M2 2006/2007
Coefficient de détermination Autre mesure : Interprétation plus intuitive : 2006/2007
Coefficient de détermination Problème : R2 augmente lorsque l’on ajoute une variable, même non pertinente, dans le modèle. Tableau d’analyse de variance (ANOVA) : Source Somme des carrés Degrés de liberté Carrés moyens Variables ex. Résidus Total 2006/2007
Prévision Prévision de la variable endogène y pour un jeu de valeurs x0 : Modèle linéaire : Erreur de prévision : 2006/2007
Erreur de prévision Moyenne : Variance : 2006/2007
Intervalle de prévision A 95%, approximativement : Pour la moyenne de y0, à 95% : 2006/2007
Exemple – La Quinta Pas rentable ! 2006/2007
Tests et intervalles de confiance Hypothèse supplémentaire : Pour un paramètre : 2006/2007
Tests et intervalles de confiance Test de nullité de bj : Intervalle de confiance pour bj : 2006/2007
Tests et intervalles de confiance P-value : 2006/2007
Tests et intervalles de confiance Test de l’ensemble du modèle : Test en F (ANOVA) : 2006/2007
Modélisation Vérification des hypothèses de base Analyse des résidus Analyse des valeurs extrêmes Sélection des variables explicatives Comparaison de modèles Méthodes de sélection 2006/2007
Analyse des résidus Idée : les résidus devraient ne présenter aucune structure particulière. Graphiques : Normalité des résidus, Résidus en fonction des valeurs prédites, Résidus en fonction des variables explicatives, Résidus en fonction du temps (séries chronologiques). 2006/2007
Analyse des résidus Normalité du terme d’erreur ? Représentation graphique de la distribution des résidus : 2006/2007
Analyse des résidus Linéarité de la relation entre y et les variables explicatives ? Résidus en fonction des valeurs prédites, Résidus en fonction des variables explicatives. 2006/2007
Pas Ok : hétéroscédasticité Analyse des résidus Homoscédasticité ? Résidus en fonction des valeurs prédites. Remèdes : Changement de variable (log y, …), Moindres carrés pondérés… Pas Ok : hétéroscédasticité Ok : homoscédasticité 2006/2007
Analyse des résidus Corrélation entre erreurs ? Pour une série chronologique, autocorrélation d’ordre 1 : Statistique de Durbin-Watson : 2006/2007
Analyse des résidus En cas d’autocorrélation : Introduire yt-1 comme variable explicative (autorégression), Prendre les différences : Modéliser le terme d’erreur : 2006/2007
Valeurs extrêmes Valeur extrême (outlier) = observation qui ne suit pas le modèle valeur très grande ou très petite… Erreur d’encodage ? Observation à ne pas inclure dans l’échantillon ? Cas extrême mais normal ? Identification : Graphiquement, A l’aide des résidus. 2006/2007
Valeurs extrêmes vs influentes Valeurs influentes : ont une grande influence sur l’estimation des paramètres. Exemples : outlier Avec et sans valeur influente 2006/2007
Exemples d’Ascombe 2006/2007
Sélection des variables Variables explicatives doivent être pertinentes. Risque de multicolinéarité si les variables explicatives sont fortement corrélées entre elles. 2006/2007
Exemple 3 – Maisons Un agent immobilier veut essayer de prédire le prix de vente d’une maison. Variables explicatives potentielles : Surface habitable, Nombre de chambres, Superficie du terrain. Données historiques sur 100 maisons vendues. 2006/2007
Sélection de variables Variables explicatives pertinentes : Tests individuels sur les paramètres b. Attention à la multicolinéarité. Principe de parcimonie : Réduire le nombre de variables explicatives le plus possible (interprétation du modèle). Méthodes de sélection. 2006/2007
Méthodes de sélection « Backward elimination » « Forward selection » Éliminer progressivement les variables explicatives dont les coefficients sont non significativement différents de 0. « Forward selection » Introduire progressivement les variables explicatives les plus corrélées (corrélation partielle significative) avec y. « Stepwise selection » Méthode « pas à pas » : combine « forward » et « backward ». Exemple : La Quinta 2006/2007