Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
270
Plan du cours Introduction Statistique descriptive Echantillonnage
Calcul des probabilités et variables aléatoires Inférence statistique Estimation Tests d’hypothèses Régression linéaire 2006/2007
271
Introduction Objectifs Modèle linéaire
Expliquer : Mettre en relation une variable dépendante et plusieurs variables explicatives. Prévoir : Estimer la valeur de la variable dépendante en fonction de valeurs prises par les variables explicatives. Modèle linéaire Généralisation de la régression simple (une seule variable explicative). 2006/2007
272
Modèle y : variable dépendante (à expliquer, endogène),
x1,…, xp : variables indépendantes (explicatives, exogènes), e : terme d’erreur, perturbation. Estimer les paramètres b1,…,bp à partir d’un échantillon de n observations : 2006/2007
273
Exemple 1 – MBA 2006/2007
274
Exemple 2 – La Quinta 2006/2007
275
Exemple 2 (suite) 2006/2007
276
Modèle y : variable dépendante (à expliquer, endogène),
x1,…, xp : variables indépendantes (explicatives, exogènes), e : terme d’erreur, perturbation. Estimer les paramètres b1,…,bp à partir d’un échantillon de n observations : 2006/2007
277
Ecriture matricielle Avec : 2006/2007
278
Hypothèses H1: H2: Variables explicatives prédéterminées, données. Indépendantes de l’erreur e. H3: Homoscédasticité : 2006/2007
279
Exemples MBA La Quinta 2006/2007
280
Exemples Régression simple Régression polynomiale 2006/2007
281
Variables indicatrices (0-1)
2006/2007
282
Estimation des paramètres
Principe des moindres carrés (MC) : Sous forme matricielle : 2006/2007
283
Estimation des paramètres
2006/2007
284
Définitions Résidus Estimateur de s2 Valeur observée Valeur ajustée
2006/2007
285
Coefficient de détermination
Comparaison de 2 modèles : Qualité du modèle M1 par rapport à M2 ? 2006/2007
286
Coefficient de détermination
Ecart-type du terme d’erreur : 2006/2007
287
Coefficient de détermination
Mesure de qualité de M1 par rapport à M2 : Coefficient de détermination corrigé (« adjusted R-square ») 2006/2007
288
Coefficient de détermination
Interprétation : qualité M1 qualité M2 qualité M1 >> qualité M2 2006/2007
289
Coefficient de détermination
Autre mesure : Interprétation plus intuitive : 2006/2007
290
Coefficient de détermination
Problème : R2 augmente lorsque l’on ajoute une variable, même non pertinente, dans le modèle. Tableau d’analyse de variance (ANOVA) : Source Somme des carrés Degrés de liberté Carrés moyens Variables ex. Résidus Total 2006/2007
291
Prévision Prévision de la variable endogène y pour un jeu de valeurs x0 : Modèle linéaire : Erreur de prévision : 2006/2007
292
Erreur de prévision Moyenne : Variance : 2006/2007
293
Intervalle de prévision
A 95%, approximativement : Pour la moyenne de y0, à 95% : 2006/2007
294
Exemple – La Quinta Pas rentable ! 2006/2007
295
Tests et intervalles de confiance
Hypothèse supplémentaire : Pour un paramètre : 2006/2007
296
Tests et intervalles de confiance
Test de nullité de bj : Intervalle de confiance pour bj : 2006/2007
297
Tests et intervalles de confiance
P-value : 2006/2007
298
Tests et intervalles de confiance
Test de l’ensemble du modèle : Test en F (ANOVA) : 2006/2007
299
Modélisation Vérification des hypothèses de base
Analyse des résidus Analyse des valeurs extrêmes Sélection des variables explicatives Comparaison de modèles Méthodes de sélection 2006/2007
300
Analyse des résidus Idée : les résidus devraient ne présenter aucune structure particulière. Graphiques : Normalité des résidus, Résidus en fonction des valeurs prédites, Résidus en fonction des variables explicatives, Résidus en fonction du temps (séries chronologiques). 2006/2007
301
Analyse des résidus Normalité du terme d’erreur ?
Représentation graphique de la distribution des résidus : 2006/2007
302
Analyse des résidus Linéarité de la relation entre y et les variables explicatives ? Résidus en fonction des valeurs prédites, Résidus en fonction des variables explicatives. 2006/2007
303
Pas Ok : hétéroscédasticité
Analyse des résidus Homoscédasticité ? Résidus en fonction des valeurs prédites. Remèdes : Changement de variable (log y, …), Moindres carrés pondérés… Pas Ok : hétéroscédasticité Ok : homoscédasticité 2006/2007
304
Analyse des résidus Corrélation entre erreurs ?
Pour une série chronologique, autocorrélation d’ordre 1 : Statistique de Durbin-Watson : 2006/2007
305
Analyse des résidus En cas d’autocorrélation :
Introduire yt-1 comme variable explicative (autorégression), Prendre les différences : Modéliser le terme d’erreur : 2006/2007
306
Valeurs extrêmes Valeur extrême (outlier) = observation qui ne suit pas le modèle valeur très grande ou très petite… Erreur d’encodage ? Observation à ne pas inclure dans l’échantillon ? Cas extrême mais normal ? Identification : Graphiquement, A l’aide des résidus. 2006/2007
307
Valeurs extrêmes vs influentes
Valeurs influentes : ont une grande influence sur l’estimation des paramètres. Exemples : outlier Avec et sans valeur influente 2006/2007
308
Exemples d’Ascombe 2006/2007
309
Sélection des variables
Variables explicatives doivent être pertinentes. Risque de multicolinéarité si les variables explicatives sont fortement corrélées entre elles. 2006/2007
310
Exemple 3 – Maisons Un agent immobilier veut essayer de prédire le prix de vente d’une maison. Variables explicatives potentielles : Surface habitable, Nombre de chambres, Superficie du terrain. Données historiques sur 100 maisons vendues. 2006/2007
311
Sélection de variables
Variables explicatives pertinentes : Tests individuels sur les paramètres b. Attention à la multicolinéarité. Principe de parcimonie : Réduire le nombre de variables explicatives le plus possible (interprétation du modèle). Méthodes de sélection. 2006/2007
312
Méthodes de sélection « Backward elimination » « Forward selection »
Éliminer progressivement les variables explicatives dont les coefficients sont non significativement différents de 0. « Forward selection » Introduire progressivement les variables explicatives les plus corrélées (corrélation partielle significative) avec y. « Stepwise selection » Méthode « pas à pas » : combine « forward » et « backward ». Exemple : La Quinta 2006/2007
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.