La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Présentations similaires


Présentation au sujet: ""— Transcription de la présentation:

270 Plan du cours Introduction Statistique descriptive Echantillonnage
Calcul des probabilités et variables aléatoires Inférence statistique Estimation Tests d’hypothèses Régression linéaire 2006/2007

271 Introduction Objectifs Modèle linéaire
Expliquer : Mettre en relation une variable dépendante et plusieurs variables explicatives. Prévoir : Estimer la valeur de la variable dépendante en fonction de valeurs prises par les variables explicatives. Modèle linéaire Généralisation de la régression simple (une seule variable explicative). 2006/2007

272 Modèle y : variable dépendante (à expliquer, endogène),
x1,…, xp : variables indépendantes (explicatives, exogènes), e : terme d’erreur, perturbation. Estimer les paramètres b1,…,bp à partir d’un échantillon de n observations : 2006/2007

273 Exemple 1 – MBA 2006/2007

274 Exemple 2 – La Quinta 2006/2007

275 Exemple 2 (suite) 2006/2007

276 Modèle y : variable dépendante (à expliquer, endogène),
x1,…, xp : variables indépendantes (explicatives, exogènes), e : terme d’erreur, perturbation. Estimer les paramètres b1,…,bp à partir d’un échantillon de n observations : 2006/2007

277 Ecriture matricielle Avec : 2006/2007

278 Hypothèses H1: H2: Variables explicatives prédéterminées, données. Indépendantes de l’erreur e. H3: Homoscédasticité : 2006/2007

279 Exemples MBA La Quinta 2006/2007

280 Exemples Régression simple Régression polynomiale 2006/2007

281 Variables indicatrices (0-1)
2006/2007

282 Estimation des paramètres
Principe des moindres carrés (MC) : Sous forme matricielle : 2006/2007

283 Estimation des paramètres
2006/2007

284 Définitions Résidus Estimateur de s2 Valeur observée Valeur ajustée
2006/2007

285 Coefficient de détermination
Comparaison de 2 modèles : Qualité du modèle M1 par rapport à M2 ? 2006/2007

286 Coefficient de détermination
Ecart-type du terme d’erreur : 2006/2007

287 Coefficient de détermination
Mesure de qualité de M1 par rapport à M2 : Coefficient de détermination corrigé (« adjusted R-square ») 2006/2007

288 Coefficient de détermination
Interprétation : qualité M1  qualité M2 qualité M1 >> qualité M2 2006/2007

289 Coefficient de détermination
Autre mesure : Interprétation plus intuitive : 2006/2007

290 Coefficient de détermination
Problème : R2 augmente lorsque l’on ajoute une variable, même non pertinente, dans le modèle. Tableau d’analyse de variance (ANOVA) : Source Somme des carrés Degrés de liberté Carrés moyens Variables ex. Résidus Total 2006/2007

291 Prévision Prévision de la variable endogène y pour un jeu de valeurs x0 : Modèle linéaire : Erreur de prévision : 2006/2007

292 Erreur de prévision Moyenne : Variance : 2006/2007

293 Intervalle de prévision
A 95%, approximativement : Pour la moyenne de y0, à 95% : 2006/2007

294 Exemple – La Quinta  Pas rentable ! 2006/2007

295 Tests et intervalles de confiance
Hypothèse supplémentaire : Pour un paramètre : 2006/2007

296 Tests et intervalles de confiance
Test de nullité de bj : Intervalle de confiance pour bj : 2006/2007

297 Tests et intervalles de confiance
P-value : 2006/2007

298 Tests et intervalles de confiance
Test de l’ensemble du modèle : Test en F (ANOVA) : 2006/2007

299 Modélisation Vérification des hypothèses de base
Analyse des résidus Analyse des valeurs extrêmes Sélection des variables explicatives Comparaison de modèles Méthodes de sélection 2006/2007

300 Analyse des résidus Idée : les résidus devraient ne présenter aucune structure particulière. Graphiques : Normalité des résidus, Résidus en fonction des valeurs prédites, Résidus en fonction des variables explicatives, Résidus en fonction du temps (séries chronologiques). 2006/2007

301 Analyse des résidus Normalité du terme d’erreur ?
Représentation graphique de la distribution des résidus : 2006/2007

302 Analyse des résidus Linéarité de la relation entre y et les variables explicatives ? Résidus en fonction des valeurs prédites, Résidus en fonction des variables explicatives. 2006/2007

303 Pas Ok : hétéroscédasticité
Analyse des résidus Homoscédasticité ? Résidus en fonction des valeurs prédites. Remèdes : Changement de variable (log y, …), Moindres carrés pondérés… Pas Ok : hétéroscédasticité Ok : homoscédasticité 2006/2007

304 Analyse des résidus Corrélation entre erreurs ?
Pour une série chronologique, autocorrélation d’ordre 1 : Statistique de Durbin-Watson : 2006/2007

305 Analyse des résidus En cas d’autocorrélation :
Introduire yt-1 comme variable explicative (autorégression), Prendre les différences : Modéliser le terme d’erreur : 2006/2007

306 Valeurs extrêmes Valeur extrême (outlier) = observation qui ne suit pas le modèle  valeur très grande ou très petite… Erreur d’encodage ? Observation à ne pas inclure dans l’échantillon ? Cas extrême mais normal ? Identification : Graphiquement, A l’aide des résidus. 2006/2007

307 Valeurs extrêmes vs influentes
Valeurs influentes : ont une grande influence sur l’estimation des paramètres. Exemples : outlier Avec et sans valeur influente 2006/2007

308 Exemples d’Ascombe 2006/2007

309 Sélection des variables
Variables explicatives doivent être pertinentes. Risque de multicolinéarité si les variables explicatives sont fortement corrélées entre elles. 2006/2007

310 Exemple 3 – Maisons Un agent immobilier veut essayer de prédire le prix de vente d’une maison. Variables explicatives potentielles : Surface habitable, Nombre de chambres, Superficie du terrain. Données historiques sur 100 maisons vendues. 2006/2007

311 Sélection de variables
Variables explicatives pertinentes : Tests individuels sur les paramètres b. Attention à la multicolinéarité. Principe de parcimonie : Réduire le nombre de variables explicatives le plus possible (interprétation du modèle). Méthodes de sélection. 2006/2007

312 Méthodes de sélection « Backward elimination » « Forward selection »
Éliminer progressivement les variables explicatives dont les coefficients sont non significativement différents de 0. « Forward selection » Introduire progressivement les variables explicatives les plus corrélées (corrélation partielle significative) avec y. « Stepwise selection » Méthode « pas à pas » : combine « forward » et « backward ». Exemple : La Quinta 2006/2007


Télécharger ppt ""

Présentations similaires


Annonces Google