- ppt télécharger

Plan du cours Introduction Statistique descriptive Echantillonnage
Calcul des probabilités et variables aléatoires Inférence statistique Estimation Tests d’hypothèses Régression linéaire 2006/2007

Introduction Objectifs Modèle linéaire
Expliquer : Mettre en relation une variable dépendante et plusieurs variables explicatives. Prévoir : Estimer la valeur de la variable dépendante en fonction de valeurs prises par les variables explicatives. Modèle linéaire Généralisation de la régression simple (une seule variable explicative). 2006/2007

Modèle y : variable dépendante (à expliquer, endogène),
x1,…, xp : variables indépendantes (explicatives, exogènes), e : terme d’erreur, perturbation. Estimer les paramètres b1,…,bp à partir d’un échantillon de n observations : 2006/2007

Exemple 1 – MBA 2006/2007

Exemple 2 – La Quinta 2006/2007

Exemple 2 (suite) 2006/2007

Modèle y : variable dépendante (à expliquer, endogène),
x1,…, xp : variables indépendantes (explicatives, exogènes), e : terme d’erreur, perturbation. Estimer les paramètres b1,…,bp à partir d’un échantillon de n observations : 2006/2007

Ecriture matricielle Avec : 2006/2007

Hypothèses H1: H2: Variables explicatives prédéterminées, données. Indépendantes de l’erreur e. H3: Homoscédasticité : 2006/2007

Exemples MBA La Quinta 2006/2007

Exemples Régression simple Régression polynomiale 2006/2007

Variables indicatrices (0-1)
2006/2007

Estimation des paramètres
Principe des moindres carrés (MC) : Sous forme matricielle : 2006/2007

Estimation des paramètres
2006/2007

Définitions Résidus Estimateur de s2 Valeur observée Valeur ajustée
2006/2007

Coefficient de détermination
Comparaison de 2 modèles : Qualité du modèle M1 par rapport à M2 ? 2006/2007

Ecart-type du terme d’erreur : 2006/2007

Mesure de qualité de M1 par rapport à M2 : Coefficient de détermination corrigé (« adjusted R-square ») 2006/2007

Interprétation : qualité M1  qualité M2 qualité M1 >> qualité M2 2006/2007

Autre mesure : Interprétation plus intuitive : 2006/2007

Problème : R2 augmente lorsque l’on ajoute une variable, même non pertinente, dans le modèle. Tableau d’analyse de variance (ANOVA) : Source Somme des carrés Degrés de liberté Carrés moyens Variables ex. Résidus Total 2006/2007

Prévision Prévision de la variable endogène y pour un jeu de valeurs x0 : Modèle linéaire : Erreur de prévision : 2006/2007

Erreur de prévision Moyenne : Variance : 2006/2007

Intervalle de prévision
A 95%, approximativement : Pour la moyenne de y0, à 95% : 2006/2007

Exemple – La Quinta  Pas rentable ! 2006/2007

Tests et intervalles de confiance
Hypothèse supplémentaire : Pour un paramètre : 2006/2007

Test de nullité de bj : Intervalle de confiance pour bj : 2006/2007

P-value : 2006/2007

Test de l’ensemble du modèle : Test en F (ANOVA) : 2006/2007

Modélisation Vérification des hypothèses de base
Analyse des résidus Analyse des valeurs extrêmes Sélection des variables explicatives Comparaison de modèles Méthodes de sélection 2006/2007

Analyse des résidus Idée : les résidus devraient ne présenter aucune structure particulière. Graphiques : Normalité des résidus, Résidus en fonction des valeurs prédites, Résidus en fonction des variables explicatives, Résidus en fonction du temps (séries chronologiques). 2006/2007

Analyse des résidus Normalité du terme d’erreur ?
Représentation graphique de la distribution des résidus : 2006/2007

Analyse des résidus Linéarité de la relation entre y et les variables explicatives ? Résidus en fonction des valeurs prédites, Résidus en fonction des variables explicatives. 2006/2007

Pas Ok : hétéroscédasticité
Analyse des résidus Homoscédasticité ? Résidus en fonction des valeurs prédites. Remèdes : Changement de variable (log y, …), Moindres carrés pondérés… Pas Ok : hétéroscédasticité Ok : homoscédasticité 2006/2007

Analyse des résidus Corrélation entre erreurs ?
Pour une série chronologique, autocorrélation d’ordre 1 : Statistique de Durbin-Watson : 2006/2007

Analyse des résidus En cas d’autocorrélation :
Introduire yt-1 comme variable explicative (autorégression), Prendre les différences : Modéliser le terme d’erreur : 2006/2007

Valeurs extrêmes Valeur extrême (outlier) = observation qui ne suit pas le modèle  valeur très grande ou très petite… Erreur d’encodage ? Observation à ne pas inclure dans l’échantillon ? Cas extrême mais normal ? Identification : Graphiquement, A l’aide des résidus. 2006/2007

Valeurs extrêmes vs influentes
Valeurs influentes : ont une grande influence sur l’estimation des paramètres. Exemples : outlier Avec et sans valeur influente 2006/2007

Exemples d’Ascombe 2006/2007

Sélection des variables
Variables explicatives doivent être pertinentes. Risque de multicolinéarité si les variables explicatives sont fortement corrélées entre elles. 2006/2007

Exemple 3 – Maisons Un agent immobilier veut essayer de prédire le prix de vente d’une maison. Variables explicatives potentielles : Surface habitable, Nombre de chambres, Superficie du terrain. Données historiques sur 100 maisons vendues. 2006/2007

Sélection de variables
Variables explicatives pertinentes : Tests individuels sur les paramètres b. Attention à la multicolinéarité. Principe de parcimonie : Réduire le nombre de variables explicatives le plus possible (interprétation du modèle). Méthodes de sélection. 2006/2007

Méthodes de sélection « Backward elimination » « Forward selection »
Éliminer progressivement les variables explicatives dont les coefficients sont non significativement différents de 0. « Forward selection » Introduire progressivement les variables explicatives les plus corrélées (corrélation partielle significative) avec y. « Stepwise selection » Méthode « pas à pas » : combine « forward » et « backward ». Exemple : La Quinta 2006/2007

Présentations similaires

Présentation au sujet: ""— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Présentations similaires

Présentation au sujet: ""— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back