La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique.

Présentations similaires


Présentation au sujet: "2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique."— Transcription de la présentation:

1 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique 6.Estimation 7.Tests dhypothèses 8.Régression linéaire

2 2006/2007271 Introduction Objectifs –Expliquer : Mettre en relation une variable dépendante et plusieurs variables explicatives. –Prévoir : Estimer la valeur de la variable dépendante en fonction de valeurs prises par les variables explicatives. Modèle linéaire –Généralisation de la régression simple (une seule variable explicative).

3 2006/2007272 Modèle y : variable dépendante (à expliquer, endogène), x 1,…, x p : variables indépendantes (explicatives, exogènes), : terme derreur, perturbation. Estimer les paramètres 1,…, p à partir dun échantillon de n observations :

4 2006/2007273 Exemple 1 – MBA

5 2006/2007274 Exemple 2 – La Quinta

6 2006/2007275 Exemple 2 (suite)

7 2006/2007276 Modèle y : variable dépendante (à expliquer, endogène), x 1,…, x p : variables indépendantes (explicatives, exogènes), : terme derreur, perturbation. Estimer les paramètres 1,…, p à partir dun échantillon de n observations :

8 2006/2007277 Ecriture matricielle Avec :

9 2006/2007278 Hypothèses H1: H2: Variables explicatives prédéterminées, données. Indépendantes de lerreur. H3: Homoscédasticité :

10 2006/2007279 Exemples 1.MBA 2.La Quinta

11 2006/2007280 Exemples Régression simple Régression polynomiale

12 2006/2007281 Variables indicatrices (0-1)

13 2006/2007282 Estimation des paramètres Principe des moindres carrés (MC) : Sous forme matricielle :

14 2006/2007283 Estimation des paramètres

15 2006/2007284 Définitions Résidus Estimateur de 2 Valeur observée Valeur ajustée

16 2006/2007285 Comparaison de 2 modèles : Qualité du modèle M1 par rapport à M2 ? Coefficient de détermination

17 2006/2007286 Ecart-type du terme derreur : Coefficient de détermination

18 2006/2007287 Mesure de qualité de M1 par rapport à M2 : Coefficient de détermination corrigé (« adjusted R-square ») Coefficient de détermination

19 2006/2007288 Interprétation : qualité M1 qualité M2 qualité M1 >> qualité M2 Coefficient de détermination

20 2006/2007289 Autre mesure : Interprétation plus intuitive : Coefficient de détermination

21 2006/2007290 Problème : –R 2 augmente lorsque lon ajoute une variable, même non pertinente, dans le modèle. Tableau danalyse de variance (ANOVA) : Coefficient de détermination SourceSomme des carrés Degrés de liberté Carrés moyens Variables ex. Résidus Total

22 2006/2007291 Prévision Prévision de la variable endogène y pour un jeu de valeurs x 0 : Modèle linéaire : Erreur de prévision :

23 2006/2007292 Erreur de prévision Moyenne : Variance :

24 2006/2007293 Intervalle de prévision A 95%, approximativement : Pour la moyenne de y 0, à 95% :

25 2006/2007294 Exemple – La Quinta Pas rentable !

26 2006/2007295 Tests et intervalles de confiance Hypothèse supplémentaire : Pour un paramètre :

27 2006/2007296 Tests et intervalles de confiance Test de nullité de j : Intervalle de confiance pour j :

28 2006/2007297 Tests et intervalles de confiance P-value :

29 2006/2007298 Tests et intervalles de confiance Test de lensemble du modèle : Test en F (ANOVA) :

30 2006/2007299 Modélisation Vérification des hypothèses de base –Analyse des résidus –Analyse des valeurs extrêmes Sélection des variables explicatives –Comparaison de modèles –Méthodes de sélection

31 2006/2007300 Analyse des résidus Idée : les résidus devraient ne présenter aucune structure particulière. Graphiques : –Normalité des résidus, –Résidus en fonction des valeurs prédites, –Résidus en fonction des variables explicatives, –Résidus en fonction du temps (séries chronologiques).

32 2006/2007301 Analyse des résidus Normalité du terme derreur ? –Représentation graphique de la distribution des résidus :

33 2006/2007302 Analyse des résidus Linéarité de la relation entre y et les variables explicatives ? –Résidus en fonction des valeurs prédites, –Résidus en fonction des variables explicatives.

34 2006/2007303 Analyse des résidus Homoscédasticité ? –Résidus en fonction des valeurs prédites. –Remèdes : Changement de variable (log y, …), Moindres carrés pondérés… Pas Ok : hétéroscédasticité Ok : homoscédasticité

35 2006/2007304 Analyse des résidus Corrélation entre erreurs ? –Pour une série chronologique, autocorrélation dordre 1 : –Statistique de Durbin-Watson :

36 2006/2007305 Analyse des résidus En cas dautocorrélation : –Introduire y t-1 comme variable explicative (autorégression), –Prendre les différences : –Modéliser le terme derreur :

37 2006/2007306 Valeurs extrêmes Valeur extrême (outlier) = observation qui ne suit pas le modèle valeur très grande ou très petite… –Erreur dencodage ? –Observation à ne pas inclure dans léchantillon ? –Cas extrême mais normal ? Identification : –Graphiquement, –A laide des résidus.

38 2006/2007307 Valeurs extrêmes vs influentes Valeurs influentes : ont une grande influence sur lestimation des paramètres. Exemples : outlierAvec et sans valeur influente

39 2006/2007308 Exemples dAscombe

40 2006/2007309 Sélection des variables Variables explicatives doivent être pertinentes. Risque de multicolinéarité si les variables explicatives sont fortement corrélées entre elles.

41 2006/2007310 Exemple 3 – Maisons Un agent immobilier veut essayer de prédire le prix de vente dune maison. Variables explicatives potentielles : –Surface habitable, –Nombre de chambres, –Superficie du terrain. Données historiques sur 100 maisons vendues.

42 2006/2007311 Sélection de variables Variables explicatives pertinentes : –Tests individuels sur les paramètres. –Attention à la multicolinéarité. Principe de parcimonie : –Réduire le nombre de variables explicatives le plus possible (interprétation du modèle). Méthodes de sélection.

43 2006/2007312 Méthodes de sélection « Backward elimination » –Éliminer progressivement les variables explicatives dont les coefficients sont non significativement différents de 0. « Forward selection » –Introduire progressivement les variables explicatives les plus corrélées (corrélation partielle significative) avec y. « Stepwise selection » –Méthode « pas à pas » : combine « forward » et « backward ». Exemple : La Quinta


Télécharger ppt "2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique."

Présentations similaires


Annonces Google