La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique.

Présentations similaires


Présentation au sujet: "2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique."— Transcription de la présentation:

1 2006/ Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique 6.Estimation 7.Tests dhypothèses 8.Régression linéaire

2 2006/ Introduction Objectifs –Expliquer : Mettre en relation une variable dépendante et plusieurs variables explicatives. –Prévoir : Estimer la valeur de la variable dépendante en fonction de valeurs prises par les variables explicatives. Modèle linéaire –Généralisation de la régression simple (une seule variable explicative).

3 2006/ Modèle y : variable dépendante (à expliquer, endogène), x 1,…, x p : variables indépendantes (explicatives, exogènes), : terme derreur, perturbation. Estimer les paramètres 1,…, p à partir dun échantillon de n observations :

4 2006/ Exemple 1 – MBA

5 2006/ Exemple 2 – La Quinta

6 2006/ Exemple 2 (suite)

7 2006/ Modèle y : variable dépendante (à expliquer, endogène), x 1,…, x p : variables indépendantes (explicatives, exogènes), : terme derreur, perturbation. Estimer les paramètres 1,…, p à partir dun échantillon de n observations :

8 2006/ Ecriture matricielle Avec :

9 2006/ Hypothèses H1: H2: Variables explicatives prédéterminées, données. Indépendantes de lerreur. H3: Homoscédasticité :

10 2006/ Exemples 1.MBA 2.La Quinta

11 2006/ Exemples Régression simple Régression polynomiale

12 2006/ Variables indicatrices (0-1)

13 2006/ Estimation des paramètres Principe des moindres carrés (MC) : Sous forme matricielle :

14 2006/ Estimation des paramètres

15 2006/ Définitions Résidus Estimateur de 2 Valeur observée Valeur ajustée

16 2006/ Comparaison de 2 modèles : Qualité du modèle M1 par rapport à M2 ? Coefficient de détermination

17 2006/ Ecart-type du terme derreur : Coefficient de détermination

18 2006/ Mesure de qualité de M1 par rapport à M2 : Coefficient de détermination corrigé (« adjusted R-square ») Coefficient de détermination

19 2006/ Interprétation : qualité M1 qualité M2 qualité M1 >> qualité M2 Coefficient de détermination

20 2006/ Autre mesure : Interprétation plus intuitive : Coefficient de détermination

21 2006/ Problème : –R 2 augmente lorsque lon ajoute une variable, même non pertinente, dans le modèle. Tableau danalyse de variance (ANOVA) : Coefficient de détermination SourceSomme des carrés Degrés de liberté Carrés moyens Variables ex. Résidus Total

22 2006/ Prévision Prévision de la variable endogène y pour un jeu de valeurs x 0 : Modèle linéaire : Erreur de prévision :

23 2006/ Erreur de prévision Moyenne : Variance :

24 2006/ Intervalle de prévision A 95%, approximativement : Pour la moyenne de y 0, à 95% :

25 2006/ Exemple – La Quinta Pas rentable !

26 2006/ Tests et intervalles de confiance Hypothèse supplémentaire : Pour un paramètre :

27 2006/ Tests et intervalles de confiance Test de nullité de j : Intervalle de confiance pour j :

28 2006/ Tests et intervalles de confiance P-value :

29 2006/ Tests et intervalles de confiance Test de lensemble du modèle : Test en F (ANOVA) :

30 2006/ Modélisation Vérification des hypothèses de base –Analyse des résidus –Analyse des valeurs extrêmes Sélection des variables explicatives –Comparaison de modèles –Méthodes de sélection

31 2006/ Analyse des résidus Idée : les résidus devraient ne présenter aucune structure particulière. Graphiques : –Normalité des résidus, –Résidus en fonction des valeurs prédites, –Résidus en fonction des variables explicatives, –Résidus en fonction du temps (séries chronologiques).

32 2006/ Analyse des résidus Normalité du terme derreur ? –Représentation graphique de la distribution des résidus :

33 2006/ Analyse des résidus Linéarité de la relation entre y et les variables explicatives ? –Résidus en fonction des valeurs prédites, –Résidus en fonction des variables explicatives.

34 2006/ Analyse des résidus Homoscédasticité ? –Résidus en fonction des valeurs prédites. –Remèdes : Changement de variable (log y, …), Moindres carrés pondérés… Pas Ok : hétéroscédasticité Ok : homoscédasticité

35 2006/ Analyse des résidus Corrélation entre erreurs ? –Pour une série chronologique, autocorrélation dordre 1 : –Statistique de Durbin-Watson :

36 2006/ Analyse des résidus En cas dautocorrélation : –Introduire y t-1 comme variable explicative (autorégression), –Prendre les différences : –Modéliser le terme derreur :

37 2006/ Valeurs extrêmes Valeur extrême (outlier) = observation qui ne suit pas le modèle valeur très grande ou très petite… –Erreur dencodage ? –Observation à ne pas inclure dans léchantillon ? –Cas extrême mais normal ? Identification : –Graphiquement, –A laide des résidus.

38 2006/ Valeurs extrêmes vs influentes Valeurs influentes : ont une grande influence sur lestimation des paramètres. Exemples : outlierAvec et sans valeur influente

39 2006/ Exemples dAscombe

40 2006/ Sélection des variables Variables explicatives doivent être pertinentes. Risque de multicolinéarité si les variables explicatives sont fortement corrélées entre elles.

41 2006/ Exemple 3 – Maisons Un agent immobilier veut essayer de prédire le prix de vente dune maison. Variables explicatives potentielles : –Surface habitable, –Nombre de chambres, –Superficie du terrain. Données historiques sur 100 maisons vendues.

42 2006/ Sélection de variables Variables explicatives pertinentes : –Tests individuels sur les paramètres. –Attention à la multicolinéarité. Principe de parcimonie : –Réduire le nombre de variables explicatives le plus possible (interprétation du modèle). Méthodes de sélection.

43 2006/ Méthodes de sélection « Backward elimination » –Éliminer progressivement les variables explicatives dont les coefficients sont non significativement différents de 0. « Forward selection » –Introduire progressivement les variables explicatives les plus corrélées (corrélation partielle significative) avec y. « Stepwise selection » –Méthode « pas à pas » : combine « forward » et « backward ». Exemple : La Quinta


Télécharger ppt "2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique."

Présentations similaires


Annonces Google