Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

ANOVA à un facteur (Rehailia)
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Inférence statistique
C1 Bio-statistiques F. KOHLER
Inférence statistique
Les TESTS STATISTIQUES
Régression ou corrélation
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Régression -corrélation
Laboratoire Inter-universitaire de Psychologie
Corrélation linéaire et la droite de régression
Chapitre 2 Les indices.
La Régression Multiple
Régression linéaire simple
Corrélation et régression linéaire simple
Méthodes de prévision (STT-3220)
Econometrie des Series Temporelles Modeles ARIMA ARCH-GARCH
Modeles Lineaires.
Modelisation Modeles ARIMA ARCH-GARCH
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
La régression logistique
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
La régression multiple
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Corrélation et régression linéaire
Méthodes de Biostatistique
LA REGRESSION MULTIPLE
2. Modèles linéaires.
STATISTIQUES ANALYTIQUES (suite)
ANALYSE DE DONNEES TESTS D’ASSOCIATION
La régression simple Michel Tenenhaus
LA REGRESSION LINEAIRE
Statistique Cours #4 Régression linéaire simple et multiple
Chapitre 12 Régression linéaire simple et corrélation linéaire
Probabilités et Statistiques Année 2010/2011
BIO 4518: Biostatistiques appliquées Le 25 octobre 2005 Laboratoire 6 Corrélation linéaire et régression linéaire simple.
Analyse de variance à un critère de classification (ANOVA)
STT-3220 Méthodes de prévision
Méthode des moindres carrés (1)
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Principes d'économétrie
Régression linéaire (STT-2400)
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Méthodes de prévision (STT-3220)
Remise à niveau en statistique Eric Marcon – Module FTH 2006.
BIO 4518: Biostatistiques appliquées Le 8 novembre 2005 Laboratoire 8 Regressions multiples.
MENU 1 Hypothèses du modèle linéaire YO = YT + e 2 blocs d’hypothèses -Sur les relations entre les variables -Sur le comportement de la variable aléatoire.
MENU 1 Modèles de choix.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Comparaison de plusieurs moyennes observées
E CONOMÉTRIE A PPLIQUÉE AVEC R (P ART 03) R. Aloui 2015/2016 Disponible sur
Introduction aux statistiques Intervalles de confiance
Corrélation et régression linéaire Mars Modèles de régression  Réponses aux questions du type: ‘Quelle est la nature de la relation entre les variables?’
Coltier Yves Division des prix 14/05/2014 Les remplacements de type EC Les modèles hédoniques.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

Plan du cours Introduction Statistique descriptive Echantillonnage Calcul des probabilités et variables aléatoires Inférence statistique Estimation Tests d’hypothèses Régression linéaire 2006/2007

Introduction Objectifs Modèle linéaire Expliquer : Mettre en relation une variable dépendante et plusieurs variables explicatives. Prévoir : Estimer la valeur de la variable dépendante en fonction de valeurs prises par les variables explicatives. Modèle linéaire Généralisation de la régression simple (une seule variable explicative). 2006/2007

Modèle y : variable dépendante (à expliquer, endogène), x1,…, xp : variables indépendantes (explicatives, exogènes), e : terme d’erreur, perturbation. Estimer les paramètres b1,…,bp à partir d’un échantillon de n observations : 2006/2007

Exemple 1 – MBA 2006/2007

Exemple 2 – La Quinta 2006/2007

Exemple 2 (suite) 2006/2007

Modèle y : variable dépendante (à expliquer, endogène), x1,…, xp : variables indépendantes (explicatives, exogènes), e : terme d’erreur, perturbation. Estimer les paramètres b1,…,bp à partir d’un échantillon de n observations : 2006/2007

Ecriture matricielle Avec : 2006/2007

Hypothèses H1: H2: Variables explicatives prédéterminées, données. Indépendantes de l’erreur e. H3: Homoscédasticité : 2006/2007

Exemples MBA La Quinta 2006/2007

Exemples Régression simple Régression polynomiale 2006/2007

Variables indicatrices (0-1) 2006/2007

Estimation des paramètres Principe des moindres carrés (MC) : Sous forme matricielle : 2006/2007

Estimation des paramètres 2006/2007

Définitions Résidus Estimateur de s2 Valeur observée Valeur ajustée 2006/2007

Coefficient de détermination Comparaison de 2 modèles : Qualité du modèle M1 par rapport à M2 ? 2006/2007

Coefficient de détermination Ecart-type du terme d’erreur : 2006/2007

Coefficient de détermination Mesure de qualité de M1 par rapport à M2 : Coefficient de détermination corrigé (« adjusted R-square ») 2006/2007

Coefficient de détermination Interprétation : qualité M1  qualité M2 qualité M1 >> qualité M2 2006/2007

Coefficient de détermination Autre mesure : Interprétation plus intuitive : 2006/2007

Coefficient de détermination Problème : R2 augmente lorsque l’on ajoute une variable, même non pertinente, dans le modèle. Tableau d’analyse de variance (ANOVA) : Source Somme des carrés Degrés de liberté Carrés moyens Variables ex. Résidus Total 2006/2007

Prévision Prévision de la variable endogène y pour un jeu de valeurs x0 : Modèle linéaire : Erreur de prévision : 2006/2007

Erreur de prévision Moyenne : Variance : 2006/2007

Intervalle de prévision A 95%, approximativement : Pour la moyenne de y0, à 95% : 2006/2007

Exemple – La Quinta  Pas rentable ! 2006/2007

Tests et intervalles de confiance Hypothèse supplémentaire : Pour un paramètre : 2006/2007

Tests et intervalles de confiance Test de nullité de bj : Intervalle de confiance pour bj : 2006/2007

Tests et intervalles de confiance P-value : 2006/2007

Tests et intervalles de confiance Test de l’ensemble du modèle : Test en F (ANOVA) : 2006/2007

Modélisation Vérification des hypothèses de base Analyse des résidus Analyse des valeurs extrêmes Sélection des variables explicatives Comparaison de modèles Méthodes de sélection 2006/2007

Analyse des résidus Idée : les résidus devraient ne présenter aucune structure particulière. Graphiques : Normalité des résidus, Résidus en fonction des valeurs prédites, Résidus en fonction des variables explicatives, Résidus en fonction du temps (séries chronologiques). 2006/2007

Analyse des résidus Normalité du terme d’erreur ? Représentation graphique de la distribution des résidus : 2006/2007

Analyse des résidus Linéarité de la relation entre y et les variables explicatives ? Résidus en fonction des valeurs prédites, Résidus en fonction des variables explicatives. 2006/2007

Pas Ok : hétéroscédasticité Analyse des résidus Homoscédasticité ? Résidus en fonction des valeurs prédites. Remèdes : Changement de variable (log y, …), Moindres carrés pondérés… Pas Ok : hétéroscédasticité Ok : homoscédasticité 2006/2007

Analyse des résidus Corrélation entre erreurs ? Pour une série chronologique, autocorrélation d’ordre 1 : Statistique de Durbin-Watson : 2006/2007

Analyse des résidus En cas d’autocorrélation : Introduire yt-1 comme variable explicative (autorégression), Prendre les différences : Modéliser le terme d’erreur : 2006/2007

Valeurs extrêmes Valeur extrême (outlier) = observation qui ne suit pas le modèle  valeur très grande ou très petite… Erreur d’encodage ? Observation à ne pas inclure dans l’échantillon ? Cas extrême mais normal ? Identification : Graphiquement, A l’aide des résidus. 2006/2007

Valeurs extrêmes vs influentes Valeurs influentes : ont une grande influence sur l’estimation des paramètres. Exemples : outlier Avec et sans valeur influente 2006/2007

Exemples d’Ascombe 2006/2007

Sélection des variables Variables explicatives doivent être pertinentes. Risque de multicolinéarité si les variables explicatives sont fortement corrélées entre elles. 2006/2007

Exemple 3 – Maisons Un agent immobilier veut essayer de prédire le prix de vente d’une maison. Variables explicatives potentielles : Surface habitable, Nombre de chambres, Superficie du terrain. Données historiques sur 100 maisons vendues. 2006/2007

Sélection de variables Variables explicatives pertinentes : Tests individuels sur les paramètres b. Attention à la multicolinéarité. Principe de parcimonie : Réduire le nombre de variables explicatives le plus possible (interprétation du modèle). Méthodes de sélection. 2006/2007

Méthodes de sélection « Backward elimination » « Forward selection » Éliminer progressivement les variables explicatives dont les coefficients sont non significativement différents de 0. « Forward selection » Introduire progressivement les variables explicatives les plus corrélées (corrélation partielle significative) avec y. « Stepwise selection » Méthode « pas à pas » : combine « forward » et « backward ». Exemple : La Quinta 2006/2007