La régression multiple

Slides:



Advertisements
Présentations similaires
Comparaison d’une moyenne observée à une moyenne théorique
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
ANOVA à un facteur (Rehailia)
Les tests d’hypothèses (I)
C1 Bio-statistiques F. KOHLER
Comparaison d'une distribution observée à une distribution théorique
Comparaison de plusieurs moyennes observées
Régression ou corrélation
Comparaison de plusieurs moyennes Analyse de variance
Nombre de sujets nécessaires en recherche clinique
Unité #2 Analyse numérique matricielle Giansalvo EXIN Cirrincione.
Méthodes statistiques. Ajustements et corrélation
Comparaison de plusieurs moyennes Analyse de variance
Régression -corrélation
Laboratoire Inter-universitaire de Psychologie
1 Analyse de la variance multivariée Michel Tenenhaus.
La régression multiple
Chapitre 2 Les indices.

La Régression Multiple
Nombre de sujets nécessaires en recherche clinique
Régression linéaire simple
L’Analyse de Covariance
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Méthodes de prévision (STT-3220)
Modeles Lineaires.
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
La puissance statistique
La régression logistique
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.
Régression linéaire (STT-2400)
Régression linéaire (STT-2400)
Présentation de la méthode des Eléments Finis
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & tests. Partie 3.
Méthodes de Biostatistique
Méthodes de Biostatistique
2. Modèles linéaires.
ANALYSE DE DONNEES TESTS D’ASSOCIATION
La régression simple Michel Tenenhaus
LA REGRESSION LINEAIRE
Présentation du marché obligataire
M2 Sciences des Procédés - Sciences des Aliments
Chapitre 12 Régression linéaire simple et corrélation linéaire
Probabilités et Statistiques Année 2010/2011
Outils d’analyse: la méthode des moindres carrées
Méthode des moindres carrés (1)
ETUDE DE 2 VARIABLES QUANTITATIVES
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Régression linéaire (STT-2400)
STATISTIQUES.
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Statistiques à 2 variables
MENU 1 Hypothèses du modèle linéaire YO = YT + e 2 blocs d’hypothèses -Sur les relations entre les variables -Sur le comportement de la variable aléatoire.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Comparaison de plusieurs moyennes observées
Corrélation et régression linéaire Mars Modèles de régression  Réponses aux questions du type: ‘Quelle est la nature de la relation entre les variables?’
Coltier Yves Division des prix 14/05/2014 Les remplacements de type EC Les modèles hédoniques.
Transcription de la présentation:

La régression multiple Econométrie appliquée Cours de M1 deuxième partie Armand Taranco

Quand utiliser la régression multiple Pour estimer la relation entre une variable dépendante (Y ) et plusieurs variables indépendantes (X1, X2, …) Exemples Expliquer les ventes d’un magasin par le marché total, le prix, l’investissement, la publicité,… Expliquer la consommation des véhicules par le prix, la cylindrée, la puissance et le poids.

Le modèle général de régression multiple Equation de régression multiple Cette équation précise la façon dont la variable dépendante est reliée aux variables explicatives : où b0, b1, b2, . . . , bp sont les paramètres et e est un bruit aléatoire représentant le terme d’erreur.

Le modèle général de régression multiple Les termes de l’équation ième observation de Y Terme constant Influence de la variable Xp Influence de la variable X1 Résidu de la ième observation

Le modèle général de régression multiple Ecriture matricielle du modèle

Le modèle général de régression multiple Les hypothèses du modèle Les hypothèses de nature probabiliste Les variables Xi sont aléatoires E(ei)=0 pour tout i V(ei)=s2 pour tout 1≤i≤p (homoscédasticité des erreurs) Cov(ei , ei )=0 pour tout i≠j Le vecteur aléatoire e suit une loi normale à n dimensions N(0, s 2In) Les hypothèses structurelles Det(XTX)≠0 (absence de colinéarité entre les variables explicatives). n>p+1

Le modèle général de régression multiple Interprétation géométrique Le modèle général définit un hyperplan de dimension p. Nous illustrons le cas p=2. E(Yi|X1i, X2i) = 0+1X1i+2X2i Yi : observation Y b0 ei X2 (X1i, X2i) X1

Le processus d’estimation Modèle de régression multiple Y = 0 + 1X1 + 2X2 +. . .+ pXp + e Equation de régression multiple E(Y|X1,…,Xp) = 0 + 1X1 + 2X2 +. . .+ pXp Paramètres inconnus b0, b1, b2, . . . , bp Données: x1 x2 . . . xp y . . . . Equation estimée Estimateurs de b0, b1, b2, . . . , bp Estimateurs

Le processus d’estimation Interprétation géométrique Illustration du cas p=2. yi : observation Y X2 (X1i, X2i) X1

Le processus d’estimation Estimation des coefficients de régression La méthode : les moindres carrés ordinaires Le principe de l’estimation des coefficients de régression : consiste à minimiser la somme des carrés des résidus : Le calcul numérique lui-même (calcul matriciel) peut s’effectuer à l’aide de logiciels statistiques (SAS, SPSS, S+, R, Gretl,…).

Le processus d’estimation Estimation des coefficients du modèle La méthode des moindres carrés donne pour résultat : suit une loi est sans biais : Parmi les estimateurs de b linéaires par rapport à X, sans biais, les éléments de ont la plus petite variance.

Le processus d’estimation Interprétation des coefficients de régression estimés La pente (k≠0) L’estimée de Y varie d’un facteur égal à lorsque Xk augmente d’une unité, les autres variables étant maintenues constantes. L’ordonnée à l’origine C’est la valeur moyenne de Y lorsque toutes les Xi sont nulles.

Le processus d’estimation Estimation de la variance des résidus

Le processus d’estimation Les données Taille de l’échantillon Les données doivent être suffisamment nombreuses : 15 à 20 par variable au moins. La nature des variables Dans la pratique, Y est une variable quantitative et les Xi peuvent être quantitatives ou binaires.

La qualité de la régression Décomposition de la somme des carrés totale SCT : somme des carrés totale SCR : somme des carrés du modèle de régression SCE : somme des carrés résiduels SCT = SSR + SCE

Qualité de la régression Les coefficients de détermination Le coefficient de détermination R2 Il exprime le pourcentage de la variance de Y expliquée par le modèle. Il donne une idée globale de l'ajustement du modèle. Le R2 ajusté se calcule en fonction du R2 : Il traduit à la fois la qualité de l’ajustement (liaison entre Y et les Xi) et la complexité du modèle (nombre de variables explicatives). R2 = SCR/SCT

Qualité de la régression Le test de Fisher Il permet de répondre à la question : la liaison globale entre Y et les Xi est-elle significative ? Hypothèses H0: 1 = 2 = ... = p = 0 Y ne dépend pas des variables Xi . H1: Au moins un coefficient est non nul Y dépend d’au moins une variable Xi .

Qualité de la régression Statistique utilisée Règle de décision Au risque a, on rejette H0 si : F  F1- où F1- est un fractile d’une loi de Fisher à p et n-p-1 degrés de liberté.

Qualité de la régression R2 et test de Fisher F bon, R² mauvais F bon, R² bon

Qualité de la régression Le test de Student Il permet de répondre à la question suivante : l’apport marginal d’une variable Xi est-il significatif ? Hypothèses H0 : j = 0 (j≠0) On peut supprimer la variable Xj H1 : j  0 Il faut conserver la variable Xj

Qualité de la régression Statistique utilisée Règle de décision Au risque a, on rejette H0 si : |t| ≥ t1- où t1- est un fractile d’une loi de Student à n-p-1 degrés de liberté.

Analyse des résidus Normalité Homoscédasticité QQ plot Tests de normalité Homoscédasticité La variance des résidus n’est pas stable. Transformation des données Indépendance des résidus Test de Durbin-Watson Détection des valeurs atypiques

Les variables indicatrices Variable indicatrice (dummy variable) Variable prenant les valeurs 0 ou 1 pour indiquer que l’observation présente une certaine caractéristique, par exemple une périodicité (trimestre, mois,…). Exemple : la consommation de fuel trimestrielle di = 1 pour le iéme trimestre di = 0 sinon