Modeles Lineaires.

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Les tests d’hypothèses (II)
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Inférence statistique
C1 Bio-statistiques F. KOHLER
Inférence statistique
Tests non paramétriques
Régression ou corrélation
1. Les caractéristiques de dispersion. 11. Utilité.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Les tests d’hypothèses
Régression -corrélation
Analyse de la variance à un facteur
La régression simple Michel Tenenhaus
Modèle Linéaire Généralisé (Proc Genmod)
Régression linéaire (STT-2400) Section 3 Tests dhypothèses et lhypothèse linéaire générale Version: 26 janvier 2007.
LES ÉLASTICITÉS DE LA DEMANDE ET DE L’OFFRE
Chapitre 2 Les indices.
Application des algorithmes génétiques

Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
La Régression Multiple
1.2 COMPOSANTES DES VECTEURS
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Régression linéaire simple
DEA Perception et Traitement de l’Information
Howell, Chap. 1 Position générale
Systèmes d’équations du premier degré à deux variables
Corrélation et régression linéaire simple
Méthodes de prévision (STT-3220)
Econometrie des Series Temporelles Modeles ARIMA ARCH-GARCH
Modelisation Modeles ARIMA ARCH-GARCH
Modeles non-lineaires
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
La régression logistique
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Quelques fonctions de base
Le comportement des coûts Chapitre 3
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
Régression linéaire (STT-2400)
La régression multiple
Filtre de Kalman – Préliminaires (1)
Régression linéaire (STT-2400)
ASI 3 Méthodes numériques pour l’ingénieur
Présentation de la méthode des Eléments Finis
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
1 - Programme de Seconde (juin 2009) Statistique et probabilités
Méthodes de Biostatistique
Méthodes de Biostatistique
Probabilités et Statistiques
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Rappels de statistiques descriptives
LA REGRESSION LINEAIRE
Chapitre 12 Régression linéaire simple et corrélation linéaire
Probabilités et Statistiques Année 2010/2011
L’erreur standard et les principes fondamentaux du test de t
Méthode des moindres carrés (1)
Régression linéaire (STT-2400)
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Approximation linéaire –Méthode du moindre carré u Exemple.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Introduction aux statistiques Intervalles de confiance
Transcription de la présentation:

Modeles Lineaires

Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees  Information incomplete Quel est le modele adequat? Comment le specifier et l’estimer? Le modele lineaire constitue un outil essentiel d’inference Malgre son apparente simplicite, faire attention aux hypotheses sous jacentes La theorie economique/financiere implique les maths, pas le contraire

Regression: Population Y=variable dependante X= regresseurs, variables explicatives A distinguer: Difference entre population et echantillon Pour une population, nous ecrivons: y = b 0 + b 1 x. b0 est l’ordonnee a l’origine, et b1 la pente La variable dependante variable change de maniere proportionelle pour toute variation dans les variables independantes Modele economique  Expression mathematique

Regression: Echantillon Nous n’observons pas toute la population Seulement un echantillon tire aleatoirement y = b 0 + b 1 x. b0 est un estimateur de b0. b1 est un estimateur de b1.

Regression: Echantillon Regression: Population (parametres inconnus) Representativite? Meme si l’echantillon est tire aleatoirement parmi une population, il n’y a pas de garantie absolue que l’echantillon soit representatif Regression: Echantillon x y Regression: Population (parametres inconnus)

Outils Les estimateurs b0 et b1 sont ils precis? Deux methodes inferentielles: Intervalles de confiance Tests d’hypotheses Objectifs: Examiner la qualite de la regression (relation entre y observes et y prevus)

Hypotheses Inclusion d’un terme d’erreur d’estimation car dans la pratique aucune paire de variables ne presente une relation lineaire parfaite Modele de regression simple y i = b 0 + b 1 x i + e i Les e i sont distribues normalement, avec une moyenne de 0 et une variance se2. Les e i sont independants les uns des autres Les e i sont independants de X

Regression Parfaite Y = 1X

Un Monde Imparfait Y = 1X + e

Estimation des Parametres b0, b1, et se2

Objectif Moindres Carres Ordinaires (MCO): modele lineaire qui a pour objectif de minimiser la somme des erreurs au carre Theoreme de Gauss-Markov: BLUE “Best Linear Unbiased Estimator” L’estimateur MCO est celui possedant la plus petite variance parmi tous les estimateurs lineaires

Autres Objectifs La minimisation des erreurs au carre n’est qu’une fonction-objectif parmi d’autres Minimiser valeur absolue des erreurs Minimiser erreurs simples Erreurs simples: Leur somme est egale a 0 Des modeles bases sur la deviation absolue minimale existent mais ils sont lourds a manipuler mathematiquement Algebre avec un operateur de valeur absolue

Implications du Modele MCO Le modele cherche a eviter les grandes erreurs Une grande valeur de e pour une observation conduit generalement a une grande e2 finale Les resultats de la regression peuvent etre tres influences par des anomalies (outliers) Toujours examiner les donnees Toujours examiner les residus de la regression

Derivation Notation Minimiser la somme des erreurs au carre y est le vecteur nx1 de la variable dependante X est la matrice nxp des variables independantes  est un vecteur px1vector. Notation transposee: ‘ Minimiser la somme des erreurs au carre Min  par rapport a   = (y  X) (y  X) = y y  Xy  yX + XX

Derivation Nous devons minimiser  2yX + XX par rapport a  Changeons la notation et ecrivons A=yX and C= XX L’expression s’exprime:  2A + C Nous appliquons deux regles de derivation matricielle (1) La derivee de A par rapport a  est A (2) La derivee de C par rapport a  est 2C

Derivation A=yX et C= XX L’expression a minimiser s’ecrit  2A + C La derivee est egale a zero au minimum Par application des deux regles precedentes:  2 A + 2C =0 Substituons A = Xy et C= XX 2 Xy + 2 XX  =0 2 XX  = 2 Xy XX  = Xy

Derivation La solution du probleme de minimisation XX  = Xy Pre-multiplions les deux cotes par (XX)1  = (XX)1 Xy Une partie importante de l’econometrie se concentre sur l’estimateur MCO b = (XX)1 Xy et ses extensions selon differentes hypotheses pour 

Hypotheses Pour une regression bivariee donnee 1. Echantillon aleatoire Au moins N > 20 2. La relation entre variable est lineaire i.e., la moyenne de Y augmente lineairement avec X Representer graphiquement X et Y Prendre garde aux relations non lineaires (e.g., forme en U)

Hypothese 3. Y est distribuee normalement, conditionellement a la valeur de X “Normalite conditionelle” Ex: Annees d’education = X, Prestige (Y) Supposons que nous examinons un sous echantillon (X = 12) L’histogramme de Y est il normal? Qu’en est il pour X=4 ou X=16?

Hypotheses Normalite: Decent Pas Bon Examiner des sous echantillons pour differentes valeurs de X. Faire des histogramme et verifier la normalite Normalite: Decent Pas Bon

Hypotheses 4. Les variances des erreurs d’estimation sont identiques pour tout valeur de X Rappel: L’erreur represente la deviation par rapport a la ligne de regression Definition: “homoskedasticite” = La dispersion des erreurs est stable quelles que soient les valeurs de X Oppose: “heteroskedasticite”, les erreurs varient avec X Test: Comparer les erreurs pour X=12, X=2, X=8, etc

Ici, resultat satisfaisant Homoskedasticite Variance des erreurs identiques Examiner les erreurs pour differentes valeurs de X. Ici, resultat satisfaisant

Les hypotheses de la regression lineaire sont inadequates Heteroskedasticite La variance des erreurs est fonction de X Les hypotheses de la regression lineaire sont inadequates

Test d’Hypothese sur la Pente Exemple: La regression reliant le niveau d’education au prestige de la profession donne un coefficient de 2.47 Question: Cet estimateur est il vraisemblable? Est il possible que le coefficient observe est en fait tire d’une population dont la pente est egale a zero? Solution: Effectuer un test d’hypothesis Notation: pente = b, pente de la population = b H0: b = 0 H1: b  0

Test d’Hypothese De quelle information avons nous besoin? Reponse: L’estimateur de la pente (b) a une distribution, comme n’importe quelle autre statistique Si certaines conditions sont remplies, la distribution se rapproche de la distribution de t Nous pouvons evaluer la probabilite qu’une certaine valeur de b serait observee si b = 0 Si la probabilite est faible (<alpha), rejeter H0

Test d’Hypothese Si b=0, la pente estimee devrait etre proche de 0 b Representation: Si la pente de la population (b) est egale a 0, la distribution echantillonee devrait etre centree a 0 Nous travaillons sur une distribution de probabilite, nous pouvons identifier quelle est la valeur attendue de b si la population a une pente egale a Distribution echantillonee de la pente Si b=0, la pente estimee devrait etre proche de 0 b Si l’estimateur est eloigne, il est improbable que beta=1, rejeter H0

Test d’Hypothese se2 est la variance des residus La distribution de b doit se rapprocher de la distribution t Ecart type de la pente dans la population(sb): se2 est la variance des residus N est le nombre d’observations

Test d’Hypothese Estimer se2: Estimer l’ecart type de la pente:

Test d’Hypothese Etape finale: Utiliser la distribution de t Pente divisee par son ecart type sigmab est l’estimateur de l’ecart type de la pente calcule precedemment Le test est effectue sur la base de N-2 degres de liberte

Intervalle de Confiance b1 Deux objectifs: Estimer la valeur de b1 Estimer la qualite de b1 Definition Valeur estimee du parametre (x ecarts type selon le degre de confiance desiree) (valeur estimee de l’ecart type de l’estimateur)

Intervalle de Confiance Definition: Ou tN-2 est la valeur de la statistique t pour un test bivarie et un niveau de confiance alpha Exemple: Coefficient (pente) = 2.5, Ecart type. = .10 95% t-value for 102 deg.lib. Est approx. = 2 95% Intervalle de Confiance = 2.5 +/- 2(.10) i.e. entre 2.3 to 2.7 avec 95% de probabilite

“Outliers” Meme si toutes les conditions preliminaires d’optimalite des MCO sont remplies, il peut qd meme demeurer dses problemes Exemple: Outliers – valeurs extremes, tres differentes des valeurs moyennes de l’echantillon Sources: Donnee incorrecte Donnee correcte mais rare Quelques observations de ce type peuvent radicalement modifier les estimations MCO

Exemple Avec cette observation 4 2 -2 -4 -4 -2 0 2 4 -4 -2 0 2 4 4 2 -2 -4 Sans l’outlier: Aucune relation

Qualite des Regressions Afin d’estimer la qualite de la regression (I.e. erreurs de prevision) nous avons besoin d’une valeur de reference Sans information additionelle, la moyenne de Y (variables dependante) correspond a cette valeur de reference

Decomposition Variation Totale = Variation expliquee par le modele + Variation residuelle S y2 = S 2 + S e2

R2 R2 est defini comme S 2 / S y2 ou 1 - (S e2 / S y2) Donne la proportion de variance totale ( autour de la moyenne) expliquee par la regression  Par definition 0  R2  1 Correspond au carre de la correlation entre X et Y