La régression simple Michel Tenenhaus

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

STATISTIQUE INFERENTIELLE L ’ESTIMATION
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Les TESTS STATISTIQUES
Régression ou corrélation
Unité #2 Analyse numérique matricielle Giansalvo EXIN Cirrincione.
Les TESTS STATISTIQUES
Corrélations et ajustements linéaires.
Régression -corrélation
LA RÉGRESSION MULTIPLE
La régression simple Michel Tenenhaus. 2 La régression simple Étude de la liaison linéaire entre deux variables numériques : - une variable explicative.
Analyse de la variance à un facteur
1 Analyse de la variance multivariée Michel Tenenhaus.
La régression simple Michel Tenenhaus
Analyse de la variance à un facteur
Corrélation linéaire et la droite de régression
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Chapitre 2 Les indices.

La Régression Multiple
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Régression linéaire simple
L’Analyse de Covariance
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Modeles Lineaires.
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
La régression logistique
La corrélation et la régression
Le comportement des coûts Chapitre 3
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
La régression multiple
Régression linéaire (STT-2400)
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
Méthodes de Biostatistique
Lien entre deux variables
LA REGRESSION LINEAIRE
Présentation du marché obligataire
STATISTIQUES – PROBABILITÉS
Statistique Cours #4 Régression linéaire simple et multiple
Les fonctions linéaires et affines
ANOVA à 1 facteur en groupes de mesure indépendants
Chapitre 12 Régression linéaire simple et corrélation linéaire
Probabilités et Statistiques Année 2010/2011
1 1 Licence Stat-info CM7 a 2004 V1Christophe Genolini Récapitulatif : Variables qualitatives Variables qualitatives : –on se demande si elles sont liées.
Gestion budgétaire des ventes
Outils d’analyse: la méthode des moindres carrées
Élection québécoise du 22 mai MAI 1916: RÉSULTATS NOMBRE% CIRCONSCRIPTIONS81— ÉLECTEURS INSCRITS — ÉLECTEURS INSCRITS DANS LES CIRCONSCRIPTIONS.
Rappels Variables nominales :
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Méthode des moindres carrés (1)
ETUDE DE 2 VARIABLES QUANTITATIVES
Modèle linéaire Relation entre une variable expliquée Y (par exemple le salaire), et p variables explicatives X j, j = 1, …, p (par exemple, p = 5, X 1.
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
STATISTIQUES.
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Statistiques à 2 variables
LOIS COURANTES DE PROBABILITES
MENU 1 Hypothèses du modèle linéaire YO = YT + e 2 blocs d’hypothèses -Sur les relations entre les variables -Sur le comportement de la variable aléatoire.
1 1 Licence Stat-info CM6 b 2004 V1Christophe Genolini Régression linéaire : problème On a les notes math et français suivantes : Un élève a 10 en math,
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Transcription de la présentation:

La régression simple Michel Tenenhaus

La régression simple Étude de la liaison linéaire entre deux variables numériques : - une variable explicative X - une variable à expliquer Y

Étude du lien entre deux variables X et Y Variable X explicative Variable Y à expliquer

Cas Prix d’un appartement

Cas Prix d’un appartement

Identification des outliers au niveau du Prix au mètre carré 9000 Ile saint-louis 8000 Panthéon (10) 7000 Jardins de l'observatoire 6000 5000 4000 3000 2000 N = 28 Prix du mètre carré

La droite des moindres carrés

Les données Y = Variable à expliquer X numérique (ou dépendante) = Variable explicative numérique ou binaire (ou indépendante) X Y 1 x y 1 1 M M M i x y i i M M M n x y n n Le tableau des données

La droite des moindres carrés On cherche minimisant valeur observée yi erreur ei valeur prédite * xi

Résultats SPSS

Résultats SPSS Modèle : Prix calculé = -29.466 + 5.353 Surface Pour le modèle avec constante on a aussi :

Coefficient de détermination R2, Coefficient de corrélation R A) Formule de décomposition Somme des carrés totale (Total Sum of Squares) carrés expliquée (Regression Sum of carrés résiduelle (Residual Sum of B) R2 = C) R = signe( )

Résultats SPSS |R| R

Le R2 mesure la force de la liaison linéaire entre X et Y * Y * * * * * * * * * * * * * * * * X X

Le R2 mesure la force de la liaison linéaire entre X et Y Modèle non linéaire: Y = aX2 + bX

La corrélation R mesure la force et le sens de la liaison linéaire entre X et Y * * * * * * * * * * * * * * X X

Calcul direct de R Résultat SPSS :

La corrélation R est-elle significative au risque  = 0.05 ? Notations -  = Corrélation au niveau de la population - R = Corrélation au niveau de l’échantillon Test : H0 :  = 0 H1 :   0 Règle de décision On rejette H0 au risque  = 0.05 de se tromper si (Bonne approximation pour n > 20)

La corrélation R est-elle significative au risque  ? Notations -  = Corrélation au niveau de la population - R = Corrélation au niveau de l’échantillon Test : H0 :  = 0 H1 :   0 Règle de décision On rejette H0 au risque  de se tromper si Niveau de signification Plus petit  conduisant au rejet de H0.

Exemple de corrélation non significative On a 30,9 chances sur 100 de se tromper en affirmant qu’il existe une liaison linéaire entre le prix au m2 et la surface. On considère donc que la corrélation (.199) entre le prix au m2 et la surface n’est pas significative. En rouge la droite des moindres carrés, en bleu la droite y = prix au m2 moyen

Le modèle statistique de la régression simple Chaque valeur observée yi est considérée comme une réalisation d’une variable aléatoire Yi définie par : Yi = axi + b + i où i est un terme aléatoire suivant une loi normale N(0, ). On suppose que les les aléas i sont indépendants les uns des autres.

Le modèle de la régression simple Modèle : Y = aX + b +  , avec   N(0, ) Y y = ax + b Loi de Y x + 1.96 * x= ax+b 95% des valeurs de Y x - 1.96 * x X L’écart-type  représente à peu près le quart de l’épaisseur du nuage

Estimation de a, b et  Estimation de a et b : Estimation de  :

Prévision de Y Modèle : Y = aX + b +  , avec   N(0, ) x= E(Y | X = x) = ax + b Problème 1 : Calculer une estimation et un intervalle de confiance au niveau de confiance 95 % de la moyenne x de Y lorsque X est fixé à x. Soit y une future valeur de Y pour X fixé à x. Problème 2 : Calculer une prévision et un intervalle contenant 95 % des futures valeurs de Y lorsque X est fixé à x.

Résultat pour x Formule approchée : Estimation de x = E(Y | X=x) : Intervalle de confiance de x au niveau 95 % : Formule approchée :

Résultats SPSS Surface moyenne = 82.32 Variance de la surface = 3266.3

Résultat graphique pour les intervalles de confiance Prix vs Surface (28 obs.) : Intervalle de confiance à 95%

Intervalle de confiance de la moyenne x = ax + b pour une liaison non significative La droite y = appartient à la zone de confiance des Y moyens. Donc la liaison entre Y et X n’est pas significative.

Résultat pour y Formule approchée : Prévision de y pour x fixé : Intervalle de prévision de y à 95 % pour x fixé : Formule approchée :

Résultat graphique pour les intervalles de prévision Intervalle de prévision individuelle à 95% Surface 300 200 100 Prix (en milliers d‘Euros) 1600 1400 1200 1000 800 600 400 Jardins de l‘Observatoire Ile Saint-louis Observations atypiques

Observation atypique Une observation est atypique (outlier) si elle n’appartient pas à son propre intervalle de prévision : En utilisant la formule approchée : Conclusion : Une observation i est un outlier si son résidu standardisé est supérieur à 2 en valeur absolue.

Résultats SPSS

Élimination des observations atypiques Pour rendre la prévision plus opérationnelle, on peut restreindre le champ d’application du modèle en éliminant des observations atypiques, mais en le justifiant par des considérations extra-statistiques. Compléter le tableau suivant jusqu’à élimination de toutes les données atypiques Nombre Corrélation Écart-type Observations Intervalle de prévision à d’observations R du résidu atypiques 95 % du prix d’un 100 m 2 28 26 M