La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La régression simple Michel Tenenhaus

Présentations similaires


Présentation au sujet: "La régression simple Michel Tenenhaus"— Transcription de la présentation:

1 La régression simple Michel Tenenhaus

2 La régression simple Étude de la liaison linéaire entre deux
variables numériques : - une variable explicative X - une variable à expliquer Y

3 Étude du lien entre deux variables X et Y
Variable X explicative Variable Y à expliquer

4 Cas Prix d’un appartement

5 Cas Prix d’un appartement

6 Identification des outliers au niveau du Prix au mètre carré
9000 Ile saint-louis 8000 Panthéon ( 10 ) 7000 Jardins de l'observatoire 6000 5000 4000 3000 2000 N = 28 Prix du mètre carré

7 La droite des moindres carrés

8 Les données Y = Variable à expliquer X numérique (ou dépendante)
= Variable explicative numérique ou binaire (ou indépendante) X Y 1 x y 1 1 M M M i x y i i M M M n x y n n Le tableau des données

9 La droite des moindres carrés
On cherche minimisant valeur observée yi erreur ei valeur prédite * xi

10 Résultats SPSS

11 Résultats SPSS Modèle : Prix calculé = -29.466 + 5.353 Surface
Pour le modèle avec constante on a aussi :

12 Coefficient de détermination R2, Coefficient de corrélation Cor(X,Y)
A) Formule de décomposition Somme des carrés totale (Total Sum of Squares) carrés expliquée (Regression Sum of carrés résiduelle (Residual Sum of B) R2 = C)

13 Résultats SPSS Cor(X,Y)

14 Le R2 mesure la force de la liaison linéaire entre X et Y
* Y * * * * * * * * * * * * * * * * X X

15 Le R2 mesure la force de la liaison linéaire entre X et Y
Modèle non linéaire : Y = aX2 + bX

16 La corrélation Cor(X,Y) mesure la force et le sens de la liaison linéaire entre X et Y
* * * * * * * * * * * * * * X X

17 Calcul direct de Cor(X,Y)
Résultat SPSS :

18 La corrélation Cor(X,Y) est-elle significative au risque  = 0.05 ?
Notations -  = Corrélation au niveau de la population - Cor(X,Y) = Corrélation au niveau de l’échantillon Test : H0 :  = 0 H1 :   0 Règle de décision On rejette H0 au risque  = 0.05 de se tromper si (Bonne approximation pour n > 20)

19 La corrélation Cor(X,Y) est-elle significative au risque  ?
Notations -  = Corrélation au niveau de la population - Cor(X,Y) = Corrélation au niveau de l’échantillon Test : H0 :  = 0 H1 :   0 Règle de décision On rejette H0 au risque  de se tromper si Niveau de signification Plus petit  conduisant au rejet de H0.

20 Exemple de corrélation non significative
On a 30,9 chances sur 100 de se tromper en affirmant qu’il existe une liaison linéaire entre le prix au m2 et la surface. On considère donc que la corrélation (.199) entre le prix au m2 et la surface n’est pas significative. En rouge la droite des moindres carrés, en bleu la droite y = prix au m2 moyen

21 Le modèle statistique de la régression simple
Chaque valeur observée yi est considérée comme une réalisation d’une variable aléatoire Yi définie par : Yi = axi + b + i où i est un terme aléatoire suivant une loi normale N(0, ). On suppose que les les aléas i sont indépendants les uns des autres.

22 Le modèle de la régression simple
Modèle : Y = aX + b +  , avec   N(0, ) Y y = ax + b Loi de Y x  * x= ax+b 95% des valeurs de Y x  * x X L’écart-type  représente à peu près le quart de l’épaisseur du nuage

23 Estimation de a, b et  Estimation de a et b : Estimation de  :

24 Prévision de Y Modèle : Y = aX + b +  , avec   N(0, )
x= E(Y | X = x) = ax + b Soit y une future valeur de Y pour X fixé à x. Problème : Calculer une prévision de y et un intervalle contenant 95 % des futures valeurs de Y lorsque X est fixé à x.

25 Résultat Formule approchée : Prévision de y pour x fixé :
Intervalle de prévision de y à au niveau de confiance 95 % pour x fixé : Formule approchée :

26 Résultats SPSS Surface moyenne = 82.32 Variance de la surface =

27 Résultat graphique pour les intervalles de prévision
Intervalle de prévision individuelle à 95% Surface 300 200 100 Prix (en milliers d‘Euros) 1600 1400 1200 1000 800 600 400 Jardins de l‘Observatoire Ile Saint-louis Observations atypiques

28 Observation atypique Une observation est atypique (outlier) si elle n’appartient pas à son propre intervalle de prévision : En utilisant la formule approchée : Conclusion : Une observation i est un outlier si son résidu standardisé est supérieur à 2 en valeur absolue.

29 Résultats SPSS

30 Élimination des observations atypiques
Pour rendre la prévision plus opérationnelle, on peut restreindre le champ d’application du modèle en éliminant des observations atypiques, mais en le justifiant par des considérations extra-statistiques. Compléter le tableau suivant jusqu’à élimination de toutes les données atypiques Nombre Corrélation Écart-type Observations Intervalle de prévision à d’observations R du résidu atypiques 95 % du prix d’un 100 m 2 28 26 M


Télécharger ppt "La régression simple Michel Tenenhaus"

Présentations similaires


Annonces Google