La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La régression simple Michel Tenenhaus. 2 La régression simple Étude de la liaison linéaire entre deux variables numériques : - une variable explicative.

Présentations similaires


Présentation au sujet: "La régression simple Michel Tenenhaus. 2 La régression simple Étude de la liaison linéaire entre deux variables numériques : - une variable explicative."— Transcription de la présentation:

1 La régression simple Michel Tenenhaus

2 2 La régression simple Étude de la liaison linéaire entre deux variables numériques : - une variable explicative X - une variable à expliquer Y

3 3 Étude du lien entre deux variables X et Y Variable Y à expliquer Variable X explicative

4 Cas Prix dun appartement

5 5

6 6 Identification des outliers au niveau du Prix au mètre carré 28N = Prix du mètre carré Jardins de l'observatoire Panthéon ( 10 ) Ile saint-louis

7 7 La droite des moindres carrés

8 8 Les données z Y = Variable à expliquer numérique (ou dépendante) z X = Variable explicative numérique ou binaire (ou indépendante) Le tableau des données XY 1x 1 y 1 ix i y i nx n y n

9 9 La droite des moindres carrés xixi yiyi erreur e i * On cherche minimisant valeur observée valeur prédite

10 10 Résultats SPSS

11 Pour le modèle avec constante on a aussi : Modèle : Prix calculé = Surface

12 12 Coefficient de détermination R 2, Coefficient de corrélation Cor(X,Y) A) Formule de décomposition Somme des carrés totale (Total Sum of Squares) Somme des carrés expliquée (Regression Sum of Squares) Somme des carrés résiduelle (Residual Sum of Squares) B) R 2 = C)

13 13 Résultats SPSS Cor(X,Y)

14 14 Le R 2 mesure la force de la liaison linéaire entre X et Y 1)0 R 2 1 2) R 2 = 1 Y X * * * * * * * 3) R 2 = 0 Y X * * * * * * * * * *

15 15 Le R 2 mesure la force de la liaison linéaire entre X et Y Modèle non linéaire : Y = aX 2 + bX

16 16 La corrélation Cor(X,Y) mesure la force et le sens de la liaison linéaire entre X et Y ** * * * * * * * * X Y X Y * * * *

17 17 Calcul direct de Cor(X,Y) Résultat SPSS :

18 18 La corrélation Cor(X,Y) est-elle significative au risque = 0.05 ? z Notations - = Corrélation au niveau de la population - Cor(X,Y) = Corrélation au niveau de léchantillon z Test : H 0 : = 0 H 1 : 0 z Règle de décision On rejette H 0 au risque = 0.05 de se tromper si (Bonne approximation pour n > 20)

19 19 La corrélation Cor(X,Y) est- elle significative au risque ? zNotations - = Corrélation au niveau de la population - Cor(X,Y) = Corrélation au niveau de léchantillon zTest : H 0 : = 0 H 1 : 0 z Règle de décision On rejette H 0 au risque de se tromper si z Niveau de signification Plus petit conduisant au rejet de H 0.

20 20 Exemple de corrélation non significative En rouge la droite des moindres carrés, en bleu la droite y = prix au m 2 moyen On a 30,9 chances sur 100 de se tromper en affirmant quil existe une liaison linéaire entre le prix au m 2 et la surface. On considère donc que la corrélation (.199) entre le prix au m 2 et la surface nest pas significative.

21 21 Le modèle statistique de la régression simple zChaque valeur observée y i est considérée comme une réalisation dune variable aléatoire Y i définie par : Y i = ax i + b + i où i est un terme aléatoire suivant une loi normale N(0, ). zOn suppose que les les aléas i sont indépendants les uns des autres.

22 22 Le modèle de la régression simple Modèle : Y = aX + b +, avec N(0, ) X Y y = ax + b x x = ax+b x x % des valeurs de Y Loi de Y * * Lécart-type représente à peu près le quart de lépaisseur du nuage

23 23 Estimation de a, b et zEstimation de a et b : zEstimation de :

24 24 Prévision de Y zModèle : Y = aX + b +, avec N(0, ) x = E(Y | X = x) = ax + b zSoit y une future valeur de Y pour X fixé à x. zProblème : Calculer une prévision de y et un intervalle contenant 95 % des futures valeurs de Y lorsque X est fixé à x.

25 25 Résultat zPrévision de y pour x fixé : zIntervalle de prévision de y à au niveau de confiance 95 % pour x fixé : Formule approchée :

26 26 Résultats SPSS Surface moyenne = Variance de la surface =

27 27 Surface Prix (en milliers dEuros) Jardins de lObservatoire Ile Saint-louis Observations atypiques Résultat graphique pour les intervalles de prévision Intervalle de prévision individuelle à 95%

28 28 Observation atypique zUne observation est atypique (outlier) si elle nappartient pas à son propre intervalle de prévision : zEn utilisant la formule approchée : zConclusion : Une observation i est un outlier si son résidu standardisé est supérieur à 2 en valeur absolue.

29 Résultats SPSS

30 30 Élimination des observations atypiques zPour rendre la prévision plus opérationnelle, on peut restreindre le champ dapplication du modèle en éliminant des observations atypiques, mais en le justifiant par des considérations extra-statistiques. zCompléter le tableau suivant jusquà élimination de toutes les données atypiques Nombre dobservations Corrélation R Écart-type du résidu Observations atypiques Intervalle de prévision à 95 % du prix dun 100 m


Télécharger ppt "La régression simple Michel Tenenhaus. 2 La régression simple Étude de la liaison linéaire entre deux variables numériques : - une variable explicative."

Présentations similaires


Annonces Google