La régression simple Michel Tenenhaus. 2 La régression simple Étude de la liaison linéaire entre deux variables numériques : - une variable explicative.

Slides:



Advertisements
Présentations similaires
Introduction aux statistiques Intervalles de confiance
Advertisements

[number 1-100].
Aire d’un triangle Calculer et comparer.
Corrélation Position du problème Définition covariance (X,Y) r =
Mon carnet De comportement
STATISTIQUE INFERENTIELLE L ’ESTIMATION
ACTIVITES Les fractions (10).
Est Ouest Sud 11 1 Nord 1 Laval Du Breuil, Adstock, Québec I-17-17ACBLScore S0417 Allez à 1 Est Allez à 4 Sud Allez à 3 Est Allez à 2 Ouest RndNE
Sud Ouest Est Nord Individuel 36 joueurs
Les Prepositions.
Vers un outil d’aide à la conception des cannelures à flancs en développante de cercle La recherche effectuée lors de ma thèse a consisté à décrire le.
1. Les caractéristiques de dispersion. 11. Utilité.
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
Régression -corrélation
Primitives - Intégration
LA RÉGRESSION MULTIPLE
Analyse des proximités, des préférences et typologie Michel Tenenhaus.
Analyse Factorielle des Correspondances
Comparaison de deux proportions indépendantes
Analyse de la variance à un facteur
Analyse de la variance à deux facteurs (données déséquilibrées) Michel Tenenhaus.
1 Analyse de la variance multivariée Michel Tenenhaus.
La régression simple Michel Tenenhaus
Modèle Linéaire Généralisé (Proc Genmod)
Description et estimation
Analyse de la variance à un facteur
1 Test d hypothèse Comparaison dune moyenne à un standard 0.
Comparaison de deux échantillons indépendants au niveau des moyennes
Étude d’un tableau de contingence
Minimisation Techniques 1 Assimilation Algorithms: Minimisation Techniques Yannick Trémolet ECMWF Data Assimilation Training Course March 2006.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Regrouper les Données avec les Fonctions de Groupe
How to solve biological problems with math Mars 2012.
Discussion, Youth Engagement, and Appreciation of Diversity Kelly Campbell 1, Linda Rose-Krasnor 1, Michael Busseri 1, Mark Pancer 2 and the Centre of.
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
SUJET D’ENTRAINEMENT n°2
Régression linéaire simple
Corrélation et régression linéaire simple
La Saint-Valentin Par Matt Maxwell.
Modeles Lineaires.
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Notre calendrier français MARS 2014
LE CHOIX EN CONTEXTE D’INCERTITUDE
Quelle heure est-il ??. THE TIME: OCLOCK IL EST HEURE IL EST + + HEURES etc.
C'est pour bientôt.....
Les nombres.
Veuillez trouver ci-joint
La régression multiple
Vocabulaire 1.1 Français II. 2 avoir # ans to be # years old.
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
Différencier: NOMBRE PREMIER vs. NOMBRE COMPOSÉ
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1 - Programme de Seconde (juin 2009) Statistique et probabilités
10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.
Modélisation des données Niveau conceptuel DON-2 V0-0.
CALENDRIER-PLAYBOY 2020.
Ministère de l’Éducation, du Loisir et du Sport Responsables des programmes FLS et ELA: Diane Alain et Michele Luchs Animateurs: Diane Alain et Michael.
Les Chiffres Prêts?
Médiathèque de Chauffailles du 3 au 28 mars 2009.
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Rappels de statistiques descriptives
La régression simple Michel Tenenhaus
Transcription de la présentation:

La régression simple Michel Tenenhaus

2 La régression simple Étude de la liaison linéaire entre deux variables numériques : - une variable explicative X - une variable à expliquer Y

3 Étude du lien entre deux variables X et Y Variable Y à expliquer Variable X explicative

Cas Prix dun appartement

5

6 Identification des outliers au niveau du Prix au mètre carré 28N = Prix du mètre carré Jardins de l'observatoire Panthéon (10) Ile saint-louis

7 La droite des moindres carrés

8 Les données z Y = Variable à expliquer numérique (ou dépendante) z X = Variable explicative numérique ou binaire (ou indépendante) Le tableau des données XY 1x 1 y 1 ix i y i nx n y n

9 La droite des moindres carrés xixi yiyi erreur e i * On cherche minimisant valeur observée valeur prédite

10 Résultats SPSS

Pour le modèle avec constante on a aussi : Modèle : Prix calculé = Surface

12 Coefficient de détermination R 2, Coefficient de corrélation R A) Formule de décomposition Somme des carrés totale (Total Sum of Squares) Somme des carrés expliquée (Regression Sum of Squares) Somme des carrés résiduelle (Residual Sum of Squares) B) R 2 = C) R = signe( )

13 Résultats SPSS |R| R

14 Le R 2 mesure la force de la liaison linéaire entre X et Y 1)0 R 2 1 2) R 2 = 1 Y X * * * * * * * 3) R 2 = 0 Y X * * * * * * * * * *

15 Le R 2 mesure la force de la liaison linéaire entre X et Y Modèle non linéaire: Y = aX 2 + bX

16 La corrélation R mesure la force et le sens de la liaison linéaire entre X et Y ** * * * * * * * * X Y X Y * * * *

17 Calcul direct de R Résultat SPSS : Karl Pearson

18 La corrélation R est-elle significative au risque = 0.05 ? zNotations - = Corrélation au niveau de la population - R = Corrélation au niveau de léchantillon zTest : H 0 : = 0 H 1 : 0 z Règle de décision On rejette H 0 au risque = 0.05 de se tromper si (Bonne approximation pour n > 20)

19 La corrélation R est-elle significative au risque ? zNotations - = Corrélation au niveau de la population - R = Corrélation au niveau de léchantillon zTest : H 0 : = 0 H 1 : 0 z Règle de décision On rejette H 0 au risque de se tromper si z Niveau de signification Plus petit conduisant au rejet de H 0.

Table 6

21 Exemple de corrélation non significative En rouge la droite des moindres carrés, en bleu la droite y = prix au m 2 moyen On a 30,9 chances sur 100 de se tromper en affirmant quil existe une liaison linéaire entre le prix au m 2 et la surface. On considère donc que la corrélation (.199) entre le prix au m 2 et la surface nest pas significative.

22 Le modèle statistique de la régression simple zChaque valeur observée y i est considérée comme une réalisation dune variable aléatoire Y i définie par : Y i = ax i + b + i où i est un terme aléatoire suivant une loi normale N(0, ). zOn suppose que les les aléas i sont indépendants les uns des autres.

23 Le modèle de la régression simple Modèle : Y = aX + b +, avec N(0, ) X Y y = ax + b x x = ax+b x x % des valeurs de Y Loi de Y * * Lécart-type représente à peu près le quart de lépaisseur du nuage

24 Estimation de a, b et zEstimation de a et b : zEstimation de :

25 Prévision de Y zModèle : Y = aX + b +, avec N(0, ) x = E(Y | X = x) = ax + b zProblème 1 : Calculer une estimation et un intervalle de confiance au niveau de confiance 95 % de la moyenne x de Y lorsque X est fixé à x. zSoit y une future valeur de Y pour X fixé à x. zProblème 2 : Calculer une prévision et un intervalle contenant 95 % des futures valeurs de Y lorsque X est fixé à x.

26 Résultat pour x zEstimation de x = E(Y | X=x) : zIntervalle de confiance de x au niveau 95 % : Formule approchée :

27 Résultats SPSS Surface moyenne = Variance de la surface =

28 Résultat graphique pour les intervalles de confiance Prix vs Surface (28 obs.) : Intervalle de confiance à 95%

29 Intervalle de confiance de la moyenne x = ax + b pour une liaison non significative La droite y = appartient à la zone de confiance des Y moyens. Donc la liaison entre Y et X nest pas significative.

30 Résultat pour y zPrévision de y pour x fixé : zIntervalle de prévision de y à 95 % pour x fixé : Formule approchée :

31 Surface Prix (en milliers dEuros) Jardins de lObservatoire Ile Saint-louis Observations atypiques Résultat graphique pour les intervalles de prévision Intervalle de prévision individuelle à 95%

32 Observation atypique zUne observation est atypique (outlier) si elle nappartient pas à son propre intervalle de prévision : zEn utilisant la formule approchée : zConclusion : Une observation i est un outlier si son résidu standardisé est supérieur à 2 en valeur absolue.

Résultats SPSS

34 Élimination des observations atypiques zPour rendre la prévision plus opérationnelle, on peut restreindre le champ dapplication du modèle en éliminant des observations atypiques, mais en le justifiant par des considérations extra-statistiques. zCompléter le tableau suivant jusquà élimination de toutes les données atypiques Nombre dobservations Corrélation R Écart-type du résidu Observations atypiques Intervalle de prévision à 95 % du prix dun 100 m

REGRESSION TO THE MEAN Regression to the mean was first identified by Sir Francis Galton: half-cousin of Charles Darwin, geographer, meteorologist, tropical explorer, founder of differential psychology, inventor of fingerprint identification, pioneer of statistical correlation and regression, convinced hereditarian, eugenicist, proto-geneticist, and best-selling author ( ). He correlated the heights of 930 adult children and their respective 250 parents, "correcting" for sex by increasing female heights by a factor of 1.08.

He accounted for genetic contribution of both parents by taking their mean (corrected) heights. He plotted the data (see below) and performed a least squares straight line fit (red line), but found that its slope was less than that expected if the height of children was on average the same as that of their parents (yellow line). He observed: "It appeared from these experiments that the offspring did not tend to resemble their parents in size, but always to be more mediocre than they - to be smaller than than the parents, if the parents were large; - to be larger than than the parents, if the parents were small."