La régression simple Michel Tenenhaus

Slides:



Advertisements
Présentations similaires
Introduction aux statistiques Intervalles de confiance
Advertisements

Le moteur
Corrélation Position du problème Définition covariance (X,Y) r =
Mon carnet De comportement
STATISTIQUE INFERENTIELLE L ’ESTIMATION
SPCTS – UMR CNRS 6638 University of Limoges France
Est Ouest Sud 11 1 Nord 1 Laval Du Breuil, Adstock, Québec I-17-17ACBLScore S0417 Allez à 1 Est Allez à 4 Sud Allez à 3 Est Allez à 2 Ouest RndNE
Est Ouest Sud 11 1 Nord 1 RondeNE SO
Les Prepositions.
Vers un outil d’aide à la conception des cannelures à flancs en développante de cercle La recherche effectuée lors de ma thèse a consisté à décrire le.
1. Les caractéristiques de dispersion. 11. Utilité.
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
Régression -corrélation
ETALONNAGE D’UN CAPTEUR
Primitives - Intégration
LA RÉGRESSION MULTIPLE
La régression simple Michel Tenenhaus. 2 La régression simple Étude de la liaison linéaire entre deux variables numériques : - une variable explicative.
Analyse des proximités, des préférences et typologie Michel Tenenhaus.
Analyse Factorielle des Correspondances
Comparaison de deux proportions indépendantes
Analyse de la variance à un facteur
Analyse de la variance à deux facteurs (données déséquilibrées) Michel Tenenhaus.
1 Analyse de la variance multivariée Michel Tenenhaus.
Modèle Linéaire Généralisé (Proc Genmod)
Description et estimation
Analyse de la variance à un facteur
1 Test d hypothèse Comparaison dune moyenne à un standard 0.
Comparaison de deux échantillons indépendants au niveau des moyennes
Étude d’un tableau de contingence
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
28 La maison.
Regrouper les Données avec les Fonctions de Groupe
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
SUJET D’ENTRAINEMENT n°2
Régression linéaire simple
Corrélation et régression linéaire simple
La Saint-Valentin Par Matt Maxwell.
Modeles Lineaires.
ACTIVITES Les quotients (5).
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Gilbert TOUT NEST QUE CALCUL Vous vous êtes certainement déjà demandé ce que voulait dire « se donner à 100% » ?
Notre calendrier français MARS 2014
LE CHOIX EN CONTEXTE D’INCERTITUDE
LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.
C'est pour bientôt.....
Veuillez trouver ci-joint
SUJET D’ENTRAINEMENT n°4
La régression multiple
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
SUJET D’ENTRAINEMENT n°1
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1 - Programme de Seconde (juin 2009) Statistique et probabilités
10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.
CALENDRIER-PLAYBOY 2020.
9 paires séries de 3 étuis ( n° 1 à 27 )
1 Nestlé – Optifibre Zones administrables via le back-office.
Les Chiffres Prêts?
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Rappels de statistiques descriptives
La régression simple Michel Tenenhaus
Transcription de la présentation:

La régression simple Michel Tenenhaus

La régression simple Étude de la liaison linéaire entre deux variables numériques : - une variable explicative X - une variable à expliquer Y

Étude du lien entre deux variables X et Y Variable X explicative Variable Y à expliquer

Cas Prix d’un appartement

Cas Prix d’un appartement

Identification des outliers au niveau du Prix au mètre carré 9000 Ile saint-louis 8000 Panthéon ( 10 ) 7000 Jardins de l'observatoire 6000 5000 4000 3000 2000 N = 28 Prix du mètre carré

La droite des moindres carrés

Les données Y = Variable à expliquer X numérique (ou dépendante) = Variable explicative numérique ou binaire (ou indépendante) X Y 1 x y 1 1 M M M i x y i i M M M n x y n n Le tableau des données

La droite des moindres carrés On cherche minimisant valeur observée yi erreur ei valeur prédite * xi

Résultats SPSS

Résultats SPSS Modèle : Prix calculé = -29.466 + 5.353 Surface Pour le modèle avec constante on a aussi :

Coefficient de détermination R2, Coefficient de corrélation Cor(X,Y) A) Formule de décomposition Somme des carrés totale (Total Sum of Squares) carrés expliquée (Regression Sum of carrés résiduelle (Residual Sum of B) R2 = C)

Résultats SPSS Cor(X,Y)

Le R2 mesure la force de la liaison linéaire entre X et Y * Y * * * * * * * * * * * * * * * * X X

Le R2 mesure la force de la liaison linéaire entre X et Y Modèle non linéaire : Y = aX2 + bX

La corrélation Cor(X,Y) mesure la force et le sens de la liaison linéaire entre X et Y * * * * * * * * * * * * * * X X

Calcul direct de Cor(X,Y) Résultat SPSS :

La corrélation Cor(X,Y) est-elle significative au risque  = 0.05 ? Notations -  = Corrélation au niveau de la population - Cor(X,Y) = Corrélation au niveau de l’échantillon Test : H0 :  = 0 H1 :   0 Règle de décision On rejette H0 au risque  = 0.05 de se tromper si (Bonne approximation pour n > 20)

La corrélation Cor(X,Y) est-elle significative au risque  ? Notations -  = Corrélation au niveau de la population - Cor(X,Y) = Corrélation au niveau de l’échantillon Test : H0 :  = 0 H1 :   0 Règle de décision On rejette H0 au risque  de se tromper si Niveau de signification Plus petit  conduisant au rejet de H0.

Exemple de corrélation non significative On a 30,9 chances sur 100 de se tromper en affirmant qu’il existe une liaison linéaire entre le prix au m2 et la surface. On considère donc que la corrélation (.199) entre le prix au m2 et la surface n’est pas significative. En rouge la droite des moindres carrés, en bleu la droite y = prix au m2 moyen

Le modèle statistique de la régression simple Chaque valeur observée yi est considérée comme une réalisation d’une variable aléatoire Yi définie par : Yi = axi + b + i où i est un terme aléatoire suivant une loi normale N(0, ). On suppose que les les aléas i sont indépendants les uns des autres.

Le modèle de la régression simple Modèle : Y = aX + b +  , avec   N(0, ) Y y = ax + b Loi de Y x + 1.96 * x= ax+b 95% des valeurs de Y x - 1.96 * x X L’écart-type  représente à peu près le quart de l’épaisseur du nuage

Estimation de a, b et  Estimation de a et b : Estimation de  :

Prévision de Y Modèle : Y = aX + b +  , avec   N(0, ) x= E(Y | X = x) = ax + b Soit y une future valeur de Y pour X fixé à x. Problème : Calculer une prévision de y et un intervalle contenant 95 % des futures valeurs de Y lorsque X est fixé à x.

Résultat Formule approchée : Prévision de y pour x fixé : Intervalle de prévision de y à au niveau de confiance 95 % pour x fixé : Formule approchée :

Résultats SPSS Surface moyenne = 82.32 Variance de la surface = 3266.3

Résultat graphique pour les intervalles de prévision Intervalle de prévision individuelle à 95% Surface 300 200 100 Prix (en milliers d‘Euros) 1600 1400 1200 1000 800 600 400 Jardins de l‘Observatoire Ile Saint-louis Observations atypiques

Observation atypique Une observation est atypique (outlier) si elle n’appartient pas à son propre intervalle de prévision : En utilisant la formule approchée : Conclusion : Une observation i est un outlier si son résidu standardisé est supérieur à 2 en valeur absolue.

Résultats SPSS

Élimination des observations atypiques Pour rendre la prévision plus opérationnelle, on peut restreindre le champ d’application du modèle en éliminant des observations atypiques, mais en le justifiant par des considérations extra-statistiques. Compléter le tableau suivant jusqu’à élimination de toutes les données atypiques Nombre Corrélation Écart-type Observations Intervalle de prévision à d’observations R du résidu atypiques 95 % du prix d’un 100 m 2 28 26 M