LA REGRESSION LINEAIRE

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Inférence statistique
C1 Bio-statistiques F. KOHLER
Inférence statistique
Les TESTS STATISTIQUES
Régression ou corrélation
Nombre de sujets nécessaires en recherche clinique
Méthodes statistiques. Ajustements et corrélation
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Corrélations et ajustements linéaires.
Les tests d’hypothèses
Régression -corrélation
variable aléatoire Discrète
Corrélation linéaire et la droite de régression
Chapitre 2 Les indices.
Méthodes de Biostatistique

Chapitre 2: Les régularités et les relations
La Régression Multiple
Fonction puissance Montage préparé par : André Ross
Nombre de sujets nécessaires en recherche clinique
Régression linéaire simple
Groupe 1: Classes de même intervalle
Corrélation et régression linéaire simple
Méthodes de prévision (STT-3220)
Modeles Lineaires.
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
La corrélation et la régression
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
La régression multiple
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
Méthodes de Biostatistique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
La régression simple Michel Tenenhaus
Présentation du marché obligataire
M2 Sciences des Procédés - Sciences des Aliments
Intervalles de confiance pour des proportions L’inférence statistique
Chapitre 12 Régression linéaire simple et corrélation linéaire
Probabilités et Statistiques Année 2010/2011
Gestion budgétaire des ventes
Outils d’analyse: la méthode des moindres carrées
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Méthode des moindres carrés (1)
ETUDE DE 2 VARIABLES QUANTITATIVES
Chapitre 4 Variables aléatoires discrètes
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Régression linéaire (STT-2400)
STATISTIQUES.
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Statistiques à 2 variables
Distribution à deux variables
Corrélation et causalité
Probabilités et statistique MQT-1102
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
Introduction aux statistiques Intervalles de confiance
Corrélation et régression linéaire Mars Modèles de régression  Réponses aux questions du type: ‘Quelle est la nature de la relation entre les variables?’
Coltier Yves Division des prix 14/05/2014 Les remplacements de type EC Les modèles hédoniques.
Transcription de la présentation:

LA REGRESSION LINEAIRE SIMPLE Pr. BOULAHOUAL Adil

Mise en contexte En statistiques, plusieurs problèmes consistent à définir la relation qui existe entre deux variables statistiques ou plus: Le nombre d’années d’expérience et le nombre d’erreurs commises ; L’âge du conducteur et le nombre d’accidents d’auto ; Le volume des ventes et les dépenses en publicité ; Le nombre d’heures d’études et les résultats aux examens ; … Pr. BOULAHOUAL Adil

Mise en contexte Dans ce genre de problèmes, les principales questions auxquelles nous voudrons répondre sont les suivantes : Existe-il une relation ou une dépendance entre les variables statistiques? Cette relation, si elle existe, est-elle linéaire ou non ? Si une dépendance linéaire existe, de quelle façon peut-on la traduire par une équation mathématique ? La corrélation, si elle existe, est-elle forte ou faible ? Si l’équation mathématique de la relation entre les variables existe, comment prévoir les valeurs d’une certaine variable à partir de la connaissance de valeurs de l’autre variable ou des autres variables ? Pr. BOULAHOUAL Adil

Notions clés – Modèle Économique Un modèle consiste en une présentation formalisée d’un phénomène sous forme d’équations mathématiques. Comme toutes les variables économiques sont interdépendantes (notion de système), il n'est pas suffisant de construire des équations isolées : il faut établir un système complet d‘équations. Pr. BOULAHOUAL Adil

Notions clés – Population et échantillon Notions clés – Inférence statistique Elle consiste alors à effectuer des études sur l’échantillon et transposer les résultats sur la population. Cette transposition n’est pas stricte, elle attache toujours une probabilité aux résultats et aux conclusions émises. Pr. BOULAHOUAL Adil

CHAPITRE I L’analyse de la régression Pr. BOULAHOUAL Adil

L’analyse de la régression L’analyse de la régression est une méthode statistique qui permet d’étudier le type de relation pouvant exister entre une certaine variable (dépendante) dont on veut expliquer les valeurs et une ou plusieurs autres variables qui servent à cette explication (variables indépendantes) Régression linéaire simple: une variable indépendante En d’autres termes, l’analyse de la régression permet d’étudier les variations de la variable dépendante en fonction des variations connues des variables indépendantes. Pr. BOULAHOUAL Adil

(piscine, stationnement intérieur, etc.) Le coût du loyer en fonction du nombre de pièces, du niveau d’étage dans l’immeuble, des services offerts ... Coût du loyer Nombre de pièces Services offerts (piscine, stationnement intérieur, etc.) … L’étage dans l’immeuble

Une analyse de régression est : dite simple si elle permet de prédire les valeurs d’une variable dite dépendante (expliquée (Y)) à partir des valeurs prises par une autre variable dite indépendante (explicative (X)). dite multiple si elle permet de prédire les valeurs d’une variable dite dépendante (expliquée (Y)) à partir des valeurs prises par plusieurs autres variables dites indépendantes (explicatives (Xi)). Pr. BOULAHOUAL Adil

L’analyse de la régression linéaire simple Définition : Nuage de points ou diagramme de dispersion C’est la représentation graphique dans le plan cartésien de l’ensemble des paires de données (xi,yi). Ces données proviennent d’une série statistique de deux variables obtenues à partir d’une étude menée sur un échantillon ou sur une population. Pr. BOULAHOUAL Adil

Exemple : Nuage de points ou diagramme de dispersion Supposons que le nombre d’heures d’études nécessaires pour préparer l’examen final en statistiques et le nombre de bonnes réponses obtenues par chaque étudiant sont donnés dans le tableau suivant : Tracer le nuage de points ou le diagramme de dispersion des données présentées ci-dessus. Pr. BOULAHOUAL Adil

Exemple : Nuage de points ou diagramme de dispersion … Pr. BOULAHOUAL Adil

On essaie de trouver la forme mathématique de la fonction f Objectif d’une analyse de régression simple Une fois la représentation graphique effectuée, il est facile de soupçonner l’existence d’une certaine relation entre les deux variables (caractères étudiés). Il faut maintenant chercher à exprimer cette relation à l’aide d’une équation mathématique. On essaie de trouver la forme mathématique de la fonction f Pr. BOULAHOUAL Adil

Objectif d’une analyse de régression simple Pr. BOULAHOUAL Adil

Définition : Nous appelons régression linéaire l’ajustement d’une droite au nuage statistique d’une série de couples de données. Ainsi, une régression linéaire simple va permettre de résumer, d’interpréter et de prévoir les variations d’un caractère dit dépendant (Y) en fonction d’un autre dit indépendant (X) et ce en utilisant une droite. Pr. BOULAHOUAL Adil

Modèle de régression linéaire simple y = 0 + 1x +  Équation de la régression linéaire simple (comment l'espérance de y est liée à x) E(y) = 0 + 1x Équation estimée de la régression linéaire simple (droite de la régression estimée, modèle empirique) y = Variable dépendante ou expliquée = valeur estimée de y pour une valeur x x = Variable indépendante ou explicative = Coefficients théoriques de régression (à estimer à l’aide d’un échantillon) par b0 et b1 = Erreur théorique aléatoire (d’autres facteurs influencent Y) Pr. BOULAHOUAL Adil

L'équation estimée de la régression linéaire simple (droite de la régression estimée, modèle empirique) peut être utilisée pour une estimation ponctuelle de la valeur moyenne de y pour une valeur particulière de x ou pour prévoir la valeur ponctuelle de y associée à une valeur particulière de x y = Variable dépendante ou expliquée = valeur de prévision de y pour une valeur x, ou moyenne de y estimée pour une valeur de x x = Variable indépendante ou explicative Pr. BOULAHOUAL Adil

Les différentes étapes d’une étude de régression Pr. BOULAHOUAL Adil

par le modèle empirique Il existe plusieurs méthodes permettant d’estimer le modèle théorique par le modèle empirique Méthode des moindres carrés Méthode de la vraisemblance … Pr. BOULAHOUAL Adil

La méthode des moindres carrés Critère des moindres carrés où: yi = valeur observée de la variable dépendante pour pour la I ème observation = valeur estimée de la variable dépendante pour la I ème observation Pr. BOULAHOUAL Adil

La méthode des moindres carrés Idée de base : cette méthode essaie de construire une droite de régression empirique qui minimise la somme des carrés des distances verticales entre cette droite et chacun des points observés. Pr. BOULAHOUAL Adil

La méthode des moindres carrés … Illustration graphique Pr. BOULAHOUAL Adil

La méthode des moindres carrés … Définition : On appelle résidu ou erreur empirique ou écart de prévision, la valeur , soit la différence (l’écart vertical) entre la valeur observée yi de Y et la valeur estimée obtenue à partir de la droite de régression, lorsque x= xi. L’objectif de la méthode des moindres carrés est de déterminer la droite de régression qui minimise Pr. BOULAHOUAL Adil

La méthode des moindres carrés … Cette mesure donne l’ordre de grandeur de la dispersion des observations Yi autour de la droite de régression Il s’agit de trouver bo et b1 de sorte que la somme des carrés des résidus SCres soit la plus petite possible (minimale). Pr. BOULAHOUAL Adil

Principes de la méthode des moindres carrés … Comment calculer les coefficients b0 et b1? Les estimations ponctuelles des paramètres de la droite de régression obtenues par la méthode des moindres carrés sont : Autre formule pour b1 Taille de l’échantillon Pr. BOULAHOUAL Adil

À partir des données ci-dessous, déterminez les estimations ponctuelles des paramètres de la droite de régression selon la méthode des moindres carrés : Pr. BOULAHOUAL Adil

Pr. BOULAHOUAL Adil

Remarque Importante La droite de régression déterminée à l’aide de la méthode des moindres carrés donne la plus faible somme de carrés résiduels parmi toutes les autres droites que l’on pourrait ajuster à cet ensemble d’observations. Pr. BOULAHOUAL Adil

EXEMPLE Une entreprise veut mener une étude sur la relation entre les dépenses hebdomadaires en publicité et le volume de ventes qu’elle réalise. On a recueilli au cours des dix dernières semaines les données suivantes : À partir des données ci-dessus, déterminez les estimations ponctuelles des paramètres de la droite de régression selon la méthode des moindres carrés. Pr. BOULAHOUAL Adil

À partir de ces données, il est possible de tracer le diagramme de dispersion suivant : Pr. BOULAHOUAL Adil

Les résultats intermédiaires suivants servent à calculer les estimations ponctuelles des paramètres de la droite de régression : Pr. BOULAHOUAL Adil

En appliquant les formules ci-dessous, nous obtenons les valeurs numériques de b0 et b1 Pr. BOULAHOUAL Adil

sans dépenser un sous en publicité) Dépenses en publicité La droite de régression qui permet de déterminer le volume moyen des ventes pour un coût publicitaire donné x. Ordonnée à l’origine (volume de vente moyen sans dépenser un sous en publicité) Dépenses en publicité C’est l’augmentation du volume des ventes (Y) pour une augmentation unitaire du coût en publicité (X) Pr. BOULAHOUAL Adil

Interprétation des résultats et remarques… Rq1 : le point de cordonnées se trouve sur la droite de régression. Rq2 : cette relation linéaire entre X et Y est valide pour l’intervalle des valeurs de X considérée dans l’énoncé, c’est-à-dire de 1 à 5,5. La droite de régression s’applique à l’intérieur de l’étendue des valeurs expérimentales qui ont été observées pour la variable explicative (X). On devra donc éviter toute extrapolation en dehors de ce domaine à moins d’être certain que le phénomène se comporte de façon identique. Pr. BOULAHOUAL Adil

= 33,31 + 3,95 (3,5) = 47,14 millions de dollars Rq3 : Pour la valeur x = 3,5 (située entre 1 et 5,5), on peut utiliser la droite de régression pour calculer la valeur moyenne correspondante de Y Exemple : Estimation du volume des ventes moyen pour un coût de 3,5 millions de dollars en publicité hebdomadaire. = 33,31 + 3,95 (3,5) = 47,14 millions de dollars Pr. BOULAHOUAL Adil

Le coefficient de détermination de Y en fonction de X Il existe trois mesures possibles pour quantifier l’intensité de la relation entre X et Y: Le coefficient de détermination de Y en fonction de X Le coefficient de corrélation entre X et Y La covariance entre X et Y Pr. BOULAHOUAL Adil

Le coefficient de détermination Coefficient de détermination de Y en fonction de X Le coefficient de détermination théorique de Y en fonction de X, noté mesure la proportion de la variation de Y qui est expliquée par la régression ou qui est expliquée par la variable X au niveau de toute la population. Le coefficient de détermination indique si le modèle linéaire défini colle aux données . Pr. BOULAHOUAL Adil

Coefficient de détermination de Y en fonction de X En pratique est inconnu, car on ne possède pas d’information sur toute la population mais seulement sur un échantillon de taille n, alors on estimera à partir de l’échantillon : fournit une indication de la force de la liaison possible pouvant exister entre Y et X au niveau de la population. De plus, c’est un indice de la qualité de l’ajustement de la droite aux points expérimentaux. Rappel: Pr. BOULAHOUAL Adil

Le coefficient de détermination Dans quelle mesure l’équation estimée de la régression s’ajuste-t- elle aux données? Le coefficient de détermination permet de mesurer le degré d’adéquation Formule pour le coefficient de détermination r2 = SCreg/SCT où: SCT = SCreg + SCres= SCT = Somme des carrés totale (variation totale) SCreg = Somme des carrés de la régression (variation expliquée) SCres = Somme des carrés des résidus Pr. BOULAHOUAL Adil

Pr. BOULAHOUAL Adil

Calculez pour l’exemple d’application des coûts publicitaires et des ventes: Pr. BOULAHOUAL Adil

Puisque est proche de 1, on peut dire que la droite de régression s’ajuste très bien au nuage de points. Pr. BOULAHOUAL Adil

Relation entre X et Y: régression et corrélation Différence entre régression et corrélation ? La régression linéaire simple se préoccupe essentiellement de la forme de la relation linéaire qui existe entre X et Y alors que La corrélation essaye de mesurer l’intensité ou la force de la relation linéaire qui existe entre X et Y. Pr. BOULAHOUAL Adil

où: b1 = la pente de l’équation estimée de régression estimée (empirique) Le coefficient de corrélation théorique (au niveau de la population) est dénoté ryx ou simplement r Pr. BOULAHOUAL Adil

Le coefficient de corrélation peut être déterminé de la manière suivante (ou encore en prenant la racine carrée du coefficient de détermination): On a toujours: Si alors il existe une relation linéaire exacte entre X et Y Si alors soit que X et Y sont indépendantes, soit qu’il y a une dépendance non linéaire entre les deux variables Si ou alors il existe une relation linéaire plus ou moins forte entre X et Y Le coefficient de corrélation permet de voir s'il est facile d'approcher les données par une droite. Pr. BOULAHOUAL Adil

Toujours en utilisant l’exemple numérique de la publicité et les ventes d'autos, mesurez le degré de dépendance linéaire entre X et Y. Réponse Les dépenses en publicité et les ventes varient dans le même sens Il existe une relation linéaire très forte entre les dépenses en publicité et les ventes Pr. BOULAHOUAL Adil

Validation de la droite de régression empirique… Test d’hypothèse sur Pour vérifier si l’influence de la variable indépendante X est significative, on procède à un test d’hypothèses sur Si β1 = 0 alors peu importe les valeurs de X, elles n’auront pas d’impact sur Y Pr. BOULAHOUAL Adil

Étapes contribuant à la validation de la droite de régression empirique Estimer la variance des erreurs théoriques Estimer et par intervalle de confiance Test d’hypothèses sur Pr. BOULAHOUAL Adil

Validation de la droite de régression empirique… Estimation de la variance des erreurs théoriques La précision des estimateurs b0 et b1 dépend de la valeur de la variance des erreurs théoriques : plus sera petite, plus ces estimateurs sont précis. Puisque, en pratique, la variance est inconnue, on l’estime par le terme suivant : Pr. BOULAHOUAL Adil

Validation de la droite de régression empirique… Estimation de et En pratique, les variances et sont inconnues, alors on les estime par les deux termes suivants : Pr. BOULAHOUAL Adil

Exemple d’application … Compléter le tableau suivant : 33,31 + 3,95 x 2 = 41,21 0.49 49.11 0.39 0.1521 7.6176 1.69 41.21 - 0.21 0.0441 26.4196 Calculer, pour l’ensemble des données ci-dessus, Pr. BOULAHOUAL Adil

L’analyse de la régression linéaire simple Validation de la droite de régression empirique… Estimation de b1 par intervalle de confiance L’intervalle de confiance pour estimer b1, la pente du modèle de régression théorique, au niveau de confiance (1 - a) est donné par: Si n-2 < 30 Si n-2 ≥ 30 Si la valeur b1=0 appartient à l’intervalle de confiance, on ne rejette pas l’hypothèse nulle: b1=0 au niveau de signification a et on conclut qu’il n’existe pas de relation linéaire significative entre Y et X Pr. BOULAHOUAL Adil

L’analyse de la régression linéaire simple D’après les données de l’exemple numérique de la publicité et le volume de ventes d'autos, construisez un intervalle de confiance pour au niveau 95% : Puisque n-2 = 10 -2 = 8 < 30, alors Table de Student Pr. BOULAHOUAL Adil

Tester la signification d’une régression Pour tester la signification d’une régression, on peut effectuer un test d’hypothèses afin de déterminer si la valeur de b1 est zéro. Deux tests sont couramment utilisés Test t ou z (selon la taille de l'échantillon) Test F Les deux tests nécessitent une estimation de se 2, la variance des erreurs e du modèle de régression Pr. BOULAHOUAL Adil

Tester la signification d’une régression Une estimation de se 2 Rappel: la moyenne des carrés des résidus s2 fournit une estimation de se 2 s2 = SCres/(n-2) où: s est l’erreur type de l’estimation Pr. BOULAHOUAL Adil

Les étapes d’un test z ou t d’hypothèses sur Énoncer les hypothèses H0 et Ha. Préciser les conditions du test La population des erreurs est normale La variance résiduelle est inconnue Le niveau de signification a Si la taille de l’échantillon n – 2 ≥ 30, on utilise z (Normale) Si la taille de l’échantillon n – 2 < 30, on utilise t (Student) Calculer la statistique de test. Trouver la région critique au niveau de signification a Pr. BOULAHOUAL Adil

D’après les données de l’exemple d’application sur la publicité et le volume de ventes d'autos, vérifiez au niveau de signification a = 0,05 si X explique Y, à partir de la droite de régression linéaire obtenue Étape 1 Étape 2 n – 2 = 8 < 30, population normale, inconnue Étape 3 Étape 4 Cela implique que X explique les valeurs prises par Y au niveau a = 0,05 Pr. BOULAHOUAL Adil

Hypothèses du modèle Hypothèses concernant le terme d’erreurs  L’erreur  est une variable aléatoire d’espérance 0 La variance de  , dénotée e 2 ou  2 , est la même pour toutes les valeurs de X Les valeurs de  sont indépendantes. L’erreur  est distribuée selon une loi normale Pr. BOULAHOUAL Adil

Applications sous SPSS POINT DE VENTE « marker shop» Pr. BOULAHOUAL Adil