Chapitre 12 Régression linéaire simple et corrélation linéaire

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
STATISTIQUE INFERENTIELLE L ’ESTIMATION
C1 Bio-statistiques F. KOHLER
Inférence statistique
Les TESTS STATISTIQUES
Régression ou corrélation
Méthodes statistiques. Ajustements et corrélation
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Corrélations et ajustements linéaires.
Les tests d’hypothèses
Régression -corrélation
variable aléatoire Discrète
Corrélation linéaire et la droite de régression
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Chapitre 2 Les indices.
Méthodes de Biostatistique

Chapitre 2: Les régularités et les relations
Fonction puissance Montage préparé par : André Ross
Régression linéaire simple
Groupe 1: Classes de même intervalle
Comprendre la variation dans les données: Notions de base
Corrélation et régression linéaire simple
Modeles Lineaires.
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
La corrélation et la régression
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
La régression multiple
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
Méthodes de Biostatistique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Lien entre deux variables
La régression simple Michel Tenenhaus
LA REGRESSION LINEAIRE
Présentation du marché obligataire
M2 Sciences des Procédés - Sciences des Aliments
STATISTIQUES – PROBABILITÉS
Intervalles de confiance pour des proportions L’inférence statistique
Échantillonnage (STT-2000)
Probabilités et Statistiques Année 2010/2011
Gestion budgétaire des ventes
Outils d’analyse: la méthode des moindres carrées
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Méthode des moindres carrés (1)
ETUDE DE 2 VARIABLES QUANTITATIVES
Chapitre 4 Variables aléatoires discrètes
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Régression linéaire (STT-2400)
STATISTIQUES.
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Distribution à deux variables
COURS DE TECHNIQUES QUANTITATIVES
Corrélation et causalité
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
Probabilités et statistique MQT-1102
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Introduction aux statistiques Intervalles de confiance
Coltier Yves Division des prix 14/05/2014 Les remplacements de type EC Les modèles hédoniques.
Bienvenue au cours MAT-350 Probabilités et statistiques.
Transcription de la présentation:

Chapitre 12 Régression linéaire simple et corrélation linéaire Mise en contexte Régression linéaire simple Corrélation linéaire Exemple de sortie SPSS MQT-21919 Probabilités et Statistique en Gestion

Mise en contexte En statistique, plusieurs problèmes consistent à définir la relation qui existe entre deux variables statistiques : Le nombre d’années d’expérience et le nombre d’erreurs commises ; L’âge du conducteur et le nombre d’accidents d’auto ; Volume des ventes et les dépenses en publicité ; Nombres d’heures d’études et les résultats aux examens ; …

Mise en contexte Dans ce genre de problèmes, les principales questions auxquelles nous voudrons répondre sont les suivantes : Existe-il une relation ou une dépendance entre les variables statistiques ? Cette relations, si elle existe, est-elle linéaire ou non ? Si une dépendance existe, de quelle façon peut-on la traduire par une équation mathématique ? La relation, si elle existe, est-elle grande ou faible ? Si l’équation mathématique de la relation entre les variables existe, comment prévoir les valeurs d’une variable à partir de la connaissance de valeurs de l’autre variable ou des autres variables ?

Mise en contexte Pour répondre à toutes ces questions, nous ferons appel à une théorie statistique que nous appelons : L’analyse de la régression

L’analyse de la régression Définition L’analyse de la régression est une méthode statistique qui permet d’étudier le type de relation pouvant exister entre une certaine variable dont on veut expliquer les valeurs et une ou plusieurs autres variables qui servent à cette explication. En d’autres termes, l’analyse de la régression permet d’étudier les variations de la première variable sur la base des variations connues des autres variables.

L’analyse de la régression Exemple d’illustration Le coût du loyer en fonction de nombre de pièces, de l’étage dans l’immeuble, ... Coût du loyer Nombre de pièces Services offerts (piscine, stationnement intérieur, etc.) … L’étage dans l’immeuble

L’analyse de la régression Définition Une analyse de régression est : dite simple si elle permet de prédire les valeurs d’une variable dite dépendante (expliquée (Y)) à partir des valeurs prises par une autre variable dite indépendante (explicative (X)). dite multiple si elle permet de prédire les valeurs d’une variable dite dépendante (expliquée (Y)) à partir des valeurs prises par plusieurs autres variables dites indépendantes (explicatives (Xi)).

L’analyse de la régression linéaire simple Définition : Nuage de points ou diagramme de dispersion C’est la représentation graphique dans le plan cartésien de l’ensemble des paires de données (xi,yi). Ces données proviennent d’une série statistique de deux caractères numériques obtenus à partir d’une étude menée sur un échantillon ou sur une population.

L’analyse de la régression linéaire simple Exemple : Nuage de points ou diagramme de dispersion Supposons que le nombre d’heures d’études nécessaires pour préparer l’examen final en statistique et le nombre de bonnes réponses obtenues par chaque étudiant sont donnés dans le tableau suivant : Tracer le nuage de points ou le diagramme de dispersion des données présentées ci-dessus.

L’analyse de la régression linéaire simple Exemple : Nuage de points ou diagramme de dispersion …

L’analyse de la régression linéaire simple Objectif d’une analyse de régression simple Une fois la représentation graphique effectuée, il est facile de soupçonner l’existence d’une certaine relation entre les deux caractères étudiés. Il faut maintenant chercher à exprimer la relation existant entre les deux variables à l’aide d’une équation mathématique. On essaye de trouver la forme mathématique de la fonction f

L’analyse de la régression linéaire simple Objectif d’une analyse de régression simple

L’analyse de la régression linéaire simple Définition : Nous appelons régression linéaire l’ajustement d’une droite au nuage statistique d’une série de couples de données. Ainsi, une régression linéaire simple va permettre de résumer, d’interpréter et de prévoir les variations d’un caractère dit dépendant (Y) en fonction d’un autre dit indépendant (X) et ce en utilisant une droite.

L’analyse de la régression linéaire simple Forme générale du modèle théorique de régression linéaire simple Notation : Y = Variable dépendante ou expliquée X = Variable indépendante ou explicative = Coefficients théoriques de régression (à estimer à l’aide d’un échantillon) = Erreur théorique aléatoire (d’autres facteurs influencent Y)

L’analyse de la régression linéaire simple Les différentes étapes d’une étude de régression

L’analyse de la régression linéaire simple Il existe plusieurs méthodes permettant d’estimer le modèle théorique , par le modèle empirique : Méthode des moindres carrés Méthode de la vraisemblance …

L’analyse de la régression linéaire simple La méthode des moindres carrés Idée de base : cette méthode essaye de construire une droite de régression empirique qui minimise la somme des carrés des distances verticales entre cette droite et chacun des points observés.

L’analyse de la régression linéaire simple La méthode des moindres carrés … Illustration graphique

L’analyse de la régression linéaire simple La méthode des moindres carrés … Définition : On appelle résidu ou erreur empirique ou écart de prévision, la valeur , soit la différence (l’écart vertical) entre la valeur observée yi de Y et la valeur estimée obtenue à partir de la droite de régression. L’objectif de la méthode des moindres carrées est de déterminer la droite de régression qui minimisent .

L’analyse de la régression linéaire simple La méthode des moindres carrés … L’équation de la droite de régression empirique Coefficient de régression empirique, Pente de la droite, Estimation de Coefficient de régression empirique, L’ordonné à l’origine, Estimations de

L’analyse de la régression linéaire simple La méthode des moindres carrés … Cette mesure donne l’ordre de grandeur de la dispersion des observations Yi autour de la droite de régression Il s’agit de trouver bo et b1 de sorte que la somme s soit la plus petite possible (minimale).

L’analyse de la régression linéaire simple Principes de la méthode des moindres carrés … Comment calculer les coefficients ? Les estimations ponctuelles des paramètres de la droite de régression obtenues par la méthode des moindres carrés sont : Taille de l’échantillon

L’analyse de la régression linéaire simple Exemple 1 d’illustration À partir des données ci-dessous, déterminez les estimations ponctuelles des paramètres de la droite de régression selon la méthode des moindres carrés :

L’analyse de la régression linéaire simple Exemple d’illustration : réponse

L’analyse de la régression linéaire simple Remarque Importante La droite de régression déterminée à l’aide de la méthode des moindres carrés donne la plus faible somme de carrés résiduelles parmi toutes les autres droites que l’on pourrait ajuster à cet ensemble d’observations.

L’analyse de la régression linéaire simple Exemple 2 d’illustration Une entreprise veut mener une étude sur la relation entre les dépenses hebdomadaires en publicité et le volume des ventes qu’elle réalise. On a recueilli au cours des dix dernières semaines les données suivantes : À partir des données ci-dessus, déterminez les estimations ponctuelles des paramètres de la droite de régression selon la méthode des moindres carrés.

L’analyse de la régression linéaire simple Exemple 2 : réponse À partir de ces données, il est possible de tracer le diagramme de dispersion suivant :

L’analyse de la régression linéaire simple Exemple 2 : réponse … Les résultats intermédiaires suivants servent à calculer les estimations ponctuelles des paramètres de la droite de régression :

L’analyse de la régression linéaire simple Exemple 2 : réponse … En appliquant les formules ci-dessous, nous obtenons les valeurs numériques des

L’analyse de la régression linéaire simple Exemple 2 : Interprétation des résultats et remarques… Dépenses en publicité Ordonnée à l’origine C’est l’augmentation du volume des ventes (Y) pour une augmentation unitaire du coût en publicité (X) La droite de régression qui permet de déterminer le volume des ventes en fonction des coûts publicitaires.

L’analyse de la régression linéaire simple Exemple 2 : Interprétation des résultats et remarques… Rq1 : le point de cordonnées se trouve sur la droite de régression. Rq2 : cette relation linéaire entre X et Y est valide pour l’intervalle des valeurs de X considérée dans l’énoncé, c’est-à-dire de 1 à 5.5. La droite de régression ne s’applique qu’à l’intérieur de l’étendue des valeurs expérimentales qui ont été observées pour la variable explicative (X). On devra donc éviter toute extrapolation en dehors de ce domaine à moins d’être certain que le phénomène se compose de façon identique.

L’analyse de la régression linéaire simple Exemple 2 : Interprétation des résultats et remarques… Rq3 : Pour la valeur x = 3,5 (située entre 1 et 5,5), on peut utiliser la droite de régression pour prévoir la valeur moyenne correspondante de Y Exemple : Prévision du volume des ventes pour un coût de 3,5 millions de dollars en publicité hebdomadaire. = 33.31 + 3.95 (3,5) = 47,14 millions de dollars

L’analyse de la régression linéaire simple Validation de la droite de régression empirique Pour valider une droite de régression empirique, il faut effectuer : Une estimation de la variance des erreurs théoriques Une estimation de et par intervalle de confiance Test d’hypothèse sur

L’analyse de la régression linéaire simple Validation de la droite de régression empirique… Estimation de la variance des erreurs théoriques La précision des estimateurs b0 et b1 dépend de la valeur de la variance des erreurs théoriques : plus sera petit, plus ces estimateurs sont précis. Puisque, en pratique, la variance est inconnue, alors on l’estime par le terme suivant :

L’analyse de la régression linéaire simple Validation de la droite de régression empirique… Estimation de et En pratique, les variances et sont inconnues, alors on les estiment par les deux termes suivants :

L’analyse de la régression linéaire simple Exemple d’application … Compléter le tableau suivant : 33.31 + 3.95 x 2 = 41.21 0.49 49.11 0.39 0.1521 7.6176 1.69 41.21 - 0.21 0.0441 26.4196 Calculer pour l’ensemble des données ci-dessus.

L’analyse de la régression linéaire simple Validation de la droite de régression empirique… Estimation de par intervalle de confiance L’intervalle de confiance pour estimer , la pente du modèle de régression théorique, au niveau de confiance (1 - ) est donnée par : Si n-2 < 30 Si n-2 ≥ 30

L’analyse de la régression linéaire simple Validation de la droite de régression empirique… Estimation de par intervalle de confiance Si la valeur X = 0 est dans l’intervalle des valeurs observées pour X, alors il est intéressant d’estimer par intervalle de confiance. L’intervalle de confiance pour estimer , l’ordonnée à l’origine du modèle de régression théorique, au niveau de confiance (1 - ) est donnée par : Si n-2 < 30 Si n-2 ≥ 30

L’analyse de la régression linéaire simple Exemple d’application D’après les données de l’exemple d’application de l’acétate 26, construisez un intervalle de confiance pour au niveau 95% : Puisque n-2 = 10 -2 = 8 < 30, alors Table de Student

L’analyse de la régression linéaire simple Validation de la droite de régression empirique… Test d’hypothèse sur Pour vérifier si l’influence de la variable indépendante X est significative, on procède à un test d’hypothèse sur Si β1 = 0 alors peu n’importe les valeurs de X, elles n’auront pas d’impact sur Y

L’analyse de la régression linéaire simple Les étapes d’un test d’hypothèses sur Énoncer les hypothèses H0 et H1. Préciser les conditions du test La population est normale La variance résiduelle est inconnue Le niveau de signification Si la taille de l’échantillon n – 2 ≥ 30, on utilise Z (Normale) Si la taille de l’échantillon n – 2 < 30, on utilise t (Student) Calculer l’écart réduit. Trouver la région critique au niveau de signification a

L’analyse de la régression linéaire simple Exemple d’application D’après les données de l’exemple d’application de l’acétate 26, vérifiez au niveau a = 0.05 et à partir de la droite de régression linéaire obtenue, si X est significative pour expliquer Y ? Réponse Étape 1 Étape 2 n – 2 = 8 < 30, population normale, inconnue Étape 3 Étape 4 Cela implique que X explique les valeurs prises par Y au niveau a = 0.05

L’analyse de la régression linéaire simple Application du modèle de régression linéaire simple Une fois que le modèle de régression est validé, il est possible d’effectuer deux types d’applications : Construire un intervalle de confiance autour de la droite de régression Construire un intervalle de prévision pour une nouvelle observation de X

L’analyse de la régression linéaire simple Application du modèle de régression linéaire simple Construire un intervalle de confiance autour de la droite de régression Si on veut estimer à l’aide d’un intervalle de confiance à un niveau (1 - ) la valeur moyenne de la droite de régression pour une valeur x0 spécifiée de X, alors : Si est inconnue et n - 2 < 30 Si est inconnue et n - 2 ≥ 30, on remplace par

L’analyse de la régression linéaire simple Exemple d’application Construire un intervalle de confiance autour de la droite de régression Estimez par intervalle de confiance au niveau = 0.05 le volume moyen des ventes si on investit 4 millions de dollars en publicité (acétate 26). Dans ce cas, on a est inconnue et n – 2 = 8 < 30

L’analyse de la régression linéaire simple Application du modèle de régression linéaire simple Construire un intervalle de prévision pour une nouvelle observation de X En plus des n observations dans l’échantillon, on a la possibilité d’effectuer une nouvelle observation xo de X qui serait indépendante des n premières. Dans ce cas, on veut maintenant prévoir yo, la valeur de Y correspondant à une nouvelle observation xo de X. Dans ce cas, l’intervalle de confiance au niveau (1 - ) sera : Si est inconnue et n - 2 < 30 Si est inconnue et n - 2 ≥ 30, on remplace par

L’analyse de la régression linéaire simple Exemple d’application Construire un intervalle de prévision pour une nouvelle observation de X Prévoir par intervalle de confiance au niveau = 0,05 le volume des ventes si, à partir d’un nouvel échantillonnage, on désire investir 2,8 millions de dollars en publicité (exemple de l’acétate 26). Dans ce cas, on a est inconnue et n – 2 = 8 < 30

Différence entre régression et corrélation ? Corrélation linéaire Différence entre régression et corrélation ? La régression linéaire simple se préoccupe essentiellement de la forme de la relation linéaire qui existe entre X et Y alors que La corrélation essaye de mesurer l’intensité ou la force de la relation qui existe entre X et Y.

Corrélation linéaire Il existe trois mesures possibles pour quantifier l’intensité de la relation entre X et Y: Coefficient de détermination de Y en fonction de X La covariance Coefficient de corrélation entre X et Y

Coefficient de détermination de Y en fonction de X Corrélation linéaire Coefficient de détermination de Y en fonction de X Le coefficient de détermination théorique de Y en fonction de X, noté , mesure la proportion de la variation de Y qui est expliquée par la régression ou qui est expliquée par la variable X au niveau de toute la population. N’implique pas nécessairement qu’il n’y a pas de relation entre X et Y mais plutôt que, si elle existe, elle n’est pas linéaire.

Coefficient de détermination de Y en fonction de X Corrélation linéaire Coefficient de détermination de Y en fonction de X En pratique est inconnu, car on ne possède pas d’information sur toute la population mais seulement sur un échantillon de taille n, alors on estimera à partir de l’échantillon : fournit une indication de la force de la liaison possible pouvant exister entre Y et X au niveau de la population. De plus, c’est un indice de la qualité de l’ajustement de la droite aux points expérimentaux.

Exemple d’application Corrélation linéaire Exemple d’application Calculez pour l’exemple d’application de l’acétate 26 : Puisque est proche de 1, on peut dire que la droite de régression s’ajuste très bien au nuage de points.

La covariance empirique entre X et Y Corrélation linéaire La covariance empirique entre X et Y Cette covariance est déterminée de la manière suivante : Alors X et Y varient dans le même sens Alors X et Y varient dans le même opposé Le sens de variation de X ne permet pas de prévoir le sens de variation de Y (soit que X et Y sont indépendantes, soit qu’il y a une relation non linéaire entre X et Y)

Corrélation linéaire Coefficient de corrélation linéaire empirique entre deux variables aléatoire X et Y Ce coefficient est déterminé de la manière suivante : Remarques : Si alors il existe une relation linéaire exacte entre X et Y Si alors soit que X et Y sont indépendantes, soit qu’il y a une dépendance non linéaire entre les deux variables Si ou alors il existe une relation linéaire plus ou moins forte entre X et Y

Le coefficient de corrélation de l’échantillon

Tester l'hypothèse d'une corrélation linéaire significative entre X et Y Si n-2 < 30, alors on calcule la statistique t suivante: On compare avec la statistique de Student (Z si n-2 > 30) Règle de décision: on rejette H0 si t < -ta/2(n-2) ou si t > ta/2(n-2) au niveau a à n-2 degrés de liberté

Exemple d’application Corrélation linéaire Exemple d’application Toujours en utilisant l’exemple numérique de l’acétate 26, mesurez le degré de dépendance linéaire entre X et Y à l’aide des deux indices précédents. Réponse Les dépenses en publicité et les ventes varient dans le même sens Il existe une relation linéaire très forte entre les dépenses en publicité et les ventes

Coefficients de corrélation et nuage de points Corrélation linéaire Coefficients de corrélation et nuage de points

Exemple de sortie SPSS Exemple de révision … La chaîne de restaurants Cocorico opère présentement 25 franchises et envisage d’en ouvrir quelques autres d’ici deux ans. Comme élément de l’étude de localisation, le responsable du dossier veut faire effectuer une étude de régression afin de déterminer quels sont les principaux facteurs qui influencent le bénéfice d’une franchise et sa rentabilité. Il a identifié quatre variables qui lui semblent pertinentes : X1 : nombre de véhicules par semaine (en milliers) sur la route où est située la franchise; X2 : cote (de 1 à 100) mesurant la facilité d’accès au restaurant (franchise); X3 : revenu annuel moyen des ménages demeurant dans le secteur (en 1000 $); X4 : variable prenant la valeur 1 s’il y a au moins un concurrent dans un rayon d’un kilomètre, et 0 autrement.

Exemple de sortie SPSS Exemple de révision … Le personnel a recueilli pour les 25 franchises existantes les données associées à ces quatre variables, ainsi que les bénéfices hebdomadaires moyens, Y (en 1000 $), pour la dernière année d’exploitation.

Exemple de sortie SPSS Exemple de révision … Le responsable croit que seulement le revenu annuel moyen (X3) des ménages peut expliquer les bénéfices hebdomadaires moyens et vous demande donc d’examiner le modèle suivant : . À l’aide des résultats donnés au tableau de la page suivante, répondez aux questions suivantes : Donner l’équation de la droite de régression. Croyez-vous que cette droite s’ajuste bien aux données ? Justifier votre réponse à l’aide d’un indice approprié. Est-ce que ce modèle de régression linéaire simple est significatif au seuil a = 0,01 ? Vérifiez à l’aide d’un test approprié. Construire un intervalle de confiance à 95% pour si le revenue annuel des ménages est de 26.480 ?

Exemple de révision : Sortie SPSS Exemple de sortie SPSS Exemple de révision : Sortie SPSS Y X3

Exemple de révision : Sortie SPSS … Exemple de sortie SPSS Exemple de révision : Sortie SPSS … : Écart type des erreurs théoriques Coefficient de détermination : Coefficient de corrélation :

Exemple de révision : Sortie SPSS … Exemple de sortie SPSS Exemple de révision : Sortie SPSS … T0 ou Z0 pour le test d’hypothèse sur IC pour IC pour b0 T0 ou Z0 pour le test d’hypothèse sur b3

Exemple de révision : Réponse Exemple de sortie SPSS Exemple de révision : Réponse a) Donner l’équation de la droite de régression. b) Croyez-vous que cette droite s’ajuste bien aux données ? Justifier votre réponse à l’aide d’un indice approprié. C’est le coefficient de détermination qui donne une indication sur la qualité de l’ajustement de la droite de régression. Or, qui est trop faible. Donc, on a un très mauvais ajustement. Ainsi, le revenue moyen des ménages n’explique pas d’une façon linéaire les variations dans les bénéfices hebdomadaires. c) Est-ce que ce modèle de régression linéaire simple est significatif au seuil a = 0,01 ? Vérifiez à l’aide d’un test approprié. Pour répondre à cette question on doit faire un test d’hypothèse sur

Les étapes d’un test d’hypothèses sur Exemple de sortie SPSS Les étapes d’un test d’hypothèses sur Énoncer les hypothèses H0 et H1. Préciser les conditions du test La population est normale La variance résiduelle est inconnue Le niveau de signification 0.01 Si la taille de l’échantillon 25 – 2 = 23 < 30, on utilise t (Student) Calculer l’écart réduit. Trouver la région critique au niveau de signification a

Exemple de révision : Réponse Exemple de sortie SPSS Exemple de révision : Réponse d) Construire un intervalle de confiance à 95% pour si le revenu annuel des ménages est de 26.480 ? La valeur de X3 = 26.480 existe dans les données de départ et de ce fait on applique la formule suivante pour déterminer l’intervalle de confiance (avec n-2 =23 < 30). 24.23 17.26