La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12.

Présentations similaires


Présentation au sujet: "Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12."— Transcription de la présentation:

1 Opération et systèmes de décision Faculté des Sciences de lAdministration MQT Probabilités et statistique Analyse de la régression Chapitre 12

2 Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement Volume recommandé: Statistique en Gestion et en économie: sections 8.1 et 8.2

3 Mise en contexte En statistiques, plusieurs problèmes consistent à définir la relation qui existe entre deux variables statistiques : –Le nombre dannées dexpérience et le nombre derreurs commises ; –Lâge du conducteur et le nombre daccidents dauto ; –Le volume des ventes et les dépenses en publicité ; –Le nombre dheures détudes et les résultats aux examens ; –…

4 Mise en contexte Dans ce genre de problèmes, les principales questions auxquelles nous voudrons répondre sont les suivantes : –Existe-il une relation ou une dépendance entre les variables statistiques? –Cette relation, si elle existe, est-elle linéaire ou non ? –Si une dépendance linéaire existe, de quelle façon peut- on la traduire par une équation mathématique ? –La relation, si elle existe, est-elle grande ou faible ? –Si léquation mathématique de la relation entre les variables existe, comment prévoir les valeurs dune certaine variable à partir de la connaissance de valeurs de lautre variable ou des autres variables ?

5 Mise en contexte Pour répondre à toutes ces questions, nous ferons appel à une théorie statistique que nous appelons : Lanalyse de la régression

6 Lanalyse de la régression est une méthode statistique qui permet détudier le type de relation pouvant exister entre une certaine variable (dépendante) dont on veut expliquer les valeurs et une ou plusieurs autres variables qui servent à cette explication (variables indépendantes) –Régression linéaire simple: une variable indépendante En dautres termes, lanalyse de la régression permet détudier les variations de la variable dépendante en fonction des variations connues des variables indépendantes.

7 Lanalyse de la régression Le coût du loyer en fonction du nombre de pièces, du niveau détage dans limmeuble, des services offerts... Coût du loyer Nombre de pièces Services offerts (piscine, stationnement intérieur, etc.) Létage dans limmeuble …

8 Lanalyse de la régression Une analyse de régression est : –dite simple si elle permet de prédire les valeurs dune variable dite dépendante (expliquée (Y)) à partir des valeurs prises par une autre variable dite indépendante (explicative (X)). –dite multiple si elle permet de prédire les valeurs dune variable dite dépendante (expliquée (Y)) à partir des valeurs prises par plusieurs autres variables dites indépendantes (explicatives (X i )).

9 Lanalyse de la régression linéaire simple Cest la représentation graphique dans le plan cartésien de lensemble des paires de données (x i,y i ). Ces données proviennent dune série statistique de deux variables obtenues à partir dune étude menée sur un échantillon ou sur une population. Définition : Nuage de points ou diagramme de dispersion

10 Lanalyse de la régression linéaire simple Exemple : Nuage de points ou diagramme de dispersion Supposons que le nombre dheures détudes nécessaires pour préparer lexamen final en statistiques et le nombre de bonnes réponses obtenues par chaque étudiant sont donnés dans le tableau suivant : Tracer le nuage de points ou le diagramme de dispersion des données présentées ci-dessus.

11 Exemple : Nuage de points ou diagramme de dispersion … Lanalyse de la régression linéaire simple

12 Objectif dune analyse de régression simple Une fois la représentation graphique effectuée, il est facile de soupçonner lexistence dune certaine relation entre les deux variables (caractères étudiés). Il faut maintenant chercher à exprimer cette relation à laide dune équation mathématique. On essaie de trouver la forme mathématique de la fonction f Lanalyse de la régression linéaire simple

13 Objectif dune analyse de régression simple Lanalyse de la régression linéaire simple

14 Définition : Nous appelons régression linéaire lajustement dune droite au nuage statistique dune série de couples de données. Ainsi, une régression linéaire simple va permettre de résumer, dinterpréter et de prévoir les variations dun caractère dit dépendant (Y) en fonction dun autre dit indépendant (X) et ce en utilisant une droite.

15 Modèle de régression linéaire simple y = x + Équation de la régression linéaire simple (comment l'espérance de y est liée à x) E(y) = x Équation estimée de la régression linéaire simple (droite de la régression estimée, modèle empirique) y = Variable dépendante ou expliquée = valeur estimée de y pour une valeur x x = Variable indépendante ou explicative = Coefficients théoriques de régression (à estimer à laide dun échantillon) par b 0 et b 1 = Erreur théorique aléatoire (dautres facteurs influencent Y)

16 Modèle de régression linéaire simple L'équation estimée de la régression linéaire simple (droite de la régression estimée, modèle empirique) peut être utilisée pour une estimation ponctuelle de la valeur moyenne de y pour une valeur particulière de x ou pour prévoir la valeur ponctuelle de y associée à une valeur particulière de x y = Variable dépendante ou expliquée = valeur de prévision de y pour une valeur x, ou moyenne de y estimée pour une valeur de x x = Variable indépendante ou explicative

17 Lanalyse de la régression linéaire simple Les différentes étapes dune étude de régression

18 Il existe plusieurs méthodes permettant destimer le modèle théorique par le modèle empirique Méthode des moindres carrés Méthode de la vraisemblance … Lanalyse de la régression linéaire simple

19 La méthode des moindres carrés Critère des moindres carrés où: y i = valeur observée de la variable dépendante pour pour la i ème observation = valeur estimée de la variable dépendante pour la i ème observation

20 Lanalyse de la régression linéaire simple La méthode des moindres carrés Idée de base : cette méthode essaie de construire une droite de régression empirique qui minimise la somme des carrés des distances verticales entre cette droite et chacun des points observés.

21 La méthode des moindres carrés … Illustration graphique Lanalyse de la régression linéaire simple

22 La méthode des moindres carrés … Définition : On appelle résidu ou erreur empirique ou écart de prévision, la valeur, soit la différence (lécart vertical) entre la valeur observée y i de Y et la valeur estimée obtenue à partir de la droite de régression, lorsque x= x i. Lobjectif de la méthode des moindres carrés est de déterminer la droite de régression qui minimise

23 La méthode des moindres carrés … Cette mesure donne lordre de grandeur de la dispersion des observations Y i autour de la droite de régression Il sagit de trouver b o et b 1 de sorte que la somme des carrés des résidus SCres soit la plus petite possible (minimale). Lanalyse de la régression linéaire simple

24 Principes de la méthode des moindres carrés … Comment calculer les coefficients b 0 et b 1 ? Les estimations ponctuelles des paramètres de la droite de régression obtenues par la méthode des moindres carrés sont : Taille de léchantillon Lanalyse de la régression linéaire simple Autre formule pour b 1

25 À partir des données ci-dessous, déterminez les estimations ponctuelles des paramètres de la droite de régression selon la méthode des moindres carrés : Lanalyse de la régression linéaire simple

26

27 Remarque Importante La droite de régression déterminée à laide de la méthode des moindres carrés donne la plus faible somme de carrés résiduels parmi toutes les autres droites que lon pourrait ajuster à cet ensemble dobservations. Lanalyse de la régression linéaire simple

28 Une entreprise veut mener une étude sur la relation entre les dépenses hebdomadaires en publicité et le volume de ventes quelle réalise. On a recueilli au cours des dix dernières semaines les données suivantes : À partir des données ci-dessus, déterminez les estimations ponctuelles des paramètres de la droite de régression selon la méthode des moindres carrés. Lanalyse de la régression linéaire simple

29 À partir de ces données, il est possible de tracer le diagramme de dispersion suivant : Lanalyse de la régression linéaire simple

30 Les résultats intermédiaires suivants servent à calculer les estimations ponctuelles des paramètres de la droite de régression : Lanalyse de la régression linéaire simple

31 En appliquant les formules ci-dessous, nous obtenons les valeurs numériques de b 0 et b 1 Lanalyse de la régression linéaire simple

32 Dépenses en publicité Cest laugmentation du volume des ventes (Y) pour une augmentation unitaire du coût en publicité (X) Ordonnée à lorigine (volume de vente moyen sans dépenser un sous en publicité) La droite de régression qui permet de déterminer le volume moyen des ventes pour un coût publicitaire donné x. Lanalyse de la régression linéaire simple

33 Interprétation des résultats et remarques… Rq1 : le point de cordonnées se trouve sur la droite de régression. Rq2 : cette relation linéaire entre X et Y est valide pour lintervalle des valeurs de X considérée dans lénoncé, cest-à-dire de 1 à 5,5. La droite de régression sapplique à lintérieur de létendue des valeurs expérimentales qui ont été observées pour la variable explicative (X). On devra donc éviter toute extrapolation en dehors de ce domaine à moins dêtre certain que le phénomène se comporte de façon identique. Lanalyse de la régression linéaire simple

34 Rq3 : Pour la valeur x = 3,5 (située entre 1 et 5,5), on peut utiliser la droite de régression pour calculer la valeur moyenne correspondante de Y Exemple : Estimation du volume des ventes moyen pour un coût de 3,5 millions de dollars en publicité hebdomadaire. = 33,31 + 3,95 (3,5) = 47,14 millions de dollars Lanalyse de la régression linéaire simple

35 La pente de léquation de la régression empirique (estimée) ou Lordonnée à lorigine de léquation de la régression empirique (estimée): où: x i = valeur de la variable indépendante pour la i ème observation y i = valeur de la variable dépendante pour la i ème observation = valeur moyenne de la variable dépendante = valeur moyenne de la variable indépendante observée n = nombre total dobservations La méthode des moindres carrés - Résumé

36 Exemple: Vente chez Autos Plus Autos Plus a régulièrement des soldes les fins de semaines. Dans le cadre dune campagne de publicité, Auto Plus achète au moins une annonce publicitaire la fin de semaine précédant la promotion. Les données dun échantillon de 5 soldes sont présentées ci-dessous. Nombre de publicités Nombre dautos vendues

37 Pente de léquation de régression estimée b 1 = (10)(100)/5 = (10) 2 /5 Ordonnée à lorigine de léquation de régression estimée b 0 = (2) = 10 Léquation de régression estimée = x Exemple: Vente chez Autos Plus

38 Il existe trois mesures possibles pour quantifier lintensité de la relation entre X et Y: –Le coefficient de détermination de Y en fonction de X –Le coefficient de corrélation entre X et Y –La covariance entre X et Y Relation entre X et Y

39 Coefficient de détermination de Y en fonction de X Le coefficient de détermination théorique de Y en fonction de X, noté mesure la proportion de la variation de Y qui est expliquée par la régression ou qui est expliquée par la variable X au niveau de toute la population. Le coefficient de détermination Le coefficient de détermination indique si le modèle linéaire défini colle aux données

40 Coefficient de détermination de Y en fonction de X En pratique est inconnu, car on ne possède pas dinformation sur toute la population mais seulement sur un échantillon de taille n, alors on estimera à partir de léchantillon : fournit une indication de la force de la liaison possible pouvant exister entre Y et X au niveau de la population. De plus, cest un indice de la qualité de lajustement de la droite aux points expérimentaux. Le coefficient de détermination Rappel:

41 Le coefficient de détermination Dans quelle mesure léquation estimée de la régression sajuste-t-elle aux données? –Le coefficient de détermination permet de mesurer le degré dadéquation Formule pour le coefficient de détermination r 2 = SCreg/SCT où: SCT = SCreg + SCres = SCT = Somme des carrés totale (variation totale) SCreg = Somme des carrés de la régression (variation expliquée) SCres = Somme des carrés des résidus

42 Le coefficient de détermination

43 Calculez pour lexemple dapplication des coûts publicitaires et des ventes: Puisque est proche de 1, on peut dire que la droite de régression sajuste très bien au nuage de points. Le coefficient de détermination

44 Coefficient de détermination r 2 = SCreg/SCT = 100/114 = 0,88 La relation de régression est très forte puisque 88% de la variation dans le nombre dautos vendues peut être expliqué par la relation linéaire qui existe entre le nombre de publicités à la télévision et le nombre dautos vendues. Exemple: Ventes Auto plus

45 Différence entre régression et corrélation ? La régression linéaire simple se préoccupe essentiellement de la forme de la relation linéaire qui existe entre X et Y La corrélation essaye de mesurer lintensité ou la force de la relation linéaire qui existe entre X et Y. Relation entre X et Y: régression et corrélation

46 Le coefficient de corrélation de léchantillon où: b 1 = la pente de léquation de régression estimée (empirique) Le coefficient de corrélation théorique (au niveau de la population) est dénoté yx ou simplement

47 Le coefficient de corrélation peut être déterminé de la manière suivante (ou encore en prenant la racine carrée du coefficient de détermination): On a toujours: Si alors il existe une relation linéaire exacte entre X et Y Si alors soit que X et Y sont indépendantes, soit quil y a une dépendance non linéaire entre les deux variables Si ou alors il existe une relation linéaire plus ou moins forte entre X et Y Le coefficient de corrélation permet de voir s'il est facile d'approcher les données par une droite. Le coefficient de corrélation de léchantillon

48 Tester l'hypothèse d'une corrélation linéaire significative entre X et Y Si n-2 < 30, alors on calcule la statistique t suivante: On compare avec la statistique de Student Règle de décision: –on rejette H 0 si t t /2 (n-2) au niveau à n-2 degrés de liberté

49 Toujours en utilisant lexemple numérique de la publicité et les ventes d'autos, mesurez le degré de dépendance linéaire entre X et Y. Réponse Les dépenses en publicité et les ventes varient dans le même sens Il existe une relation linéaire très forte entre les dépenses en publicité et les ventes Le coefficient de corrélation de léchantillon

50 Coefficient de corrélation et nuage de points

51 Autre formule pour le coefficient de corrélation On peut aussi calculer le coefficient de corrélation à partir de la covariance empirique (estimée) entre X et Y, et les écarts-types empiriques (estimés) pour X et Y

52 La covariance empirique est estimée à partir de léchantillon de la manière suivante: Alors X et Y varient dans le même sens Alors X et Y varient dans le même opposé Le sens de variation de X ne permet pas de prévoir le sens de variation de Y (soit que X et Y sont indépendantes, soit quil y a une relation non linéaire entre X et Y) La covariance de X et Y Cette quantité mesure l'intensité de la relation linéaire entre X et Y. Si X et Y sont indépendantes, alors la covariance est nulle. Mais linverse nest pas vrai, car on pourrait avoir une relation non linéaire.

53 Validation de la droite de régression empirique… Test dhypothèse sur Pour vérifier si linfluence de la variable indépendante X est significative, on procède à un test dhypothèses sur Si β 1 = 0 alors peu importe les valeurs de X, elles nauront pas dimpact sur Y Lanalyse de la régression linéaire simple

54 Étapes contribuant à la validation de la droite de régression empirique Estimer la variance des erreurs théoriques Estimer et par intervalle de confiance Test dhypothèses sur Lanalyse de la régression linéaire simple

55 Validation de la droite de régression empirique… Estimation de la variance des erreurs théoriques La précision des estimateurs b 0 et b 1 dépend de la valeur de la variance des erreurs théoriques : plus sera petite, plus ces estimateurs sont précis. Puisque, en pratique, la variance est inconnue, on lestime par le terme suivant : Lanalyse de la régression linéaire simple

56 Validation de la droite de régression empirique… Estimation de et En pratique, les variances et sont inconnues, alors on les estime par les deux termes suivants : Lanalyse de la régression linéaire simple

57 Exemple dapplication … Calculer pour lensemble des données ci-dessus. Compléter le tableau suivant : ,31 + 3,95 x 2 = 41, Lanalyse de la régression linéaire simple

58 Validation de la droite de régression empirique… Estimation de 1 par intervalle de confiance Lintervalle de confiance pour estimer 1, la pente du modèle de régression théorique, au niveau de confiance (1 - ) est donné par: Si n-2 < 30 Si n-2 30 Lanalyse de la régression linéaire simple Si la valeur 1 =0 appartient à lintervalle de confiance, on ne rejette pas lhypothèse nulle: 1 =0 au niveau de signification et on conclut quil nexiste pas de relation linéaire significative entre Y et X

59 Daprès les données de lexemple numérique de la publicité et le volume de ventes d'autos, construisez un intervalle de confiance pour au niveau 95% : Puisque n-2 = = 8 < 30, alors Table de Student Lanalyse de la régression linéaire simple

60 Validation de la droite de régression empirique… Estimation de par intervalle de confiance Si la valeur X = 0 est dans lintervalle des valeurs observées pour X, alors il est intéressant destimer par intervalle de confiance. Si n-2 < 30 Si n-2 30 Lintervalle de confiance pour estimer, lordonnée à lorigine du modèle de régression théorique, au niveau de confiance (1 - ) est donnée par : Lanalyse de la régression linéaire simple

61 Tester la signification dune régression Pour tester la signification dune régression, on peut effectuer un test dhypothèses afin de déterminer si la valeur de 1 est zéro. Deux tests sont couramment utilisés – Test t ou z (selon la taille de l'échantillon) – Test F –Les deux tests nécessitent une estimation de 2, la variance des erreurs e du modèle de régression

62 Tester la signification dune régression Une estimation de 2 Rappel: la moyenne des carrés des résidus (MCres) fournit une estimation de 2 s 2 = MCres = SCres/(n-2) où: s est lerreur type de lestimation

63 Les étapes dun test z ou t dhypothèses sur 1.Énoncer les hypothèses H 0 et H a. 2.Préciser les conditions du test La population des erreurs est normale La variance résiduelle est inconnue Le niveau de signification Si la taille de léchantillon n – 2 30, on utilise z (Normale) Si la taille de léchantillon n – 2 < 30, on utilise t (Student) 3.Calculer la statistique de test. 4.Trouver la région critique au niveau de signification Lanalyse de la régression linéaire simple

64 Daprès les données de lexemple dapplication sur la publicité et le volume de ventes d'autos, vérifiez au niveau de signification = 0,05 si X explique Y, à partir de la droite de régression linéaire obtenue Étape 1Étape 2 n – 2 = 8 < 30, population normale, inconnue Étape 3 Étape 4 Cela implique que X explique les valeurs prises par Y au niveau = 0,05 Lanalyse de la régression linéaire simple

65 Tester la signification dune régression: Test F Hypothèses H 0 : 1 = 0 H a : 1 0 Statistique de test F = MCreg/MCres Règle de rejet Rejeter H 0 si F > F où F est basée sur distribution F à 1 d.l. dans le numérateur and n - 2 d.l. dans le dénominateur MCreg= Ce test peut aussi sappliquer aux régressions multiples

66 Daprès les données de lexemple dapplication sur la publicité et le volume de ventes d'autos, vérifiez au niveau de signification = 0,05, à partir de la droite de régression linéaire obtenue, si X explique Y ? Utiliser le test F. F = MCreg/MCres=298,008/1,18=251,54 Cela implique que X explique les valeurs prises par Y au niveau = 0,05 Lanalyse de la régression linéaire simple

67 Application du modèle de régression linéaire simple Une fois que le modèle de régression est validé, il est possible deffectuer deux types dapplications : Construire un intervalle de confiance autour de la droite de régression (estimation par intervalle de la valeur moyenne, E(Y p )) Construire un intervalle de prévision pour la valeur individuelle de Y associé à une observation x p, Contrairement à l'estimation ponctuelle, ces intervalles de confiances seront différents pour une valeur moyenne et pour une prévision Lanalyse de la régression linéaire simple

68 Construire un intervalle de confiance autour de la droite de régression (autour de la valeur moyenne de Y) Si on veut estimer à laide dun intervalle de confiance à un niveau (1 - ) la valeur moyenne de Y pour une valeur x p particulière de X,, E(Y p ) alors : Si est inconnue et n - 2 < 30 Lanalyse de la régression linéaire simple Si est inconnue et n , ou si est connue, on remplace par, et s par

69 Construire un intervalle de confiance autour de la droite de régression Estimez par intervalle de confiance au niveau = 0,05 le volume moyen des ventes d'autos si on investit 4 millions de dollars en publicité Dans ce cas, on a est inconnue et n – 2 = 8 < 30 Lanalyse de la régression linéaire simple

70 Construire un intervalle de prévision pour une nouvelle observation de X En plus des n observations dans léchantillon, on a la possibilité deffectuer une prévision pour une nouvelle observation x p de X. Dans ce cas, on veut estimer, la valeur individuelle de Y correspondant à x p de X. Lintervalle de confiance au niveau (1 - ) sera : Si est inconnue et n - 2 < 30 Lanalyse de la régression linéaire simple Si est inconnue et n , ou si est connue, on remplace par, et s par

71 Construire un intervalle de prévision pour une nouvelle observation de X Prévoir par intervalle de confiance au niveau = 0,05 le volume des ventes si, à partir dun nouvel échantillonnage, on désire investir 2,8 millions de dollars en publicité Dans ce cas, on a est inconnue et n – 2 = 8 < 30 Lanalyse de la régression linéaire simple

72 Estimation ponctuelle –Si 3 annonces publicitaires sont présentées avant une fin de semaine de soldes, on sattend à ce que le nombre moyen dautos vendues soit: = (3) = 25 autos Exemple: Autos plus

73 Estimation ponctuelle –Si 3 annonces publicitaires sont présentées avant une fin de semaine de soldes, on sattend à ce que le nombre moyen dautos vendues soit: = (3) = 25 autos Intervalle de confiance pour E(y p ) (y p moyen pour un x p particulier) –Lintervalle de confiance à 95% du nombre moyen estimé dautos qui seront vendues si on présente 3 annonces publicitaires est: ,61 = 20,39 à 29,61 autos Intervalle de prévision pour y p Lintervalle de confiance à 95% du nombre prévu dautos qui seront vendues une semaine donnée (valeur individuelle et non moyenne) si on présente 3 annonces publicitaires est : ,28 = 16,72 à 33,28 Exemple: Autos plus

74 Hypothèses du modèle Hypothèses concernant le terme derreurs –Lerreur est une variable aléatoire despérance 0 –La variance de, dénotée 2 ou 2, est la même pour toutes les valeurs de X –Les valeurs de sont indépendantes. –Lerreur est distribuée selon une loi normale

75 Analyse des résidus Lanalyse des résidus est le principal outil pour déterminer si le modèle de régression utilisé est approprié Analyse graphique des résidus en fonctions des valeurs indépendantes devrait avoir une forme horizontale Le résidu de lobservation i:

76 Test F Hypothèses H 0 : 1 = 0 H a : 1 0 –Règle de rejet Pour = 0,05 et d.l. = 1, 3: F 0,05 = 10,13 Rejeter H 0 si F > 10,13. –Statistique de test F = MCreg/MCres = 100/4,667 = 21,43 –Conclusion On peut rejeter H 0. Exemple: Autos plus

77 Test t –Hypothèses H 0 : 1 = 0 H a : 1 0 –Règle de rejet Pour = 0,05 et d.l. = 3, t 0,025 = 3,182 Rejeter H 0 si t > 3,182 –Statistique de test t = 5/1,08 = 4,63 –Conclusions Rejeter H 0 : 1 = 0 Exemple: Autos plus

78 Utilisation d'Excel

79

80 MCReg MCRes s

81 Utilisation d'Excel s ou s e


Télécharger ppt "Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12."

Présentations similaires


Annonces Google