Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.

Name: Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Uploaded: 2017-10-05T10:11:08+00:00
Duration: PTM17S40
Channel: Jean-Jacques Bouchard
Description: Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.

Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement

Plan de la séance Introduction Modèle de régression linéaire simple
Méthode des moindres carrés Coefficient de détermination I.C. sur le paramètre 1 Test de signification Estimation d’une valeur moyenne ou d’une prévision

1. Introduction En statistique, plusieurs problèmes consistent à étudier la relation qui existe entre 2 variables: Le nombre d’années d’expérience et le nombre d’erreurs commises; L’âge du conducteur et le nombre d’accidents d’auto; Le volume des ventes et les dépenses en publicité; Le nombre d’heures d’étude et les résultats aux examens; …

1. Introduction Dans ce genre de problèmes, les principales questions auxquelles nous voudrons répondre sont les suivantes : Existe-il une relation/dépendance entre les variables? Cette relation, si elle existe, est-elle linéaire ou non? Si une dépendance linéaire existe, de quelle façon peut-on la traduire par une équation mathématique? La relation, si elle existe, est-elle grande ou faible? Sachant la valeur prise par l’une des 2 variables, peut-on prédire la valeur de l’autre variable?

1. Introduction Pour répondre à toutes ces questions, nous ferons appel à une théorie statistique que nous appelons : L’analyse de la régression

2. Modèle de régression linéaire simple
Variable dépendante: variable que l’on cherche à prévoir. Variables indépendantes: variables utilisées pour prévoir la valeur de la variable dépendante. Exemple: Variable dépendante: Variables indépendantes:

Analyse de la régression: Construit une équation mathématique qui modélise le lien entre la variable dépendante et les variables indépendantes. Une seule variable indépendante: régression linéaire simple. Au moins 2 variables indépendantes: régression multiple. Dans ce cours, on se limite à la régression linéaire simple.

Variable dépendante: y Variable indépendante: x Pour chaque individu d’un échantillon de taille n, on mesure les deux variables: (x1, y1), (x2, y2), (x3, y3), …, (xn, yn)

Nuage de points (ou diagramme de dispersion): Représentation graphique dans le plan cartésien de l’ensemble des paires de données (xi, yi) pour i = 1, 2, …, n. Exemple: on mesure le nombre d’heures d’étude et le nombre de bonnes réponses à un examen pour 13 étudiants. Heures d’étude (X) 5 8 6 9 10 4 7 Bonnes réponses (Y) 2

Une fois la représentation graphique effectuée, il est facile de soupçonner l’existence d’une certaine relation entre les deux variables (caractères étudiés). Il faut maintenant chercher à exprimer cette relation à l’aide d’une équation mathématique. On essaie de trouver la forme mathématique de la fonction f

Ajustement d’une droite au nuage de points d’une série de couples de données. Une régression linéaire simple va donc permettre de résumer, d’interpréter et de prévoir les variations d’un caractère dit dépendant (Y) en fonction d’un autre dit indépendant (X), et ce, en utilisant une droite.

y = 0 + 1x +  y = variable dépendante x = variable indépendante 0 et 1 sont les paramètres du modèle (à estimer)  = terme d’erreur (variable aléatoire)

Les paramètres 0 et 1 sont inconnus en pratique. On les estime par b0 et b1 à l’aide des données d’un échantillon. Équation estimée de la régression linéaire simple où est la valeur estimée (prédite) de y pour une valeur de x donnée

La droite de régression estimée peut servir à: Estimer la valeur moyenne de y pour une valeur particulière de x. Prévoir la valeur de y associée à une valeur particulière de x. Dans les 2 cas, on utilise la formule Comment obtenir b0 et b1 ?

3. Méthode des moindres carrés
Il existe plusieurs méthodes pour obtenir b0 et b1. La méthode des moindres carrés est la plus répandue. yi = valeur observée de la variable dépendante pour l’individu i. = valeur estimée par le modèle de la variable dépendante pour l’individu i. ei = yi - = résidu = erreur de prévision pour l’individu i.

La méthode des moindres carrés détermine la droite qui minimise la somme des carrés des résidus (minimise ). En d’autres mots, cette méthode minimise la somme des carrés des distances verticales entre la droite de régression et chacun des points observés.

Illustration graphique:

Les estimations des paramètres de la droite de régression obtenues par la méthode des moindres carrés sont: Taille de l’échantillon

b0 = ordonnée à l’origine de la droite de régression. C’est la valeur estimée de y lorsque x = 0. b1 = pente de la droite de régression. Lorsque x augmente de 1 unité, la valeur estimée de y augmente de b1 unités.

Exemple: On veut prédire le volume des ventes d’une entreprise à partir du montant de ses dépenses en publicité. Voici les données obtenues: Dépenses publicité (milliers $) 32 62 19 45 39 Ventes (millions $) 10.9 13.2 8.3 11.5 10.3

Diagramme de dispersion:

a) Estimez les paramètres de la droite de régression.

a) (suite)

b) Faites une prévision concernant le volume des ventes sachant que le coût publicitaire s’est élevé à 26 milliers de dollars.

Remarques: La droite de régression déterminée à l’aide de la méthode des moindres carrés donne la plus faible somme de carrés résiduels ( ) parmi l’infinité de droites que l’on pourrait ajuster à cet ensemble d’observations. La droite de régression passe toujours par le point La somme des résidus est toujours nulle (∑ ei = 0). La droite de régression n’est valide qu’à l’intérieur de l’étendue des valeurs observées de x. Il faut éviter de faire des prévisions sur y pour des valeurs de x hors de cet intervalle.

c) Calculez la somme du carré des erreurs.

d) Montrez que la droite de régression passe par le point

4. Coefficient de détermination
SCT = SCreg + SCres où: SCT = ∑ (yi - )2 SCreg = ∑ ( )2 SCres = ∑ (yi - )2 Si la droite de régression s’ajuste parfaitement aux données, tous les points se retrouvent sur cette droite. Dans ce cas: Le résidu est nul pour chaque observation. SCres = 0.

Puisque SCT = SCreg + SCres, on a nécessairement que 0 ≤ SCreg/SCT ≤ 1. Dans le cas d’un ajustement parfait, SCres = 0 donc SCreg/SCT = 1. Plus l’ajustement est mauvais, plus SCres augmente; en d’autres mots, SCreg/SCT se rapproche de 0. Coefficient de détermination = r2 = SCreg/SCT est utilisé pour évaluer l’adéquation de la droite de régression. Coefficient de détermination dans la population:

Si est proche de 1, le modèle linéaire colle bien aux données. Mesure la proportion de la variation de Y qui est expliquée par la régression. r2 donne un indice sur la qualité de l’ajustement de la droite aux points expérimentaux.

Formules alternatives (plus rapides!): SCT = ∑ yi2 – [ (∑ yi)2 / n ] SCreg = num2 / denom num = ∑ xiyi – [ ( ∑ xi ∑ yi) / n ] denom = ∑ xi2 – [ (∑ xi)2 / n ] .

Dans l’exemple sur le volume des ventes, calculez SCT, SCreg et SCres. Quelle proportion de la variation de Y s’explique par le modèle de régression linéaire simple?

(suite des calculs)

Coefficient de corrélation Dans la population: r Dans un échantillon: r -1 ≤ r ≤ +1 r = +1 indique que X et Y sont parfaitement liés de façon positive (tous les points sont sur une droite de pente > 0). r = -1 indique que X et Y sont parfaitement liés de façon négative (tous les points sont sur une droite de pente < 0). r = 0 porte à croire que soit X et Y sont indépendantes, soit il existe une dépendance non linéaire entre ces 2 variables.

où b1 est la pente de la droite de régression Calculez ce coefficient dans le cadre de l’exemple sur le volume des ventes.

5. I.C. sur le paramètre 1 La précision de l’estimateur b1 dépend de la valeur de la variance des erreurs théoriques, Var(). Plus σ2 est petite, plus l’estimateur est précis! σ2 est inconnue en pratique. On l’estime par:

5. I.C. sur le paramètre 1 La construction de l’I.C. pour b1 requiert la connaissance de Var(b1). On estime Var(b1) par:

5. I.C. sur le paramètre 1 Voici l’I.C. pour 1:
Note: tα/2 ci-haut est en fait tα/2 (n-2) Si n-2 < 30 Si n-2 ≥ 30

5. I.C. sur le paramètre 1 Calculez l’intervalle de confiance à 90% pour 1 dans l’exemple sur les ventes versus publicité.

5. I.C. sur le paramètre 1 (suite des calculs)

6. Test de signification Équation de la régression linéaire simple:
y = 0 + 1x +  Si 1 = 0, alors y = 0 + . y ne dépend plus de x! x et y ne sont plus linéairement liés. Tester si la relation entre les 2 variables est significative revient donc à tester si 1 est égal à zéro ou non.

6. Test de signification . Pour vérifier si l’influence de la variable indépendante X est significative, on procède à un test d’hypothèses sur Si β1 = 0 alors peu importe les valeurs de X, elles n’auront pas d’impact sur Y

6. Test de signification Hypothèses: Statistique du test:
stat = b1 / sb1 Règle de décision au seuil de signification α: Lorsque n – 2 < 30 on rejette H0 si |stat| > tα/2 (n-2) Lorsque n – 2 ≥ 30 on rejette H0 si |stat| > zα/2

6. Test de signification Le coût publicitaire a-t-il un impact significatif sur le volume des ventes? Faites le test au seuil 5%. Pas a lexam

6. Test de signification Remarques:
Si la valeur 0 est incluse dans l’I.C. de niveau (1 – α) sur 1 alors on ne rejette pas H0: 1 = 0 au seuil α. Si la valeur 0 n’est pas incluse dans l’I.C. de niveau (1 – α) sur 1 alors on rejette H0: 1 = 0 au seuil α.

6. Test de signification On peut vouloir tester si le coefficient de corrélation est significativement différent de 0 ou non. Hypothèses: Statistique du test: Règle de décision: on rejette H0 si |t| > ta/2 (n-2)

6. Test de signification La corrélation est-elle significativement différente de 0, au seuil 5%, dans le cadre de l’exemple sur les coûts publicitaires versus le volume des ventes?

7. Estimation d’une valeur moyenne ou d’une prévision
Si le test de signification sur 1 indique que x a un impact significatif sur y (rejet de H0: 1 = 0), alors la droite de régression semble bien adaptée aux données. On peut donc procéder à des estimations et des prévisions à l’aide de ce modèle mathématique! Plus précisément, nous allons construire un I.C. sur: La moyenne de y pour un certain x donné. La prévision de y pour une nouvelle observation x donnée.

I.C. sur la moyenne de y pour une valeur de xp particulière: si σ2 est inconnue et n - 2 < 30 alors l’I.C. de niveau (1-α) est si n – 2 ≥ 30 on remplace tα/2 (n-2) par zα/2 si σ2 est connue on remplace tα/2 (n-2) par zα/2 et s par σ

Exemple: Estimez par intervalle de confiance au niveau 1-α = 0.90 le volume des ventes moyen si les coûts publicitaires atteignent 50 milliers de dollars.

(suite des calculs)

I.C. sur une prévision de y pour une nouvelle observation xp: si σ2 est inconnue et n - 2 < 30 alors l’I.C. de niveau (1-α) est si n – 2 ≥ 30 on remplace tα/2 (n-2) par zα/2 si σ2 est connue on remplace tα/2 (n-2) par zα/2 et s par σ

Exemple: L’entreprise a l’intention d’investir 50 milliers de dollars en publicité l’an prochain. Donnez une prévision du volume des ventes de cette compagnie en faisant appel à un intervalle de confiance à 90%.

(suite des calculs)

Remarques: Que ce soit pour une moyenne ou une prévision de y, l’écart type estimé le plus faible est obtenu lorsque xp = . L’estimation la plus précise survient donc au point xp = . Plus on s’éloigne de , plus l’intervalle de confiance sur la moyenne/prévision de y s’élargit. En une valeur donnée de x, l’I.C. sur la moyenne de y est plus étroit (plus précis) que l’I.C. sur la prévision de y.

Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.

Présentations similaires

Présentation au sujet: "Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.

Présentations similaires

Présentation au sujet: "Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back