Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

STATISTIQUE INFERENTIELLE L ’ESTIMATION
C1 Bio-statistiques F. KOHLER
Inférence statistique
Les TESTS STATISTIQUES
Régression ou corrélation
Tests de comparaison de pourcentages
Méthodes statistiques. Ajustements et corrélation
Les TESTS STATISTIQUES
Corrélations et ajustements linéaires.
Régression -corrélation
Probabilités et statistique en TS
Corrélation linéaire et la droite de régression
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Chapitre 2 Les indices.
Méthodes de Biostatistique

Chapitre 2: Les régularités et les relations
La Régression Multiple
Fonction puissance Montage préparé par : André Ross
Régression linéaire simple
Comprendre la variation
Groupe 1: Classes de même intervalle
Comprendre la variation dans les données: Notions de base
Corrélation et régression linéaire simple
Méthodes de prévision (STT-3220)
Modeles Lineaires.
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
La régression multiple
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
STATISTIQUES COURS 4 La régression. Nous avons vu divers tests statistiques afin de vérifier le degré d ’interdépendance entre 2 variables Test.
Méthodes de Biostatistique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
La régression simple Michel Tenenhaus
LA REGRESSION LINEAIRE
Présentation du marché obligataire
Micro-intro aux stats.
STATISTIQUES – PROBABILITÉS
Intervalles de confiance pour des proportions L’inférence statistique
Chapitre 12 Régression linéaire simple et corrélation linéaire
Probabilités et Statistiques Année 2010/2011
Gestion budgétaire des ventes
Outils d’analyse: la méthode des moindres carrées
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
ETUDE DE 2 VARIABLES QUANTITATIVES
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Régression linéaire (STT-2400)
STATISTIQUES.
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Méthodes de prévision (STT-3220)
Statistiques à 2 variables
Distribution à deux variables
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Corrélation et causalité
Probabilités et statistique MQT-1102
ECHANTILLONAGE ET ESTIMATION
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Introduction aux statistiques Intervalles de confiance
Corrélation et régression linéaire Mars Modèles de régression  Réponses aux questions du type: ‘Quelle est la nature de la relation entre les variables?’
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement

Plan de la séance Introduction Modèle de régression linéaire simple Méthode des moindres carrés Coefficient de détermination I.C. sur le paramètre 1 Test de signification Estimation d’une valeur moyenne ou d’une prévision

1. Introduction En statistique, plusieurs problèmes consistent à étudier la relation qui existe entre 2 variables: Le nombre d’années d’expérience et le nombre d’erreurs commises; L’âge du conducteur et le nombre d’accidents d’auto; Le volume des ventes et les dépenses en publicité; Le nombre d’heures d’étude et les résultats aux examens; …

1. Introduction Dans ce genre de problèmes, les principales questions auxquelles nous voudrons répondre sont les suivantes : Existe-il une relation/dépendance entre les variables? Cette relation, si elle existe, est-elle linéaire ou non? Si une dépendance linéaire existe, de quelle façon peut-on la traduire par une équation mathématique? La relation, si elle existe, est-elle grande ou faible? Sachant la valeur prise par l’une des 2 variables, peut-on prédire la valeur de l’autre variable?

1. Introduction Pour répondre à toutes ces questions, nous ferons appel à une théorie statistique que nous appelons : L’analyse de la régression

2. Modèle de régression linéaire simple Variable dépendante: variable que l’on cherche à prévoir. Variables indépendantes: variables utilisées pour prévoir la valeur de la variable dépendante. Exemple: Variable dépendante: Variables indépendantes:

2. Modèle de régression linéaire simple Analyse de la régression: Construit une équation mathématique qui modélise le lien entre la variable dépendante et les variables indépendantes. Une seule variable indépendante: régression linéaire simple. Au moins 2 variables indépendantes: régression multiple. Dans ce cours, on se limite à la régression linéaire simple.

2. Modèle de régression linéaire simple Variable dépendante: y Variable indépendante: x Pour chaque individu d’un échantillon de taille n, on mesure les deux variables: (x1, y1), (x2, y2), (x3, y3), …, (xn, yn)

2. Modèle de régression linéaire simple Nuage de points (ou diagramme de dispersion): Représentation graphique dans le plan cartésien de l’ensemble des paires de données (xi, yi) pour i = 1, 2, …, n. Exemple: on mesure le nombre d’heures d’étude et le nombre de bonnes réponses à un examen pour 13 étudiants. Heures d’étude (X) 5 8 6 9 10 4 7 Bonnes réponses (Y) 2

2. Modèle de régression linéaire simple

2. Modèle de régression linéaire simple Une fois la représentation graphique effectuée, il est facile de soupçonner l’existence d’une certaine relation entre les deux variables (caractères étudiés). Il faut maintenant chercher à exprimer cette relation à l’aide d’une équation mathématique. On essaie de trouver la forme mathématique de la fonction f

2. Modèle de régression linéaire simple

2. Modèle de régression linéaire simple Ajustement d’une droite au nuage de points d’une série de couples de données. Une régression linéaire simple va donc permettre de résumer, d’interpréter et de prévoir les variations d’un caractère dit dépendant (Y) en fonction d’un autre dit indépendant (X), et ce, en utilisant une droite.

2. Modèle de régression linéaire simple y = 0 + 1x +  y = variable dépendante x = variable indépendante 0 et 1 sont les paramètres du modèle (à estimer)  = terme d’erreur (variable aléatoire)

2. Modèle de régression linéaire simple Les paramètres 0 et 1 sont inconnus en pratique. On les estime par b0 et b1 à l’aide des données d’un échantillon. Équation estimée de la régression linéaire simple où est la valeur estimée (prédite) de y pour une valeur de x donnée

2. Modèle de régression linéaire simple La droite de régression estimée peut servir à: Estimer la valeur moyenne de y pour une valeur particulière de x. Prévoir la valeur de y associée à une valeur particulière de x. Dans les 2 cas, on utilise la formule Comment obtenir b0 et b1 ?

3. Méthode des moindres carrés Il existe plusieurs méthodes pour obtenir b0 et b1. La méthode des moindres carrés est la plus répandue. yi = valeur observée de la variable dépendante pour l’individu i. = valeur estimée par le modèle de la variable dépendante pour l’individu i. ei = yi - = résidu = erreur de prévision pour l’individu i.

3. Méthode des moindres carrés La méthode des moindres carrés détermine la droite qui minimise la somme des carrés des résidus (minimise ). En d’autres mots, cette méthode minimise la somme des carrés des distances verticales entre la droite de régression et chacun des points observés.

3. Méthode des moindres carrés Illustration graphique:

3. Méthode des moindres carrés Les estimations des paramètres de la droite de régression obtenues par la méthode des moindres carrés sont: Taille de l’échantillon

3. Méthode des moindres carrés b0 = ordonnée à l’origine de la droite de régression. C’est la valeur estimée de y lorsque x = 0. b1 = pente de la droite de régression. Lorsque x augmente de 1 unité, la valeur estimée de y augmente de b1 unités.

3. Méthode des moindres carrés Exemple: On veut prédire le volume des ventes d’une entreprise à partir du montant de ses dépenses en publicité. Voici les données obtenues: Dépenses publicité (milliers $) 32 62 19 45 39 Ventes (millions $) 10.9 13.2 8.3 11.5 10.3

3. Méthode des moindres carrés Diagramme de dispersion:

3. Méthode des moindres carrés a) Estimez les paramètres de la droite de régression.

3. Méthode des moindres carrés a) (suite)

3. Méthode des moindres carrés b) Faites une prévision concernant le volume des ventes sachant que le coût publicitaire s’est élevé à 26 milliers de dollars.

3. Méthode des moindres carrés Remarques: La droite de régression déterminée à l’aide de la méthode des moindres carrés donne la plus faible somme de carrés résiduels ( ) parmi l’infinité de droites que l’on pourrait ajuster à cet ensemble d’observations. La droite de régression passe toujours par le point . La somme des résidus est toujours nulle (∑ ei = 0). La droite de régression n’est valide qu’à l’intérieur de l’étendue des valeurs observées de x. Il faut éviter de faire des prévisions sur y pour des valeurs de x hors de cet intervalle.

3. Méthode des moindres carrés c) Calculez la somme du carré des erreurs.

3. Méthode des moindres carrés d) Montrez que la droite de régression passe par le point .

4. Coefficient de détermination SCT = SCreg + SCres où: SCT = ∑ (yi - )2 SCreg = ∑ ( - )2 SCres = ∑ (yi - )2 Si la droite de régression s’ajuste parfaitement aux données, tous les points se retrouvent sur cette droite. Dans ce cas: Le résidu est nul pour chaque observation. SCres = 0.

4. Coefficient de détermination Puisque SCT = SCreg + SCres, on a nécessairement que 0 ≤ SCreg/SCT ≤ 1. Dans le cas d’un ajustement parfait, SCres = 0 donc SCreg/SCT = 1. Plus l’ajustement est mauvais, plus SCres augmente; en d’autres mots, SCreg/SCT se rapproche de 0. Coefficient de détermination = r2 = SCreg/SCT est utilisé pour évaluer l’adéquation de la droite de régression. Coefficient de détermination dans la population:

4. Coefficient de détermination Si est proche de 1, le modèle linéaire colle bien aux données. Mesure la proportion de la variation de Y qui est expliquée par la régression. r2 donne un indice sur la qualité de l’ajustement de la droite aux points expérimentaux.

4. Coefficient de détermination Formules alternatives (plus rapides!): SCT = ∑ yi2 – [ (∑ yi)2 / n ] SCreg = num2 / denom num = ∑ xiyi – [ ( ∑ xi ∑ yi) / n ] denom = ∑ xi2 – [ (∑ xi)2 / n ] .

4. Coefficient de détermination Dans l’exemple sur le volume des ventes, calculez SCT, SCreg et SCres. Quelle proportion de la variation de Y s’explique par le modèle de régression linéaire simple?

4. Coefficient de détermination (suite des calculs)

4. Coefficient de détermination Coefficient de corrélation Dans la population: r Dans un échantillon: r -1 ≤ r ≤ +1 r = +1 indique que X et Y sont parfaitement liés de façon positive (tous les points sont sur une droite de pente > 0). r = -1 indique que X et Y sont parfaitement liés de façon négative (tous les points sont sur une droite de pente < 0). r = 0 porte à croire que soit X et Y sont indépendantes, soit il existe une dépendance non linéaire entre ces 2 variables.

4. Coefficient de détermination où b1 est la pente de la droite de régression Calculez ce coefficient dans le cadre de l’exemple sur le volume des ventes.

5. I.C. sur le paramètre 1 La précision de l’estimateur b1 dépend de la valeur de la variance des erreurs théoriques, Var(). Plus σ2 est petite, plus l’estimateur est précis! σ2 est inconnue en pratique. On l’estime par:

5. I.C. sur le paramètre 1 La construction de l’I.C. pour b1 requiert la connaissance de Var(b1). On estime Var(b1) par:

5. I.C. sur le paramètre 1 Voici l’I.C. pour 1: Note: tα/2 ci-haut est en fait tα/2 (n-2) Si n-2 < 30 Si n-2 ≥ 30

5. I.C. sur le paramètre 1 Calculez l’intervalle de confiance à 90% pour 1 dans l’exemple sur les ventes versus publicité.

5. I.C. sur le paramètre 1 (suite des calculs)

6. Test de signification Équation de la régression linéaire simple: y = 0 + 1x +  Si 1 = 0, alors y = 0 + . y ne dépend plus de x! x et y ne sont plus linéairement liés. Tester si la relation entre les 2 variables est significative revient donc à tester si 1 est égal à zéro ou non.

6. Test de signification . Pour vérifier si l’influence de la variable indépendante X est significative, on procède à un test d’hypothèses sur Si β1 = 0 alors peu importe les valeurs de X, elles n’auront pas d’impact sur Y

6. Test de signification Hypothèses: Statistique du test: stat = b1 / sb1 Règle de décision au seuil de signification α: Lorsque n – 2 < 30 on rejette H0 si |stat| > tα/2 (n-2) Lorsque n – 2 ≥ 30 on rejette H0 si |stat| > zα/2

6. Test de signification Le coût publicitaire a-t-il un impact significatif sur le volume des ventes? Faites le test au seuil 5%. Pas a lexam

6. Test de signification Remarques: Si la valeur 0 est incluse dans l’I.C. de niveau (1 – α) sur 1 alors on ne rejette pas H0: 1 = 0 au seuil α. Si la valeur 0 n’est pas incluse dans l’I.C. de niveau (1 – α) sur 1 alors on rejette H0: 1 = 0 au seuil α.

6. Test de signification On peut vouloir tester si le coefficient de corrélation est significativement différent de 0 ou non. Hypothèses: Statistique du test: Règle de décision: on rejette H0 si |t| > ta/2 (n-2)

6. Test de signification La corrélation est-elle significativement différente de 0, au seuil 5%, dans le cadre de l’exemple sur les coûts publicitaires versus le volume des ventes?

7. Estimation d’une valeur moyenne ou d’une prévision Si le test de signification sur 1 indique que x a un impact significatif sur y (rejet de H0: 1 = 0), alors la droite de régression semble bien adaptée aux données. On peut donc procéder à des estimations et des prévisions à l’aide de ce modèle mathématique! Plus précisément, nous allons construire un I.C. sur: La moyenne de y pour un certain x donné. La prévision de y pour une nouvelle observation x donnée.

7. Estimation d’une valeur moyenne ou d’une prévision I.C. sur la moyenne de y pour une valeur de xp particulière: si σ2 est inconnue et n - 2 < 30 alors l’I.C. de niveau (1-α) est si n – 2 ≥ 30 on remplace tα/2 (n-2) par zα/2 si σ2 est connue on remplace tα/2 (n-2) par zα/2 et s par σ

7. Estimation d’une valeur moyenne ou d’une prévision Exemple: Estimez par intervalle de confiance au niveau 1-α = 0.90 le volume des ventes moyen si les coûts publicitaires atteignent 50 milliers de dollars.

7. Estimation d’une valeur moyenne ou d’une prévision (suite des calculs)

7. Estimation d’une valeur moyenne ou d’une prévision I.C. sur une prévision de y pour une nouvelle observation xp: si σ2 est inconnue et n - 2 < 30 alors l’I.C. de niveau (1-α) est si n – 2 ≥ 30 on remplace tα/2 (n-2) par zα/2 si σ2 est connue on remplace tα/2 (n-2) par zα/2 et s par σ

7. Estimation d’une valeur moyenne ou d’une prévision Exemple: L’entreprise a l’intention d’investir 50 milliers de dollars en publicité l’an prochain. Donnez une prévision du volume des ventes de cette compagnie en faisant appel à un intervalle de confiance à 90%.

7. Estimation d’une valeur moyenne ou d’une prévision (suite des calculs)

7. Estimation d’une valeur moyenne ou d’une prévision Remarques: Que ce soit pour une moyenne ou une prévision de y, l’écart type estimé le plus faible est obtenu lorsque xp = . L’estimation la plus précise survient donc au point xp = . Plus on s’éloigne de , plus l’intervalle de confiance sur la moyenne/prévision de y s’élargit. En une valeur donnée de x, l’I.C. sur la moyenne de y est plus étroit (plus précis) que l’I.C. sur la prévision de y.