Régression linéaire simple Ce que ça fait et comment Modèle d’une régression linéaire simple Tests d’hypothèses Analyse des résidus Prédiction inverse, régression avec réplication et régression pondérée Problèmes potentiels Puissance de la régression linéaire simple Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Ce qu’elle fait Ajuste une ligne droite à travers un nuage de points Teste et quantifie l’effet d’une variable indépendante X sur la variable dépendante Y l’intensité de l’effet est donnée par la pente (b) de la régression l’importance de l’effet est donné par le coefficient de détermination (r2) DY Y b = DY/DX X DX Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Coefficients de corrélation et de régression La pente est obtenue par: Le coefficient de corrélation r: Alors b = r si X et Y ont la même variance… si b = 0, r = 0 et vice versa Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Comment Par la méthode des moindres carrés qui consiste à minimiser la somme des écarts au carré entre les observations et la droite de régression, c’est-à-dire, minimiser les résidus L’écart au carré d’une observation est donnée par: Y ei X Résidu: Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Régression ou corrélation? Corrélation: degré d’association entre deux variables X et Y, pas de relation causale impliquée. Régression: permet de prédire la valeur de la variable dépendante pour une valeur donnée de la variable indépendante. Implique une relation causale. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Quand utiliser la régression? X1 X2 Ne pas l’utiliser pour déterminer le degré d’association entre deux variables L’utiliser si on veut faire des prédictions Corrélation Y Régression X Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Modèle d’une régression linéaire simple Le modèle de la régression: alors, toutes les régressions linéaires simples sont décrites par deux paramètres, l’ordonnée à l’origine (a) et la pente (b) ei Yi DY a (intercept) X DX Xi b = DY/DX (pente) Observées Attendues Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Hypothèses implicites Les résidus sont indépendants et normalement distribués La variance des résidus est égale pour tous les X (homoscédasticité) La relation entre Y et X est linéaire Il n’y a pas d’erreur de mesure sur X (régression de type I) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Erreur de mesure Cette condition peut être vérifiée avant l’analyse on s’en préoccupe si l’erreur est grande par rapport à X ( > 10%) si cette condition n’est pas respectée, utiliser la régression de type II Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Analyse des résidus I: indépendance Valeurs prédites Résidus Regarder s’il y a des tendances sur le graphique des résidus par rapport aux valeurs prédites Faire un graphique ACF Autocorrelation Plot 1.0 0.5 Correlation 0.0 -0.5 -1.0 10 20 30 40 50 60 Lag Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Analyse des résidus II: Normalité Regarder s’il y a des tendances sur le graphique des résidus par rapport aux valeurs prédites Faire un graphique des probabilités normales Vérifier avec le test de Lilliefors Résidus Normal Pas normal Valeurs prédites Résidus Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Analyse des résidus III: Homoscédasticité Regarder s’il y a des tendances sur le graphique des résidus par rapport aux valeurs prédites Vérifier avec le test de Levene en groupant les valeurs de Y par classe Résidus Groupe 1 Groupe 2 Groupe 3 Résidus Valeurs prédites Valeurs prédites Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Analyse des résidus IV: Linéarité Regarder s’il y a des tendances sur le graphique des résidus par rapport aux valeurs prédites Résidus Y Valeurs prédites X Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Robustesse de la régression aux violations des conditions d’application Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Que faire si les conditions d’applications ne sont pas respectées Essayer de transformer les données en se rappelant que 1) quoiqu’on fasse, certaines données ne peuvent être analysées par régression 2) que la bonne transformation est parfois difficile à trouver. Utiliser une régression non-linéaire. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Les transformations en régression 8.0 7.2 6.0 1.0 4.8 Poids (kg) 0.1 3.6 Poids (kg; log) 2.4 0.01 1.2 0.001 0 200 400 600 10 100 1000 Longueur (mm) Longueur (mm; log) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Les transformations en régression 150 160 120 100 Cris/min 80 Cris/min (log) La fréquence des cris en fonction de la température chez le criquet mâle Oecanthus fultoni. 50 40 10 20 oC 10 20 oC Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Les transformations en régression 7 7 6 6 5 5 4 4 Millivolts Résistance électrique en fonction de la luminosité dans l’oeil d’un céphalopode Millivolts 3 3 2 2 1 1 10 20 30 40 50 60 70 1 2 5 10 20 50 70 Luminosité relative Luminosité relative Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Test d’hypothèse I: répartition de la somme des carrés + = SC Totale SC Type I (Expliquée) SC inexpliquée (erreur) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Test d’hypothèse I: répartition de la somme des carrés SCrégression = s2Y et SCerreur = 0 si observées = prédites. Calculer F = SCR/SCe et comparer avec la distribution de F avec 1 et N - 2 dl. H0: F = 0. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Erreur-type de la pente L’erreur-type de la pente sb et l’IC de la pente 100(1- a): Alors pour un N fixe, on peut diminuer sb en augmentant l’étendue des valeurs de X échantillonées Y sb plus grand Y sb plus petit X Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
L’erreur-type de l’ordonnée à l’origine L’erreur-type sa de l’ordonnée à l’origine a: Alors pour un N fixe, on peut diminuer sa en augmentant l’étendue des valeurs de X échantillonnées. Y a sa plus grand Y a sa plus petit X Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Test d’hypothèses II: test des paramètres du modèle Tester chaque hypothèse par un test de t À noter: C’est un test bilatéral! a H01: a = 0 Y = 0 Y Y a a H02: b = 0 Observées Attendues X X Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Test d’hypothèses III: Hypothèse unilatérale Une théorie biologique prédit que Y devrait augmenter quand X augmente Alors,H0: b 0 (unilatéral) Calculater Rejeter si tb > 0 et p (unilatéral) < a. H0 acceptée Y Y H0 rejetée X Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Intervalles de confiance d’une régression L’IC 100 (1-a) pour les valeurs prédites L’IC 100 (1-a) pour les observations Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Intervalles de confiance d’une régression Y L’IC pour les observations est plus grand que l’IC des valeurs prédites Les IC pour les observations et les valeurs prédites augmentent quand la distance entre les valeurs de X et la moyenne de l’échantillon augmente. Valeurs prédites Y Observations X Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Valeurs extrêmes points qui semblent très éloignés de la droite de régression Question 1: est-ce que ces valeurs extrêmes sont de “vraies” valeurs extrêmes? Question 2: est-ce que ces valeurs extrêmes influencent significativement les conclusions statistiques? Extrême? Y Extrême? X Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Analyse des valeurs extrêmes I: Résidus normalisés Faire un graphique des résidus normalisés en fonction des valeurs prédites Attention aux résidus normalisés > 3.0 Ces résidus contribuent fortement au carré moyen des résidus de la régression. 4 3 2 1 STUDENT -1 -2 -3 -4 0.5 1.0 1.5 2.0 LAGE Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Analyse des résidus II: Leverage Le leverage mesure l’influence potentielle d’un point sur la droite. Déterminé par les valeurs de X seulement, les points très éloignés de la moyenne ont un plus grand leverage. Attention au valeurs de leverage plus grande que 4/N. Y X 0.10 0.09 0.08 0.07 LEVERAGE 0.06 0.05 Petit leverage Grand leverage 0.04 0.03 0.02 0.01 0.5 1.0 1.5 2.0 LAGE Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Analyse des résidus III: distance de Cook La distance de Cook mesure le leverage et la contribution au carré moyen des résidus, c’est-à-dire l’influence réelle d’un point Attention aux valeurs de Cook plus grandes que 1 X 0.5 0.4 0.3 COOK 0.2 Petites distances de Cook 0.1 Grandes distances de Cook 0.0 1.4 1.5 1.6 1.7 1.8 ESTIMATE Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Solutions aux valeurs extrêmes Ont-elles un effet significatif sur les résultats de la régression? Afin de le savoir, les enlever et recalculer la régression. Comparer les résultats. Y-a-t-il des différences significatives entre les pentes, et les ordonnées à l’origine. C’est-à-dire, la nouvelle droite reste-t-elle dans l’IC à 95%? Y Pas d’effet significatif Y Effet significatif Avec extrêmes Sans extrêmes X Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Les effets de l’élimination des valeurs extrêmes N plus petit N plus grand 1 Diminue l’effectif de l’échantillon (N), et donc la puissance Diminue la SCe, alors sb diminue et la puissance augmente Si N est petit et qu’on élimine les valeurs extrêmes, on donne trop de poids aux autres… à moins que ces valeurs extrêmes soient vraiment aberrantes. sb fixe Puissance (1 - b) sb plus petit N fixe sb plus grand b Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Prédiction inversée Lectures On veut prédire X pour un Y donné. La régression de X en fonction de Y est impossible à cause de l’erreur sur Y ex: courbes de calibration. On veut prédire la concentration à partir de lectures. On se base sur la régression des lectures observées pour des solutions dont on connaissait la concentration. Lectures Concentration Concentration Erreur sur “X” Lectures Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Prédiction inversée Donne la régression de Y sur X. Génère une valeur prédite de X pour un Y donné. Calculer l’IC à 95% pour la valeur prédite de “X” en se basant sur l’IC à 95% sur le “Y” de la régression standard Y Limite supérieure 95% Limite inférieure 95% “X” prédit Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Régression avec réplication Quand on mesure plusieurs Y pour chaque X. Dans ce cas, on peut tester directement en calculant le rapport entre CM causé par les déviations à la linéarité et CM intra-groupe. SC régression SC intra-groupe SC non-linéarité SC groupe SC erreur Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Régression pondérée Utilisée quand la précision sur la mesure de X varie pour un désign avec réplication, la variance de Y pour un X donné peut varier parmi les X comme la taille de l’échantillon (N) Alors, on doit pondérer par N ou l’inverse de la variance de l’échantillon. Y X Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Problèmes potentiels: causalité Z X Y Problèmes potentiels: causalité Y X Une régression statistiquement significative de Y sur X n’implique pas de relation causale entre les deux variables Une régression non significative ne veut pas dire qu’il n’existe pas de relation causale entre les deux, celle-ci peut être non-linéaire Accepter H0 linéaire Y X Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Problèmes potentiels II: petits échantillons Y Une régression significative peut être obtenue par chance, c’est-à-dire, même si aucune relation causale (linéaire) n’existe. Alors, il faut contrôler ae quand on fait plusieurs régression simples. X Vraie régression (H0 acceptée) Régression de l’échantillon (H0 rejetée) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Problèmes potentiels III: grands échantillons Y Si N est grand, de petits coefficients de régression suffisent à rejeter H0 (la puissance est grande). Alors quand R2 est petit, éviter de “surinterpréter” la relation observée. X Vraie régression (H0 rejetée mais petit R2) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Porblèmes potentiels IV: extrapolation et interpolation Y Relation estimée Vraie relation X Soyez vigilants quand 1) les prédictions se retrouvent à l’extérieur de l’étendue de l'échantillon; (2) quand les prédictions sont pour des données très éparpillées. Y Valeur prédite Vraie valeur Observations X Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
The final word on extrapolation In the space of one hundred and seventy-six years the Lower Mississippi has shortened itself two hundred and forty-six miles. That is an average of a trifle over one mile and a third per year. Therefore, any calm person, who is not blind or idiotic, can see that in the Old Oölitic Silurian period, just a million years ago next November, the Lower Mississippi River was upwards of one million three hundred thousand miles long, and stuck over the Gulf of Mexico like a fishing rod. And by the same token, any person can see that seven hundred and forty-two years from now, the lower Mississippi will be only a mile and three-quarters long, and Cairo and New Orleans will have joined their streets together, and be plodding comfortably along under a single mayor and a mutual board of aldermen. Mark Twain, Life on the Mississippi Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
La puissance et la taille de l’échantillon pour la régression linéaire simple. Comme le coefficient de corrélation r et le coefficient de régression b sont très reliés, c’est-à-dire: …on peut transformer b en r et évaluer la puissance en utilisant r. Y X Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
La puissance et la taille de l’échantillon pour la régression Y Si on teste H0: b = 0 pour un échantillon de taille n, on peut déterminer 1 - b en calculant les valeurs z-transformées pour la valeur critique de r correspondante (au niveau a désiré) (za) et le coefficient de régression de l’échantillon b (zr), et la probabilité unilatérale normale: X Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
La puissance et la taille de l’échantillon pour la régression Y Une fois que Zb(1) est déterminé, on peut calculer la probabilité d’obtenir une valeur de Z plus grande ou égale, c’est-à-dire b. La puissance est égale à 1-b. X p b Zb(1) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
La puissance et la taille de l’échantillon pour la régression: un exemple Effet de l’âge sur la longueur des ailes de 13 oiseaux: Alors, 1 - b = 1.00 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Taille de l’échantillon minimum Y Pour une puissance donnée 1 - b, quelle est la taille de l’échantillon requis afin de rejeter H0: b = 0 si elle est fausse et que le coefficient de la vraie régression est au moins b0? Dabord, on doit calculer le coefficient de régression r0 qui correspond à b0. Rejeter H0? Y Rejeter H0? X1 Observée Attendue si H0: b = 0 Vraie régression (b0) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Effectif minimum …ensuite, calculer: Y Rejeter H0? Y Rejeter H0? X1 X1 Observée Attendue si H0: b = 0 Vraie régression (b0) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Effectif minimum: un exemple On veut rejeter H0: b = 0 99% des fois quand b0 > 0.2 et a(2) = .05. Alors b(1) = .01 et pour b = .20, on a... Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33
Effectif minimum Alors… …et Alors on doit utiliser un échantillon de taille égale à au moins 8 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-13 01:33