Méthodes de régression B. Palagos
LA REGRESSION LINEAIRE Utilisée pour expliquer, décrire ou prédire une variable quantitative y en fonction d’une ou plusieurs variables x1 ,….., xp. Par exemple y peut-être le prix du pain en fonction de la teneur en eau x y xi réponse prédicteur(s) variable à expliquer variable(s) explicative(s) sortie entrée(s) variable dépendante variable(s) indépendante(s) variable exogène variable(s) endogène (s) p = 1 régression linéaire simple p > 1 régression linéaire multiple (MLR)
MESURE DE LA RELATION ENTRE 2 VARIABLES CONTINUES PRI EAU 63.00 3635.00 77.00 3190.00 86.00 3530.00 89.00 3350.00 91.00 3070.00 92.00 3130.00 95.00 3490.00 3460.00 106.00 3380.00 74.00 3500.00 76.00 4030.00 85.00 3365.00 57.00 3515.00 3960.00 132.00 2925.00 152.00 2720.00 153.00 2340.00 PRIX du pain en fonction de la teneur en EAU Corrélation : -0.76
COEFFICIENT DE CORRELATION : Coefficient de corrélation (Pearson) entre deux variables aléatoires X et Y (populations) 2 échantillons x et y de moyennes et r estimateur de r est toujours compris entre -1 et + 1. si r proche de + 1 ou - 1 , x et y sont bien corrélées; le nuage de points est presque aligné le long d'une droite (croissante si r > 0, décroissante si r < 0). r = 0 Pas de lien linéaire entre x et y
COEFFICIENT DE CORRELATION Si taille échantillon n est faible il faut être prudent sur la significativité du coefficient calculé. Il existe des tables statistiques (et logiciels) qui donnent la limite de significativité de r .
ddl = n-2 n=3 r > 0.99 n= 7 r > 0.75
COEFFICIENT DE CORRELATION
COEFFICIENT DE CORRELATION Toujours faire un graphique r = 0.5 r = - 0.9 Question 2: Comment décririez-vous la corrélation observée en C? Quelle pourrait-en être la cause? Que ceci suggère-t-il? Question 3: En D, suggérez une transformation de la variable X qui permettrait l'apparition d'une corrélation de 1.0 entre les deux variables. Que ceci vous suggère-t-il lorsque vous etudiez un jeu de données et êtes à la recherche de corrélations fortes? Concluez quant à l'utilité des diagrammes binaires. r = 0.8 r = 0.0
FAIRE PASSER UNE DROITE On modélise la relation linéaire entre y et x par y = a+b x (équation d’une droite)
- MOINDRES CARRES On cherche la droite (a et b ) telle que MCO 140 PRI 100 80 60 2500 3000 3500 4000 EAU
RESULTAT DES MOINDRES CARRES MCO Équation de la droite 140 PRI = 258 – 0.05 EAU PRI 100 80 60 2500 3000 3500 4000 EAU
ESTIMATIONS – Cas p=1 Moindre carrés : a et b tels que minimum coefficients de régression b (pente) et a (ordonnée à l’origine)
CAS DE LA REGRESSION SIMPLE p=1 8 7 6 y 5 4 2 3 4 5 6 7 8 x
COEFFICIENT DE DETERMINATION - R² R2 = SSR/SST coefficient de détermination ou pourcentage de variance expliquée par la régression Propriétés Permet de juger de la qualité de la régression Idéal R² = 1 Mauvaise régression: R² = 0 Quand p=1 R² = r² r : coefficient de corrélation linéaire Pour le pain: r=-0.76 donc R²= (-0.76)²
Étalonnage d’un appareil de mesure Taux de protéine de 26 variétés de blé analyse chimiques très précises, très longues (mesure de référence) ( x ) Spectrométrie proche infra-rouge (SPIR) plus rapide mais mesure indirecte à mettre en relation avec méthode de référence (y) régression y= a+bx+E y = 0.157+0.981x =
Étalonnage d’un appareil de mesure Calculs avec logiciel R Response: infrarouge Df Sum Sq Mean Sq F value Pr(>F) Reference 1 38.731 38.731 87.954 1.696e-09 *** Residuals 24 10.569 0.440 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.1566 1.1741 0.133 0.895 reference 0.9808 0.1046 9.378 1.70e-09 *** Residual standard error: 0.6636 on 24 degrees of freedom Multiple R-Squared: 0.7856, Adjusted R-squared: 0.7767 F-statistic: 87.95 on 1 and 24 DF, p-value: 1.696e-09 p-value
TEST DE NULLITE D’ UN COEFFICIENT Les tests supposent hypothèse normalité des erreurs (vérification a posteriori) Coefficient pas significatif Variance de l’erreur Variance de j T Loi de Student à n-2 degrés de liberté : valeur t ayant la probabilité a d'être dépassée en valeur absolue. P ( - t < T < t ) = 1 - a. Ou : P ( T < - t ) = a /2 = P ( T > t )
COMMENT VERIFIER LES HYPOTHESES SUR L’ERREUR On regarde les résidus après régression Pour vérifier l’homoscedasticté Pour vérifier la normalité
JUGEMENT REGRESSION - R² 5 régressions a: régression sans pb b: modèle pas bon- résidus <0 puis >0 puis <0modèle quadratique c: a priori une observation atypique d: points alignés mais s’écartent différemment (variance erreurs pas constante) e: droite n’existe que par la dernière observation
REGRESSION LINEAIRE MULTIPLE (MLR) Explication de la consommation de « fuel » On veut modéliser la consommation d ’un agent énergétique en fonction de facteurs explicatifs : La température moyenne sur un mois est une explication de la consommation L ’épaisseur de l ’isolation en est un autre Gallons/Month Avrg. Temp (oF) Insulation (Inches) 275.30 40.00 3.00 363.80 27.00 3.00 164.30 40.00 10.00 40.80 73.00 6.00 94.30 64.00 6.00 230.90 34.00 6.00 366.70 9.00 6.00 300.60 8.00 10.00 237.80 23.00 10.00 121.40 63.00 3.00 31.40 65.00 10.00 203.50 41.00 6.00 441.10 21.00 3.00 323.00 38.00 3.00 52.50 58.00 10.00
Un modèle de régression linéaire REGRESSION LINEAIRE MULTIPLE (MLR) Un modèle de régression linéaire Influence de l ’isolation Observation i de la consommation mensuelle Terme constant Influence de la température Erreur aléatoire
REGRESSION LINEAIRE MULTIPLE (MLR) n observations yi p variables xj continues n > p Modèle fuel : n=15 p=2 Pour chaque observation : terme d’erreur non observé Coefficients inconnus
Décomposition de la variance et tests Source de variation (source) Somme des carrés (sum of square) Ddl (df) Carrés moyens (mean square) Régression p Erreurs (résiduals) n-p-1 Totale n-1
COEFFICIENT DE DETERMINATION - R² R2 coefficient de détermination ou pourcentage de variance expliquée par la régression Propriétés Permet de juger de la qualité de la régression Idéal R² = 1 Mauvaise régression: R² = 0 Si p augmente R² il existe R² ajusté > Quand p=1 R² = r² r : coefficient de corrélation linéaire
TEST DE L’EXISTENCE DU MODELE F Loi de Fisher à (p,n-p-1 )degrés de liberté : valeur f ayant la probabilité 0.05 d'être dépassée. C’est le R²=0
EXEMPLE de MLR p-value Coefficients: reg1=lm(rdt ~ eng + pluie) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 28.095238 2.491482 11.277 0.000352 *** eng 0.038095 0.005832 6.532 0.002838 ** pluie 0.833333 0.154303 5.401 0.005690 ** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 2.315 on 4 degrees of freedom Multiple R-Squared: 0.9814, Adjusted R-squared: 0.972 F-statistic: 105.3 on 2 and 4 DF, p-value: 0.0003472 p-value
REGRESSION MLR cas multicolinéarité Exemple de traitement y X quantité de : V1 : tricalcium aluminate V2 : tricalcium silicate V3 : tetracalcium alumino ferrite V4 : dicalcium silicate CAL: calories par gramme de ciment
Matrice de corrélation REGRESSION MLR V1 V2 V3 V4 CAL min 1 26 4 6 72.5 Q1 2 31 8 20 83.8 Q2 7 52 9 95.6 moy 7.5 48.2 11.8 30 95.4 Q3 11 56 17 44 109.2 max 21 71 23 60 115.9 s 5.9 15.6 6.4 16.7 15.1 V1 V2 V3 V4 CAL 1 0.23 -0.82 -0.24 0.73 -0.13 -0.97 0.82 0.03 -0.53 V5 Matrice de corrélation
Résultats de la régression MLR REGRESSION MLR Résultats de la régression MLR Estimate Std. Error t value Pr(>|t|) (Intercept) 63.4888 70.0031 0.907 0.3909 V1 1.5494 0.7440 2.082 0.0709 V2 0.4960 0.7231 0.686 0 0.5121 V3 0.1004 0.7540 0.133 0.8974 V4 -0.1572 0.7084 -0.222 0.8299 Residual standard error: 2.444 on 8 degrees of freedom Multiple R-Squared: 0.9824, Adjusted R-squared: 0.9736 F-statistic: 111.7 on 4 and 8 DF, p-value: 4.721e-07 Au risque de 5% aucun coefficient n’est significatif que faire????
REGRESSION SUR COMPOSANTES PRINCIPALES On fait une ACP normée sur le tableau X donc sans la variable CAL ACP sur le tableau X comprenant les variables V1 V2 V3 V4 Valeur propres [1] 2.235 1.576 0.186 0.001 Proportion of Variance 0.558 0.394 0.0466 0.0004 Cumulative Proportion 0.558926 0.9529425 0.99959406 1.0000000000 Loadings (vecteurs propres): C1 C2 C3 C4 v1 -0.476 0.509 0.676 0.241 v2 -0.564 -0.414 -0.314 0.642 v3 0.394 -0.605 0.638 0.268 v4 0.548 0.451 -0.195 0.677 C1= - 0.476 v1 – 0.564 v2 + 0.394 v3 + 0.548 v4 C2= 0.509 v1 – 0.414 v2 - 0.605 v3 + 0.451 v4 C3= 0.676 v1 – 0.314 v2 + 0.638 v3 - 0.195 v4 C4= 0.241 v1 + 0.642 v2 + 0.268 v3 + 0.677 v4 U = Combinaisons linéaires
REGRESSION SUR COMPOSANTES PRINCIPALES ACP sur X MLR y X C SCORES C1 C2 C3 C4 1 -1.4672378 -1.9030358 -0.53000037 0.038529908 2 -2.1358287 -0.2383536 -0.29018640 -0.029832930 3 1.1298705 -0.1838772 -0.01071259 -0.093700786 4 -0.6598954 -1.5767743 0.17920354 -0.033116396 5 0.3587645 -0.4835379 -0.74012232 0.019187145 6 0.9666396 -0.1699440 0.08570243 -0.012167032 7 0.9307051 2.1348166 -0.17298595 0.008295395 8 -2.2321379 0.6916707 0.45971967 0.022605633 9 -0.3515156 1.4322451 -0.03156437 -0.044987631 10 1.6625430 -1.8280967 0.85119311 0.019836723 11 -1.6401799 1.2951128 0.49417844 0.031388975 12 1.6925940 0.3922488 -0.01980997 0.037185301 13 1.7456786 0.4375254 -0.27461537 0.036775709
REGRESSION SUR COMPOSANTES PRINCIPALES Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 95.4000 0.6430 148.373 < e-10 *** C1 9.8791 0.4476 22.072 3.8e-09 *** C2 0.1327 0.5331 0.249 0.8091 C3 4.6539 1.5492 3.004 0.0149 * Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.318 on 9 degrees of freedom Multiple R-Squared: 0.9822, Adjusted R-squared: 0.9763 F-statistic: 165.4 on 3 and 9 DF, p-value: 3.45e-08 CAL = 95.4 + 9.88 C1 + 0.13 C2 +4.65 C3 On repasse aux variables initiales: CAL = 95.4 + 7.78 V1 + 4.16 V2 + -0.85 V3 – 6.38 V4
REGRESSION PLS Méthode plus récente Partial Least Square Proche de la régression sur composantes principales RCP : facteurs calculés qu’à partir des variables initiales (et donc sans référence à la variable à expliquer y). PLS : La variable à expliquer et les variables explicatives sont prises en comptes simultanément.
REGRESSION PLS et PCR RCP et PLS : On remplace l’espace initial par un espace de faible dimension engendré par un petit nombre de composantes (ou facteurs) ou variables latentes qui sont construites l’une après l’autre de façon itérative. Ces facteurs seront les nouvelles variables explicatives d’un modèle de régression linéaire. Les facteurs sont orthogonaux (non corrélés), et sont des combinaisons linéaires des variables explicatives initiales. RCP : facteurs calculés qu’à partir des variables initiales (et donc sans référence à la variable à expliquer y). PLS : La variable à expliquer et les variables explicatives sont prises en comptes simultanément.
REGRESSION PLS Notion de covariance : Cov<0 Cov>0 Cov0
Notion de covariance (bis) : REGRESSION PLS Notion de covariance (bis) : Cov(x,y) = s(x) s(y) r(x,y) x ||x|| s(x) Dans Rn cos(x,y) = r(x,y) ||y|| s(y) y xTycov(x,y)
REGRESSION PLS Comment ça marche : Cherche les combinaisons linéaires u de X, telles que : Cov(Xu,y) maximale Une régression est ensuite calculée entre les variables latentes de X et y
On cherche à prédire ytep en fonction de X v633 v649 v666 v683 v700 v716 v733 ytep 1 0.70 0.94 1.48 1.40 0.31 0.06 0.06 87.37 2 1.93 2.47 3.49 3.14 0.90 0.24 0.12 87.16 3 1.27 1.66 2.45 2.21 0.54 0.13 0.08 87.57 4 1.07 1.22 1.71 1.51 0.36 0.10 0.10 87.16 5 0.49 0.64 1.00 0.90 0.15 0.01 0.04 85.99 6 0.59 0.83 1.30 1.15 0.19 0.01 0.04 86.41 7 0.43 0.46 0.69 0.65 0.14 0.04 0.07 80.75 8 0.53 0.48 0.67 0.64 0.14 0.03 0.06 78.74 9 1.25 1.30 1.67 1.62 0.65 0.33 0.25 79.26 10 3.18 3.81 4.66 4.18 1.60 0.60 0.30 85.56 11 1.36 1.51 2.04 1.94 0.66 0.30 0.23 82.35 12 2.20 2.68 3.54 3.25 1.15 0.45 0.27 83.08 13 0.46 0.60 1.09 1.10 0.23 0.04 0.06 81.13 14 1.96 2.39 3.41 3.20 0.95 0.24 0.11 79.97 15 0.56 0.77 1.33 1.31 0.29 0.05 0.06 82.44 X : absorbances aux longueurs d'onde (nm) 633 649 666 683 700 716 733, mesurées sur des pommes ytep (dernière colonne) : teneur en eau des pommes On cherche à prédire ytep en fonction de X
Estimate Std. Error t value Pr(>|t|) (Intercept) 77.726 5.987 12.982 3.74e-06 *** v633 -32.425 12.013 -2.699 0.0307 * v649 78.507 35.796 2.193 0.0644 . v666 -53.496 45.350 -1.180 0.2767 v683 45.365 38.510 1.178 0.2773 v700 -103.69 55.062 -1.883 0.1017 v716 50.320 127.846 0.394 0.7056 v733 22.613 114.740 0.197 0.8494 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 1.509 on 7 degrees of freedom Multiple R-Squared: 0.8906, Adjusted R-squared: 0.7813 F-statistic: 8.143 on 7 and 7 DF, p-value: 0.006459
Matrice de corrélation des prédicteurs v633 v649 v666 v683 v700 v716 v733 v633 1.00 0.99 0.98 0.97 0.99 0.93 0.79 v649 0.99 1.00 0.99 0.99 0.98 0.90 0.74 V666 0.98 0.99 1.00 1.00 0.97 0.86 0.68 v683 0.97 0.99 1.00 1.00 0.97 0.86 0.69 v700 0.99 0.98 0.97 0.97 1.00 0.96 0.83 v716 0.93 0.90 0.86 0.86 0.96 1.00 0.96 v733 0.79 0.74 0.68 0.69 0.83 0.96 1.00 Corrélations très élevées !!