Méthodes de régression

Slides:

Advertisements

Présentations similaires

Mais vous comprenez qu’il s’agit d’une « tromperie ».

Advertisements

Introduction à l’analyse

Reporting de la Cellule Nationale Droit dOption Situation au 31 décembre 2011.

Additions soustractions

Distance inter-locuteur

Cliquez pour modifier le style des sous-titres du masque Fractures supracondyliennes sur PTG Jean-Alain Epinette Bruay-Labuissière.

Patients (n = 530) Biomarqueurs IHC (n = 412) Séquençage (n = 418) 200 patients évaluables pour les facteurs pronostiques cliniques et biologiques Comparaison.

Séries statistiques à une variable

Les numéros 70 –

ACTIVITES Les fractions (10).

C1 Bio-statistiques F. KOHLER

Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER

Tests de comparaison de pourcentages

1. Les caractéristiques de dispersion. 11. Utilité.

LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.

Régression -corrélation

Statistiques descriptives Répartition des communes par département Côtes dArmor Finistère Ile et Vilaine Morbihan Répartition de la population par département.

Données statistiques sur le droit doption au 31/01 8 février 2012.

ETALONNAGE D’UN CAPTEUR

Analyse Factorielle des Correspondances

Analyse de la variance à un facteur

1 Analyse de la variance multivariée Michel Tenenhaus.

La régression simple Michel Tenenhaus

Révision (p. 130, texte) Nombres (1-100).

Christelle Scharff IFI 2004

Présentation générale

1.2 COMPOSANTES DES VECTEURS

Régression linéaire simple

Problème Autre formulation :

Conseil Administration AFRAC – 2 décembre Toulouse 1 Fermes de références Palmipèdes à foie gras Synthèse régionale – Midi Pyrénées Exercice

Les Pourcentages.

Les chiffres & les nombres

L’Analyse de Covariance

Corrélation et régression linéaire simple

1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]

Les Monnaies et billets du FRANC Les Monnaies Euro.

RACINES CARREES Définition Développer avec la distributivité Produit 1

La corrélation et la régression multiple

La corrélation et la régression

Les modèles linéaires (Generalized Linear Models, GLM)

Corrélation Principe fondamental d’une analyse de corrélation

Les maths en francais 7ième année.

Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball

Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.

MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.

Aire d’une figure par encadrement

La régression multiple

Les fondements constitutionnels

MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.

Régression linéaire multiple : hypothèses & interprétation

1 - Programme de Seconde (juin 2009) Statistique et probabilités

Méthodes de Biostatistique

LES COURSES SUR PISTE.

Les Chiffres Prêts?

ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage

Rappels de statistiques descriptives

La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)

Probabilités et Statistiques Année 2009/2010

La régression simple Michel Tenenhaus

M2 Sciences des Procédés - Sciences des Aliments

Probabilités et Statistiques Année 2010/2011

Un exemple d’ANOVA Pour étudier l'influence du milieu sur la DL50 de daphnies (heure), on a mesuré cette durée de vie pour deux clones de daphnies en fonction.

On souhaite analyser les concentrations de mercure (ppm) dans les chaires de poissons carnivores des lacs de l'est de Etats- Unis. On espère trouver une.

Régréssion linéaire simple

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.

Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.

Transcription de la présentation:

Méthodes de régression B. Palagos

LA REGRESSION LINEAIRE Utilisée pour expliquer, décrire ou prédire une variable quantitative y en fonction d’une ou plusieurs variables x1 ,….., xp. Par exemple y peut-être le prix du pain en fonction de la teneur en eau x y xi réponse prédicteur(s) variable à expliquer variable(s) explicative(s) sortie entrée(s) variable dépendante variable(s) indépendante(s) variable exogène variable(s) endogène (s) p = 1 régression linéaire simple p > 1 régression linéaire multiple (MLR)

MESURE DE LA RELATION ENTRE 2 VARIABLES CONTINUES PRI EAU 63.00 3635.00 77.00 3190.00 86.00 3530.00 89.00 3350.00 91.00 3070.00 92.00 3130.00 95.00 3490.00 3460.00 106.00 3380.00 74.00 3500.00 76.00 4030.00 85.00 3365.00 57.00 3515.00 3960.00 132.00 2925.00 152.00 2720.00 153.00 2340.00 PRIX du pain en fonction de la teneur en EAU Corrélation : -0.76

COEFFICIENT DE CORRELATION  : Coefficient de corrélation (Pearson) entre deux variables aléatoires X et Y (populations) 2 échantillons x et y de moyennes et r estimateur de  r est toujours compris entre -1 et + 1. si r proche de + 1 ou - 1 , x et y sont bien corrélées; le nuage de points est presque aligné le long d'une droite (croissante si r > 0, décroissante si r < 0). r = 0 Pas de lien linéaire entre x et y

COEFFICIENT DE CORRELATION  Si taille échantillon n est faible il faut être prudent sur la significativité du coefficient calculé. Il existe des tables statistiques (et logiciels) qui donnent la limite de significativité de r .

ddl = n-2 n=3 r > 0.99 n= 7 r > 0.75

COEFFICIENT DE CORRELATION

COEFFICIENT DE CORRELATION Toujours faire un graphique r = 0.5 r = - 0.9 Question 2: Comment décririez-vous la corrélation observée en C? Quelle pourrait-en être la cause? Que ceci suggère-t-il? Question 3: En D, suggérez une transformation de la variable X qui permettrait l'apparition d'une corrélation de 1.0 entre les deux variables. Que ceci vous suggère-t-il lorsque vous etudiez un jeu de données et êtes à la recherche de corrélations fortes? Concluez quant à l'utilité des diagrammes binaires. r = 0.8 r = 0.0

FAIRE PASSER UNE DROITE On modélise la relation linéaire entre y et x par y = a+b x (équation d’une droite)

- MOINDRES CARRES On cherche la droite (a et b ) telle que MCO 140 PRI 100 80 60 2500 3000 3500 4000 EAU

RESULTAT DES MOINDRES CARRES MCO Équation de la droite 140 PRI = 258 – 0.05 EAU PRI 100 80 60 2500 3000 3500 4000 EAU

ESTIMATIONS – Cas p=1 Moindre carrés : a et b tels que minimum coefficients de régression b (pente) et a (ordonnée à l’origine)

CAS DE LA REGRESSION SIMPLE p=1 8 7 6 y 5 4 2 3 4 5 6 7 8 x

COEFFICIENT DE DETERMINATION - R² R2 = SSR/SST coefficient de détermination ou pourcentage de variance expliquée par la régression Propriétés Permet de juger de la qualité de la régression Idéal R² = 1 Mauvaise régression: R² = 0 Quand p=1 R² = r² r : coefficient de corrélation linéaire Pour le pain: r=-0.76 donc R²= (-0.76)²

Étalonnage d’un appareil de mesure Taux de protéine de 26 variétés de blé analyse chimiques très précises, très longues (mesure de référence) ( x ) Spectrométrie proche infra-rouge (SPIR) plus rapide mais mesure indirecte à mettre en relation avec méthode de référence (y) régression y= a+bx+E y = 0.157+0.981x =

Étalonnage d’un appareil de mesure Calculs avec logiciel R Response: infrarouge Df Sum Sq Mean Sq F value Pr(>F) Reference 1 38.731 38.731 87.954 1.696e-09 *** Residuals 24 10.569 0.440 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.1566 1.1741 0.133 0.895 reference 0.9808 0.1046 9.378 1.70e-09 *** Residual standard error: 0.6636 on 24 degrees of freedom Multiple R-Squared: 0.7856, Adjusted R-squared: 0.7767 F-statistic: 87.95 on 1 and 24 DF, p-value: 1.696e-09 p-value

TEST DE NULLITE D’ UN COEFFICIENT Les tests supposent hypothèse normalité des erreurs (vérification a posteriori) Coefficient pas significatif Variance de l’erreur Variance de j T Loi de Student à n-2 degrés de liberté : valeur t ayant la probabilité a d'être dépassée en valeur absolue. P ( - t < T < t ) = 1 - a. Ou : P ( T < - t ) = a /2 = P ( T > t )

COMMENT VERIFIER LES HYPOTHESES SUR L’ERREUR On regarde les résidus après régression Pour vérifier l’homoscedasticté Pour vérifier la normalité

JUGEMENT REGRESSION - R² 5 régressions a: régression sans pb b: modèle pas bon- résidus <0 puis >0 puis <0modèle quadratique c: a priori une observation atypique d: points alignés mais s’écartent différemment (variance erreurs pas constante) e: droite n’existe que par la dernière observation

REGRESSION LINEAIRE MULTIPLE (MLR) Explication de la consommation de « fuel » On veut modéliser la consommation d ’un agent énergétique en fonction de facteurs explicatifs : La température moyenne sur un mois est une explication de la consommation L ’épaisseur de l ’isolation en est un autre Gallons/Month Avrg. Temp (oF) Insulation (Inches) 275.30 40.00 3.00 363.80 27.00 3.00 164.30 40.00 10.00 40.80 73.00 6.00 94.30 64.00 6.00 230.90 34.00 6.00 366.70 9.00 6.00 300.60 8.00 10.00 237.80 23.00 10.00 121.40 63.00 3.00 31.40 65.00 10.00 203.50 41.00 6.00 441.10 21.00 3.00 323.00 38.00 3.00 52.50 58.00 10.00

Un modèle de régression linéaire REGRESSION LINEAIRE MULTIPLE (MLR) Un modèle de régression linéaire Influence de l ’isolation Observation i de la consommation mensuelle Terme constant Influence de la température Erreur aléatoire

REGRESSION LINEAIRE MULTIPLE (MLR) n observations yi p variables xj continues n > p Modèle fuel : n=15 p=2 Pour chaque observation : terme d’erreur non observé Coefficients inconnus

Décomposition de la variance et tests Source de variation (source) Somme des carrés (sum of square) Ddl (df) Carrés moyens (mean square) Régression p Erreurs (résiduals) n-p-1 Totale n-1

COEFFICIENT DE DETERMINATION - R² R2 coefficient de détermination ou pourcentage de variance expliquée par la régression Propriétés Permet de juger de la qualité de la régression Idéal R² = 1 Mauvaise régression: R² = 0 Si p augmente R² il existe R² ajusté > Quand p=1 R² = r² r : coefficient de corrélation linéaire

TEST DE L’EXISTENCE DU MODELE F Loi de Fisher à (p,n-p-1 )degrés de liberté : valeur f ayant la probabilité 0.05 d'être dépassée. C’est le R²=0

EXEMPLE de MLR p-value Coefficients: reg1=lm(rdt ~ eng + pluie) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 28.095238 2.491482 11.277 0.000352 *** eng 0.038095 0.005832 6.532 0.002838 ** pluie 0.833333 0.154303 5.401 0.005690 ** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 2.315 on 4 degrees of freedom Multiple R-Squared: 0.9814, Adjusted R-squared: 0.972 F-statistic: 105.3 on 2 and 4 DF, p-value: 0.0003472 p-value

REGRESSION MLR cas multicolinéarité Exemple de traitement y X quantité de : V1 : tricalcium aluminate V2 : tricalcium silicate V3 : tetracalcium alumino ferrite V4 : dicalcium silicate CAL: calories par gramme de ciment

Matrice de corrélation REGRESSION MLR V1 V2 V3 V4 CAL min 1 26 4 6 72.5 Q1 2 31 8 20 83.8 Q2 7 52 9 95.6 moy 7.5 48.2 11.8 30 95.4 Q3 11 56 17 44 109.2 max 21 71 23 60 115.9 s 5.9 15.6 6.4 16.7 15.1 V1 V2 V3 V4 CAL 1 0.23 -0.82 -0.24 0.73 -0.13 -0.97 0.82 0.03 -0.53 V5 Matrice de corrélation

Résultats de la régression MLR REGRESSION MLR Résultats de la régression MLR Estimate Std. Error t value Pr(>|t|) (Intercept) 63.4888 70.0031 0.907 0.3909 V1 1.5494 0.7440 2.082 0.0709 V2 0.4960 0.7231 0.686 0 0.5121 V3 0.1004 0.7540 0.133 0.8974 V4 -0.1572 0.7084 -0.222 0.8299 Residual standard error: 2.444 on 8 degrees of freedom Multiple R-Squared: 0.9824, Adjusted R-squared: 0.9736 F-statistic: 111.7 on 4 and 8 DF, p-value: 4.721e-07 Au risque de 5% aucun coefficient n’est significatif que faire????

REGRESSION SUR COMPOSANTES PRINCIPALES On fait une ACP normée sur le tableau X donc sans la variable CAL ACP sur le tableau X comprenant les variables V1 V2 V3 V4 Valeur propres [1] 2.235 1.576 0.186 0.001 Proportion of Variance 0.558 0.394 0.0466 0.0004 Cumulative Proportion 0.558926 0.9529425 0.99959406 1.0000000000 Loadings (vecteurs propres): C1 C2 C3 C4 v1 -0.476 0.509 0.676 0.241 v2 -0.564 -0.414 -0.314 0.642 v3 0.394 -0.605 0.638 0.268 v4 0.548 0.451 -0.195 0.677 C1= - 0.476 v1 – 0.564 v2 + 0.394 v3 + 0.548 v4 C2= 0.509 v1 – 0.414 v2 - 0.605 v3 + 0.451 v4 C3= 0.676 v1 – 0.314 v2 + 0.638 v3 - 0.195 v4 C4= 0.241 v1 + 0.642 v2 + 0.268 v3 + 0.677 v4 U = Combinaisons linéaires

REGRESSION SUR COMPOSANTES PRINCIPALES ACP sur X MLR y X C SCORES C1 C2 C3 C4 1 -1.4672378 -1.9030358 -0.53000037 0.038529908 2 -2.1358287 -0.2383536 -0.29018640 -0.029832930 3 1.1298705 -0.1838772 -0.01071259 -0.093700786 4 -0.6598954 -1.5767743 0.17920354 -0.033116396 5 0.3587645 -0.4835379 -0.74012232 0.019187145 6 0.9666396 -0.1699440 0.08570243 -0.012167032 7 0.9307051 2.1348166 -0.17298595 0.008295395 8 -2.2321379 0.6916707 0.45971967 0.022605633 9 -0.3515156 1.4322451 -0.03156437 -0.044987631 10 1.6625430 -1.8280967 0.85119311 0.019836723 11 -1.6401799 1.2951128 0.49417844 0.031388975 12 1.6925940 0.3922488 -0.01980997 0.037185301 13 1.7456786 0.4375254 -0.27461537 0.036775709

REGRESSION SUR COMPOSANTES PRINCIPALES Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 95.4000 0.6430 148.373 < e-10 *** C1 9.8791 0.4476 22.072 3.8e-09 *** C2 0.1327 0.5331 0.249 0.8091 C3 4.6539 1.5492 3.004 0.0149 * Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.318 on 9 degrees of freedom Multiple R-Squared: 0.9822, Adjusted R-squared: 0.9763 F-statistic: 165.4 on 3 and 9 DF, p-value: 3.45e-08 CAL = 95.4 + 9.88 C1 + 0.13 C2 +4.65 C3 On repasse aux variables initiales: CAL = 95.4 + 7.78 V1 + 4.16 V2 + -0.85 V3 – 6.38 V4

REGRESSION PLS Méthode plus récente Partial Least Square Proche de la régression sur composantes principales RCP : facteurs calculés qu’à partir des variables initiales (et donc sans référence à la variable à expliquer y). PLS : La variable à expliquer et les variables explicatives sont prises en comptes simultanément.

REGRESSION PLS et PCR RCP et PLS : On remplace l’espace initial par un espace de faible dimension engendré par un petit nombre de composantes (ou facteurs) ou variables latentes qui sont construites l’une après l’autre de façon itérative. Ces facteurs seront les nouvelles variables explicatives d’un modèle de régression linéaire. Les facteurs sont orthogonaux (non corrélés), et sont des combinaisons linéaires des variables explicatives initiales. RCP : facteurs calculés qu’à partir des variables initiales (et donc sans référence à la variable à expliquer y). PLS : La variable à expliquer et les variables explicatives sont prises en comptes simultanément.

REGRESSION PLS Notion de covariance : Cov<0 Cov>0 Cov0

Notion de covariance (bis) : REGRESSION PLS Notion de covariance (bis) : Cov(x,y) = s(x) s(y) r(x,y) x ||x|| s(x) Dans Rn cos(x,y) = r(x,y) ||y|| s(y) y xTycov(x,y)

REGRESSION PLS Comment ça marche : Cherche les combinaisons linéaires u de X, telles que : Cov(Xu,y) maximale Une régression est ensuite calculée entre les variables latentes de X et y

On cherche à prédire ytep en fonction de X v633 v649 v666 v683 v700 v716 v733 ytep 1 0.70 0.94 1.48 1.40 0.31 0.06 0.06 87.37 2 1.93 2.47 3.49 3.14 0.90 0.24 0.12 87.16 3 1.27 1.66 2.45 2.21 0.54 0.13 0.08 87.57 4 1.07 1.22 1.71 1.51 0.36 0.10 0.10 87.16 5 0.49 0.64 1.00 0.90 0.15 0.01 0.04 85.99 6 0.59 0.83 1.30 1.15 0.19 0.01 0.04 86.41 7 0.43 0.46 0.69 0.65 0.14 0.04 0.07 80.75 8 0.53 0.48 0.67 0.64 0.14 0.03 0.06 78.74 9 1.25 1.30 1.67 1.62 0.65 0.33 0.25 79.26 10 3.18 3.81 4.66 4.18 1.60 0.60 0.30 85.56 11 1.36 1.51 2.04 1.94 0.66 0.30 0.23 82.35 12 2.20 2.68 3.54 3.25 1.15 0.45 0.27 83.08 13 0.46 0.60 1.09 1.10 0.23 0.04 0.06 81.13 14 1.96 2.39 3.41 3.20 0.95 0.24 0.11 79.97 15 0.56 0.77 1.33 1.31 0.29 0.05 0.06 82.44 X : absorbances aux longueurs d'onde (nm) 633 649 666 683 700 716 733, mesurées sur des pommes ytep (dernière colonne) : teneur en eau des pommes On cherche à prédire ytep en fonction de X

Estimate Std. Error t value Pr(>|t|) (Intercept) 77.726 5.987 12.982 3.74e-06 *** v633 -32.425 12.013 -2.699 0.0307 * v649 78.507 35.796 2.193 0.0644 . v666 -53.496 45.350 -1.180 0.2767 v683 45.365 38.510 1.178 0.2773 v700 -103.69 55.062 -1.883 0.1017 v716 50.320 127.846 0.394 0.7056 v733 22.613 114.740 0.197 0.8494 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 1.509 on 7 degrees of freedom Multiple R-Squared: 0.8906, Adjusted R-squared: 0.7813 F-statistic: 8.143 on 7 and 7 DF, p-value: 0.006459

Matrice de corrélation des prédicteurs v633 v649 v666 v683 v700 v716 v733 v633 1.00 0.99 0.98 0.97 0.99 0.93 0.79 v649 0.99 1.00 0.99 0.99 0.98 0.90 0.74 V666 0.98 0.99 1.00 1.00 0.97 0.86 0.68 v683 0.97 0.99 1.00 1.00 0.97 0.86 0.69 v700 0.99 0.98 0.97 0.97 1.00 0.96 0.83 v716 0.93 0.90 0.86 0.86 0.96 1.00 0.96 v733 0.79 0.74 0.68 0.69 0.83 0.96 1.00 Corrélations très élevées !!