La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Méthodes de régression

Présentations similaires


Présentation au sujet: "Méthodes de régression"— Transcription de la présentation:

1 Méthodes de régression
B. Palagos

2 LA REGRESSION LINEAIRE
Utilisée pour expliquer, décrire ou prédire une variable quantitative y en fonction d’une ou plusieurs variables x1 ,….., xp. Par exemple y peut-être le prix du pain en fonction de la teneur en eau x y xi réponse prédicteur(s) variable à expliquer variable(s) explicative(s) sortie entrée(s) variable dépendante variable(s) indépendante(s) variable exogène variable(s) endogène (s) p = 1 régression linéaire simple p > 1 régression linéaire multiple (MLR)

3 MESURE DE LA RELATION ENTRE 2 VARIABLES CONTINUES
PRI EAU 63.00 77.00 86.00 89.00 91.00 92.00 95.00 106.00 74.00 76.00 85.00 57.00 132.00 152.00 153.00 PRIX du pain en fonction de la teneur en EAU Corrélation : -0.76

4 COEFFICIENT DE CORRELATION
 : Coefficient de corrélation (Pearson) entre deux variables aléatoires X et Y (populations) 2 échantillons x et y de moyennes et r estimateur de  r est toujours compris entre -1 et + 1. si r proche de + 1 ou - 1 , x et y sont bien corrélées; le nuage de points est presque aligné le long d'une droite (croissante si r > 0, décroissante si r < 0). r = 0 Pas de lien linéaire entre x et y

5 COEFFICIENT DE CORRELATION
 Si taille échantillon n est faible il faut être prudent sur la significativité du coefficient calculé. Il existe des tables statistiques (et logiciels) qui donnent la limite de significativité de r .

6 ddl = n-2 n=3 r > 0.99 n= 7 r > 0.75

7 COEFFICIENT DE CORRELATION

8 COEFFICIENT DE CORRELATION
Toujours faire un graphique r = 0.5 r = - 0.9 Question 2: Comment décririez-vous la corrélation observée en C? Quelle pourrait-en être la cause? Que ceci suggère-t-il? Question 3: En D, suggérez une transformation de la variable X qui permettrait l'apparition d'une corrélation de 1.0 entre les deux variables. Que ceci vous suggère-t-il lorsque vous etudiez un jeu de données et êtes à la recherche de corrélations fortes? Concluez quant à l'utilité des diagrammes binaires. r = 0.8 r = 0.0

9 FAIRE PASSER UNE DROITE
On modélise la relation linéaire entre y et x par y = a+b x (équation d’une droite)

10 - MOINDRES CARRES On cherche la droite (a et b ) telle que MCO 140 PRI
100 80 60 2500 3000 3500 4000 EAU

11 RESULTAT DES MOINDRES CARRES
MCO Équation de la droite 140 PRI = 258 – 0.05 EAU PRI 100 80 60 2500 3000 3500 4000 EAU

12 ESTIMATIONS – Cas p=1 Moindre carrés : a et b tels que minimum coefficients de régression b (pente) et a (ordonnée à l’origine)

13 CAS DE LA REGRESSION SIMPLE p=1
8 7 6 y 5 4 2 3 4 5 6 7 8 x

14 COEFFICIENT DE DETERMINATION - R²
R2 = SSR/SST coefficient de détermination ou pourcentage de variance expliquée par la régression Propriétés Permet de juger de la qualité de la régression Idéal R² = 1 Mauvaise régression: R² = 0 Quand p=1 R² = r² r : coefficient de corrélation linéaire Pour le pain: r=-0.76 donc R²= (-0.76)²

15 Étalonnage d’un appareil de mesure
Taux de protéine de 26 variétés de blé analyse chimiques très précises, très longues (mesure de référence) ( x ) Spectrométrie proche infra-rouge (SPIR) plus rapide mais mesure indirecte à mettre en relation avec méthode de référence (y) régression y= a+bx+E y = x =

16 Étalonnage d’un appareil de mesure
Calculs avec logiciel R Response: infrarouge Df Sum Sq Mean Sq F value Pr(>F) Reference e-09 *** Residuals --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) reference e-09 *** Residual standard error: on 24 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 24 DF, p-value: 1.696e-09 p-value

17 TEST DE NULLITE D’ UN COEFFICIENT
Les tests supposent hypothèse normalité des erreurs (vérification a posteriori) Coefficient pas significatif Variance de l’erreur Variance de j T Loi de Student à n-2 degrés de liberté : valeur t ayant la probabilité a d'être dépassée en valeur absolue. P ( - t < T < t ) = 1 - a. Ou : P ( T < - t ) = a /2 = P ( T > t )

18 COMMENT VERIFIER LES HYPOTHESES SUR L’ERREUR
On regarde les résidus après régression Pour vérifier l’homoscedasticté Pour vérifier la normalité

19 JUGEMENT REGRESSION - R²
5 régressions a: régression sans pb b: modèle pas bon- résidus <0 puis >0 puis <0modèle quadratique c: a priori une observation atypique d: points alignés mais s’écartent différemment (variance erreurs pas constante) e: droite n’existe que par la dernière observation

20 REGRESSION LINEAIRE MULTIPLE (MLR)
Explication de la consommation de « fuel » On veut modéliser la consommation d ’un agent énergétique en fonction de facteurs explicatifs : La température moyenne sur un mois est une explication de la consommation L ’épaisseur de l ’isolation en est un autre Gallons/Month Avrg. Temp (oF) Insulation (Inches)

21 Un modèle de régression linéaire
REGRESSION LINEAIRE MULTIPLE (MLR) Un modèle de régression linéaire Influence de l ’isolation Observation i de la consommation mensuelle Terme constant Influence de la température Erreur aléatoire

22 REGRESSION LINEAIRE MULTIPLE (MLR)
n observations yi p variables xj continues n > p Modèle fuel : n=15 p=2 Pour chaque observation : terme d’erreur non observé Coefficients inconnus

23 Décomposition de la variance et tests
Source de variation (source) Somme des carrés (sum of square) Ddl (df) Carrés moyens (mean square) Régression p Erreurs (résiduals) n-p-1 Totale n-1

24 COEFFICIENT DE DETERMINATION - R²
R2 coefficient de détermination ou pourcentage de variance expliquée par la régression Propriétés Permet de juger de la qualité de la régression Idéal R² = 1 Mauvaise régression: R² = 0 Si p augmente R² il existe R² ajusté > Quand p=1 R² = r² r : coefficient de corrélation linéaire

25 TEST DE L’EXISTENCE DU MODELE
F Loi de Fisher à (p,n-p-1 )degrés de liberté : valeur f ayant la probabilité 0.05 d'être dépassée. C’est le R²=0

26 EXEMPLE de MLR p-value Coefficients:
  reg1=lm(rdt ~ eng + pluie) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) *** eng ** pluie ** --- Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: on 4 degrees of freedom Multiple R-Squared: , Adjusted R-squared: 0.972 F-statistic: on 2 and 4 DF, p-value: p-value

27 REGRESSION MLR cas multicolinéarité
Exemple de traitement y X quantité de : V1 : tricalcium aluminate V2 : tricalcium silicate V3 : tetracalcium alumino ferrite V4 : dicalcium silicate CAL: calories par gramme de ciment

28 Matrice de corrélation
REGRESSION MLR V1 V2 V3 V4 CAL min 1 26 4 6 72.5 Q1 2 31 8 20 83.8 Q2 7 52 9 95.6 moy 7.5 48.2 11.8 30 95.4 Q3 11 56 17 44 109.2 max 21 71 23 60 115.9 s 5.9 15.6 6.4 16.7 15.1 V1 V2 V3 V4 CAL 1 0.23 -0.82 -0.24 0.73 -0.13 -0.97 0.82 0.03 -0.53 V5 Matrice de corrélation

29 Résultats de la régression MLR
REGRESSION MLR Résultats de la régression MLR Estimate Std. Error t value Pr(>|t|) (Intercept) V V V V Residual standard error: on 8 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 4 and 8 DF, p-value: 4.721e-07 Au risque de 5% aucun coefficient n’est significatif que faire????

30 REGRESSION SUR COMPOSANTES PRINCIPALES
On fait une ACP normée sur le tableau X donc sans la variable CAL ACP sur le tableau X comprenant les variables V1 V2 V3 V4 Valeur propres [1] Proportion of Variance Cumulative Proportion Loadings (vecteurs propres): C C C C4 v v v v C1= v1 – v v v4 C2= v1 – v v v4 C3= v1 – v v v4 C4= v v v v4 U = Combinaisons linéaires

31 REGRESSION SUR COMPOSANTES PRINCIPALES
ACP sur X MLR y X C SCORES C C C C4

32 REGRESSION SUR COMPOSANTES PRINCIPALES
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) < e-10 *** C e-09 *** C C * Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 9 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 3 and 9 DF, p-value: 3.45e-08 CAL = C C C3 On repasse aux variables initiales: CAL = V V V3 – 6.38 V4

33 REGRESSION PLS Méthode plus récente Partial Least Square Proche de la régression sur composantes principales RCP : facteurs calculés qu’à partir des variables initiales (et donc sans référence à la variable à expliquer y). PLS : La variable à expliquer et les variables explicatives sont prises en comptes simultanément.

34 REGRESSION PLS et PCR RCP et PLS : On remplace l’espace initial par un espace de faible dimension engendré par un petit nombre de composantes (ou facteurs) ou variables latentes qui sont construites l’une après l’autre de façon itérative. Ces facteurs seront les nouvelles variables explicatives d’un modèle de régression linéaire. Les facteurs sont orthogonaux (non corrélés), et sont des combinaisons linéaires des variables explicatives initiales. RCP : facteurs calculés qu’à partir des variables initiales (et donc sans référence à la variable à expliquer y). PLS : La variable à expliquer et les variables explicatives sont prises en comptes simultanément.

35 REGRESSION PLS Notion de covariance : Cov<0 Cov>0 Cov0

36 Notion de covariance (bis) :
REGRESSION PLS Notion de covariance (bis) : Cov(x,y) = s(x) s(y) r(x,y) x ||x|| s(x) Dans Rn cos(x,y) = r(x,y) ||y|| s(y) y xTycov(x,y)

37 REGRESSION PLS Comment ça marche : Cherche les combinaisons linéaires u de X, telles que : Cov(Xu,y) maximale Une régression est ensuite calculée entre les variables latentes de X et y

38 On cherche à prédire ytep en fonction de X
v633 v649 v666 v683 v700 v716 v733 ytep X : absorbances aux longueurs d'onde (nm) , mesurées sur des pommes ytep (dernière colonne) : teneur en eau des pommes On cherche à prédire ytep en fonction de X

39 Estimate Std. Error t value Pr(>|t|)
(Intercept) e *** v * v v v v v v --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 7 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 7 and 7 DF, p-value:

40 Matrice de corrélation des prédicteurs
v633 v649 v666 v683 v700 v716 v v v V v v v v Corrélations très élevées !!

41


Télécharger ppt "Méthodes de régression"

Présentations similaires


Annonces Google