La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les Méthodes PLS Michel Tenenhaus

Présentations similaires


Présentation au sujet: "Les Méthodes PLS Michel Tenenhaus"— Transcription de la présentation:

1 Les Méthodes PLS Michel Tenenhaus

2 2/198 Les méthodes PLS initiées par Herman et Svante Wold I. NIPALS (Nonlinear Iterative Partial Least Squares ) II. Régression PLS (Partial Least Squares Regression) III. Analyse discriminante PLS IV. SIMCA (Soft Independent Modelling by Class Analogy) V. PLS Path Modelling (Modélisation de relations structurelles sur variables latentes) VI. Régression logistique PLS VII. Régression linéaire généralisée PLS

3 3/198

4 4/198 Les méthodes PLS I. NIPALS (Nonlinear Iterative Partial Least Squares )

5 5/198 Le mont NIPALS

6 6/198 Le mont NIPALS

7 7/198 La méthode NIPALS Analyse en composantes principales Possibilité de données manquantes. Validation croisée pour choisir le nombre de composantes. Identification des outliers avec - une carte de contrôle des observations, - des tests sur les écarts au modèle de lACP.

8 8/198 Utilisation de NIPALS : Exemple voitures Il y a une observation manquante par modèle !!!

9 9/198 Le principe de NIPALS Comment projeter un point avec données manquantes ?

10 10/198 * * * * * * * * 0 ° xixi titi xixi u u 0 o o o o o o Projection sur un axe

11 11/198 * * * * * * * * 0 ° xixi titi xixi u u 0 o o o o o o Valeur manquante Projection dun point avec données manquantes sur un axe

12 12/198 L algorithme NIPALS Recherche des composantes principales Données : X = {x ij } tableau n k, x j = variable j x i = observation i Modèle de l ACP : X = t 1 p 1 ´ + … + t k p k ´ avec (1)p 1, …, p k orthonormés et(2) t 1, …, t k orthogonaux

13 13/198 L algorithme NIPALS Recherche de la première composante principale Modèle : X = t 1 p 1 ´ + résidu, avec p 1 normé Algorithme : les équations de base (1) Si t 1 connu, calcul de p 1j par régression simple : x j = p 1j t 1 + résidu (2) Normalisation de p 1 = (p 11,…,p 1k ) (3) Si p 1 connu, calcul de t 1i par régression simple : x i = t 1i p 1 + résidu Algorithme : fonctionnement - Prendre t 1 = x 1, puis itérer sur (1), (2), (3). -Si données manquantes, faire les calculs sur toutes les données disponibles.

14 14/198 L algorithme NIPALS Recherche des autres composantes principales La première étape donne : X = t 1 p 1 + X 1 On répète les opérations précédentes sur la matrice des résidus X 1 de la régression de X sur t 1. On obtient : X 1 = t 2 p 2 + X 2 et X = t 1 p 1 + t 2 p 2 + X 2 On obtient de même les autres composantes.

15 15/198 Voir XVarPred et « * » RESS h et PRESS h Residual Sum of Squares : Les cases de X sont partagées en G groupes, et on réalise G factorisations en enlevant à chaque fois un seul des groupes. Predicted Residual Sum of Squares : où est calculé dans lanalyse réalisée sans le groupe contenant la case (i,j). A chaque étape on étudie la reconstitution du tableau X : Ress = pouvoir explicatif Press = pouvoir predictif

16 16/198 L algorithme NIPALS Choix du nombre de composantes La composante t h est retenue selon la règle R1 si Cette règle conduit à des composantes globalement significatives. On choisit le nombre de composantes principales par validation croisée.

17 17/198 Q 2 (cum) et R 2 (validation croisée) CONSEIL : Modèle à h composantes acceptable si [Q 2 cum ] h > 0.5 La composante h est retenue si : peu différent de Quel est lavantage du Q2(Cum) sur le R2(VC) ?

18 18/198 Utilisation de NIPALS : Exemple voitures La validation croisée conduit à deux composantes globalement significatives (critère R1).

19 19/198 NIPALS : Exemple Voitures Cercle des corrélations

20 20/198 NIPALS : Exemple Voitures Carte des voitures (les 2 premières "composantes principales") t[2] t[1] Ellipse: Hotelling T2 (0.925) honda civic renault 19 fiat tipo renault 21 citroen bx bmw 530i rover 827i renault 25 opel omega peugeot 405b ford sierra bmw 325ix audi 90 quattro ford scorpio renault espace nissan vanette vw caravelle ford fiesta fiat uno peugeot 205 peugeot 205rallye seat ibiza sport citroen ax sport SIMCA-P /05/ :17:34 peugeot 405

21 21/198 Loadings Bi-plot

22 22/198 Statistiques, vecteurs propres et composantes principales

23 23/198 Reconstitution des données avec deux composantes

24 24/198 NIPALS : Identification des outliers Carte de contrôle des distances au modèle normalisées

25 25/198 Calcul de la limite de contrôle Propriété : Limite de contrôle au risque : * * * * * * * * xixi calculé si nb de données > nb de CP

26 26/198 Probabilité dappartenir au modèle Test : H 0 : lobservation i appartient au modèle de lACP H 1 : lobservation i nappartient pas au modèle Décision : On rejette H 0 au risque de se tromper si Niveau de signification ou « probabilité dappartenir au modèle » : Plus petit conduisant au rejet de H 0 = Prob (F(k 1,k 2 ) DModX 2 ) Lindividu i est exactement sur la limite de contrôle DCrit( min )

27 27/198 PModX(Nissan Vanette) = 0.08

28 28/198 Cylindrée : 4943 Puissance : 428 Vitesse : 310 Poids : 1517 Longueur : 449 Caractéristiques de la Ferrari Ajouter la Ferrari au fichier des données

29 29/198 Les méthodes PLS II. Régression PLS (Partial Least Squares Regression)

30 30/198 La régression PLS Relier un bloc de variables à expliquer Y à un bloc de variables explicatives X. Possibilité de données manquantes. Il peut y avoir beaucoup plus de variables X que dobservations. Il peut y avoir beaucoup plus de variables Y que dobservations. Meilleure réponse au problème de la multicolinéarité.

31 31/198 La régression PLS : vocabulaire Régression PLS1 : un seul Y Régression PLS2 : plusieurs Y A conseiller si les Y sont corrélés entre eux Analyse discriminante PLS : - Y qualitatif transformé en variables indicatrices des modalités - A conseiller si Y binaire, sinon on peut peut- être faire mieux (Barker & Rayens, 2003)

32 32/198 Les méthodes PLS II.1 Régression PLS1

33 33/198 La régression PLS1 : une idée de lalgorithme Etape 1 : Recherche de m composantes orthogonales t h = Xa h bien explicatives de leur propre groupe et bien corrélées à y. Le nombre m est obtenu par validation croisée. Etape 2 : Régression de Y sur les composantes PLS t h. Etape 3 : Expression de la régression en fonction de X.

34 34/198 Objectif de létape 1 de la régression PLS1 * * * * * * X2X2 X1X1 CPX 1 t1t1 * * * * * * * y t1t1 y * * * * * *

35 35/198 La régression PLS1 : une idée de létape 1 lorsquil ny a pas de données manquantes Pour chaque h = 1 à m, on recherche des composantes t h = Xa h maximisant le critère Cov (Xa h, y) sous des contraintes de norme ( ) et dorthogonalité entre t h et les composantes précédentes t 1,…, t h-1.

36 36/198 Propriétés de la régression PLS1 De Cov 2 (Xa h, y) = Cor 2 (Xa h, y)* Var(Xa h )*Var(y) on déduit que la régression PLS1 réalise un compromis entre la régression multiple de y sur X et lanalyse en composantes principales de X.

37 37/198 Régression PLS1: Étape 1 1. Calcul de la première composante PLS t 1 : 2. Normalisation du vecteur a 1 = (a 11,…,a 1k ) 3. Régression de y sur t 1 =Xa 1 exprimée en fonction des x 4. Calcul des résidus y 1 et X 1 des régressions de y et X sur t 1 : -y = c 1 t 1 + y 1 -X = t 1 p 1 + X 1 Les x j sont centrés-réduits. Sinon, remplacer la corrélation par la covariance. cor avec y > 0

38 38/198 Régression PLS1: Étape 2 1. Calcul de la deuxième composante PLS t 2 : 2. Normalisation du vecteur b 2 = (b 21,…,b 2k ) 3. Calcul de a 2 tel que : t 2 = X 1 b 2 = Xa 2 4. Régression de y 1 sur t 2 = Xa 2 exprimée en fonction des x 5. Calcul des résidus y 2 et X 2 des régressions de y et X 1 sur t 2 : -y 1 = c 2 t 2 + y 2 -X 1 = t 2 p 2 + X 2

39 39/198 Régression PLS1: Étapes suivantes Doù le modèle de régression PLS à m composantes : y= c 1 t 1 + c 2 t 2 + … + c m t m + Résidu =c 1 Xa 1 + c 2 Xa 2 + … + c m Xa m + Résidu =X(c 1 a 1 + c 2 a 2 + … + c m a m ) + Résidu = b 1 x 1 + b 2 x 2 + … + b k x k + Résidu On procède de la même manière pour les autres composantes.

40 40/198 Calcul de RESS h et PRESS h à létape h Les observations sont partagées en G groupes, et on réalise G fois létape courante de lalgorithme sur y h-1 et X h-1 en enlevant à chaque fois un groupe. Predicted Residual Sum of Squares : où est calculé dans lanalyse réalisée sans le groupe contenant lobservation (i). Residual Sum of Squares : où est la prévision de y (h-1),i Voir option CV-groups

41 41/198 Choix du nombre de composantes On choisit le nombre de composantes par validation croisée. La composante h est retenue si [PRESS h ] [RESS h-1 ] Soit : avec RESS 0 =, 1 - = 0.05 si n < 100 et = 0 si n 100.

42 42/198 Q 2 (cum) et R 2 (validation croisée) peu différent de Modèle à h composantes acceptable si [Q 2 cum ] h > 0.5 La composante h est retenue si :

43 43/198 Variable Importance in the Prediction (VIP) Importance de la variable x j (j=1,…, p) pour la prédiction de y dans un modèle à m composantes : Composantes PLS : t h = X h-1 b h, avec ||b h || = 1 Moyenne des carrés des VIP sur les variables = 1 Variable importante pour la prédiction si VIP > 0.8

44 44/198 Régression PLS1 : Exemple Voitures Problèmes : multicolinéarité, données manquantes Données complètes Données incomplètes

45 45/198 Régression multiple sur les données complètes R 2 = 0.847, F = Sig. =

46 46/198 Corrélations entre les variables Tolerance = 1-R 2 (X,autres X) VIF = 1/Tolerance) Problème si VIF > 3, inacceptable si VIF > 10

47 47/198 Régression PLS sur les données incomplètes Choix du nombre de composantes On retient une composante PLS

48 48/198 Régression PLS sur les données incomplètes R 2 = Équation sur les données centrées-réduites (CoeffCS) Équation sur les données dorigine (Coeff) Prix = Cylindrée + 328Puissance + 339Vitesse + 40Poids + 205Longueur Largeur Équation sur les données dorigine pour Y et centrées pour X (CoeffC) Prix = (Cylindrée ) + 328(Puissance - 112) + 339(Vitesse - 182) + 40(Poids ) + 205(Longueur - 422) (Largeur - 168)

49 49/198 Résultats de la validation croisée sur les coefficients de régression PLS Audi 90 Quattro

50 50/ PUISSANCE CYLINDREE POIDS LONGUEUR VITESSE LARGEUR CoeffCS[1](PRIX) Autoprib.M10 (PLS), Untitled CoeffCS[Comp. 1](YVar PRIX) Intervalles de confiance jack-knife des coefficients de régression PLS

51 51/198 Résultats de la validation croisée sur les coefficients de régression PLS

52 52/ Autoprib.M1 (PLS): Validate Model PRIX Intercepts: R2=(0.0, ), Q2=(0.0, ) 200 permutations 1 components R2 Q2 Validation globale Les droites noire et rouge sont les droites des moindres carrés passant par les R2 et Q2(Cum) observés. Le modèle est validé si les ordonnées à lorigine sont proches de 0 pour R 2 et surtout négative pour Q 2 (Cum). Corrélation entre Y observé et Y permuté R2 et Q2(Cum) de la régression PLS de Y permuté sur X

53 53/ PUISSANCE CYLINDREE POIDS LONGUEUR VITESSE LARGEUR VIP[1] Exemple Voitures Variable Importance in the Prediction (1 composante)

54 54/198 Régression PLS sur les données incomplètes 4 roues motrices

55 55/198 Intervalle de confiance à 95% du prix moyen (fourni par SIMCA) prévision PRIX

56 56/198 Intervalle de prévision à 95% du prix (à calculer) prévision PRIX audi 90 quattro

57 57/198 Prédiction du prix de la HONDA CIVIC (WS) (Problème : certains X sont manquants) Prix de vente : FF

58 58/198 Prédiction du Prix de la HONDA CIVIC (WS) Calcul de t 1 pour la HONDA CIVIC : Régression du Prix sur t 1 : Prédiction du Prix : Prix calculé = *(-1.809)* = FF c

59 59/198 Prédiction du prix de la FERRARI (PS) (Problème : certains X sont manquants)

60 60/198 Prédiction du Prix de la Ferrari Calcul de tPS 1i,…, tPS mi pour une nouvelle observation x i : - Régression de X sur t 1,…, t m : X = t 1 p 1 + … + t m p m + résidu WS les p h - Régression de x i sur p 1,…, p m : x i = tPS 1i p 1 + … + tPS mi p m + résidu PS calculée sur les données disponibles; doù le calcul des tPS hi - On cherche les tPS hi minimisant la distance entre x i et le modèle. Prédiction du prix de la FERRARI (m = 1) - tPS 1 (Ferrari) = estimation de t 1,25 - On utilise tPS1 à la place de t 1 Prédiction du Prix = FF Régression du Prix sur t 1 :

61 61/198 Prédiction du Prix de la Ferrari : calcul de tPS 1 (Ferrari) tPS 1 (Ferrari) =

62 62/198 Régression PLS1 : Cas UOP Guided Wave Problème : 225 variables X et 26 observations Les données : Y = indice doctane X 1, X 2, …, X 225 : valeurs dabsorbance à différentes longueurs donde Données de calibration : 26 échantillons dessence (dont 2 avec alcool) Données de validation : 13 échantillons dessence (dont 4 avec alcool)

63 63/198 Cas UOP Guided Wave Visualisation des X

64 64/198 Cas UOP Guided Wave Visualisation des X : Données de calibration M52 H59 Les échantillons M52 et H59 contiennent de l alcool

65 65/198 Cas UOP Guided Wave Visualisation des X : Données de validation

66 66/198 Régression PLS1 : les résultats Données de spectroscopie Les données sont centrées, mais non réduites Validation croisée : 3 composantes PLS

67 67/198 UOP Guided Wave : Les composantes PLS - Indice doctane : L = Low, M = Medium, H = High - Les échantillons M52 et H59 contiennent de lalcool

68 68/198 UOP Guided Wave : les composantes PLS Indice doctane : L = Low, M = Medium, H = High

69 69/198 Cas UOP Guided Wave : Prévision Données de calibration

70 70/198 Cas UOP Guided Wave : Prévision Données de validation Présence dalcool : OUI / NON

71 71/198 Orthogonal Signal Correction Filtrage des X pour diminuer la partie des X non corrélée à Y : E=XA On recherche une décomposition de X de la forme X = t osc,1 p 1 +…+ t osc,m p m + E avec : (1) Les composantes t osc,j = Xw j sont orthogonales. (2) Les composantes t osc,j sont (à peu près) orthogonales aux Y. (3) Les p m et le résidu E sont obtenus par régression multiple de X sur t osc,1,…, t osc,m. (4) D = t osc,1 p 1 +…+ t osc,m p m représente la partie des X (à peu près) non corrélée à Y (5) E = X - D = X(I - w 1 p 1 +…+ w m p m ) représente un filtrage des X. On effectue la régression PLS de Y sur E.

72 72/198 Recherche des t h (Procédure de Wold et al.) (1) On réalise une ACP des X ==> première composante principale t osc,1,initial (2) On fait une régression de t osc,1, initial sur Y : t osc,1, initial = Yb + t 1 * (3) On fait une régression PLS de t 1 * ( à Y) sur X avec toutes les composantes ==> t osc,1, new = Xw 1. La composante t osc,1,new est peu corrélée à Y et explique bien X. (4) On itère (2) et (3) jusquà convergence ==> t osc,1. (5) On régresse X sur t osc,1 : X = t osc,1 p 1 + E 1 (6) Pour obtenir t osc,2 on recommence la procédure en remplaçant X par E 1. Et ainsi de suite pour les autres composantes.

73 73/198 Choix du nombre de composantes t osc,h Et de même pour les autres composantes. (1) On déduit de X = t osc,1 p 1 + E 1 la décomposition (2) On mesure la part de X restituée par E 1 par (3) On conserve t osc,1 si - t osc,1 suffisamment orthogonal à Y - t osc,1 explique suffisamment X : (Règle de Wold) valeur propre moyenne de lACP

74 74/198 Application à la prédiction de lindice doctane Régression PLS sur les données de calibration non filtrées sans les deux échantillons avec alcool

75 75/198 Application à la prédiction de lindice doctane Prédiction sur les données de validation sans les quatre échantillons avec alcool

76 76/198 Application à la prédiction de lindice doctane Filtrage des X par OSC sur léchantillon de calibration sans les deux échantillons avec alcool On retient la seule composante t 1.

77 77/198 Application à la prédiction de lindice doctane Valeurs de t osc,1 En résumé - On régresse X sur t 1, partie de X orthogonale à Y. - Doù le résidu E 1, données filtrées par OSC. - Puis on réalise la régression PLS de Y sur le résidu E 1

78 78/198 Application à la prédiction de lindice doctane Comparaison entre les données brutes et les données filtrées par OSC Données filtrées Données brutes

79 79/198 Application à la prédiction de lindice doctane Régression PLS sur les données de calibration (sans les deux échantillons avec alcool) filtrées par OSC avec une seule composante

80 80/198 Application à la prédiction de lindice doctane Prédiction de lindice doctane sur les données de validation sans les quatre échantillons avec alcool

81 81/198 Les méthodes PLS II.2 Régression PLS2

82 82/198 La régression PLS2 Relier un bloc de variables à expliquer Y à un bloc de variables explicatives X. Possibilité de données manquantes. Il peut y avoir beaucoup plus de variables X que dobservations. Il peut y avoir beaucoup plus de variables Y que dobservations.

83 83/198 La régression PLS2 : une idée de lalgorithme Etape 3 : Expression de la régression en fonction de X. Etape 1 : Recherche de m composantes orthogonales t h = Xa h et m composantes u h = Yb h, bien corrélées entre elles et explicatives de leur propre groupe. Le nombre m est obtenu par validation croisée. Etape 2 : Régression de chaque Y sur les composantes t h.

84 84/198 Objectif de létape 1 de la régression PLS2 * * * * * * X2X2 X1X1 CPX 1 t1t1 * * * * * * * CPY 1 u1u1 Y2Y2 Y1Y1 t1t1 u1u1 * * * * * *

85 85/198 La régression PLS2 : une idée de létape 1 lorsquil ny a pas de données manquantes Pour chaque h = 1 à m, on recherche des composantes t h = Xa h et u h = Yb h maximisant le critère Cov (Xa h, Yb h ) sous des contraintes de norme et dorthogonalité entre t h et les composantes précédentes t 1,…, t h-1.

86 86/198 Interprétation du critère de Tucker De Cov 2 (Xa h, Yb h ) = Cor 2 (Xa h, Yb h )* Var(Xa h )*Var(Yb h ) on déduit que la régression PLS réalise un compromis entre lanalyse canonique entre X et Y, une ACP de X, et une ACP « oblique » de Y.

87 87/198 Variable Importance in the Prediction (VIP) Importance de la variable x j (j=1, p) pour la prédiction des y k (k=1, q) dans un modèle à m composantes : Composantes PLS : t h = X h-1 b h, avec ||b h || = 1 Moyenne des carrés des VIP = 1 Variable importante pour la prévision si VIP > 0.8 Pouvoir prédictif de X j

88 88/198 Régression PLS2 Exemple : Dégustation de thé Les données

89 89/198 Cas Dégustation de thé Bloc X Les 11 variables indicatrices des modalités de Température, Sucre, Force et Citron Bloc Y Les classements des sujets sont inversés (Le 1 devient 18, le 18 devient 1)

90 90/198 Cas Dégustation de thé Résultats de la régression PLS Validation croisée : 3 composantes : t h = Xw h * et u h = Yc h Équation de régression de Y k sur t 1, …, t h : Y k = c 1k t 1 + c 2k t 2 + c 3k t 3 + résidu Les variables X et Y sont représentées à laide des vecteurs w h * et c h.

91 91/198 Résultats de la régression PLS Les vecteurs w*c w* c

92 92/198 Cas Dégustation de thé Carte des variables CHAUD TIEDE GLACÉ SUCRE0 SUCRE1 SUCRE2 FORT MOYEN LEGER CITRON1 CITRON0 Y1 Y2 Y3 Y4 Y5 Y6 Simca-P 3.01 by Umetri AB :11 THE.M1 (PLS), régression PLS, Workset Loadings: w*c[1]/w*c[2] w*c[2] w*c[1]

93 93/198 Règle dinterprétation Les projections des variables X sur les variables Y reflètent le signe et lordre de grandeur des coefficients de régression PLS des Y sur X

94 94/198 Cas dégustation de thé Visualisation de la régression PLS de Y 1 sur X Le juge 1 aime son thé chaud et rejette le thé tiède

95 95/198 Cas dégustation de thé Visualisation de la régression PLS de Y 5 sur X Le juge 5 préfère son thé sans citron, fort; il est indifférent au thé tiède; il rejette le thé léger, avec du citron.

96 96/198 Carte des produits

97 97/198 Carte des corrélations : Biplot

98 98/198 T T CITRON0 CITRON1 LEGER MOYEN FORT SUCRE2 SUCRE1 SUCRE0 FROID TIEDE CHAUD % 15% 20% 30% 50% 70% Carte des produits et des caractéristiques Courbes de niveau du % de juges classant le produit au dessus de leurs moyennes Courbes simulées non calculées sur les données

99 99/198 Construction des courbes de niveau On utilise la carte des produits et des caractéristiques dans le plan des composantes PLS (t 1, t 2 ). Pour chaque point (t 1, t 2 ), on calcule les Y k prédits : Pour chaque point du plan (t 1, t 2 ) on détermine le % de au dessus de la moyenne. On résume tous ces pourcentages par des courbes de niveau.

100 100/198 Typologie des juges Construire une typologie des juges en utilisant la part des préférences explicables par les caractéristiques des produits. Le vecteur c k = (c 1k,c 2k,c 3k ) représente la part des préférences du juge k expliquée par les caractéristiques des produits. On construit la typologie des juges à laide des c k.

101 101/198 Typologie des juges * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E Label Num Y1 1 Y2 2 Y6 6 Y4 4 Y3 3 Y5 5

102 102/198 Régression PLS sur le premier groupe

103 103/198 Régression PLS sur la moyenne des juges du premier groupe

104 104/198 Régression PLS sur la moyenne des juges du premier groupe : modalités significatives

105 105/198 Régression PLS sur le deuxième groupe

106 106/198 Régression PLS sur la moyenne des juges du deuxième groupe

107 107/198 Régression PLS sur la moyenne des juges du deuxième groupe : modalités significatives

108 108/198 Les méthodes PLS III. Analyse discriminante PLS

109 109/198 Analyse discriminante PLS Bloc Y La variable qualitative Y est remplacée par lensemble des variables indicatrices de ses modalités. Bloc X Variables numériques ou indicatrices des modalités des variables qualitatives. Régression PLS2 de Y sur X

110 110/198 Analyse discriminante PLS : exemple Jellum E., Bjørnson I., Nesbakken R., Johanson E., Wold S. : Classification of human cancer cells by means of capillary gas chromatography and pattern recognition analysis. Journal of Chromatography, 1981

111 111/198 Analyse discriminante PLS : exemple 16 biopsies de tumeurs de cerveau humain. Chaque tumeur est classée par un médecin anatomo-pathologiste comme bénigne ou maligne. Chaque biopsie est analysée par chromatographie en phase gazeuse : on obtient un profil métabolique de la biopsie formé de 156 pics. Quelques données manquantes Les données

112 112/198 Analyse discriminante PLS Profils métaboliques des biopsies Tumeurs bénignes Tumeurs malignes

113 113/198 Analyse en composantes principales des 16 biopsies Composantes principales 1 et 2

114 114/198 Analyse en composantes principales des 16 biopsies Composantes principales 1 et 3

115 115/198 Analyse discriminante PLS Composantes PLS 1 et 2

116 116/198 Graphique des variables w*c

117 117/ Tumeur bénigne Tumeur maligne SIMCA-P /06/ :00:33 Analyse discriminante PLS Carte des variables R 2 = 0.5

118 118/198 Visualization Plots

119 119/198 Graphique des VIP

120 120/198 Validation globale 100 permutations, 2 composantes Modèle validé : Lordonnée à lorigine de la droite Q 2 < 0

121 121/198 Tableau de classification Y k >.65 Classé dans le groupe k (vert) Y k <.35 Non classé dans le groupe k (blanc).35 < Y k <.65 pas de décision (orange) MembersClass 1Class 2No classClass 1 & 2 Class Class No class00000

122 122/198 Classification des individus

123 123/198 Les méthodes PLS IV. SIMCA Soft Independent Modelling by Class Analogy

124 124/198 SIMCA (Soft Independent Modelling of Class Analogy) On réalise une analyse en composantes principales sur chaque classe h via NIPALS - Choix automatique du nombre de composantes. - Possibilité de données manquantes.

125 125/198 SIMCA (Soft Independent Modelling of Class Analogy) Calcul de la distance entre chaque individu i et le modèle ACP de la classe h. Calcul de la « probabilité » dappartenance de chaque individu à la classe h.

126 126/198 Utilisation de SIMCA sur les 16 biopsies L ACP des tumeurs bénignes conduit à 3 composantes. L ACP des tumeurs malignes conduit à 4 composantes. Le Coomans Plot permet de visualiser les distances de chaque biopsie aux deux classes.

127 127/198 Utilisation de SIMCA sur les 16 biopsies ACP des tumeurs bénignes : DModX (Classe des tumeurs bénignes)

128 128/198 Utilisation de SIMCA sur les 16 biopsies ACP des tumeurs malignes : DModX (Classe des tumeurs malignes)

129 129/198 Utilisation de SIMCA sur les 16 biopsies Coomans Plot M7(ACP Tumeurs malignes) M6(ACP Tumeurs bénignes) EGI1-M6/M7 Cooman's Plot M6-crit [3] = , Normalized distances, Non weighted residual M7-crit [4] = , Normalized distances, Non weighted residual N1 T2 T3 N4 N5 T6 T7 T8 T9 T10 T11 T12 N13 N14 N15 T16 Simca-P 7.01 by Umetri AB :20 Distance à la classe 1 Distance à la classe 2 Limite de contrôle de la classe 1 Limite de contrôle de la classe 2

130 130/198 Les « probabilités » d appartenance aux classes : « Probabilité (biopsie/classe) »

131 131/198 Les méthodes PLS V. PLS Path Modelling (Approche PLS) Modélisation de relations structurelles sur variables latentes

132 132/198 ECSI Path model for a Mobile phone provider

133 133/198 Modélisation de relations structurelles Lapproche PLS de Herman WOLD Etude dun système de relations linéaires entre variables latentes (non observables). Chaque variable latente est décrite par des variables manifestes (observables). Les données sont quantitatives ou qualitatives (pas dhypothèse de normalité). Le nombre dobservations peut être limité par rapport au nombre de variables.

134 134/198 Inégalité économique et instabilité politique (Données de Russett, 1964) Inégalité économique Inégalité agricole GINI : Inégalité dans la répartition des terres FARM : % fermiers possédant la moitié des terres (> 50%) RENT : % fermiers locataires Développement industriel GNPR : PNB par habitant ($ 1955) LABO : % d actifs dans lagriculture Instabilité politique INST : Instabilité de l exécutif (45-61) ECKS : Nb de conflits violents entre communautés (46-61) DEAT : Nb de morts dans des manifestations (50-62) D-STAB : Démocratie stable D-INS : Démocratie instable DICT : Dictature

135 135/198 Inégalité économique et instabilité politique (Données de Russett, 1964) 47 pays

136 136/198 Inégalité économique et instabilité politique GINI FARM RENT GNPR LABO Inégalité agricole (X 1 ) Développement industriel (X 2 ) ECKS DEAT D-STB D-INS INST DICT Instabilité politique (X 3 )

137 137/198 Inégalité économique et instabilité politique Le modèle Chaque variable manifeste X jh s écrit : X jh = jh h + jh Il existe une relation structurelle entre les variables latentes : Instabilité politique ( 3 ) = 1 Inégalité agricole ( 1 ) + 2 Dév. industriel ( 2 ) + résidu

138 138/198 Estimation des variables latentes par la méthode PLS (1)Estimation externe Y h de h : Y h = X h w h (2)Estimation interne Z h de h : (3)Calcul de w h : w hj = cor(Z h, X hj )

139 139/198 Inégalité économique et instabilité politique Estimation des variables latentes par la méthode PLS (1) Estimation externe Y 1 = X 1 w 1 Y 2 = X 2 w 2 Y 3 = X 3 w 3 (2) Estimation interne Z 1 = Y 3 Z 2 = -Y 3 Z 3 = Y 1 - Y 2 (3) Calcul des w h w 1j = cor(X 1j, Z 1 ) w 2j = cor(X 2j, Z 2 ) w 3j = cor(X 3j, Z 3 ) Lalgorithme On part de w 1, w 2, w 3 arbitraires. On obtient de nouveaux w h en utilisant (1) à (3). On itère jusquà convergence.

140 140/198 Utilisation de PLS-Graph de Wynne Chin

141 141/198 Résultats (Corrélation)

142 142/198 Résultats

143 143/198 Les résultats de PLS Estimation des variables latentes Y 1 Y 2 Y3Y3 Argentine Australie Autriche France Yougoslavie Régression multiple de Y 3 sur Y 1 et Y 2 R 2 = Instabilité politique =0.217 Inégalité agricole – Développement industriel (2.24) (-7.22) (t de Sudent de la régression multiple)

144 144/198 Inégalité économique et instabilité politique GINI FARM RENT GNPR LABO Inégalité agricole (X 1 ) Développement industriel (X 2 ) ECKS DEAT D-STB D-INS INST DICT Instabilité politique (X 3 ) R 2 =.618

145 145/198 Carte des pays : Y 1 = inégalité agricole, Y 2 = développement industriel

146 146/198 Utilisation de PLS-Graph

147 147/198 Utilisation de PLS-Graph Validation Bootstrap Outer Model Weights: ==================================================================== Entire Mean of Standard T-Statistic sample subsamples error estimate Inégalité agricole: gini farm rent Développement industriel: gnpr labo Instabilité politique: inst ecks demostab demoinst dictatur death ====================================================================

148 148/198 Utilisation de PLS-Graph Validation Bootstrap Outer Model Loadings: ==================================================================== Entire Mean of Standard T-Statistic sample subsamples error estimate Inégalité agricole: gini farm rent Développement industriel: gnpr labo Instabilité politique: inst ecks demostab demoinst dictatur death ====================================================================

149 149/198 PLS-Graph : Validation Bootstap Path Coefficients Table (Entire Sample Estimate): ==================================================================== Inég. Agric. Dev. Indust. Instab. Pol. Inég. Agric Dev. Indust Inst. Pol ==================================================================== Path Coefficients Table (Mean of Subsamples): ==================================================================== Inég. Agric. Dev. Indust. Instab. Pol. Inég. Agric Dev. Indust Inst. Pol ==================================================================== Path Coefficients Table (Standard Error): ==================================================================== Inég. Agric. Dev. Indust. Instab. Pol. Inég. Agric Dev. Indust Instabil ==================================================================== Path Coefficients Table (T-Statistic) ==================================================================== Inég. Agric. Dev. Indust. Instab. Pol. Inég. Agric Dev. Indust Inst. Pol ====================================================================

150 150/198 Validation de luni-dimensionalité dun bloc (Fiabilité de loutil de mesure) 1. AVE (Average Variance Explained) De et Var( ) = 1, on déduit : Règle : AVE > 50%

151 151/198 AVE

152 152/198 Validation de luni-dimensionalité dun bloc 2. Indice de concordance (Composite Reliability) De et Var( ) = 1, on déduit : Pour interpréter cet indice, il faut supposer tous les j > 0. Règle : IC >.70

153 153/198 Outer Model Loadings: ==================================================================== Original Mean of Standard T-Statistic sample subsamples error estimate In galit: (Composite Reliability = 0.883, AVE = ) gini farm rent D velopp: (Composite Reliability = 0.951, AVE = )**** gnpr labo Instabil: (Composite Reliability = 0.804, AVE = ) inst ecks death demoinst dictatur demostab ==================================================================== **** Tous les loadings sont mis en positif.

154 154/198 Validation de luni-dimensionalité dun bloc 3. Validité convergente La corrélation entre chaque variable manifeste et sa variable latente doit être supérieure à 0.7 en valeur absolue

155 155/198 Validité discriminante 1)Une variable manifeste doit être plus corrélée à sa propre variable latente quaux autres variables latentes 2)Chaque variable latente doit mieuxexpliquer ses propres variables manifestes que chaque autre variable latente :

156 156/198 AVE sur la diagonale, Cor 2 hors diagonale

157 157/198 LES CAS PARTICULIERS DE LA METHODE PLS Analyse en composantes principales Analyse factorielle multiple Analyse canonique Analyse des redondances (ACPVI) Régression PLS Analyse canonique généralisée (Horst) Analyse canonique généralisée (Carroll)

158 158/198 Les options de lalgorithme PLS Estimation externe Y j = X j w j Mode A : w jh = cor(X jh, Z j ) Mode B : w j = (X j X j ) -1 X j Z j Estimation interne Schéma centroïde e ji = signe cor(Y i,Y j ) Schéma factoriel e ji = cor(Y i,Y j ) Schéma structurel e ji = coeff. de régression dans la régression de Y j sur les Y i

159 159/198 Lalgorithme PLS général wjwj Mode A: w j = (1/n)X j ´Z j Mode B: w j = (X j ´X j ) -1 X j ´Z j Choix des poids e: Centroïde, Factoriel ou Structurel (Path weighting scheme) Étape initiale Y j = X j w j Estimation externe Y j2 Y j1 Y jm ZjZj e j1 e j2 e jm Estimation interne

160 Modification de méthodes danalyse multi-bloc pour lanalyse des modèles de causalité Mathes-Hanafi 1Mode B and Schéma factoriel Mathes-Hanafi 2 Mode B and Schéma centroïde c jk = 1 si les blocs sont reliés, = 0 sinon

161 161/198 Approche PLS : 2 blocs X1X1 X2X2

162 162/198 Approche PLS : K blocs X1X1 XKXK X1X XKXK Nouveau Déflation : sur le super-bloc seulement

163 163/198 Approche PLS Exemple dutilisation de lapproche PLS pour lanalyse de tableaux multiples (Christiane Guinot et Michel Tenenhaus) Étude des habitudes de consommation de produits cosmétiques des femmes dIle de France

164 164/198 Les produits cosmétiques ont été divisés en quatre blocs correspondant à différentes habitudes dutilisation de produits cosmétiques. Sun care Body care Face care make-up and eye make-up removers, tonic lotions, day creams, night creams exfoliation products sun protection products for face and for body after-sun products for face and for body Make -up blushers, mascaras, eye shadows, eye pencils, lipsticks, lip shiners and nail polish Les données soap, liquid soap, moisturising body cream, hand creams

165 165/198 Construction dun score global Variables manifestes Pratiques cosmétiques Variable latente (A) Score global Scores Partiels Variables latentes (B) Body care Body care Face care Face care Make-up Make-up Sun care Sun care Body care Body care Face care Face care Make-up Sun care Modèle interne : schéma centroïde

166 166/198 Propension à utiliser des produits cosmétiques Score global Résultats Face care Make -up Sun care soap body liquid soap body cream hand cream Body care make-up rem. tonic lotion eye m.up rem. day cream night cream exfoliation pdt protec face after sun face protec body after sun body blusher mascara eye shadow eye pencil lipstick nail polish Soap body liquid soap body cream hand cream make-up remover tonic lotion eye m.up remover day cream night cream exfoliation pdt blusher mascara eye shadow eye pencil lipstick nail polish sun protec. face after sun face sun protec. body after sun body Corrélations Coefficients de régression

167 167/198 Score global Score global = * soaps and toilet soaps for body care +.20 * liquid soaps for body care +.38 * moisturising body creams and milks +.25 * hand creams and milks +.21 * make-up removers +.26 * tonic lotions +.30 * eye make-up removers +.39 * moisturising day creams +.30 * moisturising night creams +.30 * exfoliation products +.26 * blushers +.41 * mascaras +.26 * eye shadows +.20 * eye pencils +.33 * lipsticks and lip shiners +.20 * nail polish +.36 * sun protection products for the face +.31 * moisturising after sun products for the face +.38 * sun protection products for the body +.34 * moisturising after sun products for the body Calcul du score global

168 168/198 Histogrammes des scores partiels Score body-care Score facial-care Score make-up Score sun-care

169 169/198 S_body-care S_facial-care S_make-up S_sun-care S_facial-care S_make-up S_sun-care S_global Histogramme du score global

170 170/198 Facteurs influençant lutilisation de produits cosmétiques On peut relier le score global dutilisation de produits cosmétiques à des caractéristiques décrivant les consommatrices : 4 Activité professionnelle et CSP 4 Enfants 4 Habitudes d exposition solaire 4 Pratiques sportives 4 Importance de l apparence physique 4 Type de peau (visage et corps) 4 Age

171 171/198 Score global en fonction des caractéristiques des consommatrices E(Score global) = * professional activity +.07 * housewife or student +.00 * retired +.27 * CSP A (craftsmen, trades people, business managers, managerial staff,academics and professionals) +.09 * CSP B (farmers and intermediary professions) +.05 * CSP C (employees and working class people) +.00 * CSP D (retired and non working people) -.21 * without child +.00 * with child +.40 * habits of deliberate exposure to sunlight +.09 * previous habits of deliberate exposure to sunlight +.00 * no habits of deliberate exposure to sunlight -.17 * no sport practised +.00 * sport practised * physical appearance is of extreme importance +.89 * physical appearance is of high importance +.50 * physical appearance is of some importance +.00 * physical appearance is of little importance -.06 * oily facial skin +.16 * combination facial skin -.20 * normal facial skin +.00 * dry facial skin -.32 * oily body skin -.57 * combination body skin -.32 * normal body skin +.00 * dry body skin -.00 * age

172 172/ E(Global score)= * professional activity +.07 * housewife or student +.00 * retired +.27 * CSP A (craftsmen, trades people, business managers, managerial staff, academics and professionals) +.09 * CSP B (farmers and intermediary professions) +.05 * CSP C (employees and working class people) +.00 * CSP D (retired and non working people) -.21 * without child +.00 * with child +.40 * habits of deliberate exposure to sunlight +.09 * previous habits of deliberate exposure to sunlight +.00 * no habits of deliberate exposure to sunlight -.17 * no sport practised +.00 * sport practised * physical appearance is of extreme importance +.89 * physical appearance is of high importance +.50 * physical appearance is of some importance +.00 * physical appearance is of little importance -.06 * oily facial skin +.16 * combination facial skin -.20 * normal facial skin +.00 * dry facial skin -.32 * oily body skin -.57 * combination body skin -.32 * normal body skin +.00 * dry body skin -.00 * age 1.06 Exemple dun bon profil

173 173/ E(Score global)= * professional activity +.07 * housewife or student +.00 * retired +.27 * CSP A (craftsmen, trades people, business managers, managerial staff, academics and professionals) +.09 * CSP B (farmers and intermediary professions) +.05 * CSP C (employees and working class people) +.00 * CSP D (retired and non working people) -.21 * without child +.00 * with child +.40 * habits of deliberate exposure to sunlight +.09 * previous habits of deliberate exposure to sunlight +.00 * no habits of deliberate exposure to sunlight -.17 * no sport practised +.00 * sport practised * physical appearance is of extreme importance +.89 * physical appearance is of high importance +.50 * physical appearance is of some importance +.00 * physical appearance is of little importance -.06 * oily facial skin +.16 * combination facial skin -.20 * normal facial skin +.00 * dry facial skin -.32 * oily body skin -.57 * combination body skin -.32 * normal body skin +.00 * dry body skin -.00 * age Exemple dun profil non cible

174 174/198 Lutilisation de lapproche PLS a permis dobtenir un score de la propension à utiliser des produits cosmétiques en équilibrant les différents types de produits cosmétiques de manière plus efficace que l analyse en composantes principales. Conclusion

175 175/198 Les méthodes PLS VI. Régression logistique PLS

176 176/198 Qualité des vins de Bordeaux Variables observées sur 34 années ( ) TEMPERATURE : Somme des températures moyennes journalières SOLEIL: Durée dinsolation CHALEUR : Nombre de jours de grande chaleur PLUIE : Hauteur des pluies QUALITE DU VIN : Bon, Moyen, Médiocre

177 177/198 Les données

178 178/198 Régression logistique ordinale PROB(Y i) = Y = Qualité : Bon (1), Moyen (2), Médiocre (3)

179 179/198 Régression logistique ordinale Résultats SAS

180 180/198 Régression logistique ordinale Qualité de prévision du modèle Résultat : 7 années mal classées

181 181/198 Régression logistique ordinale Commentaires Le modèle à pentes égales est acceptable (p = 0.572). La chaleur a une influence positive sur la qualité du vin de Bordeaux, alors quelle apparaît comme non significative et avec un coefficient négatif dans le modèle. C est un problème de multicolinéarité. Il y a 7 années mal classées.

182 182/198 Régression logistique PLS Bonne solution au problème de la multicolinéarité. Il peut y avoir beaucoup plus de variables que dobservations. Il peut y avoir des données manquantes. Présentation de deux algorithmes.

183 183/198 Algorithme 1 : La régression logistique PLS avec sélection de variables Etape 3 : Expression de la régression logistique en fonction de X. Etape 1 : Recherche de m composantes orthogonales T h = Xa h explicatives de leur propre groupe et bien prédictives de y. Le nombre m correspond au nombre de composantes significatives. Etape 2 : Régression logistique de Y sur les composantes T h.

184 184/198 Régression logistique PLS Étape 1 : Construction de T 1 1.Régression logistique de y sur chaque x j : les coefficients de régression a 1j Les coefficients de régression a 1j non significatifs sont mis à 0. Seules les variables significatives contribuent à la construction de T 1. 2.Normalisation du vecteur a 1 = (a 11,…,a 1k ) 3.Calcul de T 1 = Xa 1 4.Régression logistique de y sur T 1 =Xa 1 exprimée en fonction des X

185 185/198 Application Bordeaux Étape 1 : Construction de T 1 Les quatre régressions logistiques : La composante PLS T 1 :

186 186/198 Application Bordeaux Étape 2 : Régression logistique sur T 1 6 mal classés

187 187/198 Application Bordeaux Étape 3 : Régression logistique en fonction des X Commentaires : Ce modèle est plus cohérent au niveau des coefficients de régression que le modèle de régression logistique ordinale usuelle et conduit ici à un mal classé de moins sur léchantillon utilisé.

188 188/198 Application Bordeaux Validation Bootstrap du modèle à une composante (100 échantillons)

189 189/198 Application Bordeaux Validation Bootstrap du modèle à une composante Intervalle de confiance à 95% des coefficients Heat

190 190/198 1.Régression logistique de y sur T 1 et chaque variable x j. Pour construire T 2 on ne sélectionne que les variables x j significatives. 2.On construit les résidus x 1j des régressions des x j sélectionnés sur T 1. 3.On construit les régressions logistiques de y sur T 1 et chaque x 1j retenu. les coefficients de régression b 2j de x 1j. 4.Normalisation du vecteur b 2 = (b 21,…,b 2k´ ) 5.Calcul de a 2 tel que : T 2 = X 1 b 2 = Xa 2 6.Régression logistique de y sur T 1 = Xa 1 et T 2 = Xa 2 exprimée en fonction des X Régression logistique PLS Construction de T 2

191 191/198 Application Bordeaux Sélection des variables contribuant à la construction de T 2 Régression logistique de la qualité sur T 1 et chaque X Commentaires : En choisissant un risque de 5% on décide donc de ne conserver quune seule composante PLS.

192 192/198 Algorithme 2 Régression logistique sur composantes PLS (1)Régression PLS des indicatrices de Y sur les X. (2) Régression logistique de Y sur les composantes PLS des X.

193 193/198 Régression logistique sur les composantes PLS Résultats La température de 1924 est supposée inconnue. La régression PLS des indicatrices de Y sur X a conduit à une seule composante PLS t 1 (résultat de la validation croisée). t 1 = 0.55 Température Soleil Chaleur – 0.40 Pluie Pour lannée 1924 : t 1 = ( 0.55 Soleil Chaleur– 0.40 Pluie)/0.69

194 194/198 Utilisation de la régression PLS pour la prévision de la qualité du vin de Bordeaux The PLS Procedure Cross Validation for the Number of Latent Variables Test for larger residuals than minimum Number of Root Latent Mean Prob > Variables PRESS PRESS ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Minimum Root Mean PRESS = for 1 latent variable Smallest model with p-value > 0.1: 1 latent TABLE OF QUALITE BY PREV QUALITE PREV Frequency 1 3 Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total Résultat : 12 années mal classées Choix dune composante PLS

195 195/198 Résultats de la régression logistique de Y sur la composante PLS t 1 Résultat : 6 années mal classées

196 196/198 Régression logistique sur composantes PLS Le modèle Prob (Y i)

197 197/198 Conclusion 1: Régression logistique PLS vs régression logistique sur composantes PLS Les deux algorithmes présentés devraient avoir des qualités comparables. L algorithme 2 est beaucoup plus simple : Deux étapes : (1) Régression PLS des indicatrices de Y sur X (2)Régression logistique de Y sur les composantes PLS

198 198/198 Conclusion 2: La régression linéaire généralisée PLS La régression linéaire généralisée PLS peut être construit selon les mêmes procédures. Approche beaucoup plus simple que la méthode de Brian Marx : « Iteratively Reweighted Partial Least Square Estimation for Generalized Linear Regression », Technometrics, 1996.

199 199/198 Quelques références sur les méthodes PLS -J.-B. Lohmöller : Latent variable path modeling with partial least squares, Physica-Verlag, CHIN W.W. (2003) : PLS-Graph Users Guide, C.T. Bauer College of Business, University of Houston, Houston. -M. Tenenhaus : Lapproche PLS, R.S.A., 47 (2), 5-40, M. Tenenhaus, V. Esposito Vinzi, Y.-M. Chatelin, C. Lauro : PLS Path modeling, Computational Statistics & Data Analysis, 2005 Régression PLS - L. Eriksson, E. Johansson, N. Kettaneh-Wold & S. Wold : Multi- and Megavariate Data Analysis using Projection Methods (PCA & PLS), 2nd edition Umetrics, H. Martens & M. Martens : Multivariate Analysis of Quality, Wiley, SIMCA-P 10.0 : PLS Software, S. WOLD, UMETRI (Sweden), distribué par SIGMA PLUS, Levallois-Perret. - M. Tenenhaus : La régression PLS, Editions Technip, P. Bastien, V. Esposito Vinzi, M. Tenenhaus : PLS generalized linear regression, Computational Statistics & Data Analysis, 2005 Approche PLS (PLS Path modeling)

200 200/198 Conclusion générale « All the proofs of a pudding are in the eating, not in the cooking ». William Camden (1623)


Télécharger ppt "Les Méthodes PLS Michel Tenenhaus"

Présentations similaires


Annonces Google