Utilisation des modèles à équations structurelles en analyse sensorielle Michel Tenenhaus
Exemple des Jus d’orange (J. Pagès) X1 = Instrumental, X2 = Sensoriel, Y = Hédonique
Modélisation de relations structurelles sur variables latentes Etude d’un système de relations linéaires entre variables latentes (non observables). Chaque variable latente est décrite par des variables manifestes (observables). Les données sont quantitatives ou qualitatives (la normalité n’est pas obligatoire). Le nombre d’observations peut être limité par rapport au nombre de variables.
Exemple jus d’orange sur un groupe de juges homogènes Modèle de mesure Modèle structurel Glucose Fructose Saccharose Pouvoir sucrant pH brut pH après centrifugation Titre Acide citrique Vitamine C Physico-chimique w11 Variable latente exogène w12 1 21 w19 w32 Juge 2 Juge 3 Juge 96 2 w33 1 w396 Variable latente endogène Intensité odeur Typicité odeur Caractère pulpeux Intensité du goût Caractère acide Caractère amer Caractère sucré w21 Hédonique 22 1 w22 w27 Sensoriel Variable manifeste
A SEM tree SEM Generalized Structured Component Analysis (ALS) Component-based SEM (Score computation) Covariance-based SEM (CSA) (Model validation) R. McDonald(1996) M. Tenenhaus (2001) C. Ringle SMART-PLS Chatelin-Esposito Vinzi Fahmy-Jäger-Tenenhaus XLSTAT-PLSPM (2007) W. Chin PLS-Graph Herman Wold NIPALS (1966) PLS approach (1975) J.-B. Lohmöller LVPLS 1.8 (1984) H. Hwang Y. Takane GSCA (2004) VisualGSCA 1.0 (2007) K. Joreskog (LISREL, 1970) Generalized Structured Component Analysis (ALS) Svante Wold Harald Martens PLS regression (1983) SIMCA-P The Unscrambler
Algorithme PLS (Mode A, Schéma centroïde) Z1=Y2+Y3 (estimation interne) Glucose Fructose Saccharose Pouvoir sucrant pH brut pH après centrifugation Titre Acide citrique Vitamine C Y1=Xw1 (estimation externe) w11 w12 w19 w21 w22 w27 w32 w33 w396 w11= Cor(glucose,Z1) 1 w12= Cor(fructose,Z1) 21 Juge 2 Juge 3 Juge 96 w19= Cor(vitamine C,Z1) w32= Cor(juge2,Z3) 2 1 w33= Cor(juge3,Z3) w3,96= Cor(juge96,Z3) Intensité odeur Typicité odeur Caractère pulpeux Intensité du goût Caractère acide Caractère amer Caractère sucré Y3=Xw3 w21= Cor(int. odeur,Z2) 22 1 Z3=Y1+Y2 w22= Cor(typ. odeur,Z2) w27= Cor(Sucré,Z2) Y2=Xw2 Itérer jusqu’à convergence. Z2=Y1+Y3
LES CAS PARTICULIERS DE LA METHODE PLS Analyse en composantes principales Analyse factorielle multiple Analyse canonique Analyse des redondances (ACPVI) Régression PLS Analyse canonique généralisée (Horst) Analyse canonique généralisée (Carroll) Analyse de la co-inertie multiple (Chessel & Hanafi) etc.…
Utilisation de XLSTAT-PLSPM
Poids externe w
Poids externe w
Corrélation VM-VL
Corrélation VM-VL
Utilisation de XLSTAT-PLSPM Variables latentes =========================================================== Physico-chimique Sensorielle Hédonique ----------------------------------------------------------- Fruivita réfrigéré 0.917 0.964 1.253 Tropicana réfrigéré 0.630 1.378 0.946 Tropicana ambiant 1.120 0.462 0.742 Pampryl réfrigéré -0.176 -0.570 -0.747 Joker ambiant -1.680 -0.852 -0.991 Pampryl ambiant -0.810 -1.381 -1.203
Utilisation de XLSTAT-PLSPM
Modèle estimé par PLS : modèle interne et corrélations Fructose Saccharose Glucose Pouvoir sucrant .93 -.89 Vitamine C -.89 pH brut .1 .95 -. 19 pH après centrifugation .94 x 1 .306 (t = .28) -. 97 Titre -. 98 >0 Juge 2, Juge 3, M x Acide citrique .820 >0 3 (t = 3.17) >0 Intensité odeur Juge 96 .41 .713 (t = .67) Typicité odeur . 98 R 2 = 0.96 .71 x Caractère pulpeux 2 .97 -.64 Intensité du goût - .93 -.95 Caractère sucré Caractère acide Caractère amer Variables non significatives en rouge
Estimation du modèle interne par régression PLS On peut prendre en compte la corrélation entre les variables instrumentales et sensorielles en utilisant la régression PLS : R2 = 0.936
Covariance-based Structural Equation Modeling Variables latentes : Modèle structurel (modèle interne) : Ici :
Structural Equation Modeling Modèle de mesure (modèle externe) : VM VL VM VL Exogène Endogène
Structural Equation Modeling Intégration des modèles structurel et de mesure : Forme réduite Les matrices de covariance des résidus sont diagonales.
Structural Equation Modeling Matrice de covariance des variables manifestes : Variance des résidus structurels Variance des résidus mesure Modèle externe Modèle interne Cov. des VL exo.
Covariance-based SEM S = Matrice de covariance observée pour les VM Algorithme ULS (Unweighted Least Squares) : S = Matrice de covariance observée pour les VM Généralisation de l’ACP Goodness-of-fit Index (Jöreskog & Sorbum):
Use of AMOS 6.0 Method = ULS First Roderick McDonald’s idea (1996) This is a computational trick: Residual variances are passed to errors and can always be computed afterwards. First Roderick McDonald’s idea (1996) Measurement residual variances are canceled:
Covariance-based SEM ULS algorithm with the McDonald’s constraints: S = Observed covariance matrix for MV Goodness-of-fit Index (Jöreskog & Sorbum):
Use of AMOS 6.0 - Method = ULS - Measurement residual variances = 0
Results GFI = .903 Outer LV Estimates: 2nd McDonald’s idea PLS estimate of LV: Mode A LV inner estimate = theoretical LV LV inner estimate computation is useless.
Variables non significatives en rouge. Poids fixé a priori en bleu. Modèle estimé par SEM-ULS : modèle interne et coefficient de régression Fructose Saccharose Glucose Pouvoir sucrant .89 -.76 Vitamine C -.77 pH brut .22 1 -. 08 pH après centrifugation 1.00 x 1 .22 (P = .35) -. 87 Titre -. 88 >0 Juge 2, Juge 3, M x Acide citrique .79 >0 3 (P = .01) >0 Intensité odeur Juge 96 .26 .64 (P = .05) Typicité odeur . 94 R 2 = 0.96 .66 x Caractère pulpeux 2 1 -.56 Intensité du goût - .94 -.97 Caractère sucré Caractère acide Caractère amer Variables non significatives en rouge. Poids fixé a priori en bleu.
Utilisation de SEM-ULS Estimation des variables latentes (McDonald) =========================================================== Physico-chimique Sensorielle Hédonique ----------------------------------------------------------- Fruivita réfrigéré 0.915 0.866 1.141 Tropicana réfrigéré 0.526 1.270 0.868 Tropicana ambiant 0.832 0.422 0.672 Pampryl réfrigéré -0.158 -0.526 -0.686 Joker ambiant -1.740 -0.774 -0.867 Pampryl ambiant -0.375 -1.258 -1.127
Comparaison des scores PLS vs SEM-ULS
Second particular case : Multi-block data analysis
Sensory analysis of 21 Loire Red Wines (J. Pagès) 3 Appellations 4 Soils 4 blocks of variables X1 X2 X3 X4 Illustrative variable X1 = Smell at rest, X2 = View, X3 = Smell after shaking, X4 = Tasting
PCA of each block: Correlation loadings
PCA of each block: Correlation loadings GFI = .301
GFI = .849 Multi-block data analysis = Confirmatory Factor Analysis VIEW SMELL AT REST SMELL AFTER SHAKING TASTING GFI = .849
First dimension Using MV with significant loadings
First global score 2nd order CFA GFI = .973
Validation of the first dimension Correlations Rest1 View Shaking1 Tasting1 Rest1 1 View .621 1 Shaking1 .865 .762 1 Tasting1 .682 .813 .895 1 Score1 .813 .920 .942 .944
Second dimension
2nd global score GFI = .905
Validation of the second dimension Correlations Rest2 Shaking2 Tasting2 Rest2 1 Shaking2 .789 1 Tasting2 .782 .803 1 Score2 .944 .904 .928
Mapping of the correlations with the global scores Score 2 unrelated with quality Score 1 related with quality
Correlation with global quality New result. Not obtained with other multi-block data analysis methods, nor with factor analysis of the whole data.
Wine visualization in the global score space Wines marked by Appellation
Wine visualization in the global score space Wines marked by Soil
Visualization of wine variability among the blocks 3,50 3,25 3,00 2,75 2,50 2,25 3,0 2,8 2,6 2,4 2,2 2,0 GLOBAL SCORE Tasting Smell after shaking View Smell at rest 2DAM Visualization of wine variability among the blocks Star-plot of the “best wine” – 2DAM SAUMUR DAM = Dampierre-sur-Loire
Cuvée Lisagathe 1995 A soft, warm, blackberry nose. A good core of fruit on the palate with quite well worked tannin and acidity on the finish; Good length and a lot of potential. DECANTER (mai 1997) (DECANTER AWARD ***** : Outstanding quality, a virtually perfect example)
Conclusion 1: SEM-ULS > PLS When mode A is chosen, outer LV estimates using Covariance-based SEM (ULS or ML) or Component based SEM (PLS) are always very close. It is possible to mimic PLS with a covariance-based SEM software (McDonald,1996, Tenenhaus, 2001). Covariance-based SEM authorizes to implement constraints on the model parameters. This is impossible with PLS.
Conclusion 2: PLS > SEM-ULS When SEM-ULS does not converge or does not give an admissible solution, PLS is an attractive alternative. PLS offers many optimization criterions for the LV search (but rigorous proofs are still to be found). PLS still works when the number of MV is very high and the number of cases very small (for example 60 MV and 6 cases). PLS allows to use formative LV in a much easier way than SEM-ULS.
Final conclusion William Camden (1623) « All the proofs of a pudding are in the eating, not in the cooking ». William Camden (1623)