Analyse Factorielle et Classification Ascendante Hiérarchique Michel Tenenhaus
Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. -C Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J.-C.) extrait de l’Histoire de l’Art de Ernst Gombrich
1. Enquête FT sur les MBA 2001 100 MBA 12 caractéristiques de l’école : Women Faculty, Women Students, Women board, International Faculty, Int. Stud., Int. Board, Int. Mobility, Int. Course content, Languages, Faculty with PhD, PhD grad. Rating, Research rating 2 caractéristiques des diplômés : Salary today (weighted), Salary % increase
Extrait des données de l’enquête FT sur les MBA 2001
Analyse Factorielle des MBA : Carte des MBA Analyse réalisée sur les 67 premiers MBA
Analyse Factorielle des MBA Carte des caractéristiques utilisées pour l’analyse Les variables fléchées en pointillés sont illustratives.
Conclusion : HEC troisième MBA non anglo-saxon
Décrire un tableau individusvariables : 2. Les objectifs de l’analyse factorielle (option composantes principales) Décrire un tableau individusvariables : - Visualiser le positionnement des individus les uns par rapport aux autres - Visualiser les corrélations entre les variables - Interpréter les axes factoriels
Visualisation des données F2(i) * F1(i) Le plan factoriel Xj Cor(Xj,F2) Cor(Xj,F1) Tableau des données Facteurs centrés-réduits résumant les données (non corrélés entre eux) La carte des variables
3. Un exemple de positionnement de produits
Graphiques en étoile des voitures
Formule utilisée pour l’écart-type : 4. Résumé des données Formule utilisée pour l’écart-type :
Tableau des corrélations Toutes les corrélations sont positives.
5. Réduction des données Pour neutraliser le problème des unités on remplace les données d’origine par les données centrées-réduites : de moyenne 0 et d’écart-type 1.
Les données centrées-réduites
6. Recherche du premier facteur On recherche le facteur centré-réduit (moyenne = 0, écart-type = 1) maximisant le critère « Part de la variance totale expliquée par F1 » Le facteur F1 résume aussi bien que possible le tableau de données X.
Résultats Le vecteur u1 est vecteur propre (eigenvector) de la matrice des corrélations R associé à la plus grande valeur propre (eigenvalue) 1. Le critère est égal à 1.
Résultat SPSS : Les vecteurs propres uh
Résultats SPSS : Les facteurs
Corrélations entre les variables et les facteurs
Résultat SPSS : Valeurs propres Somme des valeurs propres = Nombre de X = p
Propriétés du premier facteur F1 F1 = u11X1* + u12X2* + … + u1pXp* Moyenne de F1 = 0 Variance de F1 = 1 Cor(Xj, F1) = 1u1j
Mesure de la qualité du premier facteur F1 La variance totale du tableau des données centrées-réduites est définie par : La part de la variance de Xj* expliquée par F1 est égale à Cor2(Xj, F1). La part de la variance totale expliquée par F1 est égale à :
Qualité du premier facteur Variance totale = p = 6 Variance expliquée par le premier facteur 1 = 4.411 Proportion de variance expliquée par le premier facteur : Le premier facteur explique 73,521% de la variance totale.
7. Deuxième facteur F2 On recherche le deuxième facteur centré-réduit non corrélé à F1 et résumant au mieux le tableau X. Le facteur F2 maximise sous la contrainte cor(F1,F2) = 0.
Résultats Le vecteur u2 est vecteur propre de la matrice des corrélations R associé à la deuxième plus grande valeur propre 2. F2 = u21X1* + u22X2* + … + u2pXp* F2 est centré-réduit Cor(Xj, F2) = 2u2j
Le deuxième facteur F2 u2 Cor(Xj,F2)
Exemple Auto 2004 : Le premier plan factoriel Familiales (14,2%) 3 Land Rover Discovery 2 Nissan X-Trail 2.2 d Jaguar S-Type 2.7 V6 1 Volkswagen Touran Land Rover Defender Mercedes Classe S Peugeot 407 3.0 V6 Renault Scenic 1.9 d Mercedes Classe C BMW 745i Grosses Voitures (73,5%) Petites Voitures Peugeot 307 1.4 HDI BMW 530d Bentley Continental Audi A3 1.9 TDI Citroën C3 Pluriel Nissan Micra 1.2 Audi TT 1.8T 180 Aston Martin Vanquish BMW Z4 2.5i Citroën C2 1.1 -1 Mini 1.6 170 Renault Clio 3.0 V6 -2 Smart Fortwo Coupé Facteur 2 Ferrari Enzo Le plan explique 87,7% de la variance totale -3 -2 -1 1 2 3 Sportives Facteur 1
Longueur d’une flèche = R(Xj ; F1, F2) La carte des variables Component 1 [Cor(X1 , F1)] 1.0 .5 0.0 -.5 -1.0 Component 2 [Cor(Xj , F2)] longueur largeur poids Vitesse Puissance cylindrée Longueur d’une flèche = R(Xj ; F1, F2)
Mesure de la qualité des deux premiers facteurs F1 et F2 La variance totale du tableau des données centrées-réduites est définie par : La part de la variance de Xj* expliquée par F1 et F2 est égale à R2(Xj; F1, F2) = Cor2(Xj, F1) + Cor2(Xj,F2), car Cor(F1, F2) = 0. La part de la variance totale expliquée par F1 et F2 est égale à :
Qualité globale de l’analyse - Variance totale = p - Proportion de variance expliquée par le facteur 1 = - Proportion de variance expliquée par le facteur 2 = - Proportion de variance expliquée par les facteurs 1 et 2 = Et ainsi de suite pour les autres dimensions...
8. Exemple des races canines
Le tableau disjonctif complet xijl = 1 si l’individu i possède la modalité l de la variable j = 0 sinon
Analyse factorielle du tableau disjonctif complet Modalités au barycentre des chiens la possédant
9. Construction d’une typologie des individus Rechercher des groupes d’individus homogènes dans la population : - Deux individus appartenant au même groupe sont proches - Deux individus appartenant à des groupes différents sont éloignés Construire une partition de la population en groupes homogènes et différents les uns des autres.
Construction d’une typologie des individus + * o * * o o * o o * o * o o * o o * o o * * * * o o o * * + o o + * * + + + + + * + + + + + + + + + + + Fabrication de groupes à partir de données uniformément réparties Données structurées en trois groupes
Choosing the “cutting” level Dendrogramme 6 groups 7 groups 5 groups 4 groups 2 groups 3 groups 8 groups 9 groups 14 groups 19 groups 17 groups 18 groups 16 groups 15 groups 1 group Choosing the “cutting” level x Definition of the clusters
Dendrogramme (1) (3) (4) (2) (5) Individu d’origine indice noeud 9
Classification ascendante hiérarchique (Méthode de Ward) Xp* * g2 * g1 * * * * * * * * * * * g3 * X2* * * * * X1* Distance de Ward : D(Gi, Gj) = ni = effectif de la classe Gi
Tableau des distances entre les voitures DWard(Citroën C2, Nissan Micra) =
Classification Ascendante Hiérarchique Étape initiale Chaque individu forme une classe. On regroupe les deux individus les plus proches. Étape courante A chaque étape, on regroupe les deux classes Gi et Gj minimisant le critère de Ward D(Gi, Gj).
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Ward Method 64.184 26.294
Construction de la classification hiérarchique sur les données centrées-réduites (résultats fournis par SPAD)
Interprétation de la typologie Toute la population (G47) D(G45,G46) = 64.184 G46 (10) G45 (14) D(G43,G44) = 26.294 D(G2,G42) = 11.012 G43 (7) G44 (3) G2 (1) G42 (13) D(G2,G42) = 10.661 D(G23,G40) = 5.403 G23 (1) G40 (6) G19 (1) G38 (2)
Décomposition de la somme des carrés totale Xp* * * * * g1 * g2 * * * * * * g * X2* * * * g3 * * * X1* * Somme des carrés totale = (n-1)*p Somme des carrés inter-classes Somme des carrés intra-classes = +
Résultats SPSS : Somme des carrés intra-classes Coefficient : Somme des carrés intra-classes de la typologie en K classes Résultats SPSS : Somme des carrés intra-classes Distance de Ward(1,4) Qualité de la typologie en K classes : (138 - Coeff[n-K])/138 Qualité de la typologie en 2 classes : (138 - 73.816)/138 = 0.465 Somme des carrés intra-classes pour la typologie en K=2 classes Somme des carrés totale = p*(n-1) Groupe contenant 1
Qualité des typologies * * distance de Ward entre les groupes fusionnés = (S.C. Intra)
Qualité de la typologie en K classes La somme des carrés expliquée par la typologie en K classes est égale à la somme des carrés inter-classes de la typologie en K classes. La qualité de la typologie est mesurée par la proportion de la somme des carrés totale expliquée par la typologie.
Choix du nombre de groupes La typologie en 5 groupes explique 81,27 % de la S.C. totale G42 G2 G43 G44 G19
Premier plan factoriel et typologie 3 2 Land Rover Discovery Jaguar S-Type 2.7 V6 1 Mercedes Classe S Nissan X-Trail 2.2 d VW Touran Peugeot 407 3.0 V6 BMW 745i Land Rover Defender Renault Scenic BMW 530d Mercedes Classe C Bentley Continental Peugeot 307 Audi A3 1.9 Citroën C3 Nissan Micra Audi TT 1.8T Aston Martin Vanquish Citroën C2 BMW Z4 2.5i -1 Mini 1.6 170 Renault Clio 3.0 V6 Smart Fortwo Coupé -2 Facteur 2 Ferrari Enzo -3 -2 -1 1 2 3 Facteur 1
Interprétation des classes
C.A.H. des variables Les données de Kendall
Tableau des corrélations One of the questions of interest here is how the variables cluster, in the sense that some of the qualities may be correlated or confused in the judge’s mind. (There was no purpose in clustering the candidates - only one was to be chosen).
Classification Ascendante Hiérarchique des variables Méthode des plus proches voisins A chaque étape, on fusionne les deux groupes Gi et Gj maximisant : G1 o o * * o o G2 * * o * + + On fusionne G2 et G3. + + + + + + + G3
Classification Ascendante Hiérarchique des variables * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Single Linkage (VOISINS LES PLUS PROCHES)
Classification Ascendante Hiérarchique des variables Méthode des voisins les plus éloignés A chaque étape, on fusionne les deux groupes Gi et Gj maximisant : G1 o o * * o o G2 * * o * + + On fusionne G1 et G2. + + + + + + + + + G3
Classification Ascendante Hiérarchique des variables * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Complete Linkage (VOISINS LES PLUS ELOIGNES)
Bloc 1 Les corrélations sont toutes positives.
Bloc 2 Bloc 3
Interprétation des blocs Bloc 1 : Qualités humaines favorables au poste Appearance, Self-confidence, Lucidity, Salesmanship, Drive, Ambition, Grasp, Potential Bloc 2 : Qualités de franchise et de communication Likeability, Honesty, Keenness to join Bloc 3 : Expérience Form of letter of application, Experience, Suitability Bloc 4 : Diplôme Academic ability