Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parArnaude Pasquet Modifié depuis plus de 10 années
1
Analyse Factorielle et Classification Ascendante Hiérarchique Michel Tenenhaus
2
Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. -C
Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J.-C.) extrait de l’Histoire de l’Art de Ernst Gombrich
3
1. Enquête FT sur les MBA 2001 100 MBA
12 caractéristiques de l’école : Women Faculty, Women Students, Women board, International Faculty, Int. Stud., Int. Board, Int. Mobility, Int. Course content, Languages, Faculty with PhD, PhD grad. Rating, Research rating 2 caractéristiques des diplômés : Salary today (weighted), Salary % increase
4
Extrait des données de l’enquête FT sur les MBA 2001
5
Analyse Factorielle des MBA : Carte des MBA
Analyse réalisée sur les 67 premiers MBA
6
Analyse Factorielle des MBA Carte des caractéristiques utilisées pour l’analyse
Les variables fléchées en pointillés sont illustratives.
7
Conclusion : HEC troisième MBA non anglo-saxon
8
Décrire un tableau individusvariables :
2. Les objectifs de l’analyse factorielle (option composantes principales) Décrire un tableau individusvariables : - Visualiser le positionnement des individus les uns par rapport aux autres - Visualiser les corrélations entre les variables - Interpréter les axes factoriels
9
Visualisation des données
F2(i) * F1(i) Le plan factoriel Xj Cor(Xj,F2) Cor(Xj,F1) Tableau des données Facteurs centrés-réduits résumant les données (non corrélés entre eux) La carte des variables
10
3. Un exemple de positionnement de produits
11
Graphiques en étoile des voitures
12
Formule utilisée pour l’écart-type :
4. Résumé des données Formule utilisée pour l’écart-type :
13
Tableau des corrélations
Toutes les corrélations sont positives.
14
5. Réduction des données Pour neutraliser le problème des unités on remplace les données d’origine par les données centrées-réduites : de moyenne 0 et d’écart-type 1.
15
Les données centrées-réduites
16
6. Recherche du premier facteur
On recherche le facteur centré-réduit (moyenne = 0, écart-type = 1) maximisant le critère « Part de la variance totale expliquée par F1 » Le facteur F1 résume aussi bien que possible le tableau de données X.
17
Résultats Le vecteur u1 est vecteur propre (eigenvector) de la matrice des corrélations R associé à la plus grande valeur propre (eigenvalue) 1. Le critère est égal à 1.
18
Résultat SPSS : Les vecteurs propres uh
19
Résultats SPSS : Les facteurs
20
Corrélations entre les variables et les facteurs
21
Résultat SPSS : Valeurs propres
Somme des valeurs propres = Nombre de X = p
22
Propriétés du premier facteur F1
F1 = u11X1* + u12X2* + … + u1pXp* Moyenne de F1 = 0 Variance de F1 = 1 Cor(Xj, F1) = 1u1j
23
Mesure de la qualité du premier facteur F1
La variance totale du tableau des données centrées-réduites est définie par : La part de la variance de Xj* expliquée par F1 est égale à Cor2(Xj, F1). La part de la variance totale expliquée par F1 est égale à :
24
Qualité du premier facteur
Variance totale = p = 6 Variance expliquée par le premier facteur 1 = 4.411 Proportion de variance expliquée par le premier facteur : Le premier facteur explique 73,521% de la variance totale.
25
7. Deuxième facteur F2 On recherche le deuxième facteur centré-réduit
non corrélé à F1 et résumant au mieux le tableau X. Le facteur F2 maximise sous la contrainte cor(F1,F2) = 0.
26
Résultats Le vecteur u2 est vecteur propre de la matrice des corrélations R associé à la deuxième plus grande valeur propre 2. F2 = u21X1* + u22X2* + … + u2pXp* F2 est centré-réduit Cor(Xj, F2) = 2u2j
27
Le deuxième facteur F2 u2 Cor(Xj,F2)
28
Exemple Auto 2004 : Le premier plan factoriel
Familiales (14,2%) 3 Land Rover Discovery 2 Nissan X-Trail 2.2 d Jaguar S-Type 2.7 V6 1 Volkswagen Touran Land Rover Defender Mercedes Classe S Peugeot V6 Renault Scenic 1.9 d Mercedes Classe C BMW 745i Grosses Voitures (73,5%) Petites Voitures Peugeot HDI BMW 530d Bentley Continental Audi A3 1.9 TDI Citroën C3 Pluriel Nissan Micra 1.2 Audi TT 1.8T 180 Aston Martin Vanquish BMW Z4 2.5i Citroën C2 1.1 -1 Mini Renault Clio 3.0 V6 -2 Smart Fortwo Coupé Facteur 2 Ferrari Enzo Le plan explique 87,7% de la variance totale -3 -2 -1 1 2 3 Sportives Facteur 1
29
Longueur d’une flèche = R(Xj ; F1, F2)
La carte des variables Component 1 [Cor(X1 , F1)] 1.0 .5 0.0 -.5 -1.0 Component 2 [Cor(Xj , F2)] longueur largeur poids Vitesse Puissance cylindrée Longueur d’une flèche = R(Xj ; F1, F2)
30
Mesure de la qualité des deux premiers facteurs F1 et F2
La variance totale du tableau des données centrées-réduites est définie par : La part de la variance de Xj* expliquée par F1 et F2 est égale à R2(Xj; F1, F2) = Cor2(Xj, F1) + Cor2(Xj,F2), car Cor(F1, F2) = 0. La part de la variance totale expliquée par F1 et F2 est égale à :
31
Qualité globale de l’analyse
- Variance totale = p - Proportion de variance expliquée par le facteur = - Proportion de variance expliquée par le facteur = - Proportion de variance expliquée par les facteurs 1 et 2 = Et ainsi de suite pour les autres dimensions...
32
8. Exemple des races canines
33
Le tableau disjonctif complet
xijl = si l’individu i possède la modalité l de la variable j = sinon
34
Analyse factorielle du tableau disjonctif complet Modalités au barycentre des chiens la possédant
35
9. Construction d’une typologie des individus
Rechercher des groupes d’individus homogènes dans la population : - Deux individus appartenant au même groupe sont proches - Deux individus appartenant à des groupes différents sont éloignés Construire une partition de la population en groupes homogènes et différents les uns des autres.
36
Construction d’une typologie des individus
+ * o * * o o * o o * o * o o * o o * o o * * * * o o o * * + o o + * * + + + + + * + + + + + + + + + + + Fabrication de groupes à partir de données uniformément réparties Données structurées en trois groupes
37
Choosing the “cutting” level
Dendrogramme 6 groups 7 groups 5 groups 4 groups 2 groups 3 groups 8 groups 9 groups 14 groups 19 groups 17 groups 18 groups 16 groups 15 groups 1 group Choosing the “cutting” level x Definition of the clusters
38
Dendrogramme (1) (3) (4) (2) (5) Individu d’origine indice noeud 9
39
Classification ascendante hiérarchique (Méthode de Ward)
Xp* * g2 * g1 * * * * * * * * * * * g3 * X2* * * * * X1* Distance de Ward : D(Gi, Gj) = ni = effectif de la classe Gi
40
Tableau des distances entre les voitures
DWard(Citroën C2, Nissan Micra) =
41
Classification Ascendante Hiérarchique
Étape initiale Chaque individu forme une classe. On regroupe les deux individus les plus proches. Étape courante A chaque étape, on regroupe les deux classes Gi et Gj minimisant le critère de Ward D(Gi, Gj).
42
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
Dendrogram using Ward Method 64.184 26.294
43
Construction de la classification hiérarchique sur les données centrées-réduites (résultats fournis par SPAD)
44
Interprétation de la typologie
Toute la population (G47) D(G45,G46) = G46 (10) G45 (14) D(G43,G44) = D(G2,G42) = G43 (7) G44 (3) G2 (1) G42 (13) D(G2,G42) = D(G23,G40) = 5.403 G23 (1) G40 (6) G19 (1) G38 (2)
45
Décomposition de la somme des carrés totale
Xp* * * * * g1 * g2 * * * * * * g * X2* * * * g3 * * * X1* * Somme des carrés totale = (n-1)*p Somme des carrés inter-classes Somme des carrés intra-classes = +
46
Résultats SPSS : Somme des carrés intra-classes
Coefficient : Somme des carrés intra-classes de la typologie en K classes Résultats SPSS : Somme des carrés intra-classes Distance de Ward(1,4) Qualité de la typologie en K classes : (138 - Coeff[n-K])/138 Qualité de la typologie en 2 classes : ( )/138 = 0.465 Somme des carrés intra-classes pour la typologie en K=2 classes Somme des carrés totale = p*(n-1) Groupe contenant 1
47
Qualité des typologies
* * distance de Ward entre les groupes fusionnés = (S.C. Intra)
48
Qualité de la typologie en K classes
La somme des carrés expliquée par la typologie en K classes est égale à la somme des carrés inter-classes de la typologie en K classes. La qualité de la typologie est mesurée par la proportion de la somme des carrés totale expliquée par la typologie.
49
Choix du nombre de groupes
La typologie en 5 groupes explique 81,27 % de la S.C. totale G42 G2 G43 G44 G19
50
Premier plan factoriel et typologie
3 2 Land Rover Discovery Jaguar S-Type 2.7 V6 1 Mercedes Classe S Nissan X-Trail 2.2 d VW Touran Peugeot V6 BMW 745i Land Rover Defender Renault Scenic BMW 530d Mercedes Classe C Bentley Continental Peugeot 307 Audi A3 1.9 Citroën C3 Nissan Micra Audi TT 1.8T Aston Martin Vanquish Citroën C2 BMW Z4 2.5i -1 Mini Renault Clio 3.0 V6 Smart Fortwo Coupé -2 Facteur 2 Ferrari Enzo -3 -2 -1 1 2 3 Facteur 1
51
Interprétation des classes
52
C.A.H. des variables Les données de Kendall
54
Tableau des corrélations
One of the questions of interest here is how the variables cluster, in the sense that some of the qualities may be correlated or confused in the judge’s mind. (There was no purpose in clustering the candidates - only one was to be chosen).
55
Classification Ascendante Hiérarchique des variables
Méthode des plus proches voisins A chaque étape, on fusionne les deux groupes Gi et Gj maximisant : G1 o o * * o o G2 * * o * + + On fusionne G2 et G3. + + + + + + + G3
56
Classification Ascendante Hiérarchique des variables
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Single Linkage (VOISINS LES PLUS PROCHES)
57
Classification Ascendante Hiérarchique des variables
Méthode des voisins les plus éloignés A chaque étape, on fusionne les deux groupes Gi et Gj maximisant : G1 o o * * o o G2 * * o * + + On fusionne G1 et G2. + + + + + + + + + G3
58
Classification Ascendante Hiérarchique des variables
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Complete Linkage (VOISINS LES PLUS ELOIGNES)
59
Bloc 1 Les corrélations sont toutes positives.
60
Bloc 2 Bloc 3
61
Interprétation des blocs
Bloc 1 : Qualités humaines favorables au poste Appearance, Self-confidence, Lucidity, Salesmanship, Drive, Ambition, Grasp, Potential Bloc 2 : Qualités de franchise et de communication Likeability, Honesty, Keenness to join Bloc 3 : Expérience Form of letter of application, Experience, Suitability Bloc 4 : Diplôme Academic ability
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.