Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parLucienne Jean Modifié depuis plus de 10 années
1
Analyse Factorielle et Classification Ascendante Hiérarchique Michel Tenenhaus
2
Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. -C
Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J.-C.) extrait de l’Histoire de l’Art de Ernst Gombrich
3
1. Enquête FT sur les MBA 2001 100 MBA
12 caractéristiques de l’école : Women Faculty, Women Students, Women board, International Faculty, Int. Stud., Int. Board, Int. Mobility, Int. Course content, Languages, Faculty with PhD, PhD grad. Rating, Research rating 2 caractéristiques des diplômés : Salary today (weighted), Salary % increase
4
Extrait des données de l’enquête FT sur les MBA 2001
5
Analyse Factorielle des MBA : Carte des MBA
Analyse réalisée sur les 67 premiers MBA
6
Analyse Factorielle des MBA Carte des caractéristiques utilisées pour l’analyse
Les variables fléchées en pointillés sont illustratives.
7
Conclusion : HEC troisième MBA non anglo-saxon
8
Décrire un tableau individusvariables :
2. Les objectifs de l’analyse factorielle (option composantes principales) Décrire un tableau individusvariables : - Résumer le tableau à l’aide d’un petit nombre de facteurs - Visualiser le positionnement des individus les uns par rapport aux autres - Visualiser les corrélations entre les variables - Interpréter les facteurs
9
Visualisation des données
F2(i) * F1(i) Le plan factoriel Xj Cor(Xj,F2) Cor(Xj,F1) Tableau des données Facteurs centrés-réduits résumant les données (non corrélés entre eux) La carte des variables
10
3. Un exemple de positionnement de produits
11
Graphiques en étoile des voitures
12
Formule utilisée pour l’écart-type :
4. Résumé des données Formule utilisée pour l’écart-type :
13
Tableau des corrélations
Cylindrée Puissance Vitesse Poids Largeur Longueur Cylindrée 1.000 0.954 0.885 0.692 0.706 0.664 Puissance 0.954 1.000 0.934 0.529 0.730 0.527 Vitesse 0.885 0.934 1.000 0.466 0.619 0.578 Poids 0.692 0.529 0.466 1.000 0.477 0.795 Largeur 0.706 0.730 0.619 0.477 1.000 0.591 Longueur 0.664 0.527 0.578 0.795 0.591 1.000 Toutes les corrélations sont positives. Toutes les corrélations sont significatives au risque 5%
14
5. Réduction des données Pour neutraliser le problème des unités on remplace les données d’origine par les données centrées-réduites : Ces nouvelles variables ont une moyenne 0 et un écart-type 1.
15
Les données centrées-réduites
Outlier si |valeur| > 2
16
Construction d’un scores résumant les données
Score = Somme des variables centrées-réduites. Ce score a un sens car toutes les corrélations sont positives.
17
Qualité du score comme résumé des données
Somme des carrés des corrélations = …+.8102 = La variance totale des données centrées-réduites est la somme des variances, soit 6. La part de la variance totale expliquée par le score est égale à la somme des carrés des corrélations, soit Le score explique la proportion /6 = 73,46% de la variance totale.
18
6. Recherche du premier facteur
On recherche le facteur centré-réduit (moyenne = 0, écart-type = 1) maximisant le critère « Part de la variance totale expliquée par F1 » Le facteur F1 résume aussi bien que possible le tableau de données X.
19
Résultats Le vecteur u1 est vecteur propre (eigenvector) de la matrice des corrélations R associé à la plus grande valeur propre (eigenvalue) 1. Le critère est égal à 1.
20
Résultat SPSS : Les vecteurs propres uh
21
Résultats SPSS : Les facteurs
22
Corrélations entre les variables et les facteurs
23
Résultat SPSS : Valeurs propres
1 = 4.411 Somme des valeurs propres = Nombre de X = p
24
Score et premier facteur
25
Propriétés du premier facteur F1
F1 = u11X1* + u12X2* + … + u1pXp* Moyenne de F1 = 0 Variance de F1 = 1 Cor(Xj, F1) = 1u1j
26
Mesure de la qualité du premier facteur F1
La variance totale du tableau des données centrées-réduites est définie par : La part de la variance de Xj* expliquée par F1 est égale à Cor2(Xj, F1). La part de la variance totale expliquée par F1 est égale à :
27
Qualité du premier facteur
Variance totale = p = 6 Variance expliquée par le premier facteur 1 = 4.411 Proportion de variance expliquée par le premier facteur : Le premier facteur explique 73,521% de la variance totale.
28
7. Deuxième facteur F2 On recherche le deuxième facteur centré-réduit
non corrélé à F1 et résumant au mieux le tableau X. Le facteur F2 maximise sous la contrainte cor(F1,F2) = 0.
29
Résultats Le vecteur u2 est vecteur propre de la matrice des corrélations R associé à la deuxième plus grande valeur propre 2. F2 = u21X1* + u22X2* + … + u2pXp* F2 est centré-réduit Cor(Xj, F2) = 2u2j
30
Le deuxième facteur F2 u2 Cor(Xj,F2)
31
Exemple Auto 2004 : Le premier plan factoriel
Familiales (14,2%) 3 Land Rover Discovery 2 Nissan X-Trail 2.2 d Jaguar S-Type 2.7 V6 1 Volkswagen Touran Land Rover Defender Mercedes Classe S Peugeot V6 Renault Scenic 1.9 d Mercedes Classe C BMW 745i Grosses Voitures (73,5%) Petites Voitures Peugeot HDI BMW 530d Bentley Continental Audi A3 1.9 TDI Citroën C3 Pluriel Nissan Micra 1.2 Audi TT 1.8T 180 Aston Martin Vanquish BMW Z4 2.5i Citroën C2 1.1 -1 Mini Renault Clio 3.0 V6 -2 Smart Fortwo Coupé Facteur 2 Ferrari Enzo Le plan explique 87,7% de la variance totale -3 -2 -1 1 2 3 Sportives Facteur 1
32
Longueur d’une flèche = R(Xj ; F1, F2)
La carte des variables Component 1 [Cor(X1 , F1)] 1.0 .5 0.0 -.5 -1.0 Component 2 [Cor(Xj , F2)] longueur largeur poids Vitesse Puissance cylindrée Longueur d’une flèche = R(Xj ; F1, F2)
33
Mesure de la qualité des deux premiers facteurs F1 et F2
La variance totale du tableau des données centrées-réduites est définie par : La part de la variance de Xj* expliquée par F1 et F2 est égale à R2(Xj; F1, F2) = Cor2(Xj, F1) + Cor2(Xj,F2), car Cor(F1, F2) = 0. La part de la variance totale expliquée par F1 et F2 est égale à :
34
Qualité globale de l’analyse
- Variance totale = p - Proportion de variance expliquée par le facteur = - Proportion de variance expliquée par le facteur = - Proportion de variance expliquée par les facteurs 1 et 2 = Et ainsi de suite pour les autres dimensions...
35
8. Exemple des races canines
36
Le tableau disjonctif complet
xijl = si l’individu i possède la modalité l de la variable j = sinon
37
Analyse factorielle du tableau disjonctif complet Modalités au barycentre des chiens la possédant
38
9. Construction d’une typologie des individus
Rechercher des groupes d’individus homogènes dans la population : - Deux individus appartenant au même groupe sont proches - Deux individus appartenant à des groupes différents sont éloignés Construire une partition de la population en groupes homogènes et différents les uns des autres.
39
Construction d’une typologie des individus
+ * o * * o o * o o * o * o o * o o * o o * * * * o o o * * + o o + * * + + + + + * + + + + + + + + + + + Fabrication de groupes à partir de données uniformément réparties Données structurées en trois groupes
40
Choosing the “cutting” level
Dendrogramme 6 groups 7 groups 5 groups 4 groups 2 groups 3 groups 8 groups 9 groups 14 groups 19 groups 17 groups 18 groups 16 groups 15 groups 1 group Choosing the “cutting” level x Definition of the clusters
41
Dendrogramme (1) (3) (4) (2) (5) Individu d’origine indice noeud 9
42
Classification ascendante hiérarchique (Méthode de Ward)
Xp* * g2 * g1 * * * * * * * * * * * g3 * X2* * * * * X1* Distance de Ward : D(Gi, Gj) = ni = effectif de la classe Gi
43
Tableau des distances entre les voitures
DWard(Citroën C2, Nissan Micra) =
44
Classification Ascendante Hiérarchique
Étape initiale Chaque individu forme une classe. On regroupe les deux individus les plus proches. Étape courante A chaque étape, on regroupe les deux classes Gi et Gj minimisant le critère de Ward D(Gi, Gj).
45
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
Dendrogram using Ward Method 64.184 26.294
46
Construction de la classification hiérarchique sur les données centrées-réduites (résultats fournis par SPAD) Numéro Ainé Benjamin Nb d'éléments terminaux du noeud Distance de Ward 25 4 1 2 0.013 26 24 21 0.054 27 20 6 0.087 28 10 8 0.101 29 11 3 0.122 30 15 16 0.129 31 7 14 0.266 32 0.284 33 9 0.404 34 12 13 0.527 35 5 0.580 36 0.805 37 1.012 38 18 17 1.266 39 22 1.520 40 3.628 41 4.320 42 5.330 43 23 5.403 44 19 10.661 45 11.012 46 26.294 47 64.184 Somme des distances de Ward
47
Interprétation de la typologie
Toute la population (G47) D(G45,G46) = G46 (10) G45 (14) D(G43,G44) = D(G2,G42) = G43 (7) G44 (3) G2 (1) G42 (13) D(G2,G42) = D(G23,G40) = 5.403 G23 (1) G40 (6) G19 (1) G38 (2)
48
Décomposition de la somme des carrés totale
Xp* * * * * g1 * g2 * * * * * * g * X2* * * * g3 * * * X1* * Somme des carrés totale = (n-1)*p Somme des carrés inter-classes Somme des carrés intra-classes = +
49
Résultats SPSS : Somme des carrés intra-classes
Coefficient : Somme des carrés intra-classes de la typologie en K classes Résultats SPSS : Somme des carrés intra-classes Distance de Ward(1,4) Qualité de la typologie en K classes : (138 - Coeff[n-K])/138 Qualité de la typologie en 2 classes : ( )/138 = 0.465 Somme des carrés intra-classes pour la typologie en K=2 classes Somme des carrés totale = p*(n-1) Groupe contenant 1
50
Qualité des typologies
* * distance de Ward entre les groupes fusionnés = (S.C. Intra)
51
Qualité de la typologie en K classes
La somme des carrés expliquée par la typologie en K classes est égale à la somme des carrés inter-classes de la typologie en K classes. La qualité de la typologie est mesurée par la proportion de la somme des carrés totale expliquée par la typologie.
52
Choix du nombre de groupes
La typologie en 5 groupes explique 81,27 % de la S.C. totale G42 G2 G43 G44 G19
53
Premier plan factoriel et typologie
3 2 Land Rover Discovery Jaguar S-Type 2.7 V6 1 Mercedes Classe S Nissan X-Trail 2.2 d VW Touran Peugeot V6 BMW 745i Land Rover Defender Renault Scenic BMW 530d Mercedes Classe C Bentley Continental Peugeot 307 Audi A3 1.9 Citroën C3 Nissan Micra Audi TT 1.8T Aston Martin Vanquish Citroën C2 BMW Z4 2.5i -1 Mini Renault Clio 3.0 V6 Smart Fortwo Coupé -2 Facteur 2 Ferrari Enzo -3 -2 -1 1 2 3 Facteur 1
54
Interprétation des classes
55
C.A.H. des variables Les données de Kendall
57
Tableau des corrélations
One of the questions of interest here is how the variables cluster, in the sense that some of the qualities may be correlated or confused in the judge’s mind. (There was no purpose in clustering the candidates - only one was to be chosen).
58
Classification Ascendante Hiérarchique des variables
Méthode des plus proches voisins A chaque étape, on fusionne les deux groupes Gi et Gj maximisant : G1 o o * * o o G2 * * o * + + On fusionne G2 et G3. + + + + + + + G3
59
Classification Ascendante Hiérarchique des variables
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Single Linkage (VOISINS LES PLUS PROCHES)
60
Classification Ascendante Hiérarchique des variables
Méthode des voisins les plus éloignés A chaque étape, on fusionne les deux groupes Gi et Gj maximisant : G1 o o * * o o G2 * * o * + + On fusionne G1 et G2. + + + + + + + + + G3
61
Classification Ascendante Hiérarchique des variables
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Complete Linkage (VOISINS LES PLUS ELOIGNES)
62
Bloc 1 Les corrélations sont toutes positives.
63
Bloc 2 Bloc 3
64
Interprétation des blocs
Bloc 1 : Qualités humaines favorables au poste Appearance, Self-confidence, Lucidity, Salesmanship, Drive, Ambition, Grasp, Potential Bloc 2 : Qualités de franchise et de communication Likeability, Honesty, Keenness to join Bloc 3 : Expérience Form of letter of application, Experience, Suitability Bloc 4 : Diplôme Academic ability
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.