La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Analyse Factorielle et Classification Ascendante Hiérarchique Michel Tenenhaus.

Présentations similaires


Présentation au sujet: "1 Analyse Factorielle et Classification Ascendante Hiérarchique Michel Tenenhaus."— Transcription de la présentation:

1 1 Analyse Factorielle et Classification Ascendante Hiérarchique Michel Tenenhaus

2 2 Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J.-C.) extrait de lHistoire de lArt de Ernst Gombrich

3 3 1. Enquête FT sur les MBA MBA 12 caractéristiques de lécole : Women Faculty, Women Students, Women board, International Faculty, Int. Stud., Int. Board, Int. Mobility, Int. Course content, Languages, Faculty with PhD, PhD grad. Rating, Research rating 2 caractéristiques des diplômés : Salary today (weighted), Salary % increase

4 4 Extrait des données de lenquête FT sur les MBA 2001

5 5 Analyse Factorielle des MBA : Carte des MBA Analyse réalisée sur les 67 premiers MBA

6 6 Analyse Factorielle des MBA Carte des caractéristiques utilisées pour lanalyse Les variables fléchées en pointillés sont illustratives.

7 7 Conclusion : HEC troisième MBA non anglo-saxon

8 8 2. Les objectifs de lanalyse factorielle (option composantes principales) Décrire un tableau individus variables : -Visualiser le positionnement des individus les uns par rapport aux autres -Visualiser les corrélations entre les variables -Interpréter les axes factoriels

9 9 Visualisation des données * Tableau des données Facteurs centrés-réduits résumant les données (non corrélés entre eux) i 0 F 1 (i) F 2 (i) Le plan factoriel XjXj 0 Cor(X j,F 1 ) Cor(X j,F 2 ) La carte des variables

10 10 3. Un exemple de positionnement de produits

11 11 Graphiques en étoile des voitures

12 12 4.Résumé des données Formule utilisée pour lécart-type :

13 13 Tableau des corrélations Toutes les corrélations sont positives.

14 14 5. Réduction des données Pour neutraliser le problème des unités on remplace les données dorigine par les données centrées-réduites : de moyenne 0 et décart-type 1.

15 15 Les données centrées-réduites

16 16 6. Recherche du premier facteur On recherche le facteur centré-réduit (moyenne = 0, écart-type = 1) maximisant le critère « Part de la variance totale expliquée par F 1 » Le facteur F 1 résume aussi bien que possible le tableau de données X.

17 17 Résultats Le vecteur u 1 est vecteur propre (eigenvector) de la matrice des corrélations R associé à la plus grande valeur propre (eigenvalue) 1. Le critère est égal à 1.

18 18 Résultat SPSS : Les vecteurs propres u h

19 19 Résultats SPSS : Les facteurs

20 20 Corrélations entre les variables et les facteurs

21 21 Résultat SPSS : Valeurs propres Somme des valeurs propres = Nombre de X = p

22 22 Propriétés du premier facteur F 1 F 1 = u 11 X 1 * + u 12 X 2 * + … + u 1p X p * Moyenne de F 1 = 0 Variance de F 1 = 1 Cor(X j, F 1 ) = 1 u 1j

23 23 La variance totale du tableau des données centrées-réduites est définie par : La part de la variance de X j * expliquée par F 1 est égale à Cor 2 (X j, F 1 ). La part de la variance totale expliquée par F 1 est égale à : Mesure de la qualité du premier facteur F 1

24 24 Variance totale = p = 6 Variance expliquée par le premier facteur 1 = Proportion de variance expliquée par le premier facteur : Le premier facteur explique 73,521% de la variance totale. Qualité du premier facteur

25 25 7.Deuxième facteur F 2 On recherche le deuxième facteur centré-réduit non corrélé à F 1 et résumant au mieux le tableau X. Le facteur F 2 maximise sous la contrainte cor(F 1,F 2 ) = 0.

26 26 Résultats Le vecteur u 2 est vecteur propre de la matrice des corrélations R associé à la deuxième plus grande valeur propre 2. F 2 = u 21 X 1 * + u 22 X 2 * + … + u 2p X p * F 2 est centré-réduit Cor(X j, F 2 ) = 2 u 2j

27 27 Le deuxième facteur F 2 u2u2 Cor(X j,F 2 )

28 28 Exemple Auto 2004 : Le premier plan factoriel Facteur Facteur Smart Fortwo Coupé Citroën C2 1.1 Nissan Micra 1.2 Peugeot HDI Citroën C3 Pluriel Mini Audi A3 1.9 TDI Land Rover Defender Renault Scenic 1.9 d Audi TT 1.8T 180 Volkswagen Touran Nissan X-Trail 2.2 d BMW Z4 2.5i Renault Clio 3.0 V6 Mercedes Classe C Peugeot V6 Jaguar S-Type 2.7 V6 BMW 530d Land Rover Discovery BMW 745i Mercedes Classe S Aston Martin Vanquish Bentley Continental Ferrari Enzo Grosses Voitures (73,5%) Petites Voitures Sportives Familiales (14,2%) Le plan explique 87,7% de la variance totale

29 29 Component 1 [Cor(X 1, F 1 )] Component 2 [Cor(X j, F 2 )] longueur largeur poids Vitesse Puissance cylindrée Longueur dune flèche = R(X j ; F 1, F 2 ) La carte des variables

30 30 La variance totale du tableau des données centrées-réduites est définie par : La part de la variance de X j * expliquée par F 1 et F 2 est égale à R 2 (X j ; F 1, F 2 ) = Cor 2 (X j, F 1 ) + Cor 2 (X j,F 2 ), car Cor(F 1, F 2 ) = 0. La part de la variance totale expliquée par F 1 et F 2 est égale à : Mesure de la qualité des deux premiers facteurs F 1 et F 2

31 31 Qualité globale de lanalyse - Variance totale = p - Proportion de variance expliquée par le facteur 1 = - Proportion de variance expliquée par le facteur 2 = - Proportion de variance expliquée par les facteurs 1 et 2 = Et ainsi de suite pour les autres dimensions...

32 32 8.Exemple des races canines

33 33 Le tableau disjonctif complet x ijl = 1 si lindividu i possède la modalité l de la variable j = 0 sinon

34 34 Analyse factorielle du tableau disjonctif complet Modalités au barycentre des chiens la possédant

35 35 9. Construction dune typologie des individus Rechercher des groupes dindividus homogènes dans la population : -Deux individus appartenant au même groupe sont proches -Deux individus appartenant à des groupes différents sont éloignés Construire une partition de la population en groupes homogènes et différents les uns des autres.

36 36 Construction dune typologie des individus * * * * * * * * * * * * o * o o o o o o o o o o o o Fabrication de groupes à partir de données uniformément réparties o o o * * * o o o o o * * * * Données structurées en trois groupes

37 37 Dendrogramme x x x 19 groups18 groups17 groups16 groups15 groups14 groups 8 groups 9 groups 7 groups 6 groups 5 groups 4 groups 3 groups 2 groups 1 group Choosing the cutting level Definition of the clusters

38 38 (1)(1)(3)(3)(4)(4)(2)(2)(5)(5) Individu dorigine indice Dendrogramme noeud 6 noeud 7 noeud 9 noeud 8

39 39 Classification ascendante hiérarchique (Méthode de Ward) X1*X1* X2*X2* Xp*Xp* ** * * * * g2g2 ** * * * * g1g1 ** * * * * g3g3 ** * * * Distance de Ward : D(G i, G j ) = * * * * * * * * * * n i = effectif de la classe G i

40 40 Tableau des distances entre les voitures D Ward (Citroën C2, Nissan Micra) =

41 41 Classification Ascendante Hiérarchique Étape initiale Chaque individu forme une classe. On regroupe les deux individus les plus proches. Étape courante A chaque étape, on regroupe les deux classes G i et G j minimisant le critère de Ward D(G i, G j ).

42 42 * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Ward Method

43 43 Construction de la classification hiérarchique sur les données centrées-réduites (résultats fournis par SPAD)

44 44 Interprétation de la typologie G46 (10) Toute la population (G47) D(G 45,G 46 ) = D(G 43,G 44 ) = G45 (14) D(G 2,G 42 ) = G2 (1)G42 (13) G43 (7) G44 (3) D(G 2,G 42 ) = G19 (1) G38 (2) D(G 23,G 40 ) = G23 (1) G40 (6)

45 45 Décomposition de la somme des carrés totale * * * * X1*X1* X2*X2* Xp*Xp* * * * * g2g2 ** * * * * g1g1 ** * * * * g3g3 * * * * g Somme des carrés totale = (n-1)*p Somme des carrés inter-classes Somme des carrés intra-classes =+

46 46 Résultats SPSS : Somme des carrés intra-classes Somme des carrés totale = p*(n-1) Somme des carrés intra-classes pour la typologie en K=2 classes Qualité de la typologie en 2 classes : ( )/138 = Qualité de la typologie en K classes : (138 - Coeff[n-K])/138 Coefficient : Somme des carrés intra-classes de la typologie en K classes Distance de Ward(1,4) Groupe contenant 1

47 47 Qualité des typologies * * distance de Ward entre les groupes fusionnés = (S.C. Intra)

48 48 Qualité de la typologie en K classes La somme des carrés expliquée par la typologie en K classes est égale à la somme des carrés inter- classes de la typologie en K classes. La qualité de la typologie est mesurée par la proportion de la somme des carrés totale expliquée par la typologie.

49 49 La typologie en 5 groupes explique 81,27 % de la S.C. totale G42 G2 G43 G19 G44 Choix du nombre de groupes

50 50 Premier plan factoriel et typologie Facteur Facteur Nissan X-Trail 2.2 d Land Rover Discovery Land Rover Defender VW Touran Renault Scenic Ferrari Enzo Bentley Continental Aston Martin Vanquish Audi TT 1.8T BMW Z4 2.5i Citroën C3 Mercedes Classe S BMW 745i Jaguar S-Type 2.7 V6 BMW 530d Mercedes Classe C Peugeot V6 Peugeot 307 Audi A3 1.9 Renault Clio 3.0 V6 Nissan Micra Mini Smart Fortwo Coupé Citroën C2

51 51 Interprétation des classes

52 52 10.C.A.H. des variables Les données de Kendall

53 53

54 54 Tableau des corrélations One of the questions of interest here is how the variables cluster, in the sense that some of the qualities may be correlated or confused in the judges mind. (There was no purpose in clustering the candidates - only one was to be chosen).

55 55 Classification Ascendante Hiérarchique des variables Méthode des plus proches voisins A chaque étape, on fusionne les deux groupes G i et G j maximisant : o o oo o * * * * * On fusionne G2 et G3. G1 G2 G3

56 56 Classification Ascendante Hiérarchique des variables * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Single Linkage (VOISINS LES PLUS PROCHES)

57 57 Classification Ascendante Hiérarchique des variables Méthode des voisins les plus éloignés A chaque étape, on fusionne les deux groupes G i et G j maximisant : o o oo o * * * * * On fusionne G1 et G2. G1 G2 G3 ++

58 58 Classification Ascendante Hiérarchique des variables * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Complete Linkage (VOISINS LES PLUS ELOIGNES)

59 59 Bloc 1 Les corrélations sont toutes positives.

60 60 Bloc 2 Bloc 3

61 61 Interprétation des blocs Bloc 1 : Qualités humaines favorables au poste Appearance, Self-confidence, Lucidity, Salesmanship, Drive, Ambition, Grasp, Potential Bloc 2 : Qualités de franchise et de communication Likeability, Honesty, Keenness to join Bloc 3 : Expérience Form of letter of application, Experience, Suitability Bloc 4 : Diplôme Academic ability


Télécharger ppt "1 Analyse Factorielle et Classification Ascendante Hiérarchique Michel Tenenhaus."

Présentations similaires


Annonces Google