La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Analyse en Composantes Principales (avec SPAD) et Classification Ascendante Hiérarchique Michel Tenenhaus.

Présentations similaires


Présentation au sujet: "1 Analyse en Composantes Principales (avec SPAD) et Classification Ascendante Hiérarchique Michel Tenenhaus."— Transcription de la présentation:

1 1 Analyse en Composantes Principales (avec SPAD) et Classification Ascendante Hiérarchique Michel Tenenhaus

2 2 Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J.-C.) extrait de lHistoire de lArt de Ernst Gombrich

3 3 1. Enquête FT sur les MBA MBA 12 caractéristiques de lécole : Women Faculty, Women Students, Women board, International Faculty, Int. Stud., Int. Board, Int. Mobility, Int. Course content, Languages, Faculty with PhD, PhD grad. Rating, Research rating 2 caractéristiques des diplômés : Salary today (weighted), Salary % increase

4 4 Extrait des données de lenquête FT sur les MBA 2001

5 Visualiser

6 Analyse factorielle (ACP) des MBA Harvard HEC * * Warwick * X 1 = % Women Faculty X 2 = % Women Student X 14 = Salary increase.

7 7 Analyse Factorielle des MBA : Carte des MBA Analyse réalisée sur les 67 premiers MBA

8 8 Analyse Factorielle des MBA Carte des caractéristiques utilisées pour lanalyse Les variables fléchées en pointillés sont illustratives.

9 9 Conclusion : HEC premier MBA non anglo-saxon

10 10 2. Les objectifs de lanalyse en composantes principales Résumer un tableau individus variables à laide dun petit nombre de facteurs. Visualiser le positionnement des individus les uns par rapport aux autres. Visualiser les corrélations entre les variables. Interpréter les facteurs.

11 11 Visualisation des données * Le tableau des données Les composantes principales (non corrélées entre elles) i 0 Y 1 (i) Y 2 (i) Le premier plan principal XjXj 0 Cor(X j,Y 1 ) Cor(X j,Y 2 ) Le carte des variables

12 12 3. Un exemple de positionnement de produits

13 13 Graphiques en étoile des voitures

14 14 4.Résumé des données Sortie SPSS Sortie SPAD

15 15 Variance des variables Dans SPSS Dans SPAD

16 16 Graphique des liaisons inter-variables (la Ferrari est représentée par un disque plein)

17 17 Tableau des corrélations Toutes les corrélations sont positives. CylindréePuissanceVitessePoidsLargeurLongueur Cylindrée Puissance Vitesse Poids Largeur Longueur Toutes les corrélations sont significatives au risque 5%

18 18 Classification ascendante hiérarchique des variables * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Single Linkage Rescaled Distance Cluster Combine C A S E Label Num cylindrée 1 òûòø puissance 2 ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø vitesse 3 òòò÷ ùòòòòòø largeur 5 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó poids 4 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòûòòòòòòòòòòòòòòòòò÷ longueur 6 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷

19 19 5. Le nuage de points associé aux données g xixi *g 0 X1X1 XpXp X2X2 FERRARI SMART N = {x 1, …, x i, …, x n } = Nuage de points associé aux données Centre de gravité du nuage N : g =

20 20 6. Inertie totale du nuage de points g xixi *g 0 X1X1 XpXp X2X2 FERRARI SMART Inertie totale = I(N, g) =

21 21 7. Réduction des données Pour neutraliser le problème des unités on remplace les données dorigine par les données centrées-réduites : de moyenne 0 et décart-type 1.

22 22 Les données centrées-réduites (SPAD) Outlier si |valeur| > 2

23 23 8. Le nuage de points associé aux données réduites Moyenne Xi*Xi* *0 X1*X1* Xp*Xp* X2*X2* FERRARI * SMART * N * = {x 1 *, …, x i *, …, x n * } Centre de gravité : g * = 0, Inertie totale : I(N *, 0) = p Variance

24 24 9. Premier axe principal 1 *0 X1*X1* Xp*Xp* X2*X2* 1 Objectif 1 : On cherche laxe 1 passant le mieux possible au milieu du nuage N *. On cherche à minimiser linertie du nuage N * par rapport à laxe 1 : xi*xi* yiyi u1u1 *

25 25 Premier axe principal 1 *0 X1*X1* Xp*Xp* X2*X2* 1 Objectif 2 : On cherche laxe dallongement 1 du nuage N *. On cherche à maximiser linertie du nuage N * projeté sur laxe 1 : xi*xi* yiyi

26 26 Les objectifs 1 et 2 sont atteints simultanément X1*X1* Xp*Xp* X2*X2* * 0 xi*xi* yiyi De : on déduit : Inertie totale = p Inertie expliquée par 1 Inertie résiduelle = + 1 Maximiser Minimiser

27 27 Résultats Laxe 1 passe par le centre de gravité 0 du nuage de points N *. Laxe 1 est engendré par le vecteur normé u 1, vecteur propre de la matrice des corrélations R associé à la plus grande valeur propre 1. Linertie expliquée par laxe 1 est égal à 1. La part dinertie expliquée par le premier axe principal 1 est égal à 1 /p.

28 28 Résultat SPAD

29 29 Résultat SPAD Les vecteurs propres Normalisation : … = 1

30 Première composante principale Y 1 1 *0 X1*X1* Xp*Xp* X2*X2* xi*xi* yiyi u1u1 * Y 1 (i) Y 1 est une nouvelle variable définie pour chaque individu i par : Y 1 (i)= longueur algébrique du segment 0y i =coordonnée de y i sur laxe 1 =produit scalaire entre les vecteurs x i * et u 1 = Y 1 = Smart Y 1 (1) = -4.15

31 31 Résultats SPAD DISTO = d 2 (x i *, 0) Carré de la

32 32 Corrélations entre les variables et les composantes principales Dans SPSS : Component Matrix

33 33 Propriétés de la première composante principale Y 1 Y 1 = u 11 X 1 * + u 12 X 2 * + … + u 1p X p * Moyenne de Y 1 = 0 Variance de Y 1 = Inertie expliquée par 1 = 1 Cor(X j, Y 1 ) =

34 34 Inertie totale = 6 Inertie expliquée par le premier axe principal = 1 = Part dinertie expliquée par le premier axe principal : La première composante principale explique 73,5% de la variance totale. Qualité de la première composante principale

35 35 11.Deuxième axe principal xi*xi* Y 1 (i) Y 2 (i) aiai

36 36 Résultats On recherche le deuxième axe principal 2 orthogonal à 1 et passant le mieux possible au milieu du nuage. Il passe par le centre de gravité 0 du nuage de points et est engendré par le vecteur normé u 2, vecteur propre de la matrice des corrélations R associé à la deuxième plus grande valeur propre 2. La deuxième composante principale Y 2 est définie par projection des points sur le deuxième axe principal. La deuxième composante principale Y 2 est centrée, de variance 2, et non corrélée à la première composante principale Y 1.

37 37 Le premier plan principal

38 38 Le cercle des corrélations

39 39 Qualité globale de lanalyse Inertie totale = variance totale = p Part de variance expliquée par la première composante principale = Part de variance expliquée par la deuxième composante principale = Part de variance expliquée par les deux premières composantes principales = Et ainsi de suite pour les autres dimensions...

40 Le biplot Les échelles doivent être identiques sur les deux axes. Le cercle des variables doit être un cercle.

41 41 Interprétation du biplot La répartition des projections des individus i sur laxe variable X j reflète les valeurs x ij Les coordonnées des individus i sont les valeurs des composantes principales : [Y 1 (i), Y 2 (i)]. Les coordonnées des variables X j sont les vecteurs propres multipliés par une certaine constante, par exemple 2 : (2u 1j, 2u 2j ).

42 42 Justification : la formule de reconstitution u1u1 0 Y 1 (i) aiai xi*xi* Y 2 (i) u2u2 x i * a i = Y 1 (i)u 1 + Y 2 (i)u 2 De on déduit x ij * Y 1 (i)u 1j + Y 2 (i)u 2j = = Coordonnée de la projection de lindividu i sur laxe variable X j

43 43 Axe 1 Axe 2 XjXj * i u 1j u 2j y 1i y 2i Justification de la lecture du bi-plot 0 A ij

44 44 13.Exemple des races canines

45 45 Le tableau disjonctif complet x ijl = 1 si lindividu i possède la modalité l de la variable j = 0 sinon

46 46 ACP du tableau disjonctif complet

47 Utilisation de SPSS Les données centrées-réduites (SPSS) Outlier si |valeur| > 2

48 48 Résultats SPSS : Les facteurs

49 49 Propriétés des facteurs de SPSS Lien entre les composantes principales et les facteurs de SPSS Calcul des facteurs de SPSS en fonction des variables (X j * ) SPSS Tableau des w h Les facteurs de SPSS sont les composantes principales réduites.

50 Construction dune typologie des individus Rechercher des groupes dindividus homogènes dans la population : -Deux individus appartenant au même groupe sont proches. -Deux individus appartenant à des groupes différents sont éloignés. Construire une partition de la population en groupes homogènes et différents les uns des autres. On réalise la typologie au choix (1)sur les données centrées-réduites, (2)sur les premières composantes principales (SPAD), (3)sur les premières composantes principales réduites (les facteurs de SPSS).

51 51 Construction dune typologie des individus * * * * * * * * * * * * o * o o o o o o o o o o o o Fabrication de groupes à partir de données uniformément réparties o o o o o o o o * * * * * * * Données structurées en trois groupes

52 52 Dendrogramme x x x 19 groups18 groups17 groups16 groups15 groups14 groups 8 groups 9 groups 7 groups 6 groups 5 groups 4 groups 3 groups 2 groups 1 group Choosing the cutting level Definition of the clusters

53 53 (1)(1)(3)(3)(4)(4)(2)(2)(5)(5) Individu dorigine indice Dendrogramme noeud 6 noeud 7 noeud 9 noeud 8

54 54 Classification ascendante hiérarchique (Méthode de Ward) X1*X1* X2*X2* Xp*Xp* ** * * * * g2g2 ** * * * * g1g1 ** * * * * g3g3 ** * * * Distance de Ward : D(G i, G j ) = * * * * * * * * * * n i = effectif de la classe G i

55 55 Tableau des distances entre les voitures D Ward (Citroën C2, Nissan Micra) =

56 56 Classification Ascendante Hiérarchique Étape initiale Chaque individu forme une classe. On regroupe les deux individus les plus proches. Étape courante A chaque étape, on regroupe les deux classes G i et G j minimisant le critère de Ward D(G i, G j ).

57 57 * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Ward Method

58 58 Construction de la classification hiérarchique sur les données centrées-réduites par SPSS

59 59 Interprétation de la typologie G46 (10) Toute la population (G47) D(G 45,G 46 ) = D(G 43,G 44 ) = G45 (14) D(G 2,G 42 ) = G2 (1)G42 (13) G43 (7) G44 (3) D(G 2,G 42 ) = G19 (1) G38 (2) D(G 23,G 40 ) = G23 (1) G40 (6)

60 60 Décomposition de la somme des carrés totale * * * * X1*X1* X2*X2* Xp*Xp* * * * * g2g2 ** * * * * g1g1 ** * * * * g3g3 * * * * g Somme des carrés totale = (n-1)*p Somme des carrés inter-classes Somme des carrés intra-classes =+

61 61 Résultats SPSS : Somme des carrés intra-classes Somme des carrés totale = p*(n-1) Somme des carrés intra-classes pour la typologie en K=2 classes Qualité de la typologie en 2 classes : ( )/138 = Qualité de la typologie en K classes : (138 - Coeff[n-K])/138 Coefficient : Somme des carrés intra-classes de la typologie en K classes Distance de Ward(1,4) Groupe contenant 1

62 62 Qualité des typologies * * distance de Ward entre les groupes fusionnés = (S.C. Intra) = (S.C. Inter)

63 63 Qualité de la typologie en K classes La somme des carrés expliquée par la typologie en K classes est égale à la somme des carrés inter- classes de la typologie en K classes. La qualité de la typologie est mesurée par la proportion de la somme des carrés totale expliquée par la typologie.

64 64 La typologie en 5 groupes explique 81,27 % de la S.C. totale G42 G2 G43 G19 G44 Choix du nombre de groupes

65 65 Premier plan factoriel et typologie Facteur Facteur Nissan X-Trail 2.2 d Land Rover Discovery Land Rover Defender VW Touran Renault Scenic Ferrari Enzo Bentley Continental Aston Martin Vanquish Audi TT 1.8T BMW Z4 2.5i Citroën C3 Mercedes Classe S BMW 745i Jaguar S-Type 2.7 V6 BMW 530d Mercedes Classe C Peugeot V6 Peugeot 307 Audi A3 1.9 Renault Clio 3.0 V6 Nissan Micra Mini Smart Fortwo Coupé Citroën C2

66 66 Interprétation des classes

67 67 16.C.A.H. des variables Les données de Kendall

68 68

69 69 Tableau des corrélations One of the questions of interest here is how the variables cluster, in the sense that some of the qualities may be correlated or confused in the judges mind. (There was no purpose in clustering the candidates - only one was to be chosen).

70 70 Classification Ascendante Hiérarchique des variables Méthode des plus proches voisins A chaque étape, on fusionne les deux groupes G i et G j maximisant : o o oo o * * * * * On fusionne G2 et G3. G1 G2 G3

71 71 Classification Ascendante Hiérarchique des variables * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Single Linkage (VOISINS LES PLUS PROCHES)

72 72 Classification Ascendante Hiérarchique des variables Méthode des voisins les plus éloignés A chaque étape, on fusionne les deux groupes G i et G j maximisant : o o oo o * * * * * On fusionne G1 et G2. G1 G2 G3 ++

73 73 Classification Ascendante Hiérarchique des variables * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Complete Linkage (VOISINS LES PLUS ELOIGNES)

74 74 Bloc 1 Les corrélations sont toutes positives.

75 75 Bloc 2 Bloc 3

76 76 Interprétation des blocs Bloc 1 : Qualités humaines favorables au poste Appearance, Self-confidence, Lucidity, Salesmanship, Drive, Ambition, Grasp, Potential Bloc 2 : Qualités de franchise et de communication Likeability, Honesty, Keenness to join Bloc 3 : Expérience Form of letter of application, Experience, Suitability Bloc 4 : Diplôme Academic ability


Télécharger ppt "1 Analyse en Composantes Principales (avec SPAD) et Classification Ascendante Hiérarchique Michel Tenenhaus."

Présentations similaires


Annonces Google