Analyse en Composantes Principales (avec SPAD) et Classification Ascendante Hiérarchique Michel Tenenhaus.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Marché Publicitaire de la Presse Professionnelle
Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
Licence pro MPCQ : Cours
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
11 Welcome to Québec City! Name of your Group Tuesday, November 17, 2009.
International Telecommunication Union Accra, Ghana, June 2009 Relationship between contributions submitted as input by the African region to WTSA-08,
Les numéros 70 –
Les numéros
Les identités remarquables
Le, la, les words Possessive Adjectives MINE!!. 2 My in french is mon, ma,mes... Le word/ begins with a vowel: Mon La word: Ma Les word: Mes.
Sirop de Liège « industriel »
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
LA RÉGRESSION MULTIPLE
Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. -C
Analyse des proximités, des préférences et typologie Michel Tenenhaus.
Analyse Factorielle des Correspondances
Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. -C
Analyse discriminante
Analyse de la variance à deux facteurs (données déséquilibrées) Michel Tenenhaus.
La régression simple Michel Tenenhaus
Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.
Révision (p. 130, texte) Nombres (1-100).
La législation formation, les aides des pouvoirs publics
1 7 Langues niveaux débutant à avancé. 2 Allemand.
La méthodologie………………………………………………………….. p3 Les résultats
Jack Jedwab Association détudes canadiennes Le 27 septembre 2008 Sondage post-Olympique.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Présentation générale
L’indicateur de développement humain
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
Le drapeau canadien comme symbole de fierté nationale : une question de valeurs partagées Jack Jedwab Association détudes canadiennes 28 novembre 2012.
Le Concours de Conaissance Francais I novembre 2012.
Titre : Implémentation des éléments finis sous Matlab
Les nombres.
Les quartiers Villeray – La Petite-Patrie et les voisinages
Tableaux de distributions
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
LES NOMBRES PREMIERS ET COMPOSÉS
CLL11 : chlorambucil (CLB) versus CLB + rituximab (R)
Logiciel gratuit à télécharger à cette adresse :
Les chiffres & les nombres
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
Calculs et écritures fractionnaires
RACINES CARREES Définition Développer avec la distributivité Produit 1
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Les Nombres 0 – 100 en français.
Aire d’une figure par encadrement
Écart moyen et écart type
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Certains droits réservés pour plus d’infos, cliquer sur l’icône.
Nom:____________ Prénom: ___________
Annexe Résultats provinciaux comparés à la moyenne canadienne
EGALITE PROFESSIONNELLE ENTRE LES FEMMES ET LES HOMMES
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Transcription de la présentation:

Analyse en Composantes Principales (avec SPAD) et Classification Ascendante Hiérarchique Michel Tenenhaus

Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. -C Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J.-C.) extrait de l’Histoire de l’Art de Ernst Gombrich

1. Enquête FT sur les MBA 2001 100 MBA 12 caractéristiques de l’école : Women Faculty, Women Students, Women board, International Faculty, Int. Stud., Int. Board, Int. Mobility, Int. Course content, Languages, Faculty with PhD, PhD grad. Rating, Research rating 2 caractéristiques des diplômés : Salary today (weighted), Salary % increase

Extrait des données de l’enquête FT sur les MBA 2001

Visualiser

Analyse factorielle (ACP) des MBA X14 = Salary increase . HEC  * 2 Harvard   *    *  1    X2 = % Women Student    Warwick X1 = % Women Faculty

Analyse Factorielle des MBA : Carte des MBA Analyse réalisée sur les 67 premiers MBA

Analyse Factorielle des MBA Carte des caractéristiques utilisées pour l’analyse Les variables fléchées en pointillés sont illustratives.

Conclusion : HEC premier MBA non anglo-saxon

2. Les objectifs de l’analyse en composantes principales Résumer un tableau individusvariables à l’aide d’un petit nombre de facteurs. Visualiser le positionnement des individus les uns par rapport aux autres. Visualiser les corrélations entre les variables. Interpréter les facteurs.

Visualisation des données Y1(i) Y2(i) Le premier plan principal * Xj Cor(Xj,Y2) Cor(Xj,Y1) Le tableau des données Les composantes principales (non corrélées entre elles) Le carte des variables

3. Un exemple de positionnement de produits

Graphiques en étoile des voitures

4. Résumé des données Sortie SPSS Sortie SPAD

Variance des variables Dans SPSS Dans SPAD

Graphique des liaisons inter-variables (la Ferrari est représentée par un disque plein)

Tableau des corrélations Cylindrée Puissance Vitesse Poids Largeur Longueur Cylindrée 1.000 0.954 0.885 0.692 0.706 0.664 Puissance 0.954 1.000 0.934 0.529 0.730 0.527 Vitesse 0.885 0.934 1.000 0.466 0.619 0.578 Poids 0.692 0.529 0.466 1.000 0.477 0.795 Largeur 0.706 0.730 0.619 0.477 1.000 0.591 Longueur 0.664 0.527 0.578 0.795 0.591 1.000 Toutes les corrélations sont positives. Toutes les corrélations sont significatives au risque 5%

Classification ascendante hiérarchique des variables * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Single Linkage Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ cylindrée 1 òûòø puissance 2 ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø vitesse 3 òòò÷ ùòòòòòø largeur 5 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó poids 4 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòûòòòòòòòòòòòòòòòòò÷ longueur 6 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷

5. Le nuage de points associé aux données Xp   FERRARI     *g  g xi  SMART  X2   X1 N = {x1, …, xi, …, xn} = Nuage de points associé aux données Centre de gravité du nuage N : g =

6. Inertie totale du nuage de points Xp   FERRARI     *g  g xi  SMART  X2   X1 Inertie totale = I(N, g) =

7. Réduction des données Pour neutraliser le problème des unités on remplace les données d’origine par les données centrées-réduites : de moyenne 0 et d’écart-type 1.

Les données centrées-réduites (SPAD) Outlier si |valeur| > 2

8. Le nuage de points associé aux données réduites Xp*   FERRARI*    Xi*  *0   SMART*  X2*   Moyenne X1* Variance N* = {x1*, …, xi* , …, xn* } Centre de gravité : g* = 0, Inertie totale : I(N* , 0) = p

9. Premier axe principal 1 xi* Xp* u1 *    yi  *0     X2*   X1* Objectif 1 : On cherche l’axe 1 passant le mieux possible au milieu du nuage N*. On cherche à minimiser l’inertie du nuage N* par rapport à l’axe 1 :

Premier axe principal 1 xi* Xp*    yi  *0     X2*   X1* Objectif 2 : On cherche l’axe d’allongement 1 du nuage N*. On cherche à maximiser l’inertie du nuage N* projeté sur l’axe 1 :

Les objectifs 1 et 2 sont atteints simultanément Xp* xi* 1 yi * X2* X1* De : on déduit : Inertie totale = p = Inertie expliquée par 1 Inertie résiduelle + Maximiser Minimiser

Résultats L’axe 1 passe par le centre de gravité 0 du nuage de points N*. L’axe 1 est engendré par le vecteur normé u1, vecteur propre de la matrice des corrélations R associé à la plus grande valeur propre 1. L’inertie expliquée par l’axe 1 est égal à 1. La part d’inertie expliquée par le premier axe principal 1 est égal à 1/p.

Résultat SPAD

Résultat SPAD Les vecteurs propres Normalisation : .462 + .442 + … + .382 = 1

10. Première composante principale Y1 xi* 1 Xp*  yi *  u1 Smart  *0 Y1(i) X2* Y1(1) = -4.15  X1* Y1 est une nouvelle variable définie pour chaque individu i par : Y1(i) = longueur algébrique du segment 0yi = coordonnée de yi sur l’axe 1 = produit scalaire entre les vecteurs xi* et u1 = Y1 =

Résultats SPAD Carré de la DISTO = d2(xi* , 0)

Corrélations entre les variables et les composantes principales Dans SPSS : Component Matrix

Propriétés de la première composante principale Y1 Y1 = u11X1* + u12X2* + … + u1pXp* Moyenne de Y1 = 0 Variance de Y1 = Inertie expliquée par 1 = 1 Cor(Xj, Y1) =

Qualité de la première composante principale Inertie totale = 6 Inertie expliquée par le premier axe principal = 1 = 4.4113 Part d’inertie expliquée par le premier axe principal : La première composante principale explique 73,5% de la variance totale.

11. Deuxième axe principal 2  xi*   Y2(i) ai     Y1(i) 1      

Résultats On recherche le deuxième axe principal 2 orthogonal à 1 et passant le mieux possible au milieu du nuage. Il passe par le centre de gravité 0 du nuage de points et est engendré par le vecteur normé u2, vecteur propre de la matrice des corrélations R associé à la deuxième plus grande valeur propre 2. La deuxième composante principale Y2 est définie par projection des points sur le deuxième axe principal. La deuxième composante principale Y2 est centrée, de variance 2, et non corrélée à la première composante principale Y1.

Le premier plan principal

Le cercle des corrélations

Qualité globale de l’analyse Inertie totale = variance totale = p Part de variance expliquée par la première composante principale = la deuxième composante principale = les deux premières composantes principales = Et ainsi de suite pour les autres dimensions...

12. Le biplot Les échelles doivent être identiques sur les deux axes. Le cercle des variables doit être un cercle.

Interprétation du biplot La répartition des projections des individus i sur l’axe variable Xj reflète les valeurs xij Les coordonnées des individus i sont les valeurs des composantes principales : [Y1(i), Y2(i)]. Les coordonnées des variables Xj sont les vecteurs propres multipliés par une certaine constante, par exemple 2 : (2u1j, 2u2j).

Justification : la formule de reconstitution xi* u2  Y2(i) ai u1 Y1(i) De xi*  ai = Y1(i)u1 + Y2(i)u2 on déduit xij*  Y1(i)u1j + Y2(i)u2j = = Coordonnée de la projection de l’individu i sur l’axe variable Xj

Justification de la lecture du bi-plot Axe 2 y2i * i Xj u2j Aij Axe 1 y1i u1j

13. Exemple des races canines

Le tableau disjonctif complet xijl = 1 si l’individu i possède la modalité l de la variable j = 0 sinon

ACP du tableau disjonctif complet

14. Utilisation de SPSS Les données centrées-réduites (SPSS) Outlier si |valeur| > 2

Résultats SPSS : Les facteurs

Propriétés des facteurs de SPSS Lien entre les composantes principales et les facteurs de SPSS Les facteurs de SPSS sont les composantes principales réduites. Calcul des facteurs de SPSS en fonction des variables (Xj*)SPSS Tableau des wh

15. Construction d’une typologie des individus Rechercher des groupes d’individus homogènes dans la population : - Deux individus appartenant au même groupe sont proches. - Deux individus appartenant à des groupes différents sont éloignés. Construire une partition de la population en groupes homogènes et différents les uns des autres. On réalise la typologie au choix (1) sur les données centrées-réduites, (2) sur les premières composantes principales (SPAD), (3) sur les premières composantes principales réduites (les facteurs de SPSS).

Construction d’une typologie des individus * * o o o * o o * o * o o * o o * o o o * o * * * o o * o * * + o o o * + * * + + + + + * + + * * + + + + + + + + + + + + Fabrication de groupes à partir de données uniformément réparties Données structurées en trois groupes

Choosing the “cutting” level Dendrogramme 6 groups 7 groups 5 groups 4 groups 2 groups 3 groups 8 groups 9 groups 14 groups 19 groups 17 groups 18 groups 16 groups 15 groups 1 group Choosing the “cutting” level x Definition of the clusters

Dendrogramme (1) (3) (4) (2) (5) Individu d’origine indice noeud 9

Classification ascendante hiérarchique (Méthode de Ward) Xp* * g2 * g1 * * * * * * * * * * * g3 * X2* * * * * X1* Distance de Ward : D(Gi, Gj) = ni = effectif de la classe Gi

Tableau des distances entre les voitures DWard(Citroën C2, Nissan Micra) =

Classification Ascendante Hiérarchique Étape initiale Chaque individu forme une classe. On regroupe les deux individus les plus proches. Étape courante A chaque étape, on regroupe les deux classes Gi et Gj minimisant le critère de Ward D(Gi, Gj).

* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Ward Method 64.184 26.294

Construction de la classification hiérarchique sur les données centrées-réduites par SPSS

Interprétation de la typologie Toute la population (G47) D(G45,G46) = 64.184 G46 (10) G45 (14) D(G43,G44) = 26.294 D(G2,G42) = 11.012 G43 (7) G44 (3) G2 (1) G42 (13) D(G2,G42) = 10.661 D(G23,G40) = 5.403 G23 (1) G40 (6) G19 (1) G38 (2)

Décomposition de la somme des carrés totale Xp* * * * * g1 * g2 * * * * * * g * X2* * * * g3 * * * X1* * Somme des carrés totale = (n-1)*p Somme des carrés inter-classes Somme des carrés intra-classes = +

Résultats SPSS : Somme des carrés intra-classes Coefficient : Somme des carrés intra-classes de la typologie en K classes Résultats SPSS : Somme des carrés intra-classes Distance de Ward(1,4) Qualité de la typologie en K classes : (138 - Coeff[n-K])/138 Qualité de la typologie en 2 classes : (138 - 73.816)/138 = 0.465 Somme des carrés intra-classes pour la typologie en K=2 classes Somme des carrés totale = p*(n-1) Groupe contenant 1

Qualité des typologies * * distance de Ward entre les groupes fusionnés =  (S.C. Intra) =  (S.C. Inter)

Qualité de la typologie en K classes La somme des carrés expliquée par la typologie en K classes est égale à la somme des carrés inter-classes de la typologie en K classes. La qualité de la typologie est mesurée par la proportion de la somme des carrés totale expliquée par la typologie.

Choix du nombre de groupes La typologie en 5 groupes explique 81,27 % de la S.C. totale G42 G2 G43 G44 G19

Premier plan factoriel et typologie 3 2 Land Rover Discovery Jaguar S-Type 2.7 V6 1 Mercedes Classe S Nissan X-Trail 2.2 d VW Touran Peugeot 407 3.0 V6 BMW 745i Land Rover Defender Renault Scenic BMW 530d Mercedes Classe C Bentley Continental Peugeot 307 Audi A3 1.9 Citroën C3 Nissan Micra Audi TT 1.8T Aston Martin Vanquish Citroën C2 BMW Z4 2.5i -1 Mini 1.6 170 Renault Clio 3.0 V6 Smart Fortwo Coupé -2 Facteur 2 Ferrari Enzo -3 -2 -1 1 2 3 Facteur 1

Interprétation des classes

16. C.A.H. des variables Les données de Kendall

Tableau des corrélations One of the questions of interest here is how the variables cluster, in the sense that some of the qualities may be correlated or confused in the judge’s mind. (There was no purpose in clustering the candidates - only one was to be chosen).

Classification Ascendante Hiérarchique des variables Méthode des plus proches voisins A chaque étape, on fusionne les deux groupes Gi et Gj maximisant : G1 o o * * o o G2 * * o * + + On fusionne G2 et G3. + + + + + + + G3

Classification Ascendante Hiérarchique des variables * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Single Linkage (VOISINS LES PLUS PROCHES)

Classification Ascendante Hiérarchique des variables Méthode des voisins les plus éloignés A chaque étape, on fusionne les deux groupes Gi et Gj maximisant : G1 o o * * o o G2 * * o * + + On fusionne G1 et G2. + + + + + + + + + G3

Classification Ascendante Hiérarchique des variables * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Complete Linkage (VOISINS LES PLUS ELOIGNES)

Bloc 1 Les corrélations sont toutes positives.

Bloc 2 Bloc 3

Interprétation des blocs Bloc 1 : Qualités humaines favorables au poste Appearance, Self-confidence, Lucidity, Salesmanship, Drive, Ambition, Grasp, Potential Bloc 2 : Qualités de franchise et de communication Likeability, Honesty, Keenness to join Bloc 3 : Expérience Form of letter of application, Experience, Suitability Bloc 4 : Diplôme Academic ability