ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions Un caractère est un point d’un espace à n dimensions calcul des distances: centrer et réduire synopmetho.sba ACPFR.XLS M1 Manangement UE4 LP
Visualiser M1 Manangement UE4 LP TAILLE PUIS REVENU QCSP QGEO QSEXE 1,75 7 100000 1 I002 1,74 6 90000 4 3 I003 1,7 5 80000 2 I004 1,59 9 200000 I005 1,72 11 400000 I006 I007 I008 I009 I010 1,5 I011 120000 I012 8 I013 1,9 I014 1,76 300000 I015 I016 I017 M1 Manangement UE4 LP
Tableaux Croisés Dynamiques Somme de REVENU QCSP Total 1 1010000 2 6300000 3 2480000 4 2640000 5 3600000 16030000 M1 Manangement UE4 LP
Cadres moyens ouvriers employés professions lib. taille m 1.75 1.78 Agriculteurs Cadres moyens ouvriers employés professions lib. taille m 1.75 1.78 1.74 1.70 1.72 Puissance véhicule 7 9 6 5 11 revenu F 100 000 200 000 90 000 80 000 400 000 M1 Manangement UE4 LP
Matrice des observations M1 Manangement UE4 LP
ACP normalisation exemple Désirant visualiser les différences par CSP, il faut normaliser les données. -données lignes transformées en écart par rapport à la moyenne de la ligne: Visualisation des différences relatives écart/m Agric. Cadrm. Ouvr. Empl. Proflib. taille m +0.01 +0.03 0 -0.04 -0.02 Puiss cv -0.6 +1.4 -1.6 -2.6 +3.4 revenu F -74000 +26000-84000 -94 000 +226 000 M1 Manangement UE4 LP
ACP réduire Résultats réduits obtenus par division des lignes par l’écart-type du caractère. L’écart-type de la ligne devient 1 0,37 1,11 0,00 -1,48 -0,74 -0,25 0,58 -0,66 -1,08 1,41 -0,55 0,19 -0,62 -0,70 1,67 M1 Manangement UE4 LP
M1 Manangement UE4 LP
ACP projection La matrice des covariances (distance euclidienne réduite) ou corrélations (centrées-réduites) est utilisée Représentation par projection, déformation, perte d’information les distances entre les n points du plan de projection ne peuvent égaler les distances entre les n individus de l’espace à p dimensions M1 Manangement UE4 LP
ACP proximité =(1/n) [(xij-x.j)/j)- (xij’-x.j’)/j’]² Distance entre deux individus ² Distance entre deux variables d²(j,j’) = (xij-xij’)² =(1/n) [(xij-x.j)/j)- (xij’-x.j’)/j’]² M1 Management UE4 LP 10
M1 Manangement UE4 LP
M1 Manangement UE4 LP
CORRELATION Si x et y sont centrées réduites, alors M1 Manangement UE4 LP
Points variables Si rjj’ coefficient corrélation d²(j,j’)= 2(1-rjj’) Longueur d’un vecteur Variable Xj ||Xj||= ((1/n)∑ xj ²)1/2 Centrée -réduite moyenne nulle, ||Xj||= 1 Extrémités vecteurs Variables situés dans une sphère de rayon 1 M1 Manangement UE4 LP
ACP construction Corrélations: déterminent les axes factoriels et expriment la dispersion Réduction de caractères possible: seulement si des coefficients de corrélation non nuls existent sur les caractères initiaux Par construction, le coefficient de corrélation entre 2 variables (centrées) égale le cosinus de l’angle entre ces 2 variables M1 Manangement UE4 LP
ACP: individus - variables OBSERVATIONS VARIANCES individus CORRELATIONS variables INTERPRETATIONS individus plan distances variables cercle angles M1 Manangement UE4 LP
ACP Plan factoriel plan de projection: distances en moyenne les mieux conservées origine point moyen minimisation des écarts entre tout point initial et sa projection ou maximisation des distances entre les projections p1, p2,... pn un plan est engendré par deux vecteurs perpendiculaires, soient u1 u2, M1 Manangement UE4 LP
ACP: recherche des vecteurs engendrant le plan factoriel Xi ||X i u|| est la longueur de la projection de Xi sur l’axe engendré par u Somme carrés des n projections est: ∑ (Xi u)² = u’X’Xu=(Xu)’Xu = ||Xu|| ∑ IXi² = ∑ IH² + ∑ HXi² Inertie nuage: V/u+distance nuage/u Conserver au mieux l’information initiale c’est Minimiser ∑ HXi² revient à Maximiser ∑ IH² Part de Variance Expliquée par u: ∑ IH² / ∑ IXi² I H u X i . u = ||Xi u||1/² IXi² = IH² +HXi² Cos² = IH²/IXi² I centre de gravité (nuage individus)
M1 Manangement UE4 LP
Si les individus sont projetés M1 Manangement UE4 LP
ACP vecteur propre D’où le programme: Max u’X’Xu u’u =1 - lagrangien L(u,λ)= u’X’Xu+ λ(1-u’u) - dérivée (dL/du)= 2 X’Xu - 2 λu condition du 1er ordre: annulation de la dérivée au point candidat à l’optimum X’X u = λu u est vecteur propre associé à la valeur propre maximale λ M1 Manangement UE4 LP
ACP meilleur plan global La distance entre les projections est maximale si le premier axe a pour vecteur directeur u, vecteur propre de la matrice des variances associé a la valeur propre maximale Le deuxième vecteur engendrant ce meilleur plan de représentation est orthogonal et unitaire M1 Manangement UE4 LP
ACP optimisation D’où le programme: Max v’X’Xv v’v =1 - lagrangien L(v,μ)= v’X’Xv+ μ(1-v’v) - dérivée (dL/dv)= 2 X’Xv - 2 μ v condition du 1er ordre: annulation de la dérivée au point candidat à l’optimum X’X v = μ v, μ est alors la deuxième plus grande valeur propre M1 Manangement UE4 LP
Relations entre les espaces Dans IRp X’X u = λu, i.e. ║Xu║= λ=u X’X u XX’X u = λXu i.e. λ vp de XX’ associée à Xu Dans IRn La matrice est XX’ XX’ u’ = λ’ u’ λ’ = λ M1 Manangement UE4 LP
Coordonnées nouvelles D’où u’= Xu/ √λ u= X’u’/ √λ PROPORTIONNALITE Nouvelles coordonnées: Les composantes Xu sont les coordonnées des individus φ =Xu et Ψ =X’u’pour les variables M1 Manangement UE4 LP
ACP plans factoriels La base globalement la meilleure est composée des vecteurs propres associés aux deux plus grandes valeurs propres D’autres bases, composées de vecteurs propres associées aux valeurs propres moins grandes peuvent aussi représenter le nuage en le déformant peu par rapport aux objectifs M1 Manangement UE4 LP
M1 Manangement UE4 LP
ACP plusieurs facteurs La qualité de le représentation par les Q premiers axes factoriels est liée à la part de ∑ λi, i=1…q dans tr X’X=∑ λi i=1…n Si corrélation tr x’x=p Axes du plan de projection: u1, u2 … = Facteurs principaux Coordonnées des individus dans ce plan: Ci = Composantes principales Variances CP = VP M1 Manangement UE4 LP
ACP Les composantes principales sont les (c1, c2...cp ) sur l’axe Uk liste des coordonnées des n individus sur l’axe Uk , ci1,ci2, ...cip combinaison linéaire des caractères initiaux pour tout i, xi Dont les coefficients sont les composantes du kième facteur principal, Contribution de i: c²ik /λk poids un individu =1/n, contribution>poids intéressante,problématique si >0,25 M1 Manangement UE4 LP
ACP résumé Visualisation dans un espace centre: point moyen Réduction des caractères par combinaison coefficients corrélation des caractères initiaux non nuls Maximisation de l’écartement différenciation des catégories M1 Manangement UE4 LP
ACP résultats axes principaux minimum de déformation du nuage de points, inertie des points maximale par rapport à ces axes meilleur plan de projection origine plan, point moyen des individus, confondue avec le centre du cercle des corrélations: variables M1 Manangement UE4 LP
ACP ex. synthèse par moyenne Agric. Cadrmoy. Ouvr. Empl. proflib. taille m 1.75 1.78 1.74 1.70 1.72 Puisscv 7 9 6 5 11 revenu F 100000 200 000 90000 80 000 400 000 Exercice: VIOAcp.xls M1 Manangement UE4 LP
acp.sba M1 Management UE4 LP 34
ACP Pertinence Interprétation Qualité - fonction du taux d’inertie - fonction du carré du cosinus de chaque point avec le plan, ou fonction des corrélations composantes principales et caractères initiaux plus il est élevé meilleure est la représentation Cercle des corrélations - angle aigu: caractères proches, obtus: opposés - droit: différenciés Plan factoriel plus un individu est extrême, plus il s’écarte de la moyenne l’origine; plus il s’oppose à ceux se situant à l’autre extrémité, premier axe opposition gauche-droite pour le deuxième opposition bas-haut M1 Management UE4 LP 35