ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.

Slides:



Advertisements
Présentations similaires
La Méthode de Simplexe Standardisation
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Cours d‘Analyse de Données
ANALYSE GÉOMÉTRIQUE DES DONNÉES
Symétrie, groupes ponctuels et groupes spatiaux
Gestion de portefeuille
Gestion de portefeuille
Soizic Geslin Samy Fouilleux Minh Le Hoai Maxime Chambreuil
Résistance des Matériaux
Formation en Analyse des Données
CHAPITRE II Caractéristiques géométriques des sections planes
1 Réunion biblio 13/12/00 Support Vectors Présentation générale SSS Maintaining Algorithm.
Régression -corrélation
Analyse Factorielle des Correspondances
Encadrés: Chapitre 13 Distances
Analyse en Composantes Principales
Géométrie vectorielle
Analyse en Composante Principale (ACP)
ASI 3 Méthodes numériques pour l’ingénieur
Mémoire de Projet de Fin d’Etudes
Concepts avancés en mathématiques et informatique appliquées
Lignes trigonométriques.
Jessica Monhart Camille Pitteloud Supervisé par Micha Hersch.
SUJETS SPÉCIAUX EN INFORMATIQUE I PIF Contenu du cours Transformations géométriques des objets –Transformations 2D –Transformations entre systèmes.
La segmentation
Rappel... Solution itérative de systèmes linéaires (suite et fin).
Vers la dimension 3. La géométrie dans l'espace ne fait qu'étendre les concepts qui vous sont familiers en dimension 2 à la dimension 3. Le plus difficile.
Exemple en dynamique de population
Rappel... Systèmes dynamiques: discrets; continus.
Révision Grandeurs physiques, unités et notations
La corrélation et la régression multiple
Travaux pratiques sous matlab / octave
PIF-6003 Sujets spéciaux en informatique I
RECONNAISSANCE DE FORMES
Les fentes multiples Méthode semi graphique d’addition d’ondes. La méthode trigonométrique n’est pas commode dans le cas de 3 sources ou plus, ou si les.
« Analyses descriptives multidimensionnelles »
Séquence FONCTION DE VARIABLE(S) REELLE(S) :
Interprétation de la répartition des actifs européens par profession.
STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE
Sommaire Rappel introductif sur la définition de l’ACP
STATISTIQUES DESCRIPTIVES
Présentation de l’ACP à travers un exemple
ANALYSE EN COMPOSANTES PRINCIPALES (ACP)
CHAPITRE III Calcul vectoriel
Fabienne BUSSAC FONCTIONS LINEAIRES – PROPORTIONNALITE
Gestion budgétaire des ventes
Outils d’analyse: la méthode des moindres carrées
Analyse de données Cours 3 Analyse en composantes principales (ACP)
ETUDE DE 2 VARIABLES QUANTITATIVES
Éléments cinétiques des système matériels
STATISTIQUES.
Le modèle de régression linéaire Claude Marois © 2010.
Les dangers des drogues
Analyse de données avec R
Corrélation et causalité
M. YAMANAKA – Cours de mathématiques. Classe de 4ème.
Classification-Segmentation
GEOMETRIE VECTORIELLE
Mesures de description des valeurs des variables
Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien
Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien
Analyse en Composantes Principales Vue synoptique.
Faculté Polytechnique Cours 5: introduction à la géométrie analytique spatiale Géométrie et communication graphique Edouard.
1 Fouille visuelle de dissimilarités à l’aide de matrices de scatterplots pseudo-euclidiennes Sébastien AUPETIT, Nicolas MONMARCHE, Mohamed SLIMANE
Analyse Factorielle des Correspondances Généralisation de l’A.C.P. adaptée au traitement de données qualitatives se présentant sous la forme d’un tableau.
Résumé de l’objectif de l’A.C.P.
2.1. Présentation de l’exemple
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Transcription de la présentation:

ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions Un caractère est un point d’un espace à n dimensions calcul des distances: centrer et réduire synopmetho.sba ACPFR.XLS M1 Manangement UE4 LP

Visualiser M1 Manangement UE4 LP TAILLE PUIS REVENU QCSP QGEO QSEXE 1,75 7 100000 1 I002 1,74 6 90000 4 3 I003 1,7 5 80000 2 I004 1,59 9 200000 I005 1,72 11 400000 I006 I007 I008 I009 I010 1,5 I011 120000 I012 8 I013 1,9 I014 1,76 300000 I015 I016 I017 M1 Manangement UE4 LP

Tableaux Croisés Dynamiques Somme de REVENU   QCSP Total 1 1010000 2 6300000 3 2480000 4 2640000 5 3600000 16030000 M1 Manangement UE4 LP

Cadres moyens ouvriers employés professions lib. taille m 1.75 1.78 Agriculteurs Cadres moyens ouvriers employés professions lib. taille m 1.75 1.78 1.74 1.70 1.72 Puissance véhicule 7 9 6 5 11 revenu F 100 000 200 000 90 000 80 000 400 000 M1 Manangement UE4 LP

Matrice des observations M1 Manangement UE4 LP

ACP normalisation exemple Désirant visualiser les différences par CSP, il faut normaliser les données. -données lignes transformées en écart par rapport à la moyenne de la ligne: Visualisation des différences relatives écart/m Agric. Cadrm. Ouvr. Empl. Proflib. taille m +0.01 +0.03 0 -0.04 -0.02 Puiss cv -0.6 +1.4 -1.6 -2.6 +3.4 revenu F -74000 +26000-84000 -94 000 +226 000 M1 Manangement UE4 LP

ACP réduire Résultats réduits obtenus par division des lignes par l’écart-type du caractère. L’écart-type de la ligne devient 1 0,37 1,11 0,00 -1,48 -0,74 -0,25 0,58 -0,66 -1,08 1,41 -0,55 0,19 -0,62 -0,70 1,67 M1 Manangement UE4 LP

M1 Manangement UE4 LP

ACP projection La matrice des covariances (distance euclidienne réduite) ou corrélations (centrées-réduites) est utilisée Représentation par projection, déformation, perte d’information les distances entre les n points du plan de projection ne peuvent égaler les distances entre les n individus de l’espace à p dimensions M1 Manangement UE4 LP

ACP proximité =(1/n) [(xij-x.j)/j)- (xij’-x.j’)/j’]² Distance entre deux individus ² Distance entre deux variables d²(j,j’) =  (xij-xij’)² =(1/n) [(xij-x.j)/j)- (xij’-x.j’)/j’]² M1 Management UE4 LP 10

M1 Manangement UE4 LP

M1 Manangement UE4 LP

CORRELATION Si x et y sont centrées réduites, alors M1 Manangement UE4 LP

Points variables Si rjj’ coefficient corrélation d²(j,j’)= 2(1-rjj’) Longueur d’un vecteur Variable Xj ||Xj||= ((1/n)∑ xj ²)1/2 Centrée -réduite moyenne nulle, ||Xj||= 1 Extrémités vecteurs Variables situés dans une sphère de rayon 1 M1 Manangement UE4 LP

ACP construction Corrélations: déterminent les axes factoriels et expriment la dispersion Réduction de caractères possible: seulement si des coefficients de corrélation non nuls existent sur les caractères initiaux Par construction, le coefficient de corrélation entre 2 variables (centrées) égale le cosinus de l’angle entre ces 2 variables M1 Manangement UE4 LP

ACP: individus - variables OBSERVATIONS VARIANCES individus CORRELATIONS variables INTERPRETATIONS individus plan distances variables cercle angles M1 Manangement UE4 LP

ACP Plan factoriel plan de projection: distances en moyenne les mieux conservées origine point moyen minimisation des écarts entre tout point initial et sa projection ou maximisation des distances entre les projections p1, p2,... pn un plan est engendré par deux vecteurs perpendiculaires, soient u1 u2, M1 Manangement UE4 LP

ACP: recherche des vecteurs engendrant le plan factoriel Xi ||X i u|| est la longueur de la projection de Xi sur l’axe engendré par u Somme carrés des n projections est: ∑ (Xi u)² = u’X’Xu=(Xu)’Xu = ||Xu|| ∑ IXi² = ∑ IH² + ∑ HXi² Inertie nuage: V/u+distance nuage/u Conserver au mieux l’information initiale c’est Minimiser ∑ HXi² revient à Maximiser ∑ IH² Part de Variance Expliquée par u: ∑ IH² / ∑ IXi²  I H u X i . u = ||Xi u||1/² IXi² = IH² +HXi² Cos² = IH²/IXi² I centre de gravité (nuage individus)

M1 Manangement UE4 LP

Si les individus sont projetés M1 Manangement UE4 LP

ACP vecteur propre D’où le programme: Max u’X’Xu u’u =1 - lagrangien L(u,λ)= u’X’Xu+ λ(1-u’u) - dérivée (dL/du)= 2 X’Xu - 2 λu condition du 1er ordre: annulation de la dérivée au point candidat à l’optimum X’X u = λu u est vecteur propre associé à la valeur propre maximale λ M1 Manangement UE4 LP

ACP meilleur plan global La distance entre les projections est maximale si le premier axe a pour vecteur directeur u, vecteur propre de la matrice des variances associé a la valeur propre maximale Le deuxième vecteur engendrant ce meilleur plan de représentation est orthogonal et unitaire M1 Manangement UE4 LP

ACP optimisation D’où le programme: Max v’X’Xv v’v =1 - lagrangien L(v,μ)= v’X’Xv+ μ(1-v’v) - dérivée (dL/dv)= 2 X’Xv - 2 μ v condition du 1er ordre: annulation de la dérivée au point candidat à l’optimum X’X v = μ v, μ est alors la deuxième plus grande valeur propre M1 Manangement UE4 LP

Relations entre les espaces Dans IRp X’X u = λu, i.e. ║Xu║= λ=u X’X u XX’X u = λXu i.e. λ vp de XX’ associée à Xu Dans IRn La matrice est XX’ XX’ u’ = λ’ u’ λ’ = λ M1 Manangement UE4 LP

Coordonnées nouvelles D’où u’= Xu/ √λ u= X’u’/ √λ PROPORTIONNALITE Nouvelles coordonnées: Les composantes Xu sont les coordonnées des individus φ =Xu et Ψ =X’u’pour les variables M1 Manangement UE4 LP

ACP plans factoriels La base globalement la meilleure est composée des vecteurs propres associés aux deux plus grandes valeurs propres D’autres bases, composées de vecteurs propres associées aux valeurs propres moins grandes peuvent aussi représenter le nuage en le déformant peu par rapport aux objectifs M1 Manangement UE4 LP

M1 Manangement UE4 LP

ACP plusieurs facteurs La qualité de le représentation par les Q premiers axes factoriels est liée à la part de ∑ λi, i=1…q dans tr X’X=∑ λi i=1…n Si corrélation tr x’x=p Axes du plan de projection: u1, u2 … = Facteurs principaux Coordonnées des individus dans ce plan: Ci = Composantes principales Variances CP = VP M1 Manangement UE4 LP

ACP Les composantes principales sont les (c1, c2...cp ) sur l’axe Uk liste des coordonnées des n individus sur l’axe Uk , ci1,ci2, ...cip combinaison linéaire des caractères initiaux pour tout i, xi Dont les coefficients sont les composantes du kième facteur principal, Contribution de i: c²ik /λk poids un individu =1/n, contribution>poids intéressante,problématique si >0,25 M1 Manangement UE4 LP

ACP résumé Visualisation dans un espace centre: point moyen Réduction des caractères par combinaison coefficients corrélation des caractères initiaux non nuls Maximisation de l’écartement différenciation des catégories M1 Manangement UE4 LP

ACP résultats axes principaux minimum de déformation du nuage de points, inertie des points maximale par rapport à ces axes meilleur plan de projection origine plan, point moyen des individus, confondue avec le centre du cercle des corrélations: variables M1 Manangement UE4 LP

ACP ex. synthèse par moyenne Agric. Cadrmoy. Ouvr. Empl. proflib. taille m 1.75 1.78 1.74 1.70 1.72 Puisscv 7 9 6 5 11 revenu F 100000 200 000 90000 80 000 400 000 Exercice: VIOAcp.xls M1 Manangement UE4 LP

acp.sba M1 Management UE4 LP 34

ACP Pertinence Interprétation Qualité - fonction du taux d’inertie - fonction du carré du cosinus de chaque point avec le plan, ou fonction des corrélations composantes principales et caractères initiaux plus il est élevé meilleure est la représentation Cercle des corrélations - angle aigu: caractères proches, obtus: opposés - droit: différenciés Plan factoriel plus un individu est extrême, plus il s’écarte de la moyenne l’origine; plus il s’oppose à ceux se situant à l’autre extrémité, premier axe opposition gauche-droite pour le deuxième opposition bas-haut M1 Management UE4 LP 35