Analyse de données Cours 3 Analyse en composantes principales (ACP) 1-Vision géométrique 2-Vision statistique
Méthodes factorielles Nous avons vu une première méthode d’analyse de données qui consiste à classer les données en les regroupant en groupes de dispersion intra-classe minimale et en groupes de dispersion inter-classe maximale Les méthodes factorielles visent à fournir des représentations synthétiques des tableaux de données multidimensionnelles en les représentant dans des espaces euclidiens de dimension faible (en général, plans)
Analyse en composantes principales Technique de réduction de dimension d’un tableau de données multidimensionnelles numériques Objectif : projeter le nuage de points (définis par le tableau de données) sur une droite (plan) telle que la dispersion totale des points projetés soit maximale
Exemple : données en 2D x2 Projections + + H1 x1
Projection P du point M sur la droite de direction u passant par l’origine O OPi = xiT . u = S xij uj Si on cherchait la direction de la droite passant par l’origine maximisant la dispersion des projections des n individus : On devrait maximiser : Si OPi2
Problème d’optimisation quadratique Pour obtenir toutes les projections des n individus: X.u = vecteur dont les coordonnées sont xiT. u Si OPi2 = (Xu)T(Xu) = uTXTXu De plus, on restreint la norme de u à 1 Soit à résoudre : maxu uTXTXu Sous la contrainte uTu = 1
Exemple : données en 2D x2 Projections + + H1 x1
Projetés et dispersion X : matrice des données Trouver H telle que la somme des projections Si,i’dH(i,i’)2 soit maximale. Si,i’ dH(i,i’)2 = Si,i’ (hi –hi’)2 = 2n Si(hi –h)2 hi : valeur du projeté du point i sur la droite H (on fixe O’ un point origine : hi= O’Pi h : valeur moyenne = 1/nSi hi
Projections Mi Mi’ + + hi hi’ Pi’ O’ Pi dH(i,i’)
Centre de gravité G Ses coordonnées sont : gj = 1/n S x ij La moyenne des projections des n individus correspond à la projection sur H du centre de gravité G. (linéarité de l’opérateur de projection) S i,i’ dH(i,i’)2 = 2n S i,i’ dH(Mi,G)2
Problème d’optimisation Maximiser S i,i’ dH(Mi,G)2 Prenons l’origine de la droite H en G On aura exactement le même problème en prenant : zij = xij - xj Moyenne des coordonnées j des individus
Analyse en composantes principales normée On veut que la distance entre deux points soit indépendante des unités des différentes variables sj : écart-type de la variable j : sj2 = 1/n S (xij –xj)2 zij = xij - xj On a : variance de zj = 1 sj sqrt(n)
Problème d’optimisation ACP normée Intéressons-nous à la matrice C = ZTZ cjj’ = S zij zij’ (coefficient de corrélation empirique entre les variables j et j’) Max u uTC u Sous la contrainte uTu = 1
Démonstration des extrema d’une forme quadratique Au tableau Démonstration des extrema d’une forme quadratique
Cours 4 ACP suite
Recherche des extrema d’une forme quadratique Rechercher le vecteur u qui rend maximale la quantité : uTCu avec uTu = 1 Vecteur propre u1 de C de plus grande valeur propre. Rappelons : l1 = u1TCu1
Analyse en composantes principales Les données : n individus à p variables Je cherche m < p vecteurs u1,u2,um (ou directions) tels que les projections successives du nuage de points sur u1,puis u2 puis u3 etc… soient maximales et que u1,…,um soient orthogonaux et de norme 1. Je commence par chercher u1, Puis je cherche u2
ACP Appelons u1 le vecteur propre de plus grande valeur propre l1 Cherchons maintenant un deuxième vecteur u2, unitaire (norme égale à 1) et orthogonal à u1 qui rende maximale la forme quadratique u2TCu2 Soit L le lagrangien: L = u2TCu2 – l2(u2TCu2-1) - m2 u2Tu1 Où l2 et m2 sont des coefficients de Lagrange Si u2 est un extremum alors : L /¶u2 = 2 C u2 – 2 l2 u2 – m2 u1 = 0 En multipliant par u1T On voit que : m2 = 0 -
Suite des calculs Il reste : Cu2 = l2 u2 u2 est donc le second vecteur propre, associé à la seconde valeur propre si celle-ci est unique (Rappelons que C est symétrique, définie positive) La démonstration s’étend aisément au cas d’un vecteur uj Pour j <= p Si je pars de données de dimension p et que je trouve les p vecteurs propres alors, j’ai obtenu une nouvelle base orthonormée (je n’ai pas réduit la dimension). En général on retient les 2 voire 3 premières directions principales
Vocabulaire de l’ACP On appelle axe factoriel ou composante principale uj, le j-ième vecteur propre de C, de norme 1 , associée à lj. Rappelons que Z est la matrice des données centrées et réduites. Les coordonnées des n points(individus) sur l’axe factoriel uj sont les n composantes du vecteur, appelé facteur: vj = Zuj Le point i a pour coordonnée sur l’axe uj : vji = S ujk zik
Evaluer l’ACP On a : lj = ujTCuj h S j=1 lj est l’inertie totale ou dispersion totale liée au sous–espace engendré par les h premières composantes principales est le taux d’inertie expliqué par le sous-espace H engendré par les h premières composantes principales.
Individus supplémentaires Soit X+ une nouvelle matrice représentant des individus supplémentaires : posons : z+ij = xij + - xj sj sqrt(n) Les coordonnées des nouveaux points-individus sont donc les ns composantes du vecteur X+uj En appelant Xs la matrice constituée de X pour ses n Première lignes et X+ pour ses n+nS dernières lignes, On obtient simultanément les coordonnées des individus analysés et supplémentaires par Xsuj.
Analyse en composantes principales 2. Vision statistique
Méthodes factorielles et statistique Nous avons utilisé jusqu’ici uniquement des considérations géométriques pour décrire le principe de l’analyse en composantes principales Une interprétation statistique peut être donnée en considérant que le tableau de données est un échantillon aléatoire de taille n, c’est-à-dire n réalisations indépendantes d’un même vecteur aléatoire. Au lieu de s’intéresser à la dispersion ou inertie du nuage de points on va s’intéresser à la variance des projections.
Introduction aux vecteurs aléatoires X est un vecteur aléatoire à valeurs continues si ces n composantes sont des variables aléatoires continues. Moments: m = E[X] est le vecteur espérance de X : Chacune des coordonnées mi est l’espérance de la variable aléatoire xi.
Dispersion autour de l’espérance Matrice de variance-covariance Soit S la matrice de variance-covariance de X : Elle est définie par : S = E[(X-E[X])(X-E[X])T] Sii = var (xi) = si2 Sij = cov(xi,xj) = E[(xi-E[xi])((xj-E[xj])] Quelques propriétés: est positive semi-définie : uTSu est toujours positif ou nul. = E[XXT] – E[X].E[X]T
Matrice de variance-covariance empirique Soit x1,…,xn l’échantillon aléatoire de taille n Moyenne empirique x = 1/n S xk La matrice S, de dimension p fois p, de variance –covariance empirique est définie par: Sij = 1/(n-1) S (xki-xi)(xkj – xj) I et j dénotent bien des variables (de 1 à p)
Exemple : vecteur aléatoire gaussien Un vecteur aléatoire X est gaussien ou normal si X peut se décomposer sous la forme : X = AZ +m où A est une matrice, Z est un vecteur aléatoire composé De coordonnées gaussiennes indépendantes. Si S est bien inversible (matrice de covariance) alors la densité de X s’écrit: where is the determinant of .
Plusieurs cas pour S : identité : s2 . Id : D, matrice diagonale avec les variances : quelconque (symétrique, définie positive)
Vision statistique de l’ACP On cherche la direction u1 qui maximise la variance des projetés sur l’axe u1 … Maximiser uTS u avec uTu = 1 Où S est la matrice de variance-covariance empirique des données Au lieu de la matrice de corrélation (où on normalise) On utilise la matrice de variance-covariance
Vision statistique de l’ACP Après u1, on cherche la direction u2 qui maximise la variance des projetés sur l’axe u2 … Maximiser uTS u avec uTu = 1 et cov(Xu1,Xu2) = 0 Où S est la matrice de variance-covariance empirique des données cov(Xu1,Xu2) = E[(X.u1 – E[X.u1]) (X.u2 – E[X.u2]) ] = u1Su2
Exemple d’ACP en dimension 2 u2 u1
ACP de mots
Vecteurs propres et valeurs propres Application linéaire: F(x) = A.x Les vecteurs propres d’une application linéaire sont les vecteurs qui vérifient : F(x) = l . x C’est-à-dire, les vecteurs dont la direction n’est pas modifiée par F est appelée valeur propre Les valeurs propres sont racines du polynome caractéristique Comment trouver les vecteurs propres d’une application linéaire ? Trouver x tel que : (A-l Id)x = 0 où Id est la matrice identité