Analyse de données Cours 3 Analyse en composantes principales (ACP)

Slides:



Advertisements
Présentations similaires
Eléments d'algèbre linéaire
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Cours d‘Analyse de Données
Gestion de portefeuille
Gestion de portefeuille
VII) Formalisme Quantique
Soizic Geslin Samy Fouilleux Minh Le Hoai Maxime Chambreuil
C1 Bio-statistiques F. KOHLER
CHAPITRE II Caractéristiques géométriques des sections planes
1 Réunion biblio 13/12/00 Support Vectors Présentation générale SSS Maintaining Algorithm.
Corrélations et ajustements linéaires.
Régression -corrélation
Chapitre VII :Commande par retour d’état
Analyse en Composantes Principales
Géométrie vectorielle
Analyse en Composante Principale (ACP)
Les principaux résumés de la statistique
ASI 3 Méthodes numériques pour l’ingénieur
Mémoire de Projet de Fin d’Etudes
Concepts avancés en mathématiques et informatique appliquées
La segmentation
Rappel... Solution itérative de systèmes linéaires (suite et fin).
Vers la dimension 3. La géométrie dans l'espace ne fait qu'étendre les concepts qui vous sont familiers en dimension 2 à la dimension 3. Le plus difficile.
Introduction aux matrices : exemples en dynamique de population
Exemple en dynamique de population
Examen partiel #3 Mercredi le 15 décembre de 15h30 à 17h20
Rappel... Systèmes dynamiques: discrets; continus.
Courbes de Hermite Michael E. Mortenson, Geometric Modeling. Wiley, 1997, 523p.
La corrélation et la régression multiple
Travaux pratiques sous matlab / octave
Optimisation linéaire
RECONNAISSANCE DE FORMES
Régression linéaire (STT-2400)
Cours du 25 octobre Mardi le 24 octobre
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
La décomposition en valeurs singulières: un outil fort utile
Géométrie épipolaire (deux vues)
Rappel... Valeurs propres et vecteurs propres. Définitions;
L’endomorphisme le plus simple est l’ homothétie
ASI 3 Méthodes numériques pour l’ingénieur
Programmation linéaire en nombres entiers
Présentation du marché obligataire
Micro-intro aux stats.
STATISTIQUES – PROBABILITÉS
Présentation de l’ACP à travers un exemple
ANALYSE EN COMPOSANTES PRINCIPALES (ACP)
Probabilités (suite).
CHAPITRE III Calcul vectoriel
7.4 VECTEURS PROPRES Cours 22. Au dernier cours nous avons vus ✓ Les cisaillements ✓ Les projections orthogonales ✓ Les projections obliques.
Probabilités et Statistiques
Calendrier (sur MathSV)
Probabilités et Statistiques Année 2009/2010
Probabilités et Statistiques
Chapitre 4 Variables aléatoires discrètes
Rappel de statistiques
Post-optimisation, analyse de sensibilité et paramétrage
STATISTIQUES.
Les dangers des drogues
Analyse des semis de point
Pierre Joli Cours de Mathématique Pierre Joli
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
Classification-Segmentation
ECHANTILLONAGE ET ESTIMATION
GEOMETRIE VECTORIELLE
LES POSTULATS DE LA MÉCANIQUE QUANTIQUE
Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien
Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien
Analyse en Composantes Principales Vue synoptique.
Gestion de portefeuille Chapitre 5: Portefeuille efficient au sens de Markovitz.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

Analyse de données Cours 3 Analyse en composantes principales (ACP) 1-Vision géométrique 2-Vision statistique

Méthodes factorielles Nous avons vu une première méthode d’analyse de données qui consiste à classer les données en les regroupant en groupes de dispersion intra-classe minimale et en groupes de dispersion inter-classe maximale Les méthodes factorielles visent à fournir des représentations synthétiques des tableaux de données multidimensionnelles en les représentant dans des espaces euclidiens de dimension faible (en général, plans)

Analyse en composantes principales Technique de réduction de dimension d’un tableau de données multidimensionnelles numériques Objectif : projeter le nuage de points (définis par le tableau de données) sur une droite (plan) telle que la dispersion totale des points projetés soit maximale

Exemple : données en 2D x2 Projections + + H1 x1

Projection P du point M sur la droite de direction u passant par l’origine O OPi = xiT . u = S xij uj Si on cherchait la direction de la droite passant par l’origine maximisant la dispersion des projections des n individus : On devrait maximiser : Si OPi2

Problème d’optimisation quadratique Pour obtenir toutes les projections des n individus: X.u = vecteur dont les coordonnées sont xiT. u Si OPi2 = (Xu)T(Xu) = uTXTXu De plus, on restreint la norme de u à 1 Soit à résoudre : maxu uTXTXu Sous la contrainte uTu = 1

Exemple : données en 2D x2 Projections + + H1 x1

Projetés et dispersion X : matrice des données Trouver H telle que la somme des projections Si,i’dH(i,i’)2 soit maximale. Si,i’ dH(i,i’)2 = Si,i’ (hi –hi’)2 = 2n Si(hi –h)2 hi : valeur du projeté du point i sur la droite H (on fixe O’ un point origine : hi= O’Pi h : valeur moyenne = 1/nSi hi

Projections Mi Mi’ + + hi hi’ Pi’ O’ Pi dH(i,i’)

Centre de gravité G Ses coordonnées sont : gj = 1/n S x ij La moyenne des projections des n individus correspond à la projection sur H du centre de gravité G. (linéarité de l’opérateur de projection) S i,i’ dH(i,i’)2 = 2n S i,i’ dH(Mi,G)2

Problème d’optimisation Maximiser S i,i’ dH(Mi,G)2 Prenons l’origine de la droite H en G On aura exactement le même problème en prenant : zij = xij - xj Moyenne des coordonnées j des individus

Analyse en composantes principales normée On veut que la distance entre deux points soit indépendante des unités des différentes variables sj : écart-type de la variable j : sj2 = 1/n S (xij –xj)2 zij = xij - xj On a : variance de zj = 1 sj sqrt(n)

Problème d’optimisation ACP normée Intéressons-nous à la matrice C = ZTZ cjj’ = S zij zij’ (coefficient de corrélation empirique entre les variables j et j’) Max u uTC u Sous la contrainte uTu = 1

Démonstration des extrema d’une forme quadratique Au tableau Démonstration des extrema d’une forme quadratique

Cours 4 ACP suite

Recherche des extrema d’une forme quadratique Rechercher le vecteur u qui rend maximale la quantité : uTCu avec uTu = 1 Vecteur propre u1 de C de plus grande valeur propre. Rappelons : l1 = u1TCu1

Analyse en composantes principales Les données : n individus à p variables Je cherche m < p vecteurs u1,u2,um (ou directions) tels que les projections successives du nuage de points sur u1,puis u2 puis u3 etc… soient maximales et que u1,…,um soient orthogonaux et de norme 1. Je commence par chercher u1, Puis je cherche u2

ACP Appelons u1 le vecteur propre de plus grande valeur propre l1 Cherchons maintenant un deuxième vecteur u2, unitaire (norme égale à 1) et orthogonal à u1 qui rende maximale la forme quadratique u2TCu2 Soit L le lagrangien: L = u2TCu2 – l2(u2TCu2-1) - m2 u2Tu1 Où l2 et m2 sont des coefficients de Lagrange Si u2 est un extremum alors : L /¶u2 = 2 C u2 – 2 l2 u2 – m2 u1 = 0 En multipliant par u1T On voit que : m2 = 0 -

Suite des calculs Il reste : Cu2 = l2 u2 u2 est donc le second vecteur propre, associé à la seconde valeur propre si celle-ci est unique (Rappelons que C est symétrique, définie positive) La démonstration s’étend aisément au cas d’un vecteur uj Pour j <= p Si je pars de données de dimension p et que je trouve les p vecteurs propres alors, j’ai obtenu une nouvelle base orthonormée (je n’ai pas réduit la dimension). En général on retient les 2 voire 3 premières directions principales

Vocabulaire de l’ACP On appelle axe factoriel ou composante principale uj, le j-ième vecteur propre de C, de norme 1 , associée à lj. Rappelons que Z est la matrice des données centrées et réduites. Les coordonnées des n points(individus) sur l’axe factoriel uj sont les n composantes du vecteur, appelé facteur: vj = Zuj Le point i a pour coordonnée sur l’axe uj : vji = S ujk zik

Evaluer l’ACP On a : lj = ujTCuj h S j=1 lj est l’inertie totale ou dispersion totale liée au sous–espace engendré par les h premières composantes principales est le taux d’inertie expliqué par le sous-espace H engendré par les h premières composantes principales.

Individus supplémentaires Soit X+ une nouvelle matrice représentant des individus supplémentaires : posons : z+ij = xij + - xj sj sqrt(n) Les coordonnées des nouveaux points-individus sont donc les ns composantes du vecteur X+uj En appelant Xs la matrice constituée de X pour ses n Première lignes et X+ pour ses n+nS dernières lignes, On obtient simultanément les coordonnées des individus analysés et supplémentaires par Xsuj.

Analyse en composantes principales 2. Vision statistique

Méthodes factorielles et statistique Nous avons utilisé jusqu’ici uniquement des considérations géométriques pour décrire le principe de l’analyse en composantes principales Une interprétation statistique peut être donnée en considérant que le tableau de données est un échantillon aléatoire de taille n, c’est-à-dire n réalisations indépendantes d’un même vecteur aléatoire. Au lieu de s’intéresser à la dispersion ou inertie du nuage de points on va s’intéresser à la variance des projections.

Introduction aux vecteurs aléatoires X est un vecteur aléatoire à valeurs continues si ces n composantes sont des variables aléatoires continues. Moments: m = E[X] est le vecteur espérance de X : Chacune des coordonnées mi est l’espérance de la variable aléatoire xi.

Dispersion autour de l’espérance Matrice de variance-covariance Soit S la matrice de variance-covariance de X : Elle est définie par : S = E[(X-E[X])(X-E[X])T] Sii = var (xi) = si2 Sij = cov(xi,xj) = E[(xi-E[xi])((xj-E[xj])] Quelques propriétés: est positive semi-définie : uTSu est toujours positif ou nul. = E[XXT] – E[X].E[X]T

Matrice de variance-covariance empirique Soit x1,…,xn l’échantillon aléatoire de taille n Moyenne empirique x = 1/n S xk La matrice S, de dimension p fois p, de variance –covariance empirique est définie par: Sij = 1/(n-1) S (xki-xi)(xkj – xj) I et j dénotent bien des variables (de 1 à p)

Exemple : vecteur aléatoire gaussien Un vecteur aléatoire X est gaussien ou normal si X peut se décomposer sous la forme : X = AZ +m où A est une matrice, Z est un vecteur aléatoire composé De coordonnées gaussiennes indépendantes. Si S est bien inversible (matrice de covariance) alors la densité de X s’écrit:                                                                                where     is the determinant of  .

Plusieurs cas pour S : identité : s2 . Id : D, matrice diagonale avec les variances : quelconque (symétrique, définie positive)

Vision statistique de l’ACP On cherche la direction u1 qui maximise la variance des projetés sur l’axe u1 … Maximiser uTS u avec uTu = 1 Où S est la matrice de variance-covariance empirique des données Au lieu de la matrice de corrélation (où on normalise) On utilise la matrice de variance-covariance

Vision statistique de l’ACP Après u1, on cherche la direction u2 qui maximise la variance des projetés sur l’axe u2 … Maximiser uTS u avec uTu = 1 et cov(Xu1,Xu2) = 0 Où S est la matrice de variance-covariance empirique des données cov(Xu1,Xu2) = E[(X.u1 – E[X.u1]) (X.u2 – E[X.u2]) ] = u1Su2

Exemple d’ACP en dimension 2 u2 u1

ACP de mots

Vecteurs propres et valeurs propres Application linéaire: F(x) = A.x Les vecteurs propres d’une application linéaire sont les vecteurs qui vérifient : F(x) = l . x C’est-à-dire, les vecteurs dont la direction n’est pas modifiée par F est appelée valeur propre Les valeurs propres sont racines du polynome caractéristique Comment trouver les vecteurs propres d’une application linéaire ? Trouver x tel que : (A-l Id)x = 0 où Id est la matrice identité