La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Analyse en Composante Principale (ACP) Jonathan Lenoir (MCU), Unité Écologie et Dynamique des Systèmes Anthropisés

Présentations similaires


Présentation au sujet: "Analyse en Composante Principale (ACP) Jonathan Lenoir (MCU), Unité Écologie et Dynamique des Systèmes Anthropisés"— Transcription de la présentation:

1 Analyse en Composante Principale (ACP) Jonathan Lenoir (MCU), Unité Écologie et Dynamique des Systèmes Anthropisés

2 Plan du cours 1. Définitions, applications et objectifs de lACP 2. Notion de covariance et ACP non-normée 3. Notion de corrélation et ACP normée Analyse en Composante Principale (ACP) 4. Meccanique de lACP à partir dun exemple à deux variables 5. Application à partir dun exemple concret (les forêts françaises)

3 Plan du cours 1. Définitions, applications et objectifs de lACP 2. Notion de covariance et ACP non-normée 3. Notion de corrélation et ACP normée Analyse en Composante Principale (ACP) 4. Meccanique de lACP à partir dun exemple à deux variables 5. Application à partir dun exemple concret (les forêts françaises)

4 Statistique multi-variée Méthodes descriptives (X j ) : X j quantitatives : Analyse en Composante Principale (ACP) X j qualitatives : Analyse Factorielle des Correspondances (AFC)... Méthodes explicatives (Y k = f(X j )) : Y k et X j quantitatives : Analyse Canonique des Corrélations (ACC) Y k qualitatives et X j quantitatives : Analyse Discriminante (AFD)...

5 Principe de lACP Représenter au mieux dans un espace plus réduit des observations issues dun espace plus grand en nombres de dimensions (X j variables) : Simplification de la réalité Concentration dune information de départ diluée Description du maximum de variabilité dans un espace réduit X1X1 X2X2 X3X3... ind ind ind X6X6 X3X3 X1X1 X5X5 X2X2 X4X4 X8X8 X7X7 X 10 X9X9 XjXj

6 Principe de lACP Dessinez cest gagné? Simplifier un objet 3D (réalitée) par une représentation en 2D (plan)

7 Quelles applications? Imagerie : Compression dimage Reconnaissance faciale Analyses de données : Réduction du nombres de variables explicatives (X j ) avant modélisation Obtention de nouvelles variables explicatives (CP j ) non corrélées

8 Situation P variables quantitatives ont été mesurées sur N individus : X1X1 X2X2...XjXj XpXp ind 1x 11...x 1j...x 1p ind 2x 12 x 22...x 2j...x 2p... ind ix i1 x i2...x ij...x ip... ind nx n1 x n2...x nj...x np Q : Peut-on « simplifier », « concentrer » ou « compresser » lessentiel de linformation contenue dans ce tableau? Exemple : Mesures de P variables morpho-métriques sur N individus différents

9 Objectifs Résumer le tableau de façon à identifier les variables ou combinaisons de variables selon lesquelles les N individus se différencient le plus Identification des « composantes principales » (CP) qui déterminent lessentiel de la différence entre individus (variance) Examiner la position des N individus le long de ces « composantes principales » Typologie des individus Etudier les relations des P variables le long de ces « composantes principales » Typologie des variables

10 Notion de projection Changement de référentiel obtenu par rotation Cas simple dun tableau à 2 variables (P = 2, X 1 et X 2 ) et N individus : On pourrait résumer ce tableau par une « composante principale » CP 1 Projection orthogonale des individus le long de CP 1 CP 1 Orthogonalité de CP 2 par rapport à CP 1 CP 2

11 Centrage Il est recommandé de toujours centrer les valeurs associées à chaque variable X j pour éviter le problème de la translation au cours du changement de référentiel et pour simplifier au cas de la rotation seule Comment allez-vous positionner CP 1 puis CP 2 ?

12 Plan du cours 1. Définitions, applications et objectifs de lACP 2. Notion de covariance et ACP non-normée 3. Notion de corrélation et ACP normée Analyse en Composante Principale (ACP) 4. Meccanique de lACP à partir dun exemple à deux variables 5. Application à partir dun exemple concret (les forêts françaises)

13 Notion de covariance ACP : calculs des CPs basés sur la covariance entre variables Quest ce que la covariance entre deux variables X 1 et X 2 ? Indique si à un écart positif de X 1 pour un individu i par rapport à la moyenne sur X 1 correspond un écart positif ou négatif de X 2 pour ce même individus i par rapport à la moyenne sur X 2 Cest le signe de la covariance qui importe : cov(X 1, X 2 ) > 0 : X 1 augmente quand X 2 augmente cov(X 1, X 2 ) < 0 : X 1 augmente quand X 2 diminue NB : Si X 1 et X 2 sont centrées, alors

14 Notion de covariance Visualisation graphique de la covariance sur variables centrées : cov (X 1, X 2 ) = 0.61 > 0

15 Notion de covariance Pour P > 2, on calcule la covariance pour toutes les paires de variables possibles : Matrice C de covariances Propriétés : C est une matrice carré de taille p x p C est une matrice symétrique

16 Plan du cours 1. Définitions, applications et objectifs de lACP 2. Notion de covariance et ACP non-normée 3. Notion de corrélation et ACP normée Analyse en Composante Principale (ACP) 4. Meccanique de lACP à partir dun exemple à deux variables 5. Application à partir dun exemple concret (les forêts françaises)

17 Notion de corrélation : lACP normée Corrélation = covariance « standardisée » : réduction Comprise entre -1 et 1, la corrélation mesure lintensité de la liaison linéaire entre deux variables X 1 et X 2 NB : ρ 2 = part de la variance partagée entre les 2 variables

18 Notion de corrélation : ACP normée Si lACP est basée sur la matrice de covariances, lACP normée est basée elle sur la matrice de corrélations : Matrice C de corrélations Propriétés : C est une matrice carré de taille p x p C est une matrice symétrique C possède une diagonale de 1

19 ACP non-normée ou ACP normée? Sil est recommandé de toujours « centrer » ses donnés en ACP, la question de les « réduire » (ACP normée) dépend de vos données : Si vos données sont toutes dans la même unité de mesure et varient dans des gammes de valeurs identiques : lACP non-normée suffit Si vos données sont dans des unités de mesure différentes et varient dans des gammes de valeurs différentes : lACP normée est recommandée

20 Plan du cours 1. Définitions, applications et objectifs de lACP 2. Notion de covariance et ACP non-normée 3. Notion de corrélation et ACP normée Analyse en Composante Principale (ACP) 4. Meccanique de lACP à partir dun exemple à deux variables 5. Application à partir dun exemple concret (les forêts françaises)

21 Un cas simple à 2 variables Reprenons le cas simple de notre exemple à deux variables X 1 et X 2 : > X 1 = c(2.5, 0.5, 2.2, 1.9, 3.1, 2.3, 2, 1, 1.5, 1.1) > X 2 = c(2.4, 0.7, 2.9, 2.2, 3, 2.7, 1.6, 1.1, 1.6, 0.9) X 1 et X 2 varient dun même ordre de grandeur? var(X 1 ) = var(X 2 ) = cov(X 1, X 2 ) = ACP non-normée = matrice de covariances Utilisation de la matrice de covariances pour changer de référentiel : Calcul du vecteur directeur de CP 1 Calcul du vecteur directeur de CP 2

22 Un cas simple à 2 variables Une histoire dalgèbre linéaire et de calculs matriciels : Détermination des p valeurs propres λ j Détermination des p vecteurs propres V j Soit la matrice de covariances C de taille p x p, elle admet p valeurs propres et p vecteurs propres associés, tels que : CV j = λ j V j Dans notre exemple à deux variables, C admet 2 valeurs propres et 2 vecteurs propres tels que soit vérifié les égalités suivantes :

23 Un cas simple à 2 variables Détermination des 2 valeurs propres λ 1 et λ 2 : Calcul du déterminant de C – λI Résolution de léquation det(C – λI) = 0

24 Un cas simple à 2 variables Chaque valeur propre représente la variance des données autour dun nouvel axe CP ou « composante principale » qui est une combinaison linéaire des variables de départ La première « composante principale » ou CP 1 associée à λ 1 porte 96% de la variance totale La deuxième « composante principale » ou CP 2 associée à λ 2 porte 4% seulement de la variance totale A partir dune seule dimension (CP 1 ), il est possible ici de résumer 96% de linformation de départ contenue dans deux dimensions (X 1, X 2 )

25 Un cas simple à 2 variables Détermination des 2 vecteurs propres V 1 et V 2 : Résolution des 2 systèmes déquations CV j - λ j V j = 0 λ1λ1 λ2λ2

26 Un cas simple à 2 variables Une solution possible (cf. sous la contrainte que V 1 et V 2 soient tout 2 des vecteurs unitaires de taille 1)

27 Un cas simple à 2 variables V 1 et V 2 sont les vecteurs directeur de CP 1 et CP 2 : V1V1 V2V2 V1V1 V2V2 NB : ρ(X 1, X 2 ) = 0.93 mais ρ(CP 1, CP 2 ) = 0 CP 1 porte 96% de linertie totale du nuage de point

28 Un cas simple à 2 variables Linformation (variance) portée par CP1 est tellement importante que lon peut se passer de CP2 : Cela revient à compresser linformation originale portée par deux dimensions sur une seule dimension avec une perte ici de 4% de linformation dorigine Par analogie, une fois que lon a vu le chameau de profil, le voir de face napporte pas beaucoup plus dinformation... Attention : Dans le cas de lACP non-normée, chacune des variables représente a priori un poids égal à sa propre variance LACP non-normée est une application rare et en général, on travail avec la matrice des corrélations (ACP normée)

29 Un cas simple à 2 variables Cas de lACP normée sur le même jeu de donnée :

30 Un cas simple à 2 variables Une solution possible (cf. sous la contrainte que V 1 et V 2 soient tout 2 des vecteurs unitaires de taille 1)

31 Un cas simple à 2 variables V 1 et V 2 sont les vecteurs directeur de CP 1 et CP 2 : V1V1 V2V2 NB : ρ(X 1, X 2 ) = 0.93 mais ρ(CP 1, CP 2 ) = 0 V1V1 V2V2 CP 1 porte 96% de linertie totale du nuage de point

32 Combien de composantes principales? LACP dun tableau de données à P variables et N individus admet P valeurs propres, P vecteurs propres, et P composantes principales : Conservez au moins 50-70% de la variance en cumulé Conservez toute les composantes principale dont λ > 1 (limite de Kaiser) Utilisez lhistogramme des valeurs propres (scree plot) Attention : LACP sur un tableau de données tel que P > N est impossible

33 Typologies des individus et des variables Typologie des individus : La lecture graphique de la position des individus le long des composantes principales permet de dresser une typologie Les indidus proches le long dune composante principale sont des individus qui partagent les mêmes caractéristiques vis-à-vis des variables quantitatives étudiées Typologie des variables : Chaque composante principale est une combinaison linéaire des variables de départ auxquelles sont affecté des poids La lecture graphique du cercle des corrélations permet de juger du poids des différentes variables de départ sur chacune des composantes principales

34 Plan du cours 1. Définitions, applications et objectifs de lACP 2. Notion de covariance et ACP non-normée 3. Notion de corrélation et ACP normée Analyse en Composante Principale (ACP) 4. Meccanique de lACP à partir dun exemple à deux variables 5. Application à partir dun exemple concret (les forêts françaises)

35 Exemple concret Regrouper les départements français en régions homogènes du point de vue de la production forestière (typologie) 12 variables relative à la production forestière dans 90 départements : Taux de boisement Accroissement en volume par hectare Volume par hectare Taux de prélèvement Taux de taillis Part de propriété privé Accroissement en volume / volume Accroissement en surface / surface Part de résineux (volume) Indice dexploitabilité DQM log(volume D60)

36 Exemple concret Relations 2 à 2 entres variables :

37 Exemple concret Matrice de corrélations :

38 Exemple concret Réalisation dune ACP normée dans un espace à 12 dimensions : Décomposition de la variance sur les 12 composantes principales Combien daxes doit-on conserver?

39 Exemple concret Projection dans le plan (CP 1, CP 2 ) : Position des départements et regroupement en types (typologie) La Somme

40 Exemple concret Interprétation des axes du plan (CP 1, CP 2 ) : Lecture du cercle des corrélations CP 1 : volumes CP 2 : surfaces


Télécharger ppt "Analyse en Composante Principale (ACP) Jonathan Lenoir (MCU), Unité Écologie et Dynamique des Systèmes Anthropisés"

Présentations similaires


Annonces Google