La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

ANALYSE EN COMPOSANTES PRINCIPALES (ACP)

Présentations similaires


Présentation au sujet: "ANALYSE EN COMPOSANTES PRINCIPALES (ACP)"— Transcription de la présentation:

1 ANALYSE EN COMPOSANTES PRINCIPALES (ACP)

2 Objectifs des méthodes multivariées
Explorer et Décrire ACP Corréler et Prédire Régressions Caractériser et Classifier Classificassions et discrimination

3 ACP Data Structure Noise + = Objectifs de l’ACP (PCA) Analyse en Composante Principale (Principal Component Analysis)  Déterminer un moyen efficace de cartographier les échantillons (objets, individus) Echantillons similaires proches les uns des autres; Echantillons dissimilaires distants les uns des autres. Extraire le maximum d’information Réduire la dimension Créer de nouvelles variables

4 Tableau X 20 eaux minérales (individus) 6 variables composition chimique Chaque individu (lignes) a 6 coordonnées. Ce serait bien d’avoir une représentation plus simple

5 ACP Représentation dans un plan comme si je n’avais que 2 variables Tableau X 20 eaux minérales (individus) 6 variables composition chimique Merci l’ACP

6 ACP Each object is a point in the variable space
Each variable defines an axis Nuage de points Data table = Swarm of points in the variable space We will now examine the basic principles underlying all projection methods. To that effect, let us see how the simplest method, PCA (Principal Component Analysis) works. This method is useful to analyze data sets consisting of a single set of variables measured over a set of objects. The data table contains one row per observation. Each variable defines a column of the table. Thus a cell of the table will contain the value of one variable measured on one object. This is the numerical representation of your data; mathematically, it is called a matrix. The data matrix also has a geometrical representation, which will be very useful to understand projection methods intuitively. Each row of the table can be viewed as a set of coordinates that represent the object in the variable space; the variable space is the multidimensional space defined by the set of variables, in which every variable defines an axis. Thus each object is a point in the variable space. 6

7 ACP La variation qui existe entre les individus peut se résumer en une droite qui passe par le milieu du nuage de points Son orientation est telle que, en suivant cet axe d’un bout à l’autre, de plus en plus d’individus différents sont rencontrés. Droite = composante principale (CP) C’est une combinaison des 3 variables CP1 moyenne (individu “typique”) 7

8 ACP : REDUCTION DE L’ESPACE DE REPRESENTATION
Représentation la plus fidèle possible du nuage des points-individus dans un sous-espace de faible dimension (1,2 ou plus) Sous-espace à 1 dimension: Droite Droite de projection qui va donner l’image la plus « réelle » du nuage de point, Droite de projection qui va conserver au mieux les distances entre les individus (distance euclidienne), V3 Rp I1 I'1 I2 Droite d’étirement maximum du nuage des points projetés, Droite de variance (d’inertie) maximum du nuage des points projetés, V1 Vp V2

9 ACP espace à 2 dimensions le plus explicatif
x x x x x x x x G CP1 CP2 x x x x x x V1 V2 V3 Vp Vj V2 Vp x x x x x x x x G CP1 x x x x x x V1 V3 Vj espace à 2 dimensions le plus explicatif espace à 1 dimensions le plus explicatif

10 ACP Plan principal Représentation classique du plan
moyenne (individu “typique”) Once you have got 2 principal components, you can build a plane onto which the projections of the swarm points will lie closer yet to the original coordinates. You can imagine this plane as a kind of window which you have moved in the multidimensional space until you found the position from which the view into the swarm had maximum likeness to the original layout. You may either stop the process here, or try to find more components, so as to further improve your principal component model. The more PCs you take into account, the better the approximation, but also the more complex! There is a compromise to be found between amount of information and simplicity of use. Représentation classique du plan Composantes principales Facteurs, Axes 10

11 ACP Tableau X 20 eaux minérales (individus)
6 variables composition chimique Représentation des individus dans un plan engendré par les 2 premières composantes principales 2 1

12 ACP ACP SCORES PLAN FACTORIEL 1,2 NOUVELLES COORDONNEES
The intensity of the fluorescence spectrum at four different wavelengths for a number of compounds SCORES ind w300 w350 w400 w450 I1 16.0 62.0 67.0 27.0 I2 15.0 60.0 69.0 31.0 I3 14.0 59.0 68.0 I4 61.0 71.0 I5 70.0 30.0 I6 I7 17.0 63.0 29.0 I8 28.0 I9 72.0 I10 I11 18.0 I12 64.0 PLAN FACTORIEL 1,2 ACP

13 ACP ACP Mais quelle est l’importance de chaque composante (axe)?
NOUVELLES COORDONNEES The intensity of the fluorescence spectrum at four different wavelengths for a number of compounds SCORES ind w300 w350 w400 w450 I1 16.0 62.0 67.0 27.0 I2 15.0 60.0 69.0 31.0 I3 14.0 59.0 68.0 I4 61.0 71.0 I5 70.0 30.0 I6 I7 17.0 63.0 29.0 I8 28.0 I9 72.0 I10 I11 18.0 I12 64.0 Mais quelle est l’importance de chaque composante (axe)? Quelle est la variance expliquée par chaque axe? ACP

14 ACP Mais quelle est l’importance de chaque composante (axe)?
Quelle est la variance expliquée par chaque axe? On calcule les variances (inerties) du nuage des points projetés, expliquées par les axes (valeur propres) et les % de variances cumulés L’axe1 explique % de variance, l’axe 2: 16.13% notation

15 Combien d’axes retenir ?
ACP Combien d’axes retenir ? : qualité d’un axe factoriel α : pourcentage de variation expliqué par l’axe α : la part de toute l’information initiale « visible » sur l’axe α : qualité d’un sous espace à q dimensions : pourcentage de variation expliqué par le sous-espace à q dimensions : la part de toute l’information initiale « visible » sur le sous-espace à q dimensions Histogramme des variances Regarder les pourcentages de variation expliqués par chaque composante principale. Examiner les axes jusqu’à obtenir une information « suffisante » (% de variation) Il faut tenir compte de la forme dégressive des variances.

16 composante principale = combinaison des variables
ACP composante principale = combinaison des variables Pour apprécier dans quelle mesure une composante principale représente bien les variables on calcule, le coefficient de corrélation entre cette composante et chacune des variables initiales. En pratique on visualise l’ensemble des corrélations entre chaque variable et deux composantes principales par un graphique: le cercle des corrélations cp2 cp1 rji coefficient de corrélation entre la variable et la composante principale Cercle de corrélation 1 Vj rj1 rj2 2 Cercle de corrélation 1 1

17 composante principale = combinaison des variables
ACP composante principale = combinaison des variables coefficients = loadings U1 contient les coefficients de la première composante principale Cp1= V V V V V V6 U2 …………………………….2ème V1 n’est pas exactement la variable HCO3- …… Dans l’ACP le tableau est centré ou bien centré réduit (normalisé)

18 Tableau centré-réduit
1 … j .. … p rij 1 . n Individus ACP ACP normée Tableau centré Tableau centré-réduit Variables xj Variables yj 1 … j .. … p Y(n,p) 1 ..… j … p yij Individus 1 . n 1 . n xij X(n,p) 1 . n Individus

19 ACP Summary Variance = Information
Many variables contain information, but much of the information may be redundant (correlated) or irrelevant. Use linear combinations of the original variables to create new variables (Principal Components) that combines redundant information.

20 How Does PCA Find the PC’s?
ACP How Does PCA Find the PC’s? The 1st principal component (PC) passes through the origin and the maximum variance of the data. The 2nd PC is orthogonal (perpendicular or independant) to PC1 and passes through the second most variance. The process is continued until the number of new PC’s = number of old variables.

21 Scores Samples Eigenvalues Variance
ACP What Does PCA Give Me? • Most of the variance (information) is concentrated in the first few PC’s. • Small random noise is sifted into the later PC’s • Loadings: Compositions of the new PC axes in terms of the old variables. May be able to interpret the loadings in variables terms. • Loadings Variables • Scores: The position of the samples in the new PC coordinate system. • Scores Samples • Eigenvalues: The variance stored in each of the Principal Components Can then be used to calculate the % of the information stored in each PC. Loadings Variables Scores Samples Eigenvalues Variance

22 ACP

23 Interprétation des résultats
ACP Interprétation des résultats Regarder les pourcentages de variation expliqués par chaque composante principale. Déterminer le nombre d’axes à examiner Il faut examiner les axes jusqu’à obtenir une information « suffisante » (% de variation) Il faut tenir compte de la forme dégressive des valeurs propres.

24 Interprétation des résultats
ACP Interprétation des résultats Regarder la structure des variables à partir de leurs corrélations avec les axes principaux. Qualité de la représentation Cosinus carrés (COR) Les variables sont d’autant mieux représentées sur le plan qu’elles sont proches du cercle Structures des variables Pour chaque axe, on regarde les variables qui lui sont les plus fortement corrélées. On compare la position de ces variables les unes par rapport aux autres. On peut ainsi interpréter cet axe. On peut aussi étudier la position des variables par rapport aux deux axes et chercher une explication.

25 Interprétation des résultats
ACP Interprétation des résultats : Cosinus carré : Qualité de représentation de la variable j coefficients de corrélation entre les variables et les composantes principales. cp2 cp1 Cercle de corrélation 1 Vj rj1 rj2

26 Interprétation des résultats : individus
Regarder la répartition des individus à partir de leurs coordonnées sur les axes principaux et de la qualité de leur représentation. : Cosinus carré : Qualité de représentation d’un individu i sur l’axe Uα Ii μ θ I’i Indique dans quelle proportion l’axe α contribue à la représentation de l’individu i Un individu sera bien représenté sur un axe s’il est proche de l’axe i.e. si le cos²θ est élevé et inversement. Un individu sera bien représenté sur un plan si la somme des cos²θ est forte. On ne peut pas interpréter les proximités d’individus mal représentés.

27 Interprétation des individus
Les individus qui contribuent le plus à la formation des axes sont les individus qui ont les fortes coordonnées : Contribution de l’individu i à l’axe principal α Indique dans quelle proportion l’individu i contribue à l’inertie λα du nuage projeté sur l’axe α

28 20 eaux minérales (individus)
Tableau X 20 eaux minérales (individus) 6 variables composition chimique HCO3 acide carbonique SO4 sulfate Cl chlore CA calcium MG magnésium NA sodium

29 ACP : Les axes Interprétation
La quantité maximisée (valeur propre) par la première composante principale est λ1 = On dit que la première composante explique 51.57% de la variabilité des données ( la variance totale = nombre de variables en ACP normée) La deuxième explique 28.13% de la variance totale. Les deux premières expliquent 95.23%.

30 ACP normée diagonalisation matrice de corrélation
Cor( CA+,HCO3-) = 0.852 ….. ACP normée diagonalisation matrice de corrélation valeurs propres et vecteurs propres Mastère2 Bioproduits et Maîtrise des Procédés de Transformation - Statistique – Année

31 valeurs propres 

32

33

34 ACP consommation de boissons
Les individus : 17 pays Les variables : Consommations 6 boissons

35 ACP grains de raisins Les individus :150 spectres Vis/VNIR de grains de raisin De 3 cépages (50 / cépage) : Carignan, Grenache Blanc, Grenache Noir Les variables : Le signal recueilli sur 256 longueurs d’onde de 300 à 1050 nm

36 pays Wine Beer Liquor LifeEx HeartD FR 63.50 40.10 2.50 78.00 61.10 IT 58.00 25.10 0.90 94.10 SW 46.00 65.00 1.70 106.40 AU 15.70 102.10 1.20 173.00 GB 12.20 100.00 1.50 77.00 199.70 USA 8.90 87.80 2.00 76.00 176.00 RUS 2.70 17.10 3.80 69.00 373.60 CZE 140.00 1.00 73.00 283.70 JAP 55.00 2.10 79.00 34.70 MEX 0.20 50.40 0.80 36.40

37


Télécharger ppt "ANALYSE EN COMPOSANTES PRINCIPALES (ACP)"

Présentations similaires


Annonces Google