ANALYSE EN COMPOSANTES PRINCIPALES (ACP)

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Colloque Francophone sur les sondage – Rennes 2012
Cours d‘Analyse de Données
ANALYSE GÉOMÉTRIQUE DES DONNÉES
Etude de marché.
Soizic Geslin Samy Fouilleux Minh Le Hoai Maxime Chambreuil
Formation en Analyse des Données
C1 Bio-statistiques F. KOHLER
Unité #4 Analyse numérique matricielle Giansalvo EXIN Cirrincione.
Régression -corrélation
Analyse Factorielle des Correspondances
Analyse en Composantes Principales
Traitement de données socio-économiques et techniques d’analyse :
Géométrie vectorielle
Analyse en Composante Principale (ACP)
Analyse factorielle.
2.1.5 Rotations in 3D: Rotation axis
Concepts avancés en mathématiques et informatique appliquées
G20 Statistique.
Groupe 1: Classes de même intervalle
Jessica Monhart Camille Pitteloud Supervisé par Micha Hersch.
Rappel... Solution itérative de systèmes linéaires (suite et fin).
Vers la dimension 3. La géométrie dans l'espace ne fait qu'étendre les concepts qui vous sont familiers en dimension 2 à la dimension 3. Le plus difficile.
Rappel... Systèmes dynamiques: discrets; continus.
Révision Grandeurs physiques, unités et notations
La corrélation et la régression multiple
La corrélation et la régression
La corrélation et la régression
Travaux pratiques sous matlab / octave
Les analyses multivariées
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
« Analyses descriptives multidimensionnelles »
Statistiques, deuxième séance
La décomposition en valeurs singulières: un outil fort utile
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
Analyse multivariée en écologie: méthodes d'ordination et de classification en R Abdoul Ousmane DIA Méthodes d'ordination 30 Mars 2010.
Présentation du marché obligataire
Sommaire Rappel introductif sur la définition de l’ACP
Présentation de l’ACP à travers un exemple
Objectif: Comment employer un exposant?. Objective: How to use an exponent?
Calendrier (sur MathSV)
Aujourd'hui Avoir le devoir d’écart type prêts pour me voir pendant les questions rapide On commence le nouveau unité.
Outils d’analyse: la méthode des moindres carrées
Unité 2 La vie courante Leçon 3 Bon appétit. Thème et Objectifs Everyday life in France In this unit, you will learn how to get along in France. You will.
Cette semaine…. Les buts du jour I can express how I am feeling I can form a question.
Les Diagrammes de dispersion
Analyse de données Cours 3 Analyse en composantes principales (ACP)
ETUDE DE 2 VARIABLES QUANTITATIVES
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.
Régression linéaire (STT-2400)
STATISTIQUES.
Statistiques à 2 variables
Les dangers des drogues
Seconde 8 Chapitre 4: Les statistiques
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Analyse de données avec R
M. YAMANAKA – Cours de mathématiques. Classe de 4ème.
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
Classification-Segmentation
Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien
Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien
Analyse en Composantes Principales Vue synoptique.
1 Fouille visuelle de dissimilarités à l’aide de matrices de scatterplots pseudo-euclidiennes Sébastien AUPETIT, Nicolas MONMARCHE, Mohamed SLIMANE
Analyse Factorielle des Correspondances Généralisation de l’A.C.P. adaptée au traitement de données qualitatives se présentant sous la forme d’un tableau.
Section 4 : Analyse descriptive. En 1901, Karl Pearson publie son papier sur l’Analyse en Composante Principale dans : “On lines and planes of closest.
Résumé de l’objectif de l’A.C.P.
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Application au traitement d’un jeu de données d’huiles d’olives.
Transcription de la présentation:

ANALYSE EN COMPOSANTES PRINCIPALES (ACP)

Objectifs des méthodes multivariées Explorer et Décrire ACP Corréler et Prédire Régressions Caractériser et Classifier Classificassions et discrimination

ACP Data Structure Noise + = Objectifs de l’ACP (PCA) Analyse en Composante Principale (Principal Component Analysis)  Déterminer un moyen efficace de cartographier les échantillons (objets, individus) Echantillons similaires proches les uns des autres; Echantillons dissimilaires distants les uns des autres. Extraire le maximum d’information Réduire la dimension Créer de nouvelles variables

Tableau X 20 eaux minérales (individus) 6 variables composition chimique Chaque individu (lignes) a 6 coordonnées. Ce serait bien d’avoir une représentation plus simple

ACP Représentation dans un plan comme si je n’avais que 2 variables Tableau X 20 eaux minérales (individus) 6 variables composition chimique Merci l’ACP

ACP Each object is a point in the variable space Each variable defines an axis Nuage de points Data table = Swarm of points in the variable space We will now examine the basic principles underlying all projection methods. To that effect, let us see how the simplest method, PCA (Principal Component Analysis) works. This method is useful to analyze data sets consisting of a single set of variables measured over a set of objects. The data table contains one row per observation. Each variable defines a column of the table. Thus a cell of the table will contain the value of one variable measured on one object. This is the numerical representation of your data; mathematically, it is called a matrix. The data matrix also has a geometrical representation, which will be very useful to understand projection methods intuitively. Each row of the table can be viewed as a set of coordinates that represent the object in the variable space; the variable space is the multidimensional space defined by the set of variables, in which every variable defines an axis. Thus each object is a point in the variable space. 6

ACP La variation qui existe entre les individus peut se résumer en une droite qui passe par le milieu du nuage de points Son orientation est telle que, en suivant cet axe d’un bout à l’autre, de plus en plus d’individus différents sont rencontrés. Droite = composante principale (CP) C’est une combinaison des 3 variables CP1 moyenne (individu “typique”) 7

ACP : REDUCTION DE L’ESPACE DE REPRESENTATION Représentation la plus fidèle possible du nuage des points-individus dans un sous-espace de faible dimension (1,2 ou plus) Sous-espace à 1 dimension: Droite Droite de projection qui va donner l’image la plus « réelle » du nuage de point, Droite de projection qui va conserver au mieux les distances entre les individus (distance euclidienne), V3 Rp I1 I'1 I2 Droite d’étirement maximum du nuage des points projetés, Droite de variance (d’inertie) maximum du nuage des points projetés, V1 Vp V2

ACP espace à 2 dimensions le plus explicatif x x x x x x x x G CP1 CP2 x x x x x x V1 V2 V3 Vp Vj V2 Vp x x x x x x x x G CP1 x x x x x x V1 V3 Vj espace à 2 dimensions le plus explicatif espace à 1 dimensions le plus explicatif

ACP Plan principal Représentation classique du plan moyenne (individu “typique”) Once you have got 2 principal components, you can build a plane onto which the projections of the swarm points will lie closer yet to the original coordinates. You can imagine this plane as a kind of window which you have moved in the multidimensional space until you found the position from which the view into the swarm had maximum likeness to the original layout. You may either stop the process here, or try to find more components, so as to further improve your principal component model. The more PCs you take into account, the better the approximation, but also the more complex! There is a compromise to be found between amount of information and simplicity of use. Représentation classique du plan Composantes principales Facteurs, Axes 10

ACP Tableau X 20 eaux minérales (individus) 6 variables composition chimique Représentation des individus dans un plan engendré par les 2 premières composantes principales 2 1

ACP ACP SCORES PLAN FACTORIEL 1,2 NOUVELLES COORDONNEES The intensity of the fluorescence spectrum at four different wavelengths for a number of compounds SCORES ind w300 w350 w400 w450 I1 16.0 62.0 67.0 27.0 I2 15.0 60.0 69.0 31.0 I3 14.0 59.0 68.0 I4 61.0 71.0 I5 70.0 30.0 I6 I7 17.0 63.0 29.0 I8 28.0 I9 72.0 I10 I11 18.0 I12 64.0 PLAN FACTORIEL 1,2 ACP

ACP ACP Mais quelle est l’importance de chaque composante (axe)? NOUVELLES COORDONNEES The intensity of the fluorescence spectrum at four different wavelengths for a number of compounds SCORES ind w300 w350 w400 w450 I1 16.0 62.0 67.0 27.0 I2 15.0 60.0 69.0 31.0 I3 14.0 59.0 68.0 I4 61.0 71.0 I5 70.0 30.0 I6 I7 17.0 63.0 29.0 I8 28.0 I9 72.0 I10 I11 18.0 I12 64.0 Mais quelle est l’importance de chaque composante (axe)? Quelle est la variance expliquée par chaque axe? ACP

ACP Mais quelle est l’importance de chaque composante (axe)? Quelle est la variance expliquée par chaque axe? On calcule les variances (inerties) du nuage des points projetés, expliquées par les axes (valeur propres) et les % de variances cumulés L’axe1 explique 72.02 % de variance, l’axe 2: 16.13% notation

Combien d’axes retenir ? ACP Combien d’axes retenir ? : qualité d’un axe factoriel α : pourcentage de variation expliqué par l’axe α : la part de toute l’information initiale « visible » sur l’axe α : qualité d’un sous espace à q dimensions : pourcentage de variation expliqué par le sous-espace à q dimensions : la part de toute l’information initiale « visible » sur le sous-espace à q dimensions Histogramme des variances Regarder les pourcentages de variation expliqués par chaque composante principale. Examiner les axes jusqu’à obtenir une information « suffisante » (% de variation) Il faut tenir compte de la forme dégressive des variances.

composante principale = combinaison des variables ACP composante principale = combinaison des variables Pour apprécier dans quelle mesure une composante principale représente bien les variables on calcule, le coefficient de corrélation entre cette composante et chacune des variables initiales. En pratique on visualise l’ensemble des corrélations entre chaque variable et deux composantes principales par un graphique: le cercle des corrélations cp2 cp1 rji coefficient de corrélation entre la variable et la composante principale Cercle de corrélation 1 Vj rj1 rj2 2 Cercle de corrélation 1 1

composante principale = combinaison des variables ACP composante principale = combinaison des variables coefficients = loadings U1 contient les coefficients de la première composante principale Cp1= - 0.498 V1 - 0.472 V2 - 0.025 V3 - 0.524 V4 - 0.481 V5 + 0.151 V6 U2 …………………………….2ème V1 n’est pas exactement la variable HCO3- …… Dans l’ACP le tableau est centré ou bien centré réduit (normalisé)

Tableau centré-réduit 1 ….. j .. … p rij 1 . i  n Individus ACP ACP normée Tableau centré Tableau centré-réduit Variables xj Variables yj 1 ….. j .. … p Y(n,p) 1 ..… j … .. p yij Individus 1 . i  n 1 . i  n xij X(n,p) 1 . i  n Individus

ACP Summary Variance = Information Many variables contain information, but much of the information may be redundant (correlated) or irrelevant. Use linear combinations of the original variables to create new variables (Principal Components) that combines redundant information.

How Does PCA Find the PC’s? ACP How Does PCA Find the PC’s? The 1st principal component (PC) passes through the origin and the maximum variance of the data. The 2nd PC is orthogonal (perpendicular or independant) to PC1 and passes through the second most variance. The process is continued until the number of new PC’s = number of old variables.

Scores Samples Eigenvalues Variance ACP What Does PCA Give Me? • Most of the variance (information) is concentrated in the first few PC’s. • Small random noise is sifted into the later PC’s • Loadings: Compositions of the new PC axes in terms of the old variables. May be able to interpret the loadings in variables terms. • Loadings Variables • Scores: The position of the samples in the new PC coordinate system. • Scores Samples • Eigenvalues: The variance stored in each of the Principal Components Can then be used to calculate the % of the information stored in each PC. Loadings Variables Scores Samples Eigenvalues Variance

ACP

Interprétation des résultats ACP Interprétation des résultats Regarder les pourcentages de variation expliqués par chaque composante principale. Déterminer le nombre d’axes à examiner Il faut examiner les axes jusqu’à obtenir une information « suffisante » (% de variation) Il faut tenir compte de la forme dégressive des valeurs propres.

Interprétation des résultats ACP Interprétation des résultats Regarder la structure des variables à partir de leurs corrélations avec les axes principaux. Qualité de la représentation Cosinus carrés (COR) Les variables sont d’autant mieux représentées sur le plan qu’elles sont proches du cercle Structures des variables Pour chaque axe, on regarde les variables qui lui sont les plus fortement corrélées. On compare la position de ces variables les unes par rapport aux autres. On peut ainsi interpréter cet axe. On peut aussi étudier la position des variables par rapport aux deux axes et chercher une explication.

Interprétation des résultats ACP Interprétation des résultats : Cosinus carré : Qualité de représentation de la variable j coefficients de corrélation entre les variables et les composantes principales. cp2 cp1 Cercle de corrélation 1 Vj rj1 rj2

Interprétation des résultats : individus Regarder la répartition des individus à partir de leurs coordonnées sur les axes principaux et de la qualité de leur représentation. : Cosinus carré : Qualité de représentation d’un individu i sur l’axe Uα Ii μ θ uα I’i Indique dans quelle proportion l’axe α contribue à la représentation de l’individu i Un individu sera bien représenté sur un axe s’il est proche de l’axe i.e. si le cos²θ est élevé et inversement. Un individu sera bien représenté sur un plan si la somme des cos²θ est forte. On ne peut pas interpréter les proximités d’individus mal représentés.

Interprétation des individus Les individus qui contribuent le plus à la formation des axes sont les individus qui ont les fortes coordonnées : Contribution de l’individu i à l’axe principal α Indique dans quelle proportion l’individu i contribue à l’inertie λα du nuage projeté sur l’axe α

20 eaux minérales (individus) Tableau X 20 eaux minérales (individus) 6 variables composition chimique HCO3 acide carbonique SO4 sulfate Cl chlore CA calcium MG magnésium NA sodium

ACP : Les axes Interprétation La quantité maximisée (valeur propre) par la première composante principale est λ1 = 3.0941 On dit que la première composante explique 51.57% de la variabilité des données ( la variance totale = nombre de variables en ACP normée) La deuxième explique 28.13% de la variance totale. Les deux premières expliquent 95.23%.

ACP normée diagonalisation matrice de corrélation Cor( CA+,HCO3-) = 0.852 ….. ACP normée diagonalisation matrice de corrélation valeurs propres et vecteurs propres Mastère2 Bioproduits et Maîtrise des Procédés de Transformation - Statistique – Année 2005-2006

valeurs propres 

ACP consommation de boissons Les individus : 17 pays Les variables : Consommations 6 boissons

ACP grains de raisins Les individus :150 spectres Vis/VNIR de grains de raisin De 3 cépages (50 / cépage) : Carignan, Grenache Blanc, Grenache Noir Les variables : Le signal recueilli sur 256 longueurs d’onde de 300 à 1050 nm

pays Wine Beer Liquor LifeEx HeartD FR 63.50 40.10 2.50 78.00 61.10 IT 58.00 25.10 0.90 94.10 SW 46.00 65.00 1.70 106.40 AU 15.70 102.10 1.20 173.00 GB 12.20 100.00 1.50 77.00 199.70 USA 8.90 87.80 2.00 76.00 176.00 RUS 2.70 17.10 3.80 69.00 373.60 CZE 140.00 1.00 73.00 283.70 JAP 55.00 2.10 79.00 34.70 MEX 0.20 50.40 0.80 36.40