Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).

Slides:



Advertisements
Présentations similaires
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
Advertisements

Section 4 : Analyse descriptive. En 1901, Karl Pearson publie son papier sur l’Analyse en Composante Principale dans : “On lines and planes of closest.
Auteur : Patrice LEPISSIER Les probabilités  Notions de base Notions de base  Variable aléatoire Variable aléatoire  La loi Normale La loi Normale.
Organisation, gestion de données Les connaissances que l'enseignant doit maîtriser à son niveau Présentation réalisée à partir de l'ouvrage de Roland Charnay.
Transformation de Laplace - Mr.Retima Abderaouf - Mr.Ghandjoui abderahmane Université 20 aout 1955 Skikda.
Exploitation de mesures scientifiques.
Suites ordonnées ou mettre de l’ordre
Corrélation et régression linéaire simple
Thème 3 – La résistance au mouvement des charges
Analyse, Classification,Indexation des Données ACID
Les Instructions Itératives (Les Boucles)
Pierre Joli Cours de Mathématique Pierre Joli
Les distributions en classes
Plateforme CountrySTAT Aperçu global de la préparation des tableaux dans la nouvelle plateforme CountrySTAT FORMATION DES POINTS FOCAUX SUR LE SYSTEME.
Deuxième partie : La courbe d’indifférence
Algorithmiques Abdelbasset KABOU
Loi Normale (Laplace-Gauss)
Résumé de l’objectif de l’A.C.P.
7.1 Transformation linéaire
Tir à l’arc Préambule — Note à l’attention de l’enseignant
2.1. Présentation de l’exemple
Fonctions affines.
Les bases de données et le modèle relationnel
DESSIN TECHNIQUE Té de dessin Collège technique Sousse Collège technique Sousse.
Coefficient de corrélation linéaire
Plans d’experiences : plans de melanges
Connaître les fonctions affines
Objectifs du chapitre 5: Plans corrélationnels
Quelques méthodes de traitement des tableaux multiblocs
Analyse en Composantes Principales
Exploitation de mesures scientifiques.
MOYENNE, MEDIANE et ECART TYPE d’une série statistique
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
L ES I NSTRUCTIONS I TÉRATIVES (L ES B OUCLES ) Réalisé par : OUZEGGANE Redouane Département de Technologie Faculté de Technologie – Université A.Mira,
Les tableaux.
Plan d’un compte-rendu
4.2 Estimation d’une moyenne
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
REVUE DE LITTERATURE. Introduction Première partie majeure dans la rédaction du mémoire, la réalisation d’une revue de littérature consiste à effectuer.
Cours N°10: Algorithmiques Tableaux - Matrices
La mesure de la mobilité sociale
ACP Analyse en Composantes Principales
Statistiques. Moyenne, Moyenne pondérée, Tableur et graphiques.
Système de coordonnées
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
 1____Probabilité  2______variables aléatoires discrètes et continues  3______loi de probabilités d’une v a  4_______les moyens et les moyens centraux.
Royaume de Maroc Université Hassan Premier Settat Faculté des Sciences et Techniques de Settat LA CLASSIFICATION K-MEANS SOUS R /MATLAB Master :Automatique.
Programme financé par l’Union européenne
Statistiques.
Statistique descriptive Bivariée
2.4 La loi de vitesse d’une réaction chimique
Présentation 5 : Sondage à probabilités inégales
2. Méthode du simplexe et son analyse.
BTS INFORMATIQUE DE GESTION
CALCUL DES DERIVEES Techniques de calcul scientifique
L’ANALYSE DES DONNEES Samuel MAYOL S. Mayol - L’analyse des données.
Position, dispersion, forme
Chapitre 1 Formulation d’un programme linéaire (PL) Georges Abboudeh BUST 347.
Chapitre 2 La prévision des composantes de l’activité Octobre 2018
Programme d’appui à la gestion publique et aux statistiques
1/16 CINEMATIQUE 1) Cinématique du point 2) Dérivation vectorielle.
Conception cartographique
PROGRAMMATION SCIENTIFIQUE EN C
Utiliser le modèle log-linéaire pour mettre au jour la structure du lien entre les deux variables d’un tableau de contingence : un exemple d’application.
Passage primaire-secondaire
Des chiffres pour être compris
Relier proportionnalité et fonction linéaire
Type Tableau Partie 1 : Vecteurs
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Évaluation des Actifs Financiers 1. 2 Valeur capitalisée: Valeur d’un investissement après une ou plusieurs périodes Intérêts simples: Intérêts calculés.
Transcription de la présentation:

Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).

Introduction L’ACP, introduite par K. Pearson et Thurston (années 20), est une technique des statistiques descriptives destinée à l’analyse des données multidimensionnelles. Elle permet de réduire la dimension de l’espace des descripteurs. On cherche à réduire le nombre de descripteurs (variables) avec le minimum de perte d’information et préservant les relations existant déjà avec entre les différents descripteurs.

Position du Problème On a observé p variables sur n individus. Dans la pratique cela représente un tableau à np entrées qu’il est difficile, voire impossible à lire, pour extraire les informations les plus pertinentes. Exemple artificiel : Supposons qu’on a observé le jeu de données suivant :

Exemple (suite) descrip- -teur Sujet D1D1 D2D2 D3D3 D4D4 S1S2S3S4S5S6S1S2S3S4S5S ,

Rappels Matrice de variance-covariance : mesure la liaison entre les différents descripteurs Σ= où cov(X i, X i ) = Var(X i ). Matrice de corrélation : même chose que Σ sauf qu’il s’agit d’un paramètre sans dimension R = (R ij ) i,j

Matrice de corrélation 10,970-0,0640, ,1020, ,

Commentaires Le tableau 1 est difficile à lire (en particulier lorsqu’on a plusieurs variables et sujets). Par conséquent les relations entre les différents descripteurs sont indécelables à première vue. La matrice de corrélation (matrice de liaison sans dimension) montre que la variable 1 est fortement corrélée avec la variable 2 ; il en est de même pour les variables 3 et 4.

Comment se fait la réduction de la dimension tout en préservant les liaisons entre les différents descripteurs ? Les variables de départ sont remplacées par « des vecteurs propres » de la matrice Σ ou de la matrice R, appelés Composantes principales. Y-a-t-il un critère d’arrêt ? généralement on s’arrête quand au moins 75% de la variance est expliquée par la variance cumulée par les CP.

Qu’est-ce qu’un vecteur propre ? est une valeur propre de la matrice A si et seulement si Av = v Le vecteur v dans la relation ci-dessus est appelé vecteur associé à Les valeurs propres s’obtiennent en résolvant le système d’équations det(A- I) = 0. Le nombre de valeurs propres, 1 > … > p, est égal au nombre de lignes = nombre de colonnes de la matrice A Important : La somme des valeurs propres de A est égale à la variance contenue dans l’ensemble des données.

Expression des composantes principales D’un point de vue pratique les composantes principales s’écrivent F j = 1 X 1 +….+ p X p c’est-à-dire que F j est une combinaison linéaire des variables initiales X 1,…, X p. En plus de cet aspect calculatoire on doit pouvoir faire des affirmations sur la qualité de la réduction et la qualité de la représentation graphique.

Représentation graphique Lorsque les différentes CP ont été trouvées on peut représenter les différentes variables et les différents individus dans le plan CP1, CP2 comme illustré ci-dessous

Interprétation Chaque valeur propre représente la variance prise en compte par la composante principale correspondante. Pour l’exemple on obtient : Ici les deux premières composantes rendent compte de 0,5003+0,4917 = 0,9920 = 99,2 % de la variance totale. Ce qui veut dire que les 4 descripteurs peuvent être remplacés par les 2 premières composantes tout en préservant la quasi- totalité de l’information (réduction).

Résultats des calculs Scores des individus : il s’agit des valeurs prises par les composantes principales sur les individus. Ici

Résultats (suite I) Saturations des variables : il s’agit des coefficients de corrélation entre les variables et les composantes principales. La première composante est surtout corrélée avec les deux derniers descripteurs

Résultats (suite II) Contribution (relative) d’un individu à la formation d’une composante principale : CTR(sujet 1, CP1)= Qualité de la représentation : pour sujet 1 et CP2 QLT =

Résultats (suite II) Qualité de la représentation d’une variable à la formation d’une CP : contribution de la première variable à la formation de la première composante principale CTR =

Interprétation Scores et saturations ne sont pas exprimés dans la même unité de mesure. Interpréter chaque axe : part de la variance sont il rend compte, variables avec lesquelles il est corrélé. Individus proches de l’origine : ils ont peu contribué à l’inertie. Interpréter plutôt les oppositions marquées entre individus.

Exemple Analyser les données Budget-temps (voir feuilles de TD) MERCI de votre attention !