Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parHippolyte Beauchemin Modifié depuis plus de 8 années
1
Section 4 : Analyse descriptive
2
En 1901, Karl Pearson publie son papier sur l’Analyse en Composante Principale dans : “On lines and planes of closest fit to systems of points in space” En 1904, Spearman publie son paper sur l’analyse factorielle dans “Factor analysis: General intelligence, objectively determined and measured”, American Journal of Psychology, 15, 201-293 (article téléchargeable à http://www.fa100.info/ spearman.pdf). L’introduction des méthodes d’analyse factoriel
3
Qui est cette personne ?
4
Différences entre Homme et Femme ?
5
Analyse en Composantes Principales
6
Introduction n L’ACP, introduite par K. Pearson et Thurston (début du 20 ème siècle), est une technique des statistiques descriptives destinée à l’analyse des données multidimensionnelles. n Elle permet de réduire la dimension de l’espace des descripteurs. n On cherche à réduire le nombre de descripteurs (variables) avec le minimum de perte d’information et préservant les relations existant déjà avec entre les différents descripteurs.
7
Analyse en composantes principales Données : Elément de cette matrice : x ij n p Variables Individu ou observation
8
Principes –Technique multivariée –Objectif : Réduire le nombre de dimensions d’un ensemble de variables en préservant autant que possible l’information contenue dans ces variables –Méthode statistique non probabiliste –On a observé p variables sur n individus. Dans la pratique cela représente un tableau à np entrées qu’il est difficile, voire impossible à lire, pour extraire les informations les plus pertinentes.
9
Principaux résultats d’une ACP Coordonnées factorielles ou scores n p Variables n p k Valeurs propres k Vecteurs propres (transposés) k Individus
10
Visualiser
11
Bulletins des élèves Facteurs littéraire scientifique langue sportCréativité Français0.85-0.230.450.120.31 Philosophie0.95-0.150.320.210.22 Histoire 0.89-0.320.250.050.09 Géographie0.75-0.210.150.090.10 Mathématique-0.110.910.150.250.18 Biologie-0.160.860.210.120.19 Physique-0.210.840.120.240.11 Chimie-0.150.800.130.110.23 Technologie -0.260.600.250.120.15 Anglais0.420.120.810.180.19 Espagnol0.350.250.790.250.11 Allemand0.330.110.750.090.10 Sport0.210.110.120.950.12 Art plastique0.120.080.090.120.89 Musique0.350.330.080.080.76 Valeur propre4.422.551.270.850.45 On conserve les axes avec des valeurs propres supérieures à 1 F1 F2 F3 F4 F5 Trouver un nom aux facteurs Exemple : Réalisation d’une ACP Problème de loading<0.5 Virer la technologie et recommencer l’acp 3 facteurs expliquent 80% de la variance (évaluation niveau lycéen)
12
12 on enlève les matières qui sont mal représentées et on relance l’acp les loadings doivent dépasser 0.5 (si possible 0.7)
13
Un exemple d’ ACP sur les caractéristiques d’une auto Variables Facteur F1 F2F3F4 Puissance.68.09.15.26 Vitesse.75.15.23.07 Accélération.77.24.04.11 Sièges.32.83.21.06 Volume.11.67.09.12 Ergonomie.05.76.19.23 Ligne.20.06.82.02 Style.07.42.74.31 Couleur.08.52.70.03 Airbags.11.33.11.79 ABS.03.45.03.86 Renforts.07.12.05.74
14
14 Une ACP sur les caractéristiques d’une auto Variables Facteur TechniqueconfortDesignSécurité Puissance.68.09.15.26 Vitesse.75.15.23.07 Accélération.77.24.04.11 Sièges.32.83.21.06 Volume.11.67.09.12 Ergonomie.05.76.19.23 Ligne.20.06.82.02 Style.07.42.74.31 Couleur.08.52.70.03 Airbags.11.33.11.79 ABS.03.45.03.86 Renforts.07.12.05.74
15
15 Un exemple de Mapping Plaisir très sucréattiré A original C D Cher E qualité enfant adulte Gâteau enfant nourrissant Gâteau adulte B fade naturel Santé
16
16 n ACP peut conduire à une représentation sur un mapping. Les produits sont plus ou moins proches des uns et des autres selon qu’ils soient plus ou moins similaires. n Le 1er axe explique 55% de la variance (donc de l’information) n Le 2nd axe explique 35% n Toute l’information n’a pas été retenue par les 2 axes n L’analyse devient plus simple car les informations ont été simplifiées
17
Rappels n Matrice de variance-covariance : mesure la liaison entre les différents descripteurs Σ= où cov(X i, X i ) = Var(X i ). n Matrice de corrélation : même chose que Σ sauf qu’il s’agit d’un paramètre sans dimension R = (R ij ) i,j
18
Matrice de corrélation 10,970-0,0640,094 --1-0,1020,037 -- 10,986 -- 1
19
Commentaires Le tableau 1 est difficile à lire (en particulier lorsqu’on a plusieurs variables et sujets). n Par conséquent les relations entre les différents descripteurs sont indécelables à première vue. n La matrice de corrélation (matrice de liaison sans dimension) montre que la variable 1 est fortement corrélée avec la variable 2 ; il en est de même pour les variables 3 et 4.
20
Comment se fait la réduction de la dimension tout en préservant les liaisons entre les différents descripteurs ? n Les variables de départ sont remplacées par « des vecteurs propres » de la matrice Σ ou de la matrice R, appelés Composantes principales. n Y-a-t-il un critère d’arrêt ? généralement on s’arrête quand au moins 75% de la variance est expliquée par la variance cumulée par les CP.
21
Qu’est-ce qu’un vecteur propre ? n est une valeur propre de la matrice A si et seulement si Av = v n Le vecteur v dans la relation ci-dessus est appelé vecteur associé à n Les valeurs propres s’obtiennent en résolvant le système d’équations det(A- I) = 0. n Le nombre de valeurs propres, 1 > … > p, est égal au nombre de lignes = nombre de colonnes de la matrice A n Important : La somme des valeurs propres de A est égale à la variance contenue dans l’ensemble des données.
22
Expression des composantes principales n D’un point de vue pratique les composantes principales s’écrivent F j = 1 X 1 +….+ p X p c’est-à-dire que F j est une combinaison linéaire des variables initiales X 1,…, X p. En plus de cet aspect calculatoire on doit pouvoir faire des affirmations sur la qualité de la réduction et la qualité de la représentation graphique.
23
Représentation graphique n Lorsque les différentes CP ont été trouvées on peut représenter les différentes variables et les différents individus dans le plan CP1, CP2 comme illustré ci-dessous
24
Interprétation n Chaque valeur propre représente la variance prise en compte par la composante principale correspondante. n Pour l’exemple on obtient : n Ici les deux premières composantes rendent compte de 0,5003+0,4917 = 0,9920 = 99,2 % de la variance totale. n Ce qui veut dire que les 4 descripteurs peuvent être remplacés par les 2 premières composantes tout en préservant la quasi-totalité de l’information (réduction).
25
Résultats des calculs n Scores des individus : il s’agit des valeurs prises par les composantes principales sur les individus. n Ici
26
Résultats (suite I) n Saturations des variables : il s’agit des coefficients de corrélation entre les variables et les composantes principales. n La première composante est surtout corrélée avec les deux derniers descripteurs
27
Résultats (suite II) n Contribution (relative) d’un individu à la formation d’une composante principale : n CTR(sujet 1, CP1)= n Qualité de la représentation : pour sujet 1 et CP2 QLT =
28
Résultats (suite II) n Qualité de la représentation d’une variable à la formation d’une CP : contribution de la première variable à la formation de la première composante principale CTR =
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.