La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

L’Analyse en Composantes Principales: A. C. P

Présentations similaires


Présentation au sujet: "L’Analyse en Composantes Principales: A. C. P"— Transcription de la présentation:

1 L’Analyse en Composantes Principales: A. C. P
L’Analyse en Composantes Principales: A.C.P. ou carte perceptuelle ou mapping.

2 Réaliser une analyse en composantes principales c’est représenter dans un espace de dimension faible par exemple 2 une information dont on dispose dans un espace de dimension élevée n ou p avec l’objectif de restituer dans cette opération une quantité d’information maximale par rapport à l’information disponible dans le fichier de base.

3 Quantité d’information?
Par exemple, du fichier disponible ( tableau 1), on déduira les coordonnées des individus dans un espace de dimension deux (tableau 2) Individus Poids Taille Age Note 1 45 150 13 14 2 50 160 15 3 165 16 4 60 175 9 5 170 10 6 7 70 8 65 155 17 11 Individus Axe 1? Axe 2? 1 -1,62 -0,20 2 -1,09 -0,52 3 -0,98 -0,72 4 1,27 0,09 5 0,67 -0,46 6 0,90 -0,90 7 0,81 0,35 8 -0,26 -0,16 9 -0,34 2,63 10 0,71 -0,10 Tableau1 Tableau2 Quantité d’information?

4 Quantité d’information restituée?
Individus Axe 1 Axe 2 1 -1,62 -0,20 2 -1,09 -0,52 3 -0,98 -0,72 4 1,27 0,09 5 0,67 -0,46 6 0,90 -0,90 7 0,81 0,35 8 -0,26 -0,16 9 -0,34 2,63 10 0,71 -0,10 1 2 3 8 10 5 6 4 7 9 Tableau2 Graphe 1

5 Peut-on améliorer l’image?
3 2 1 9 4 5 8 6 10 7 Axe 1 Axe 3 Axe 2 Axe 2 Individus Axe 1 Axe 2 Axe 3 1 -1,62 -0,20 -0,17 2 -1,09 -0,52 0,30 3 -0,98 -0,72 0,86 4 1,27 0,09 1,48 5 0,67 -0,46 0,37 6 0,90 -0,90 0,07 7 0,81 0,35 -1,81 8 -0,26 -0,16 -1,51 9 -0,34 2,63 0,46 10 0,71 -0,10 -0,06 Peut-on améliorer l’image?

6 3 6 5 2 4 9 7 8 1 10 Axe 1 Axe 3 Axe 2 6

7 Axe 3 . 1 . 2 . 3 . 9 . 8 . 7 . 6 . 10 . 5 . 4 Axe 2 Axe 1

8 1. Le schéma de travail: 11. Du tableau de base
on déduit l’un des deux nuages possibles, individus ou variables. 12. On détermine ensuite l’inertie I, c’est-à-dire la dispersion du nuage par rapport à son centre de gravité.

9 Ceci constitue un nouveau nuage de points
13. Réaliser une A.C.P. c’est déterminer un espace de dimension faible dans lequel le nuage choisi sera projeté orthogonalement. . M’1 . M’i Individus Axe 1 Axe 2 M’1 M’i M’n . M’1 . M’i . M’n Ceci constitue un nouveau nuage de points pour lequel on détermine l’inertie I’. On compare I’ avec I. Si le ratio est bon, on peut conserver l’image.

10 Inertie I Inertie I' Espace de dimension élevée dans lequel les
Fichier de base: individus sont individus i de poids représentés par des Analyse et retour sur respectifs mi points Mi. axe étude. factoriel 1 Inertie I Inertie I' A. C.P réalisée de telle sorte que le ratio I'/I soit le plus élevé possible.

11 2. L’inertie La forme mathématique de l’inertie est la suivante: Lorsque les variables sont centrées, c’est-à-dire lorsqu’à chaque valeur on a enlevé la valeur moyenne, l’inertie est égale à la somme des variances des variables que l’on soumet à l’analyse. A ce titre l’inertie est une généralisation de la notion de variance. Lorsque les points représentant les individus sont proches du centre de gravité, l’inertie est faible. Lorsque l’inertie est faible, les points sont proches du centre de gravité et il n’y a pas lieu de stratifier.

12 Lorsque les variables sont centrées et réduites, c’est-à-dire lorsque on a divisé chacune des valeurs centrées par l’écart type, l’inertie est égale au nombre de variables que l’on soumet à l’étude soit p.

13 3. Matrice d’inertie La réalisation d’une ACP est construite sur les qualités d’une matrice qui porte le nom de matrice d’inertie. Celle-ci est définie de la manière suivante: Chaque produit s’exprime par la relation: et la matrice d’inertie par la relation:

14

15 31. Nous constatons que la trace de cette matrice, c’est-à-dire la somme de ses éléments diagonaux est égale à l’inertie de système. Ainsi, avons-nous la possibilité de caractériser la dispersion du nuage par les valeurs propres d’une matrice. En effet la trace est un invariant égal à la somme des valeurs propres. Parce que l’inertie est identifiée aux valeurs propres d’une matrice, il est normal de sélectionner les plus importantes pour conserver au mieux l’information. Rangeons celles-ci par ordre décroissant et sélectionnons les plus fortes. Le taux de restitution de l’information dans un plan est donné par:

16 32. Lorsque l’analyste juge que ce taux est correct, il peut représenter son nuage en dimension 2. Le plan de projection est engendré par deux vecteurs propres associés aux deux plus grandes valeurs propres. Soit à résoudre les équations: j variant de 1 à 2 On se posera la question du type de repère: orthonormé; orthogonal; normé; quelconque

17 33. Les diverses projections
Lorsque le plan est défini, il reste à donner les divers coordonnées. Pour cela, on utilise les relations: abscisse ordonnée et chaque individu sera représenté dans le plan par le point de coordonnées:

18 Quelques éléments supplémentaires.
Que faire des valeurs manquantes ou des non réponses? Il est fréquent de constater que certains fichiers sont incomplets: information non disponibles, non réponses, fichier non actualisé…Pour compenser le manque d’information, on peut choisir entre plusieurs options: insérer une valeur neutre, recomposer l’information, supprimer toute la ligne ou la colonne correspondante.

19 2. Donner un sens aux axes Il est possible d’étudier la corrélation entre les axes et les diverses variables qui participent à l’analyse. Une corrélation forte donne à la variable considérée un pouvoir explicatif fort. 3. Utilisation d’un marqueur Il s’agit d’individus qui ne participent pas à l’analyse; mais qui seront représentés. Ils sont connus pour leurs qualités.

20 4. Projections des variables
Le nuage des individus et le nuage des variables sont deux représentations différentes d’un même tableau. Ainsi, des relations très fortes lient ces deux nuages. Les relations de transition, c’est-à-dire les relations de passage d’un nuage projeté à l’autre sont données ci-après:

21 4. Exemple On interroge des chefs de service sur les qualités:
X1: technicité; X2: polyvalence; X3: créativité que possèdent ou non leurs collaborateurs. Les réponses sont données sur une échelle de valeurs comprises entre 0 et 4. Les résultats sont présentés dans le tableau suivant:

22 Réaliser une A.C.P d’ordre 2 du nuage des individus.
Technicité Polyvalence Créativité 1 3 4 2 5 6 7 8 9 10 11 12 13 14 Réaliser une A.C.P d’ordre 2 du nuage des individus.

23 Points représentant les individus
Vecteurs Technicité Polyvalence Créativité M1 GM1 1 2 M2 GM2 -1 -2 M3 GM3 M4 GM4 M5 GM5 M6 GM6 M7 GM7 M8 GM8 M9 GM9 M10 GM10 M11 GM11 M12 GM12 M13 GM13 M14 GM14 G

24 Si à chaque individu on accorde le même poids égal à 1/14, l’inertie est égale à:
Par exemple dans ce calcul, la variance de la première variable est égale à 8 / 14, alors que la variable numéro deux a une variance égale à 32 / 14 et que la variable numéro trois à une variance égale à 4. C’est ce nombre qu’il faut essayer de restituer.

25 Lorsque l’on sélectionne ACP dans un logiciel, on demande de sélectionner le meilleur plan de projection. Celui-ci est dirigé par 2 vecteurs appelés vecteurs propres de la matrice d’inertie associés aux deux plus grandes valeurs propres de la même matrice. ( Il faut noter que dans l’opération, on a réussi à identifier la quantité d’information aux valeurs propres d’une matrice). La matrice d’inertie est donc la matrice de référence de l’Analyse en Composantes Principales. Lorsque les valeurs sont centrées, la matrice d’inertie est la matrice des variances/covariances; Lorsque les valeurs sont centrées et réduites, la matrice est la matrice des corrélations. La somme des éléments diagonaux de cette matrice est égale à l’inertie.

26 Dans notre exemple, cette matrice est égale à:
Les valeurs propres s’obtiennent par différentes méthodes. Ici, elles sont égales à: On note que

27 Le taux de restitution de l’information est égal à:
Cela signifie que l’image de dimension deux que l’on va voir représente bien le nuage de points. Si le taux de restitution est insuffisant, on ajoute un axe ou on réduit le nombre de variables que l’on soumet à l ’analyse. Nous comprenons mieux la nécessité d’étudier les diverses corrélations entre les variables.

28 Polyvalence et technicité Axe 2: 35,9 % Axe 1: 58,3 % Créativité 13 1
2,11 -2 -2,11 -1,92 0,19 -0,19 1,92 Polyvalence et technicité Axe 2: 35,9 % 13 1 12 9 Axe 1: 58,3 % 14 4 7 11 6 8 Créativité 5 3 2 10

29 Excellent collaborateur: référence
Axe 2 15 13 1 12 9 Axe 1 14 4 7 11 6 8 5 3 2 10

30 Pour donner un sens aux deux axes, on peut utiliser la corrélation:
Vecteurs Technicité Polyvalence Créativité Facteur 1 Facteur 2 GM1 1 2 2,11 GM2 -1 -2 -2,11 GM3 -1,92 GM4 0,19 GM5 GM6 -0,19 GM7 GM8 GM9 1,92 GM10 GM11 GM12 GM13 GM14 Pour donner un sens aux deux axes, on peut utiliser la corrélation:

31 1 0,996 Corrélations Variables / axe 1 Variables / axe 2 0,57
Technicité Polyvalence Créativité Variables / axe 1 1 Variables / axe 2 0,57 0,996

32 E 1. On donne le tableau suivant représentant les notations réalisées ( sur des échelles de valeurs de 0 à 7) par des acheteurs de 15 voitures de toutes marques et de tous types à propos de 3 variables : confort, ligne, puissance. Individus 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Confort Ligne Puissance Sachant que chaque individu interrogé a un poids égal à 1/15 réaliser l’analyse en composantes principales d’ordre 2 du nuage des individus.

33 Code individus Confort Ligne Puissance Axe 1 Axe 2 1 -2,07 -2 -2,81 2 -1 -3,07 -3,66 3 4 0,93 0,80 5 -1,76 6 1,93 1,65 7 2,93 3,55 8 3,93 4,40 9 10 -1,07 -0,91 11 2,69 12 -0,07 -0,06 13 14 15

34 La matrice des variances / covariances est données ci-après
1,067 5,262 3,067 2,133 La matrice des corrélations des variables et des axes factoriels est donnée ci-après Corrélations variables / axe 1 0,99 0,96 Corrélations variables / axe 2 1 - 0

35 E2. Étude de la comparaison de pays d’un point de vue économique (statistiques anciennes; mais intéressantes). Les 18 variables prises en compte sont: X1: La population totale en milliers d’habitants; X2: La densité au km²; X3: Le taux d’accroissement total de la population; X4: % d’actifs dans l’agriculture, la sylviculture et la pêche; X5: % d’actifs dans l’industrie; X6: Produit National Brut en dollars par habitant; X7: % du P.I.B. en agriculture; X8: Formation brute du capital fixe en % du P.N.B.; X9: Recettes courantes en % du P.N.B.

36 X10: Réserves officielles (en millions de dollars);
X11: Le taux d’escompte officiel; X12: Importations marchandises totales (en millions de dollars); X13: Exportations marchandises totales ( en millions de dollars); X14: Calories par habitant et par jour; X15: Nombre de logements achevés pour 1000 habitants; X16: consommation d’électricité en kwh par habitant et par an; X17: Dépenses publiques d’éducation en % du P.N.B.; X18: Nombre de T.V. pour 1000 habitants.

37 pays X1 X2 X3*100 X4*100 X5*100 X6 X7*100 X8*100 X9*100 D 60848 245 105 960 4910 2520 360 2440 3790 A 7373 88 50 1910 3990 1690 700 2320 3750 B 9984 332 60 540 4480 2353 2310 3510 CDN 21089 2 185 820 3230 3460 590 2170 3520 DK 4893 114 75 1190 3850 2860 890 2200 3710 E 32949 65 95 3470 870 1500 2240 USA 203213 22 135 460 3370 4660 290 1670 3150 SF 4706 14 70 2450 1940 1470 2300 3590 F 50325 91 1510 4060 2770 600 2540 3010 GR 8866 67 4820 2250 950 2030 2970 2690 SE 2921 42 25 2840 1040 1970 1990 3070 I 54123 180 85 2150 4370 1520 1130 2050 3330 JAP 102380 277 1880 3500 1630 2120 NL 12873 352 125 750 4130 2190 2550 4190 9583 90 3550 1770 1840 2400 RUN 55643 228 4680 300 1730 3900 S 7969 18 880 4040 2360 4810

38 X10 X11*100 X12 X13 X14 X15*100 X16 X17*100 X18 10940 650 24926 29052 2990 860 3322 340 231 1563 500 2825 2412 660 2647 440 134 2406 700 9984 10069 3150 2814 530 184 3846 600 13137 13754 3160 820 8199 570 279 384 900 3800 2958 3180 2413 244 1512 4233 199 2750 640 1245 210 84 12305 575 36052 37988 3210 770 7013 510 392 379 2023 1985 2900 790 3836 630 193 4617 750 17392 15020 2407 480 185 290 1594 554 2910 1010 823 240 9 694 731 1413 891 3450 400 1577 420 111 4642 550 12450 11729 2940 1810 580 146 3072 15024 15990 2460 1190 2734 450 190 2621 10991 9965 3240 970 2565 670 197 1442 350 1231 2930 430 607 140 29 2469 19956 17515 3190 3680 253 506 5899 5698 1340 6803 740 288

39 Réaliser une ACP du nuage des individus en utilisant deux axes.
Définir, à partir de l’A.C.P., une typologie pour laquelle on étudiera l’homogénéité des groupes.

40 Paramétrage de l’ACP avec SPSS

41

42 Sélectionner les variables dans la fenêtre de gauche et valider votre choix par la flèche centrale
Sélectionner maintenant chaque fonction pour définir les paramètres de l’ACP

43 Espérance et variance de chaque variable
Matrice des corrélations Tests de validité de l’ACP

44 Méthode d’extraction Graphique des valeurs propres ACP normée ou non normée Sélection des facteurs : valeur propre supérieure à 1 ou nombre de facteurs

45 Sélectionner

46 Enregistrement des coordonnées des individus sur les axes factoriels.
On utilisera ces coordonnées pour représenter graphiquement les individus


Télécharger ppt "L’Analyse en Composantes Principales: A. C. P"

Présentations similaires


Annonces Google