Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parnadia aziane Modifié depuis plus de 6 années
1
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 1 14-15 février 2008 La cartographie multivariée avec le logiciel Philcarto Support de cours J-C Raynal raynal@ehess.fr
2
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 2 14-15 février 2008 Sommaire 1.Rappel introductif sur la définition de l’ACP 2.Comment lire les résultats ? 3.Comment réaliser vos propres ACP ?
3
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 3 14-15 février 2008 L’analyse en composantes principales (ACP)
4
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 4 14-15 février 2008 1. Rappel introductif sur la définition de l’ACP
5
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 5 14-15 février 2008 Sommaire Types de problèmes pouvant être abordés par l’ACP Principe de l’ACP Structure du tableau de données
6
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 6 14-15 février 2008 Analyse en Composantes Principales L’Analyse en Composantes Principales (ACP) est une méthode statistique essentiellement descriptive appartenant à la famille des analyses dites « factorielles ». Mise au point par H. Hotelling en 1933, K. Pearson en 1901 en avait entrevu les grandes lignes. Ce n’est qu’à partir des années 60 que cette méthode a pris de l’ampleur et surtout lorsque la puissance de calcul des ordinateurs est devenu accessible dans les années 80. L’ACP peut être utilisée pour savoir : comment se structurent les variables : quelles sont celles qui sont corrélées ? Quelles sont celles qui ne le sont pas ? Quelles sont celles qui « vont dans le même sens » ? Quelles sont celles qui s’opposent ? et/ou comment se répartissent les individus : quels sont ceux qui se ressemblent ? Quels sont ceux qui sont dissemblables ? L’ACP, qui est une méthode descriptive, est parfois utilisée en préliminaire à des méthodes statistiques de type « décisionnelles » (régression, réseau de neurones, segmentation...).
7
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 7 14-15 février 2008 Le tableau de données en entrée est constitué, en lignes, par des « individus » (unités géographiques, habitants, etc.) sur lesquels sont mesurées des « variables quantitatives » (en colonnes), c’est-à-dire pour lesquelles il est possible de calculer la moyenne, l’écart-type, etc. Le choix des individus et des variables n’est pas sans importance dans les résultats de l’ACP. Ces choix méritent la plus grande attention. Ils seront guidés en fonction des objectifs des problématiques étudiées. Les individus pourront représenter soit la totalité de la population étudiée, soit un échantillon. Les variables introduites devront permettre de caractériser les phénomènes du mieux que possible.
8
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 8 14-15 février 2008 1- Les tableaux de mesure 2 - Les tableaux de note 3 - Les tableaux de rangs Types de tableaux pouvant être traités par l’ACP
9
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 9 14-15 février 2008 Tableau constitué de 83 lignes (Kreïs) et de 5 variables : -TX_AIND = taux d’actifs dans le secteur secondaire. -TX_ASERV = taux d’actifs dans le secteur tertiaire. -TX_EXPNONM = Part des exploitations agricoles non-marchandes. -TX_NUITEES = intensité touristique par nombre de nuitées. -EXPL_BIO = exploitations agricoles biologiques dans le total des exploitations. Types de tableaux pouvant être traités par l’ACP
10
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 10 14-15 février 2008
11
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 11 14-15 février 2008 Il est fréquent que les tableaux traités contiennent des variables de différentes natures ou qui sont exprimées dans des unités différentes. Pour que les variables soient comparables entre elles et que les résultats de l’ACP ne soient pas influencés par leur ordre de grandeur, il faut procéder à une analyse « normée » ou « centrée réduite » : Chaque variable est maintenant exprimée en termes de dispersion autour de la moyenne, comptée en nombre d’écarts-type. Les variables sont ainsi ramenées à la même échelle pour être comparables. Cette procédure donne plus de poids aux variables les plus dispersées. Remarque : Cette transformation des données est réalisée automatiquement par le logiciel Philcarto. la variable est « centrée » autour de la moyenne la variable est ensuite « réduite »
12
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 12 14-15 février 2008 Le tableau de données correspond à une représentation des individus dans un espace à p dimensions. tout en conservant le maximum d’information Etant donné qu’il est impossible de se représenter visuellement le nuage de points des individus dans un tel espace, le but de l’ACP est de trouver des espaces de visualisation de dimensions « plus petites », à savoir des droites (dimension 1) ou encore des plans (dimension 2), tout en conservant le maximum d’information. Principe de l’ACP
13
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 13 14-15 février 2008 C’est le même principe que lorsque l’on prend une photographie, on passe d’un espace à 3 dimensions à un espace à 2 dimensions. Principe de l’ACP
14
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 14 14-15 février 2008 De fait, l’angle de la prise de vue a une importance capitale car c’est lui qui détermine « l’information exploitable ». Principe de l’ACP
15
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 15 14-15 février 2008 De fait, l’angle de la prise de vue a une importance capitale car c’est lui qui détermine « l’information exploitable ». Principe de l’ACP
16
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 16 14-15 février 2008 De fait, l’angle de la prise de vue a une importance capitale car c’est lui qui détermine « l’information exploitable ». Principe de l’ACP
17
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 17 14-15 février 2008 variance des individus L’ACP est basée sur le même principe. La première droite proposée a pour but de voir au mieux les individus, c’est-à-dire celle pour laquelle la variance des individus est maximale. Cette droite est appelée « 1ère composante principale » ou « 1er axe principal ». Elle permet d’observer une certaine proportion de la variation totale des individus. Principe de l’ACP
18
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 18 14-15 février 2008 Ensuite, une 2ème composante principale (axe 2) est recherchée en répondant à 2 conditions : - avoir une corrélation linéaire nulle avec la première, c’est-à-dire être totalement indépendante de l’axe 1, - avoir, à son tour, la plus grande variance. Ainsi, la plus grande information complémentaire à l’axe 1 est apportée par l’axe 2. - Le processus est répété autant de fois que de variables. Donc, pour p variables, on obtient p composantes principales. Techniquement, l’ACP transforme les p variables quantitatives initiales, plus ou moins corrélées entre elles, en p nouvelles variables quantitatives, non corrélées : les composantes principales. Principe de l’ACP
19
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 19 14-15 février 2008 Une bonne interprétation d’une ACP passe par un examen préalable des données. Cet examen peut être réalisé à l’aide de logiciels spécialisés dans l’analyse de données. Philcarto fournit un listing de l’ACP contenant des informations très utiles. Aussi, il est conseillé dans un premier temps de lancer une ACP « brute » en se focalisant sur les données élémentaires avant d’interpréter les axes factoriels. Examen préalable à l’interprétation des résultats 1 - Afin de s’assurer de la qualité des données et de détecter d’éventuelles erreurs, on observe les statistiques élémentaires pour chaque variable (moyenne, écart-type etc.) et on réalise un histogramme de fréquence afin de s’assurer qu’il ait une forme en « cloche ». Cette forme garantit la légitimité de l’interprétation en termes de dispersion autour de la moyenne.
20
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 20 14-15 février 2008 L’examen préalable de la représentation des individus sur le plan principal (axes 1 et 2) permet de vérifier l’homogénéité de la population observée. Généralement, trois situations se présentent : Figure 1 : Vous observez des individus isolés du reste de la population. Examen préalable à l’interprétation des résultats Cela peut signifier 2 choses : soit certaines valeurs sont erronées > il faut corriger et refaire l’ACP ; soit certains individus sont très différents, il vaut mieux les étudier à part > il faut les retirer de l’analyse.
21
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 21 14-15 février 2008 Examen préalable à l’interprétation des résultats Figure 2 : Plusieurs groupes distincts sont constitués : il s’agit de sous- populations. Si l’objectif est d’étudier les sous-populations, il faut alors réaliser une ACP pour chacune d’elles. Si l’objectif est de décrire les individus et de mettre en évidence les caractéristiques de ces groupements > interprétation de l’ACP.
22
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 22 14-15 février 2008 Examen préalable à l’interprétation des résultats Figure 3 : Les individus se répartissent sur l’ensemble du plan > interprétation de l’ACP.
23
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 23 14-15 février 2008 2 – Corrélations linéaires Vérifier la corrélation des variables deux à deux, grâce à la table de Bravais-Pearson, puis, dans le cas d’une forte corrélation, enlever de l’analyse l’une des deux variables. Ce travail préalable réalisé, on peut alors relancer l’ACP avec des variables appropriées et validées. Examen préalable à l’interprétation des résultats
24
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 24 14-15 février 2008 L’ACP propose donc des projections du nuage de points dans des plans de représentation « judicieusement choisis ». La procédure dite de « diagonalisation » permet de choisir le nombre de plans à retenir. Afin d’expliciter à quoi correspondent ces plans, il faut donner un sens à leurs axes en procédant à la caractérisation de ces derniers à l’aide des variables initiales. Ceci se fait par l’étude du cercle des corrélations. Par la suite, on peut discuter de la position et de la proximité des individus dans les plans selon le sens donné aux axes. Interprétation des résultats
25
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 25 14-15 février 2008 3 – Diagonalisation Interprétation des résultats La diagonalisation permet de calculer les « valeurs propres » qui quantifient les pourcentages de variation expliquée par chaque composante principale (variance des individus sur un axe), ce qui permet d’avoir une idée du nombre de composantes et de graphiques à examiner. Dans l’exemple ci-contre, il semble intéressant d’examiner en priorité les composantes principales 1, 2 et 3 qui totalisent 92,77% de l’information.
26
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 26 14-15 février 2008 3 – Diagonalisation Interprétation des résultats A la question « combien d’axes faut-il regarder ? » : à vous de juger avec bon sens. Il n’y a pas de règle, il faut tenir compte de la forme dégressive des valeurs propres. 80 % de l’information peut être expliquée de différentes façons avec 3 axes : 80 = 28+26+26 ou 80 = 62+15+3 ou encore 80 = 75+3+2 Ne regarder un axe que si la part de variation qu’il explique est supérieure ou au moins égale à la valeur initiale. Pour une ACP centrée réduite, on ne conserve que les axes dont la valeur propre est supérieure à 0.8. Enfin, une variable étudiée peut n’apparaître « bien représentée* » que sur un axe de rang élevé, il est donc nécessaire de le garder. * cf. §4.1 – Variables « interprétables »
27
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 27 14-15 février 2008 structure des variables Le « cercle des corrélations » permet de visualiser la structure des variables. Son interprétation sera menée conjointement avec l’examen des résultats du listing ACP. Interprétation des résultats 4 – Interprétation des variables Remarque : Pensez à relier les différents points avec le centre du cercle car, en ACP, l’interprétation des variables se fait à partir leurs directions.
28
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 28 14-15 février 2008 4.1 – Variables « interprétables » Interprétation des résultats 4 – Interprétation des variables la variable considérée est très bien représentée. la variable considérée est bien représentée. la variable considérée est moyennement représentée. la variable considérée est médiocrement représentée. Une variable est d’autant mieux représentée sur le plan qu’elle est proche du cercle. L’analyse ne portera que sur les variables « bien représentées » sur un plan. Il est communément admis qu’une variable bien représentée sur un plan répond aux critères suivants : Moyennement représentée. Bien représentée. Très bien représentées.
29
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 29 14-15 février 2008 Interprétation des résultats 4.2 – Etude des corrélations entre variables Deux variables sont d'autant plus corrélées que leur coefficient de corrélation est proche de 1 en valeur absolue (TX_AIND & TX_ASERV). Graphiquement, deux variables fortement corrélées ont des directions similaires, deux variables indépendantes ont des directions pratiquement perpendiculaires (TX_NUITEES & TX_EXPNONM). Deux variables dont le coefficient de corrélation est positif varient dans le même sens : quand l'un augmente, l'autre augmente également (TX_NUITEES & EXPL_BIO) ; si le coefficient de corrélation est négatif, les deux variables s'opposent : quand l'un augmente, l'autre diminue (TX_AIND & TX_ASERV). Remarque : Le coefficient de corrélation varie entre -1 et 1.
30
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 30 14-15 février 2008 Interprétation des résultats 4. 3 – Etude de la corrélation des variables avec les axes Il s’agit d’identifier qu’elles sont les variables les plus liées avec les axes. Les variables les plus liées à l’axe 1 sont les secteurs d’activité (TX_AIND & TX_ASERV). L’axe 1 oppose l’industrie aux services. Les variables les plus liées à l’axe 2 sont les exploitations non-marchandes (TX_EXPNONM) et le nombre de nuitées (TX_NUITEES).
31
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 31 14-15 février 2008 Interprétation des résultats 5 – Interprétation des individus L’examen des coordonnées et la représentation graphique des individus permet de répondre à : Comment se répartissent les individus ? Quels sont ceux qui se ressemblent et en quoi ? Il s’agit de s’intéresser à la proximité ou à l’éloignement entre les individus.
32
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 32 14-15 février 2008 5.1 – Individus « interprétables » Le graphique des individus est une représentation imparfaite de la réalité dans le sens où les individus sont plus ou moins bien représentés sur le plan. On ne peut parler de proximité d’individus que pour des individus bien représentés. Cette qualité de la représentation est estimée par les valeurs des cosinus carrés. On admet qu’un individu est bien représenté sur un plan si la somme des cosinus carrés sur les axes de ce plan est supérieure à 0.50. Interprétation des résultats
33
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 33 14-15 février 2008 5.2 – Analyse de la répartition des individus Les individus qui contribuent le plus à la construction des axes sont ceux dont les coordonnées sont les plus éloignées de leurs moyennes. Ils ont les coordonnées en valeurs absolues les plus fortes. La construction des axes peut s’expliquer soit par des individus suspects (il faut alors recommencer, en les éliminant), soit c’est le fruit d’un ensemble homogène et « stable » qui ne sera pas modifié par quelques individus en plus ou en moins. Interprétation des résultats
34
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 34 14-15 février 2008 5.2 – Analyse de la répartition des individus Kreïs dont : -TX_AIND est très supérieure à la moyenne -TX_EXPNONM et TX_NUITEES sont très sup. à la moyenne Les individus proches de l’origine sont soit des individus qui ne se démarquent pas de l’individu moyen, soit des individus mal représentés sur le plan 1-2. Kreïs dont : -TX_ASERV est très supérieure à la moyenne -TX_EXPNONM et TX_NUITEES sont très inf. à la moyenne Kreïs dont : -TX_ASERV est très supérieure à la moyenne -TX_EXPNONM et TX_NUITEES sont très sup. à la moyenne Interprétation des résultats
35
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 35 14-15 février 2008 Le logiciel Philcarto offre la possibilité de spécifier les individus participant (individus « actifs ») ou non (individus « supplémentaires ») à l’analyse. Pour cela, il faut créer une variable binaire supplémentaire codée 0 pour les individus actifs et 1 pour les individus supplémentaires. Les individus supplémentaires n’interviennent pas dans l’analyse mais peuvent être positionnés par rapport aux individus actifs afin d’amener un complément d’informations. Comme pour les individus actifs, il faut que les individus supplémentaires soient bien représentés sur le plan pour pouvoir être interprétés. 5.3 – Individus supplémentaires Interprétation des résultats
36
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 36 14-15 février 2008 Conseils supplémentaires L’ACP ne peut pas traiter des tableaux comportant des données manquantes. Lorsque l’on a des données manquantes, on doit supprimer lignes (individus) et/ou colonnes (variables) afin d’obtenir un tableau complet. L’ACP ne peut pas traiter des variables qualitatives mais uniquement des variables quantitatives. Il y a toutefois une astuce qui consiste à intégrer un codage des variables qualitatives dans les identifiants des individus.
37
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 37 14-15 février 2008 Conclusion L’ACP est une méthode qui a pour but de rendre plus compréhensible l’ensemble des variables contenues dans un tableau de données. Ne lancer pas d’analyse sans avoir pris soin de sélectionner les variables, supprimer toutes les variables redondantes ou très fortement corrélées. L’ACP est une méthode parmi d’autres, elle révèle simplement ce qui existe dans vos données. Entraînez-vous dans un premier temps avec des données et sur des problématiques que vous connaissez bien afin de bien saisir les possibilités offertes par une telle analyse. ET BON COURAGE !!!
38
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 38 14-15 février 2008 La classification ascendante hiérarchique (CAH)
39
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 39 14-15 février 2008 La classification ascendante hiérarchique Les classifications multivariées sont des techniques qui permettent de répartir en classes un ensemble d’unités statistiques par rapport à plusieurs variables. La classification ascendante hiérarchique permet de mettre en évidence les groupes les plus homogènes (la variance intra-groupe est minimum) et les groupes sont les plus séparés possibles (variance inter-groupe maximum).
40
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 40 14-15 février 2008 4.1 – Principes de la CAH Comme pour l’ACP, le point de départ est un tableau constitué de n individus et p variables. De cette matrice de départ une nouvelle matrice sera constituée afin de définir une distance entre points (distance métrique euclidienne). - Étape 1 : Il s’agit d’agréger les points i et i’ les plus proches (distance minimale). Ce qui constitue un premier groupe, considéré à son tour comme un nouveau point dont les coordonnées proviennent de la moyenne des deux points agrégé. La classification ascendante hiérarchique : Principe - Étape 2 : On répète l’opération en recherchant la plus petite distance afin de fabriquer un nouveau groupe ou d’augmenter le premier groupe. - Étape n : Tous les points ont été agrégés. 2 groupes 3 groupes 4 groupes Au final, les n points-individus forment un ensemble dessinant ainsi une arborescence hiérarchique. Une partie seulement de cette arborescence figurera dans le listing d’interprétation fournit par Philcarto. C’est sur cette arborescence que l’on choisit le nombre de classes, ce qui permet de constituer des groupes homogènes.
41
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 41 14-15 février 2008 La classification ascendante hiérarchique : Interprétation
42
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 42 14-15 février 2008 Carte n° 19 - Types de diversification socio-économique en Allemagne
43
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 43 14-15 février 2008 Bibliographie Groupe Chadule, (1997). Initiation aux pratiques statistiques en géographie. Paris, Armand Colin, Col. U, 192 p. Beguin M., Pumain D., (2000). La représentation des données géographiques. Statistique et cartographie. Paris, Armand Colin, Col. Cursus, 192 p. Fenelon J-P., (1981). Qu’est-ce que l’analyse des données ? Paris, LEFONEN, p. 311. Volle M., (1981). Analyse des données – 2 e édition – Economica.
44
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 44 14-15 février 2008 La variance La variance est une mesure arbitraire servant à caractériser la dispersion d'un échantillon ou d'une population. L’écart-type L’écart-type est la racine carré de la variance. Comment interpréter les résultats ? Moyenne arithmétique Moyenne arithmétique : La moyenne d’une série statistique est la somme des valeurs observées, divisée par le nombre d’observations. L’étendue L’étendue est la différence entre la valeur maximum observée et la valeur minimum observée.
45
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 45 14-15 février 2008 La variance La variance est une mesure arbitraire servant à caractériser la dispersion d'un échantillon ou d'une population. L’écart-type L’écart-type est la racine carré de la variance. Comment interpréter les résultats ? Distance euclidienne Distance euclidienne : La moyenne d’une série statistique est la somme des valeurs observées, divisée par le nombre d’observations. L’étendue L’étendue est la différence entre la valeur maximum observée et la valeur minimum observée.
46
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 46 14-15 février 2008 Exemple d’un individu i proche de l’axe Exemple d’un individu i éloigné de l’axe
47
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 47 14-15 février 2008 4.1 – Principes de la CAH tableau sera transformé pour être Construction de l'arbre hiérarchique ascendant en entier Recherche de la meilleure coupure de l'arbre A utiliser quand le nombre d'individus n'est pas très élevé La classification ascendante hiérarchique : Interprétation
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.