J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 La cartographie multivariée avec le logiciel Philcarto.

Slides:



Advertisements
Présentations similaires
Sommaire Rappel introductif sur la définition de l’ACP
Advertisements

Catalog fonctionne sur vos données Catalog est préconfiguré pour fonctionner directement avec les données – WinBooks Accounting – WinBooks Logistics –
L'image: Le codage des images BacPro SEN Lycée Condorcet.
1- Introduction 2ème partie Modèle Conceptuel des Données 2- Entités- Associations 4- Associations plurielles 3- Cardinalités 5- Associations réflexives.
« Objectifs BAC » : Savoir différencier les tables de mobilité brute avec les tables de destinée et les tables de recrutement Savoir lire une table de.
Organisation, gestion de données Les connaissances que l'enseignant doit maîtriser à son niveau Présentation réalisée à partir de l'ouvrage de Roland Charnay.
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
Initiation à la conception des systèmes d'informations
Suites ordonnées ou mettre de l’ordre
Corrélation et régression linéaire simple
Outils de Recherche Opérationnelle en Génie MTH 8414
Ingénierie pédagogique
Module de gestion des tournées de livraison
Analyse, Classification,Indexation des Données ACID
Mettre à jour les données
Statistiques descriptives univariées
EPREUVES HISTOIRE ET GEOGRAPHIE
Pierre Joli Cours de Mathématique Pierre Joli
OUTILS D’AIDES AUX SYNDICATS
DOC MYCK : Programmation
Deuxième partie : La courbe d’indifférence
Détermination des propriétés texturales d’un solide poreux par traçage
Représentation de l’information en binaire:
Loi Normale (Laplace-Gauss)
4°) Intervalle de fluctuation :
Résumé de l’objectif de l’A.C.P.
7.1 Transformation linéaire
Une grande partie des données que nous serons amenés cette année à étudier sera exprimée en unités monétaires. Or, nous le savons, il existe un phénomène.
Mesures de Variation, Coefficient Multiplicateur, Taux de Variation
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Les bases de données et le modèle relationnel
Coefficient de corrélation linéaire
POL1803: Analyse des techniques quantitatives
Plans d’experiences : plans de melanges
Technologies de l’intelligence d’affaires Séance 11
Technologies de l’intelligence d’affaires Séance 12
Analyse en Composantes Principales
Exploitation de mesures scientifiques.
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
ACP Analyse en Composantes Principales
Statistiques. Moyenne, Moyenne pondérée, Tableur et graphiques.
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
Royaume de Maroc Université Hassan Premier Settat Faculté des Sciences et Techniques de Settat LA CLASSIFICATION K-MEANS SOUS R /MATLAB Master :Automatique.
INDICATEURS ET TABLEAUX DE BORD EN MAINTENANCE. Définitions Indicateur : chiffre significatif d’une situation économique pour une période donnée. Tableau.
Statistiques.
Analyse des Données M.H. ZAIEM.
Présentation de la base Frantext
P LAMBOLEZ Partie maths V GILLOT Partie anglais
Position, dispersion, forme
Chapitre 1 Formulation d’un programme linéaire (PL) Georges Abboudeh BUST 347.
Les différentes Situations d’apprentissages :.  Rougier (2009) explique que les situations d'apprentissage, choisies après avoir déterminé les objectifs,
Projection, cosinus et trigonométrie.
Moteurs de recherches Data mining Nizar Jegham.
Les erreurs de mesure Projet d’Appui au renforcement des capacités
Conception cartographique
Programme d’appui à la gestion publique et aux statistiques
Conception cartographique
Utiliser le modèle log-linéaire pour mettre au jour la structure du lien entre les deux variables d’un tableau de contingence : un exemple d’application.
Des chiffres pour être compris
Relier proportionnalité et fonction linéaire
Package JADE : Analyse en composantes principales (ACI)
Tableau de bord d’un système de recommandation
Encadrée par: - Mr. Abdallah ALAOUI AMINI Réalisée par : -ERAOUI Oumaima -DEKKAR Amal - ES-SAHLY Samira -Houari Mohammed PROGRAMMATION MULTIOBJECTIFS.
Impact Evaluation 4 Peace March 2014, Lisbon, Portugal 1 Echantillonage pour une Evaluation d’Impact Latin America and the Caribbean’s Citizen Security.
Définition des actions mécaniques :
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
TD Comment les économistes, les sociologues et les politistes travaillent-ils et raisonnent-ils ? M. Osenda.
Outils de Recherche Opérationnelle en Génie MTH 8414
Transcription de la présentation:

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 La cartographie multivariée avec le logiciel Philcarto Support de cours J-C Raynal

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Sommaire 1.Rappel introductif sur la définition de l’ACP 2.Comment lire les résultats ? 3.Comment réaliser vos propres ACP ?

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 L’analyse en composantes principales (ACP)

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février Rappel introductif sur la définition de l’ACP

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Sommaire Types de problèmes pouvant être abordés par l’ACP Principe de l’ACP Structure du tableau de données

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Analyse en Composantes Principales L’Analyse en Composantes Principales (ACP) est une méthode statistique essentiellement descriptive appartenant à la famille des analyses dites « factorielles ». Mise au point par H. Hotelling en 1933, K. Pearson en 1901 en avait entrevu les grandes lignes. Ce n’est qu’à partir des années 60 que cette méthode a pris de l’ampleur et surtout lorsque la puissance de calcul des ordinateurs est devenu accessible dans les années 80. L’ACP peut être utilisée pour savoir : comment se structurent les variables : quelles sont celles qui sont corrélées ? Quelles sont celles qui ne le sont pas ? Quelles sont celles qui « vont dans le même sens » ? Quelles sont celles qui s’opposent ? et/ou comment se répartissent les individus : quels sont ceux qui se ressemblent ? Quels sont ceux qui sont dissemblables ? L’ACP, qui est une méthode descriptive, est parfois utilisée en préliminaire à des méthodes statistiques de type « décisionnelles » (régression, réseau de neurones, segmentation...).

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Le tableau de données en entrée est constitué, en lignes, par des « individus » (unités géographiques, habitants, etc.) sur lesquels sont mesurées des « variables quantitatives » (en colonnes), c’est-à-dire pour lesquelles il est possible de calculer la moyenne, l’écart-type, etc. Le choix des individus et des variables n’est pas sans importance dans les résultats de l’ACP. Ces choix méritent la plus grande attention. Ils seront guidés en fonction des objectifs des problématiques étudiées. Les individus pourront représenter soit la totalité de la population étudiée, soit un échantillon. Les variables introduites devront permettre de caractériser les phénomènes du mieux que possible.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février Les tableaux de mesure 2 - Les tableaux de note 3 - Les tableaux de rangs Types de tableaux pouvant être traités par l’ACP

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Tableau constitué de 83 lignes (Kreïs) et de 5 variables : -TX_AIND = taux d’actifs dans le secteur secondaire. -TX_ASERV = taux d’actifs dans le secteur tertiaire. -TX_EXPNONM = Part des exploitations agricoles non-marchandes. -TX_NUITEES = intensité touristique par nombre de nuitées. -EXPL_BIO = exploitations agricoles biologiques dans le total des exploitations. Types de tableaux pouvant être traités par l’ACP

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Il est fréquent que les tableaux traités contiennent des variables de différentes natures ou qui sont exprimées dans des unités différentes. Pour que les variables soient comparables entre elles et que les résultats de l’ACP ne soient pas influencés par leur ordre de grandeur, il faut procéder à une analyse « normée » ou « centrée réduite » : Chaque variable est maintenant exprimée en termes de dispersion autour de la moyenne, comptée en nombre d’écarts-type. Les variables sont ainsi ramenées à la même échelle pour être comparables. Cette procédure donne plus de poids aux variables les plus dispersées. Remarque : Cette transformation des données est réalisée automatiquement par le logiciel Philcarto. la variable est « centrée » autour de la moyenne la variable est ensuite « réduite »

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Le tableau de données correspond à une représentation des individus dans un espace à p dimensions. tout en conservant le maximum d’information Etant donné qu’il est impossible de se représenter visuellement le nuage de points des individus dans un tel espace, le but de l’ACP est de trouver des espaces de visualisation de dimensions « plus petites », à savoir des droites (dimension 1) ou encore des plans (dimension 2), tout en conservant le maximum d’information. Principe de l’ACP

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 C’est le même principe que lorsque l’on prend une photographie, on passe d’un espace à 3 dimensions à un espace à 2 dimensions. Principe de l’ACP

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 De fait, l’angle de la prise de vue a une importance capitale car c’est lui qui détermine « l’information exploitable ». Principe de l’ACP

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 De fait, l’angle de la prise de vue a une importance capitale car c’est lui qui détermine « l’information exploitable ». Principe de l’ACP

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 De fait, l’angle de la prise de vue a une importance capitale car c’est lui qui détermine « l’information exploitable ». Principe de l’ACP

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 variance des individus L’ACP est basée sur le même principe. La première droite proposée a pour but de voir au mieux les individus, c’est-à-dire celle pour laquelle la variance des individus est maximale. Cette droite est appelée « 1ère composante principale » ou « 1er axe principal ». Elle permet d’observer une certaine proportion de la variation totale des individus. Principe de l’ACP

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Ensuite, une 2ème composante principale (axe 2) est recherchée en répondant à 2 conditions : - avoir une corrélation linéaire nulle avec la première, c’est-à-dire être totalement indépendante de l’axe 1, - avoir, à son tour, la plus grande variance. Ainsi, la plus grande information complémentaire à l’axe 1 est apportée par l’axe 2. - Le processus est répété autant de fois que de variables. Donc, pour p variables, on obtient p composantes principales. Techniquement, l’ACP transforme les p variables quantitatives initiales, plus ou moins corrélées entre elles, en p nouvelles variables quantitatives, non corrélées : les composantes principales. Principe de l’ACP

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Une bonne interprétation d’une ACP passe par un examen préalable des données. Cet examen peut être réalisé à l’aide de logiciels spécialisés dans l’analyse de données. Philcarto fournit un listing de l’ACP contenant des informations très utiles. Aussi, il est conseillé dans un premier temps de lancer une ACP « brute » en se focalisant sur les données élémentaires avant d’interpréter les axes factoriels. Examen préalable à l’interprétation des résultats 1 - Afin de s’assurer de la qualité des données et de détecter d’éventuelles erreurs, on observe les statistiques élémentaires pour chaque variable (moyenne, écart-type etc.) et on réalise un histogramme de fréquence afin de s’assurer qu’il ait une forme en « cloche ». Cette forme garantit la légitimité de l’interprétation en termes de dispersion autour de la moyenne.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 L’examen préalable de la représentation des individus sur le plan principal (axes 1 et 2) permet de vérifier l’homogénéité de la population observée. Généralement, trois situations se présentent : Figure 1 : Vous observez des individus isolés du reste de la population. Examen préalable à l’interprétation des résultats Cela peut signifier 2 choses : soit certaines valeurs sont erronées > il faut corriger et refaire l’ACP ; soit certains individus sont très différents, il vaut mieux les étudier à part > il faut les retirer de l’analyse.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Examen préalable à l’interprétation des résultats Figure 2 : Plusieurs groupes distincts sont constitués : il s’agit de sous- populations. Si l’objectif est d’étudier les sous-populations, il faut alors réaliser une ACP pour chacune d’elles. Si l’objectif est de décrire les individus et de mettre en évidence les caractéristiques de ces groupements > interprétation de l’ACP.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Examen préalable à l’interprétation des résultats Figure 3 : Les individus se répartissent sur l’ensemble du plan > interprétation de l’ACP.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février – Corrélations linéaires Vérifier la corrélation des variables deux à deux, grâce à la table de Bravais-Pearson, puis, dans le cas d’une forte corrélation, enlever de l’analyse l’une des deux variables. Ce travail préalable réalisé, on peut alors relancer l’ACP avec des variables appropriées et validées. Examen préalable à l’interprétation des résultats

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 L’ACP propose donc des projections du nuage de points dans des plans de représentation « judicieusement choisis ». La procédure dite de « diagonalisation » permet de choisir le nombre de plans à retenir. Afin d’expliciter à quoi correspondent ces plans, il faut donner un sens à leurs axes en procédant à la caractérisation de ces derniers à l’aide des variables initiales. Ceci se fait par l’étude du cercle des corrélations. Par la suite, on peut discuter de la position et de la proximité des individus dans les plans selon le sens donné aux axes. Interprétation des résultats

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février – Diagonalisation Interprétation des résultats La diagonalisation permet de calculer les « valeurs propres » qui quantifient les pourcentages de variation expliquée par chaque composante principale (variance des individus sur un axe), ce qui permet d’avoir une idée du nombre de composantes et de graphiques à examiner. Dans l’exemple ci-contre, il semble intéressant d’examiner en priorité les composantes principales 1, 2 et 3 qui totalisent 92,77% de l’information.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février – Diagonalisation Interprétation des résultats A la question « combien d’axes faut-il regarder ? » : à vous de juger avec bon sens. Il n’y a pas de règle, il faut tenir compte de la forme dégressive des valeurs propres. 80 % de l’information peut être expliquée de différentes façons avec 3 axes : 80 = ou 80 = ou encore 80 = Ne regarder un axe que si la part de variation qu’il explique est supérieure ou au moins égale à la valeur initiale. Pour une ACP centrée réduite, on ne conserve que les axes dont la valeur propre est supérieure à 0.8. Enfin, une variable étudiée peut n’apparaître « bien représentée* » que sur un axe de rang élevé, il est donc nécessaire de le garder. * cf. §4.1 – Variables « interprétables »

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 structure des variables Le « cercle des corrélations » permet de visualiser la structure des variables. Son interprétation sera menée conjointement avec l’examen des résultats du listing ACP. Interprétation des résultats 4 – Interprétation des variables Remarque : Pensez à relier les différents points avec le centre du cercle car, en ACP, l’interprétation des variables se fait à partir leurs directions.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février – Variables « interprétables » Interprétation des résultats 4 – Interprétation des variables la variable considérée est très bien représentée. la variable considérée est bien représentée. la variable considérée est moyennement représentée. la variable considérée est médiocrement représentée. Une variable est d’autant mieux représentée sur le plan qu’elle est proche du cercle. L’analyse ne portera que sur les variables « bien représentées » sur un plan. Il est communément admis qu’une variable bien représentée sur un plan répond aux critères suivants : Moyennement représentée. Bien représentée. Très bien représentées.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Interprétation des résultats 4.2 – Etude des corrélations entre variables Deux variables sont d'autant plus corrélées que leur coefficient de corrélation est proche de 1 en valeur absolue (TX_AIND & TX_ASERV). Graphiquement, deux variables fortement corrélées ont des directions similaires, deux variables indépendantes ont des directions pratiquement perpendiculaires (TX_NUITEES & TX_EXPNONM). Deux variables dont le coefficient de corrélation est positif varient dans le même sens : quand l'un augmente, l'autre augmente également (TX_NUITEES & EXPL_BIO) ; si le coefficient de corrélation est négatif, les deux variables s'opposent : quand l'un augmente, l'autre diminue (TX_AIND & TX_ASERV). Remarque : Le coefficient de corrélation varie entre -1 et 1.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Interprétation des résultats 4. 3 – Etude de la corrélation des variables avec les axes Il s’agit d’identifier qu’elles sont les variables les plus liées avec les axes. Les variables les plus liées à l’axe 1 sont les secteurs d’activité (TX_AIND & TX_ASERV). L’axe 1 oppose l’industrie aux services. Les variables les plus liées à l’axe 2 sont les exploitations non-marchandes (TX_EXPNONM) et le nombre de nuitées (TX_NUITEES).

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Interprétation des résultats 5 – Interprétation des individus L’examen des coordonnées et la représentation graphique des individus permet de répondre à : Comment se répartissent les individus ? Quels sont ceux qui se ressemblent et en quoi ? Il s’agit de s’intéresser à la proximité ou à l’éloignement entre les individus.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février – Individus « interprétables » Le graphique des individus est une représentation imparfaite de la réalité dans le sens où les individus sont plus ou moins bien représentés sur le plan. On ne peut parler de proximité d’individus que pour des individus bien représentés. Cette qualité de la représentation est estimée par les valeurs des cosinus carrés. On admet qu’un individu est bien représenté sur un plan si la somme des cosinus carrés sur les axes de ce plan est supérieure à Interprétation des résultats

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février – Analyse de la répartition des individus Les individus qui contribuent le plus à la construction des axes sont ceux dont les coordonnées sont les plus éloignées de leurs moyennes. Ils ont les coordonnées en valeurs absolues les plus fortes. La construction des axes peut s’expliquer soit par des individus suspects (il faut alors recommencer, en les éliminant), soit c’est le fruit d’un ensemble homogène et « stable » qui ne sera pas modifié par quelques individus en plus ou en moins. Interprétation des résultats

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février – Analyse de la répartition des individus Kreïs dont : -TX_AIND est très supérieure à la moyenne -TX_EXPNONM et TX_NUITEES sont très sup. à la moyenne Les individus proches de l’origine sont soit des individus qui ne se démarquent pas de l’individu moyen, soit des individus mal représentés sur le plan 1-2. Kreïs dont : -TX_ASERV est très supérieure à la moyenne -TX_EXPNONM et TX_NUITEES sont très inf. à la moyenne Kreïs dont : -TX_ASERV est très supérieure à la moyenne -TX_EXPNONM et TX_NUITEES sont très sup. à la moyenne Interprétation des résultats

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Le logiciel Philcarto offre la possibilité de spécifier les individus participant (individus « actifs ») ou non (individus « supplémentaires ») à l’analyse. Pour cela, il faut créer une variable binaire supplémentaire codée 0 pour les individus actifs et 1 pour les individus supplémentaires. Les individus supplémentaires n’interviennent pas dans l’analyse mais peuvent être positionnés par rapport aux individus actifs afin d’amener un complément d’informations. Comme pour les individus actifs, il faut que les individus supplémentaires soient bien représentés sur le plan pour pouvoir être interprétés. 5.3 – Individus supplémentaires Interprétation des résultats

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Conseils supplémentaires L’ACP ne peut pas traiter des tableaux comportant des données manquantes. Lorsque l’on a des données manquantes, on doit supprimer lignes (individus) et/ou colonnes (variables) afin d’obtenir un tableau complet. L’ACP ne peut pas traiter des variables qualitatives mais uniquement des variables quantitatives. Il y a toutefois une astuce qui consiste à intégrer un codage des variables qualitatives dans les identifiants des individus.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Conclusion L’ACP est une méthode qui a pour but de rendre plus compréhensible l’ensemble des variables contenues dans un tableau de données. Ne lancer pas d’analyse sans avoir pris soin de sélectionner les variables, supprimer toutes les variables redondantes ou très fortement corrélées. L’ACP est une méthode parmi d’autres, elle révèle simplement ce qui existe dans vos données. Entraînez-vous dans un premier temps avec des données et sur des problématiques que vous connaissez bien afin de bien saisir les possibilités offertes par une telle analyse. ET BON COURAGE !!!

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 La classification ascendante hiérarchique (CAH)

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 La classification ascendante hiérarchique Les classifications multivariées sont des techniques qui permettent de répartir en classes un ensemble d’unités statistiques par rapport à plusieurs variables. La classification ascendante hiérarchique permet de mettre en évidence les groupes les plus homogènes (la variance intra-groupe est minimum) et les groupes sont les plus séparés possibles (variance inter-groupe maximum).

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février – Principes de la CAH Comme pour l’ACP, le point de départ est un tableau constitué de n individus et p variables. De cette matrice de départ une nouvelle matrice sera constituée afin de définir une distance entre points (distance métrique euclidienne). - Étape 1 : Il s’agit d’agréger les points i et i’ les plus proches (distance minimale). Ce qui constitue un premier groupe, considéré à son tour comme un nouveau point dont les coordonnées proviennent de la moyenne des deux points agrégé. La classification ascendante hiérarchique : Principe - Étape 2 : On répète l’opération en recherchant la plus petite distance afin de fabriquer un nouveau groupe ou d’augmenter le premier groupe. - Étape n : Tous les points ont été agrégés. 2 groupes 3 groupes 4 groupes Au final, les n points-individus forment un ensemble dessinant ainsi une arborescence hiérarchique. Une partie seulement de cette arborescence figurera dans le listing d’interprétation fournit par Philcarto. C’est sur cette arborescence que l’on choisit le nombre de classes, ce qui permet de constituer des groupes homogènes.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 La classification ascendante hiérarchique : Interprétation

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Carte n° 19 - Types de diversification socio-économique en Allemagne

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Bibliographie Groupe Chadule, (1997). Initiation aux pratiques statistiques en géographie. Paris, Armand Colin, Col. U, 192 p. Beguin M., Pumain D., (2000). La représentation des données géographiques. Statistique et cartographie. Paris, Armand Colin, Col. Cursus, 192 p. Fenelon J-P., (1981). Qu’est-ce que l’analyse des données ? Paris, LEFONEN, p Volle M., (1981). Analyse des données – 2 e édition – Economica.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 La variance La variance est une mesure arbitraire servant à caractériser la dispersion d'un échantillon ou d'une population. L’écart-type L’écart-type est la racine carré de la variance. Comment interpréter les résultats ? Moyenne arithmétique Moyenne arithmétique : La moyenne d’une série statistique est la somme des valeurs observées, divisée par le nombre d’observations. L’étendue L’étendue est la différence entre la valeur maximum observée et la valeur minimum observée.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 La variance La variance est une mesure arbitraire servant à caractériser la dispersion d'un échantillon ou d'une population. L’écart-type L’écart-type est la racine carré de la variance. Comment interpréter les résultats ? Distance euclidienne Distance euclidienne : La moyenne d’une série statistique est la somme des valeurs observées, divisée par le nombre d’observations. L’étendue L’étendue est la différence entre la valeur maximum observée et la valeur minimum observée.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février 2008 Exemple d’un individu i proche de l’axe Exemple d’un individu i éloigné de l’axe

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto février – Principes de la CAH tableau sera transformé pour être Construction de l'arbre hiérarchique ascendant en entier Recherche de la meilleure coupure de l'arbre A utiliser quand le nombre d'individus n'est pas très élevé La classification ascendante hiérarchique : Interprétation