Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe n: Minimum+((n-1)*Ic) -> Minimum+(n*Ic) o Maximum Désavantages: Très sensible aux valeurs extrêmes Avec une distribution asymétrique ou qui présente des discontinuités, certaines classes peuvent être vides ou il peut y avoir une concentration dans certaines classes. Avantages: Facilité de calcul et d’interprétation. Très utile lorsque la variable va de 0 à 1 ou de 0 à 100, … ou en valeurs extrêmes connues.
Groupe 1: Progression arithmétique Pour n classes, on calcule la raison de la progression: Classe 1: Minimum -> Minimum+A Classe 2: Minimum+A -> Minimum+(2*A) Classe i:… Classe n: Minimum+((n-1)*A) -> Minimum+(n*A) Mêmes désavantages Avantages: permet d’avoir plus de classes dans les petites valeurs, utile lorsque la distribution est asymétrique.
Groupe 1: Progression géométrique Pour n classes, on calcule la raison de la progression: Classe1: Minimum -> Minimum*G Classe 2: Minimum*G -> Minimum*G2 Classe i:… Classe n: Minimum*G(n-1) -> Minimum*Gn Cette méthode propose des classes encore plus fines dans les petites valeurs. Elle correspond à la méthode des intervalles égaux pour une variable ayant subie une transformation logarithmique. Cette méthode suppose que le minimum ne soit pas 0.
et le fichier des densités Exercice Prendre les fichier LR et le fichier des densités Faire la carte des densités, et modifier la discrétisation avec Ctrl+E, Ctrl+A, Ctrl+G Conclusion ? Regarder l’histogramme et le diagramme boite et moustaches
Groupe 1: Utilisation Vérifier que la distribution ne présente pas de forte dissymétrie, des valeurs du minimum et maximum trop singulières, ou des discontinuités dans la distribution. Si la distribution est à peu près normale ou uniforme, il est préférable d’utiliser les intervalles égaux. Dans le second cas, cette méthode sera proche des quantiles. Si la distribution présente de fortes dissymétries dans les petites valeurs, il est préférable d’utiliser la progression arithmétique. Si, en plus de la dissymétrie, la distribution se rapproche d’un modèle log-normal, utiliser la progression géométrique. La progression arithmétique ou géométrique peuvent être utilisés quand il s’agit de montrer des phénomènes particuliers qui se distribuent de cette manière, par exemple la densité de la population ou la hiérarchie des villes.
Groupe 2: Classes selon les quantiles Cette méthode calcule les limites de classes de manière à ce que chaque classe ait le même nombre d’observation. Nombre d’observation dans chaque classe: m = Nombre d’observations / Nombre de classes La série d’observations est ordonnée selon les valeurs croissantes de la variable. On compte m observations pour construire une classe. Les limites des classes sont des valeurs réelles de la série. Si n=4, on obtient des quartiles. Si n=10, ce sont des percentiles, etc.
Inconvénients: Avantages: Il est possible que chaque classe n’ait pas exactement le même nombre d’observations, parce qu’il peut exister plusieurs observations avec la même valeur. Dans ce cas, il peut exister un déséquilibre des classes. Il peut être aussi très difficile de construire les classes dans le cas de séries très discontinues. S’il existe des valeurs extrêmes particulières, les limites de classes seront difficiles à interpréter. Dans ce cas, on découpe deux classes extrêmes correspondants aux percentiles 5 et 95. Avantages: Cette méthode fonctionne avec n’importe quel type de distribution, normale ou pas. Elle est indépendante des valeurs, et des valeurs extrêmes. Cette méthode permet une comparaison entre différentes séries ou cartes, en comparant l’ordre des observations dans la distribution. En considérant que chaque classe dispose du même nombre d’observation, l’entropie est maximum. Ceci signifie que cette méthode apporte le maximum d’information graphique, et la meilleure lecture possible. Les limites de classes sont des valeurs réelles.
Groupe 2: Moyenne et écart-type Cette méthode calcule les limites de classes selon une fraction d’écart-type. Il est nécessaire que la distribution soit normale, ou que l’on ait réalisé une transformation de la variable pour que la distribution s’approche d’un modèle normal. On calcule la moyenne (m) et l’écart type (s) Les limites de classes sont calculées de la manière suivante: Nombre paire de classes Nombre impaire Classe 1: <m-1.5 s Classe 1: <m-2 s Classe 2: (m-1.5s) -> (m-0.5s) Classe 2: (m-2s) -> (m-1s) Classe 3: (m-0.5s) -> (m+0.5s) Classe 3: (m-1s) -> m Classe 4: (m+0.5s) -> (m+1.5s) Classe 4: m -> (m+1s) Classe 5 > m+1.5s Classe 5: (m+1s) -> (m+2s) Classe 6 > m+2s Avantage: Permet la comparaison entre variables très différentes puisqu’on norme la variable à partir de sa moyenne et de son écart-type, à condition d’avoir une distribution normale. Parfois il est nécessaire d’isoler les valeurs extrêmes qui sortent de l’intervalle de confiance.
Groupe 2: - Moyennes emboîtées La moyenne arithmétique sépare la distribution en deux groupes. Chaque sous-groupe peut faire l’objet du calcul de moyenne ce qui divise la distribution en 4 groupes. Etc. Avec cette méthode, on ne peut avoir que 2, 4 ou 8 classes.
Le nombre de classes est invariable : 2, 4 ou 8. Avantages: Construit des groupes selon des valeurs statistiques connues : les moyennes arithmétiques. Si la distribution n’a pas des valeurs extrêmes exceptionnelles, on s’approche d’une distribution par quantiles. Si la distribution es très asymétrique, on s’approche d’une discrétisation par progression géométrique. Inconvénients: S’il y a des trous importants dans la distribution, particulièrement dans les valeurs extrêmes, la moyenne n’a plus de sens. Le nombre de classes est invariable : 2, 4 ou 8.
Groupe 2: - Méthode de Jenks ou d’analyse de variance. Cette méthode propose, sur la base d’une analyse de variance, de minimiser la variance intra-classe, et de maximiser la variance inter-classe. On ordonne les données par valeur croissante On cherche tous les groupes possibles pouvant former k classes. Pour chaque configuration, on calcule la variance à l’intérieur du groupe, et entre les groupes. On compare l’ensemble des valeurs et on prend la configuration qui minimise la variance dans le groupe et maximisa la variance entre les groupes. Avantage: Cette méthode est la meilleure du point de vue statistique parce qu’elle crée des groupes homogènes et très hétérogènes entre eux. Les limites de classes sont des valeurs réelles de la distribution. Inconvénient: Peu de stabilité en augmentant le nombre de classes. Ne peut s’appliquer qu’à des valeurs faibles (problème d’algorithme)
Groupe 2: - Equiprobabilités. Cette méthode est basée sur la distribution théorique des probabilités associée aux paramètres de la distribution réelle. La distribution de fréquence adoptée est une equirépartition avec le même numéro d’observations dans chaque classe. Le numéro d’observation est calculé comme: E = Numéro total d’observations / Numéro de classes. On utilise la table des probabilités d’une loi normale pour chercher la probabilité d’avoir E individus dans chaque classe. Cette valeur théorique correspond à des valeurs centrées réduites. On utilise la moyenne et l’écart type de la distribution pour calculer les limites de classes. Avantages: Si la distribution est normale, on cumule les avantages de la méthode des quantiles et celle de l’écart type. Fréquences et probabilités sont alors similaires. Si la distribution n’est pas normale, le nombre d’observations dans chaque classe n’est pas constant et la différence indique la distance entre les deux distributions.
Fichier pop-age-ct.txt (cantons) Prendre 8 classes et la variable % jeune <15 Faire les cartes correspondant à Quantile, Probabilité, Jenks, Equirépartition, Medias et écart-type. Pour chaque carte : faire menu Statistique / Statistiques descriptives Relever les paramètres Normalité, Redondance, Intra/inter Faire un tableau récapitulatif Conclusion ?
Comparaison des paramètres stats 8 classes % jeunes Normalité Redondance Intra/Inter Quantiles 0.0891 0.000 0.057 Probabilités 0.0937 0.003 0.059 Jenks 0.1299 0.068 0.036 Equiprobabilité 0.1983 0.289 0.078 Ecart-type 0.2137 0.345 0.084 Moyennes 0.1037 0.008 0.046
Conclusion Le rapport Intra/inter est le plus intéressant : plus il est faible, meilleure est la discrétisation : grande homogénéité dans la classe, forte hétérogénéité entre les classes. Dans notre cas ??? Quantile, Jenks et Moyennes sont les plus efficaces. Dans le cas de l’équiprobabilité, des moyennes emboîtées et de l’écart type, la représentation cartographique peut se faire au moyen d’une gamme de couleurs en opposition. Dans le cas de la méthode des écart types, l’utilisation d’un nombre impaire de classe permet d’avoir une classe centrale autour de la moyenne.
Groupe 3: Courbe clinographique Cette méthode permet de choisir les limites de classe d’une variable à partir de la distribution d’une autre variable. Un cas typique est la distribution de la population en fonction de la superficie de chaque unité. Un autre cas possible est la distribution d’un pourcentage en fonction de la valeur brute de cette variable. Pour réaliser cette courbe, il est nécessaire: Ordonner la variable principale X par valeur croissante Calculer le cumul de la variable Y Calculer le % cumulé de Y La courbe se construit en posant en abscisse la variable X (par exemple la densité) et en ordonnée la variable Y cumulée (par exemple la population ou la superficie). On prend les limites de classes de X correspondant à 100/k de la variable Y, correspondant à k classes.
Avantage: Permet d’inclure dans la discrétisation une variable de pondération. En général on utilise une population ou une superficie. Chaque classe contient alors la même quantité d’individus ou de superficie (et non d’unités spatiales). L’étude de la forme de la courbe donne des indications sur la distribution statistique et sur la répartition géographique. Exercice avec le LR: fichier densite-lr.txt (carte densite + population et densité + superficie) Exercice avec les cantons : fichier pop-age-ct.txt (carte Jeune + population, âgés + population)
Groupe 3: Utilisateur et histogramme A partir de la carte du % de personnes âgées, faire Ctrl+U et préciser les valeurs. Montrer les divers types de graphiques et à l’aide du menu Modif., modifier les classes.
Signification d’une discrétisation La discrétisation optimum n’existe pas. Chaque méthode donnera une carte différente, plus ou moins conforme à la distribution de départ, et ceci pour deux raisons : L’agrégation de données en classes, c’est à dire la réduction de l’information utile; ceci introduit une erreur ou une distorsion dans la perception de cette distribution. Le modèle de distribution intervient dans le choix d’une discrétisation. Ceci introduit une hypothèse qui nécessite un test. Trois paramètres permettent de choisir une discrétisation : Une seule carte ou un groupe de cartes à comparer; Tester ou non une hypothèse statistique; Conformation de la distribution à un modèle particulier. Chaque fois, il est nécessaire de tester la signification des classes réalisées, soit au moyen d’une analyse de variance, soit au moyen de la comparaison des moyennes des classes.