Hadrien Commenges Université Paris 7, Géographie-cités Hélène Mathian CNRS – Géographie-cités Claude Grasland Université Paris 7, Géographie-cités Introduction aux méthodes de traitement des données géographiques avec R
2 Expliquer la localisation d’un phénomène en un lieu Conjugaison de 3 dimensions localisation d’un phénomène en un lieu donné Spatiale Interactions avec les autres lieux « Ecologique » Caractéristiques humaines Et physiques de ce lieu Historique Héritage, succession d’événements en ce lieu D’après Durand-Dastès (Géopoint 1990) et Pumain, Saint-Julien (L’analyse spatiale, 1997, cursus, Colin) Composante horizontale Composantes verticales
3 Objectifs et moyens de l’analyse spatiale Objectifs : décrire et expliquer une organisation spatiale –Analyse des localisations et structures –Analyse des facteurs explicatifs Moyens : enchaînement de méthodes –Identification et description de structures spatiales –Tester la pertinence d’un modèle spatial –Simuler un processus spatial
4 Les méthodes statistiques au service de l’analyse spatiale Ensemble de techniques et méthodes statistiques pour décrire et expliquer les répartitions spatiales. -Approches exploratoires (Tukey) -Approches descriptives (analyse des données) -Approches explicatives (modèles linéaires, log-linéaires…) -Approche de généralisation (lissage)
5 L’analyse statistique de données spatiales A donné lieu à 3 types de développements méthodologiques: -l’analyse géostatistique -l’économétrie spatiale -l’analyse statistique spatiale et/ou analyse exploratoire des données spatiales (spatial data mining).
6 Différentes formalisations possibles pour un même objectif - décrire et comprendre l’évolution de la distribution de la population au niveau communal dans la région de Montpellier ; - proposer des prévisions pour 2020 approche statistique Micro- simulation modèle dynamique de type logistique
7 Les méthodes statistiques dans une démarche d’analyse spatiale pour décrire et expliquer les répartitions spatiales 1 variable univarié Ordres de grandeur: -tendance centrale -dispersion, variabilité -hétérogénéité 2 variables bivarié Analyse des relations -corrélations -test du chi2 -analyse de la variance plusieurs variables multivarié Analyse des données Toutes les variables jouent le même rôle -classifications - analyses factorielles Modèles statistiques Une variable « à expliquer » -analyse de la variance - modèle logit
8 De la « réalité » au Système d’Information 3 grandes phases de modélisations Acquisition Modélisation Représentation
9 Les données L’ensemble des observations de n individus décrits par p variables se présente sous la forme d’un tableau individus/caractères qui constitue les données. X 1 X 2 X j X p 12in12in x 11 x 12 x 1j x 1p x 21 x 22 x 2j x 2p x i1 x i2 x ij x ip x n1 x n2 x nj x np
10 Un jeu … de données Distribution statistique et distribution spatiale
11 Mise en œuvre dans logiciels Logiciel à script Logiciel à interface Orienté données géographiques Orienté méthodes statistiques Gratuit Libre
12 Intro à Le logiciel Interface Rstudio
13 Premiers pas: les objets Stat Tableau de données (X i,j ) Colonne Ou ligne X i ou X j Paramètre ou valeur R data.frame Vecteur Scalaire
14 Accéder aux objets Stat Tableau de données (X i,j ) Identifiant Colonne X j Ou Ligne X i Paramètre ou valeur R Montab ID Montab[3,] Montab[,10] Montab[2,3]
15 Type Stat Variable quantitative Variable qualitative Données manquantes R Type numeric Type character Type numeric (!) Type factor NA
16 Premières opérations Instruction Pseudo code -Calculer /31 Code dans R Afficher le résultat : / 31 Stocker le résultat : MonObj < / 31
17 Premières opérations Instruction Pseudo code -Faire somme de P.,j pour j = [1962… 2008] Code dans R sum(MonTab[, “POP1936”] sum(MonTab[, “POP1954”] etc. sum(MonTab[, 3] sum(MonTab[, 4] etc.
18 L’opérateur c() Créer un vecteur : vExemple1 <- c(1, 2, 3, 4, 5) vExemple1 ## [1] vExemple2 <- c("CP", "CE1", "CE2", "CM1", "CM2") vExemple2 ## [1] "CP" "CE1" "CE2" "CM1" "CM2 » Pour « voir » le contenu Combinaison de 5 valeurs pour Créer un vecteur
19 Exemple: créer un dataframe, gérer sa structure Créer un dataframe dExemple <- data.frame(vExemple1, vExemple2, stringsAsFactors = FALSE) colnames(dExemple) ## [1] "vExemple1" "vExemple2" colnames(dExemple) <- c("ID", "CLASSE") dExemple <- data.frame(ID = vExemple1, CLASSE = vExemple2, stringsAsFactors = FALSE) dExemple ## ID CLASSE ## 1 1 CP ## 2 2 CE1 ## 3 3 CE2 ## 4 4 CM1 ## 5 5 CM2
20 bonus Script tout fait de la cartographie
21 2è exo: intro variable quali Obj: manipulation de données quali -Recodage %oui-/- %non (factor) -Tri à plat (listing et stocké) -Diagramme en bâton
22 3è exo : croisement de variable) -Crée la var département -Quali-quali: Tri croisé= res_réfx dep -Quali-quanti- Traitement différencié: -Somme population par département -moyenne des % d’ouvriers par résultat référendum
23 Parallèle entre descriptif et création d’information agrégée
24 4è exo: melting pot Créer la variable "distance à Paris centre". Recoder la variables distance à Paris en 4 classes: 15km. Calculer revenu_hab par département et par classe de distance à Paris. Faire une la représentation graphique associée au croisement du revenu_hab et de la distance à Paris. (nuage de point des communes) Refaire cette représentation en différenciant les communes par département. Qu'observe-t-on ?
25 5è exo: bivarié- régression Quanti-quanti Construire une matrice de corrélation (variables à définir) %ouvrier et %non= régréssion simple –Nuage de points –coefficent
26 Manipulations avancées Superposition et concaténation SuperpositionConcaténation ou jointure Colonne identiques Colonnes différentes Même lignesLignes différentes
27 Manipulations avancées Traitement par ligne et par colonne (apply)
28 Manipulations avancées Transposition
29 Conclusion Ouverture : –SQL –objets géo et traitement stat spatiale