Analyse Exploratoire des Données Géographiques ESDA Analyse Exploratoire des Données Géographiques ESDA Didier JOSSELIN ESPACE, UMR 6012, CNRS, Avignon, France Tél.:
Introduction Quelques outils de base de l’EDA Méthodes à noyaux Filtres spatiaux robustes Variogrammes robustes Autocorrélation spatiale Filtres adaptatifs Médienne, Distogramme Rapport SIG / outils de Statistique ARPEGE, LAVSTAT ConclusionPLAN
Exploratory Spatial Data Analysis : Application de l’EDA à l’analyse spatiale
L’enjeux principal de l’analyse spatiale et donc … de l’ESDA - L’analyse d’ensemble locale d’objets géographiques… points surfaces lignes objets complexes - Pour rechercher les : relations statistiques relations spatiales relations à travers les échelles relations « statistico-spatiales » à travers…
L’ E D A et la statistique “classique”
Analyse des données
La voie de l’EDA
Histogramme, branchage, boîte à pattes, dot plot...
Question : quels sont les qualités et les défauts de l’histogramme ? Question : quels sont les qualités et les défauts de l’histogramme ?
Les qualités... -Mode de représentation synthétique -Mathématiquement bien étudié et établi -Permet de nombreux tests de dépendance statistique (contingence) - Méthodes de discrétisations « automatiques » +
Les défauts... -Sensibilité au nombre de classes -Mélange d’individus différents par classe -Contrainte de surfaces proportionnelles aux fréquences formes « bizarres » - Méthodes de discrétisations « automatiques » -
Réponse apportée par le branchage (Stem and leaf)
Réponse apportée par des graphiques simples Dot Plot Stacked Plot Jittered Plot
Réponse apportée par la boîte à pattes intérieursadjaçents proches lointains Distance Inter Quartile (dIQ) 1,5 x (Q3-Q2) Q2 Q1 Q3 minmax
Réponse apportée par l’histogramme dynamique (ex : le distogramme, Josselin, 1999)
Démo histogramme dynamique et boîte à pattes
Question : quels sont les qualités et les défauts des méthodes classiques de comparaison de distributions (Khi2, Kolmogorov-Smirnov...) sur tableau de contingence ?
Les qualités... -Utilisent l’histogramme -Sont synthétiques et font appel à des tests de probabilité -Mathématiquement bien étudié et établi +
Les défauts... -Sensibilité au nombre de cases -On perd l’individu -On ne peut pas évaluer la forme de la distribution - Plusieurs valeurs peuvent correspondre à des réalités significativement différentes -
La réponse du QQ Plot Valeurs x i classées par ordre croissant (i est l’indice) Quantiles théoriques suivant une loi normale
Démo QQ-Plot
Ré-expression de variable, régressions robustes, Lowess
Question : quels sont les qualités et les défauts des régressions de type “moindres carrés”, linéaires ou non linéaires ?
Les mêmes qualités que d’habitude... et les mêmes défauts... -Sensibilité aux valeurs extrêmes… -Nécessité de normalité des résidus et bonne répartitions des individus en X et Y
Une première réponse : la ré-expression des données L’échelle de puissance de Tukey PuissanceTransformée 4X 4 3X 3 2X 2 1X ½racine(X) 0log(X) -½-1/racine(X) -1-1/X -2-1/X /X 3 Log(x)
La réponse de la “droite résistante” à la régression linéaire (ex :grigri-plot, A. Banos, 1999) Régression Moindres carrés Résistant line
Principe de la droite résistante u On regroupe les individus en 3 paquets d’effectifs égaux (en fonction de X) u On calcule pour chaque groupe l’individu robuste {médiane des X, médiane des Y} u On ajuste la droite sur les 2 points médians extrêmes, puis sur le point médian central
Démo Droite Résistante
La réponse du “Lowess” à la régression non linéaire
Principe du lowess (lissage robuste d’un nuage de points) u On définit une distance et on calcule, pour chaque point les poids des points voisins u On calcule la régression locale sur chaque point (polynôme) u On calcule les résidus et on applique un ajustement robuste par la médiane, pour éliminer les résidus trop importants
La voie de l’ESDA ?
Démo Lowess, filtres robustes sur données
ESDA : outils existants
Question : Comment lisser, homogénéiser, simplifier et analyser à travers les échelles... un phénomène observé ?
Filtres spatiaux robustes
Principe u On promène un filtre d’amplitude a choisi par l’utilisateur u En chaque valeur de la série, on applique la fonction f (pour nous la médiane) : X a=5, t=2 X-1 X-2 X+1 X+2
Médiane mobile
Filtres spatiaux Même principe que sur série, mais s’applique en 2D Degré de contiguïté Distance
Contiguïté zones Matrice de contiguïté (i,j) Cij = 1 si i et j ont une frontière commune 0 sinon On peut aussi définir des degrés de contiguïté : - d'ordre k (supérieur à 1) - d'ordre infèrieur à k I J
Distance zones Matrice de contiguïté (i,j) Cij = 1/d ij si i j avec > 1 0 sinon On peut aussi d ₫ finir des pond ₫ rations dans la distance en jouant sur I J = 1
Filtres spatiaux
Estimateurs de densité A. Banos, F. Huguenin-Richard, 1999 Application aux accidents de la route en 1996 dans la CUDL Source : CUDL, 1996
Estimation de densité par fonction de Kernel et les fenêtres mobiles adaptatives u Principe général : - estimation en tout point de l’espace de l’intensité d’un phénomène (nombre d’accidents) - balayage systématique de la zone d’étude par une fenêtre circulaire mobile de rayon r défini par l’utilisateur ou auto-adaptative - pondération du nombre d’accidents en fonction de la distance de chaque accident au centre de la fenêtre circulaire D’après Bailey T., Gatrell, A., 1995 A. Banos, F. Huguenin-Richard, 1999
Estimation de densités locales. Représentation surfacique Densités estimées à partir de fenêtres mobiles fixes de rayon 1000 m Densités estimées à partir de fenêtres mobiles adaptatives de rayon 1000 m Source : CUDL, 1996 A. Banos, F. Huguenin-Richard, 1999
Estimation de densités locales. Représentation 3D Source : CUDL, 1996 Densités estimées à partir de fenêtres mobiles fixes de rayon 1000 m Densités estimées à partir de fenêtres mobiles adaptatives de rayon 1000 m A. Banos, F. Huguenin-Richard, 1999
u Soit une population de référence : l’ensemble des accidents en 1996 dans la Cudl Population de référence Sous-population u Constat visuel : forme de la distribution spatiale des 2 semis de points semble identique u Question : - existent-t ils dans la sous-population des concentrations locales non identifiables à l’œil nu ? u Extraction d’une sous-population : les accidents ayant impliqué au moins un piéton enfant Les clusters A. Banos, F. Huguenin-Richard, 1999
Principe de la méthode des clusters u Comparaison statistique de la distribution spatiale de la sous- population avec sa distribution théorique associée, construite sous hypothèse d’une répartition spatiale aléatoire u Application de la loi de Poisson pour tester la significativité des écarts observés entre les 2 distributions u Couverture de la zone d’étude par des fenêtres mobiles circulaires - nombre défini par l’utilisateur - rayon variable, choisi au hasard dans un intervalle fixé par l’utilisateur
Identification de concentrations locales P( , ) < 0.05P( , ) < 0.01 P( , ) < 0.005P( , ) < A. Banos, F. Huguenin-Richard, 1999
Démo Filtres spatiaux robustes
Question : Comment quantifier la variation d’un phénomène dans l’espace, à travers les échelles, en changeant de résolution spatiale ?
Variogrammes... robustes
Principe sur une maille fixe (Modèles Numériques de Terrain) d 2d Z1Z1 ZnZn d Z 20 Croiser variance et distance pour identifier des structures spatiales
Possible aussi sur semis de points sans structure
Méthode 1 - On détermine la matrice des distances d ij entre tous les couples de points {i,j} 2 – Pour toutes les valeurs de distance d ij (réparties en classes, multiples de d ou non), on calcule la variance de la variable Z 3 – On réalise un nuage de points croisant cette variance (Y) et les distances (d ij )
Variogramme « classique » et « robuste » avec i et j les points considérés d la résolution spatiale Z la variable à étudier n d le nombre de couples de points à la résolution d u Le Variogramme « classique » u (Matheron) u Et ses équivalents « robustes » (Cressie)
Exemple : population communale Quantiles Amplitudes égales 1 : variogramme classique 2 : variogramme robuste 1 3 variogramme robuste ,2 3 forte faible
Variogramme exploratoire We propose to use a spatio-temporal co-occurrence matrice in order to : assess spatio-temporal autocorrelation look for spatio-temporal patterns based on pullulation scores local relations and organization in timeWe propose to use a spatio-temporal co-occurrence matrice in order to : assess spatio-temporal autocorrelation look for spatio-temporal patterns based on pullulation scores local relations and organization in time Log (abs (Zi – Zj)) (abs (Zi – Zj)) Log (dij) Dij Lowess
Autocorrélation spatiale
Question : Comment mesurer à quel point des individus proches géographiquement se ressemblent ?
Buts et usages de la mesure d'autocorrélation spatiale u Mesurer des contrastes sur une carte ou une image u Evaluer globalement ou localement la structure d'un phénomène u Identifier des zones homogènes vs hétérogènes u Aider à la détection de discontinuïtés spatiales et des frontières
Disciplines et domaines concernés u Analyse spatiale, géographie quantitative u Géostatistiques (phénomènes continus et discrets) u Traitement d'images u Analyse des réseaux u Economie spatiale u Archéologie u Ecologie u Etc.
Les individus proches se ressemblent... (autocorrélation +)
Les individus proches sont différents... (autocorrélation -)
De quoi ai-je besoin pour mesurer l'autocorrélation spatiale ? - D'une (ou de) variable(s) à mesurer - D'une méthode pour mesurer la distance ou la contigu ï té : * choix d'une mesure * calcul d'une matrice de distance ou contigu ï té - D'une méthode pour évaluer l'autocorrélation sous contrainte de distance / contigu ï té * choix d'une mesure * choix d'une fen ê tre d'application - D'une méthode de validation, visualisation
Indices de MORAN u L’indice de MORAN global est défini comme suit (Moran) : avec u la moyenne des valeurs nle nombre d’individus l ij =1 si i et j contigus ou répondent à une condition, 0 sinon M<0 ou Mi<0si l’autocorrélation est négative M>0 ou Mi>0si l’autocorrélation est positive u Et son équivalent local (LISA, Anselin) :
Indices de GEARY u L’indice de GEARY global est défini comme suit (Geary): avec u la moyenne des valeurs nle nombre d’individus l ij =1 si i et j contigus ou répondent à une contrainte, 0 sinon G ou Giplus la valeur est grande et plus l’autocorrélation est forte u Et son équivalent local (LISA, Anselin) :
Démo LISA
Filtres temporels et spatiaux robustes
Les individus proches se ressemblent... (autocorrélation +)
Les individus proches sont différents... (autocorrélation -)
Même principe, que filtres spatiaux lien l ij Degré de contiguïté (l ij = c ij )Distance (l ij = d ij )
Indices de MORAN u L’indice de MORAN global est défini comme suit (Moran) : avec u la moyenne des valeurs nle nombre d’individus l ij =1 si i et j contigus ou répondent à une condition, 0 sinon M<0 ou Mi<0si l’autocorrélation est négative M>0 ou Mi>0si l’autocorrélation est positive u Et son équivalent local (LISA, Anselin) :
Indices de GEARY u L’indice de GEARY global est défini comme suit (Geary): avec u la moyenne des valeurs nle nombre d’individus l ij =1 si i et j contigus ou répondent à une contrainte, 0 sinon G ou Giplus la valeur est grande et plus l’autocorrélation est forte u Et son équivalent local (LISA, Anselin) :
Démo LISA
Principe u On promène un filtre d’amplitude a choisi par l’utilisateur u En chaque valeur de la série, on applique la fonction f : X a=5, t=2 X-1 X-2 X+1 X+2
Filtres sur série temporelle
Filtres spatiaux Même principe, mais s’applique en 2D Degré de contiguïté Distance
Les outils du marché... SIG, logiciels de cartographie ou logiciels de Statistique ?
Des logiciels de statistique très élaborés... u La variété et la puissance des modèles et des logiciels statistiques disponibles u L ’intégration des outils classiques et de l ’EDA u L ’existence de modèles statistiques et de logiciels spécifiques en EDA spatiale (ESDA)+
… qui intègrent peu le spatial. u Il n ’existe que des « viewers » de données géographiques u Les « grands » logiciels de statistique intègrent peu les modèles de l ’ESDA u L ’approche générale reste de type Entrée- Sortie-
Des logiciels de cartographie conviviaux... u L ’interactivité u La facilité d ’utilisation u La qualité de la sémiologie u L ’association à des représentations statistiques+
u Outils relativement fermés u Pas de structure de données accessible u Pas de langage de requête autre que graphique u Absence de modèle topologique- … avec cependant quelques limites...
Des Systèmes d ’Information Géographique puissants... Des Systèmes d ’Information Géographique puissants... u Acquérir u Accéder u Afficher u Analyser u Archiver u Abstraire
Les fonctionnalités à l’avantage des SIG u Le géocodage de l ’information u Intégration d ’informations hétérogènes u Langages de requête élaborés u Modèles de données structurés u Variété des SIG dédiés ou généralistes u Langage de programmation souvent intégré u Parfois modèle topologique+
Mais quelques inconvénients majeurs... u Interactivité faible (sauf requête SQL) u Peu d ’intégration d ’ outils statistiques (sauf gros systèmes) u Souvent empilement d ’informations mal structurées (couches) Anarchie ?-
Conclusion : 3 voies sont techniquement possibles u Prendre un outil existant et l ’utiliser, u Marier deux (ou plusieurs) outils pour le meilleur et pour le pire (LAVSTAT) u Développer les besoins spécifiques dans les outils proposés (ARPEGE)
Exploratory Spatial Data Analysis : nos propositions pour l’enseignement et la recherche
Le « Distogramme »
Objectifs Rechercher les discontinuités spatiales Analyser les discontinuités dans les valeurs des variables décrivant les individus Chercher la meilleure configuration statistique pour restituer une information cartographique
La règle des D u une Double vue : une carte et une distribution statistique u Deux types de Distributions croisées : spatiale et statistique u Un lien Dynamique entre elles u Un outil pour Discrétiser des variables continues u Un outil pour analyser les Discontinuités spatiales et statistiques u Un outil pour transformer les Données (“Distorsion” de valeurs)
Le Distogramme : un lien dynamique entre une carte et des distributions
Démo Distogramme
ARPEGE’ pour détecter les objets géographiques composites multiscalaires
Hypothèse « Analyser dynamiquement les relations statistiques et spatiales à différentes échelles permet une meilleure compréhension des entités géographies et des relations qu’elles entretiennent (statistiques, spatiales et topologiques) »
Commune A Commune B L’exemple des flux agricoles intercommunaux
1 ha 10 ha 360 ha SAU SAU = flux internes + entrants Flux sortants
Un enchevêtrement inextricable...
Notion de « pertinence territoriale » «Bon» «Mauvais»
La « pertinence territoriale » calculée pour la PEZMA (si elle était mal attribuée territorialement)
Distribution spatiale de la pertinence territoriale communale CommunesCantons
Effet de bordure Secret statistique Qualité des données : complétude (Josselin, Bolot, Chatonnay,2000) Qualité des données : complétude (Josselin, Bolot, Chatonnay,2000)
Que cherchons-nous ? Commune aggregate with its key and boundary Commune described by an attribute Commune couple flow Des collections d’objets composites associés par : leurs dépendances sémantiques et/ou statistiques leurs relations spatiales, topologiques et/ou fonctionnelles
Le « visionneur » d ’ARPEGE’
Application du prototype ARPEGE’
Démo ARPEGE’
LAVSTAT Un lien dynamique entre ArcView et XlispStat
Objectifs Analyser l’espace de manière systémique Ne pas réinventer la roue Faire coopérer des outils complémentaires
ArcView Un SIG associé à ArcInfo u Modèle topologique u Requêtes variées u Tables indexées et liens entre tables u Une connexion SQL (à Access par ex.) u Un langage de « meta-programmation » (Avenue)
Xlisp-Stat Un environment puissant de programmation statistique u Représentations statistiques multiples u Basé sur méthodes robustes (ESDA) u Un langage de programmation ouvert (LISP Orienté Objet) u Un lien dynamique entre les représentations
Interaction
Méthodologie de lien ArcView Xlisp-Stat Application N Services, DDE Serveur Application 3
Application de LAVSTAT