Analyse de hotspots de criminalité

Slides:



Advertisements
Présentations similaires
Structures de données avancées : MLH (Multidimensional linear hashing)
Advertisements

Active Directory Windows 2003 Server
1 IXERP consulting. L archivage consiste à extraire de la base de données opérationnelle les informations qu' il n est plus nécessaire de conserver «
ACubeOLAP Client Olap en ACube.
Using Semantic Caching to Manage Location Dependent Data in Mobile Computing (2000) Qun Ren, Margaret H. Dunham Southern Methodist University Dallas, Texas.
Accélération du Rendu Volumique basée sur la Quantification des Voxels
19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Nairobi, Kenya, Septembre 2010
Vue d’ensemble du Data warehousing et de la technologie OLAP
TP 3-4 BD21.
Gestion de la persistance des objets
CLUB DES UTILISATEURS FRANCOPHONES STAR- APIC Ville de Liège – Halle aux Viandes 24 et 25 novembre 2010 Bénéfices de la migration vers Elyx.
Estella Annoni, Franck Ravat, Olivier Teste, Gilles Zurfluh
VI. Analyse des solutions techniques
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Active Directory Windows 2003 Server
Apprentissage du jeu de morpion
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
– Les entrepôts de données et lanalyse en ligne – Versaille, le 19 Juin 2006.
Modélisation E/R des Données
Anne Tchounikine, Maryvonne Miquel, Robert Laurini,
Les systèmes d'information géographique servent principalement à :
Chap 4 Les bases de données et le modèle relationnel
1 Bases de Données Distribuées Chapitre 22, Sections 22.6–22.14.
Administration de bases de données spatiales avec SavGIS
Construction de modèles visuels
Entre construction théorique et mise en œuvre opérationnelle
Méthode des Ensembles de Niveaux par Eléments Finis P1
Systèmes d'information décisionnels
Universté de la Manouba
Constitution des bases de données. n Partenaires u Creatis u Liris/Systèmes dinformation communicants n Lot de travail situé entre le lot Applications.
Modèle d’entrepôt de données à base de règles
Les concepts et les méthodes des bases de données
Initiation aux bases de données et à la programmation événementielle
Vers l'échantillonnage d'un entrepôt de données
Optimisation de requêtes
PostgreSQL – Présentation
Institut de sciences et technologies Département d’informatique
Les Systèmes d’Information Géographique ( SIG ).
Structures de données avancées : Fichiers multidimensionnels Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI) zegour.esi.dz
Ceci est une session expert Cette session est déconseillée aux novices des moteurs Analysis Services 2000 ou 2005 La session « Découverte de Analysis.
LE DATA WAREHOUSE.
Visualisation d’un entrepôt de données Pré soutenance technique
Un processus pour la prise de décision spatiale.
Améliorer la performance des organisations en apportant à toutes les équipes la meilleure compréhension de leur activité pour des décisions plus rapides.
Module 3 : Création d'un domaine Windows 2000
1 Initiation aux bases de données et à la programmation événementielle Responsable : Souheib BAARIR. (le sujet de votre .
L’enseignement de spécialité SLAM
systèmes d’information géographique
Intégration des Tableaux Multidimensionnels en Pig pour
1 Structure en MC Principes Stockage des données dans la mémoire volatile d’un ordinateur Problèmes Stockage temporaire «Petits» volumes de données Langages.
Alti Copyright All rights reserved.. 2 ALTI Copyright All rights reserved. Sommaire Architecture BI 1 Entrepôt de données 2 Acquisition de.
Structures de données avancées : MLH (Multidimensional linear hashing) D. E ZEGOUR Institut National d ’Informatique.
La gestion des bases de données
Visualisation des flots optiques en 3D
Systèmes d'information décisionnels
Comparaison multi-échelle des précipitations du modèle Méso-NH et des données radar Colloque CNFSH – Ecole des Ponts ParisTech – 11/12 juin 2009 A., Gires.
DATA Warehouse Elabore par: Ajlani Wael Karous Nabil Salhi Mahmoud.
Proposition de possibilité d’évolution de nos spécialités Deux projets (liés) : Projet 1 : Informatique Computationnelle – Etudiants 4 e et 5 e IR Projet.
Cours 11 Entrepôts de données
Système d’Information Géographique Equipe-SIG Direction Régionale de Meknès.
Projet de session Par Eve Grenier Dans le cadre du cours SCG Réalisation d’applications en SIG Jeudi le 20 avril 2006.
PROJET DE SESSION PRÉSENTÉ PAR : Rosemarie McHugh DANS LE CADRE DU COURS : SCG Réalisation d’applications en SIG 16 avril 2007.
Géomatique Systèmes de projection Types de données Applications Qu’est-ce qu’un SIG ? Présentation de la géomatique La géomatique regroupe l'ensemble des.
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
Séminaire IRIT-UT1 « Les nouveaux de 2010 » Novembre 2010 Les entrepôts de données et des documents = des entrepôts de documents ? Ronan Tournier
De la Terre à la carte: Projections et Géoréférencement
Implémentation d’une interface pour l’exécution d’ETL à distance Projet de développement logiciel dans le cadre du cours SCG : « Réalisation d’Applications.
Conception d’un modèle d’analyse multidimensionnelle de données spatialement continues (SOLAP raster) Analyse de hotspots de criminalité Jean-Paul Kasprzyk,
Transcription de la présentation:

Analyse de hotspots de criminalité Conception d’un modèle d’analyse multidimensionnelle de données spatialement continues (SOLAP raster) Analyse de hotspots de criminalité Jean-Paul Kasprzyk, doctorant Réunion du comité de thèse: Jean-Paul Donnay, Thérèse Libourel, Marc Simon, Jef Wijsen Novembre 2013

Plan de l’exposé Introduction: business intelligence Modèle SOLAP raster Application: analyse de hotspots de criminalité Performance d’un SOLAP raster Conclusions Formation doctorale

Plan de l’exposé Introduction: business intelligence Modèle SOLAP raster Application: analyse de hotspots de criminalité Performance d’un SOLAP raster Conclusions Formation doctorale

Les données: aspect transactionnel Introduction: business intelligence

Les données: aspect décisionnel Introduction: business intelligence Les données: aspect décisionnel Le volume des données numériques croit exponentiellement

Business Intelligence Introduction: business intelligence Business Intelligence Architecture d’un système BI (Badard et al, 2009)

Introduction: business intelligence SOLAP Les outils SOLAP actuels ne gèrent l’information spatiale qu’à travers le mode vectoriel Pas de gestion de l’information spatialement continue Intérêt d’un SOLAP en mode maillé (raster)

Plan de l’exposé Introduction: business intelligence Modèle SOLAP raster Application: analyse de hotspots de criminalité Performance d’un SOLAP raster Conclusions Formation doctorale

Modèle SOLAP raster: généralités Objet de l’article « Le raster en tant que mesure dans un modèle SOLAP relationnel » Etat de l’art: (Miquel et al, 2002 ; Ahmed & Miquel, 2005 ; Vaisman & Zimanyi, 2009 ; Gomez et al, 2012) Principes de base Modèle Relationnel OLAP Schéma en étoile, en flocon de neige ou en constellation Cube de données = collection d’images géoréférencées couvrant un même territoire Une vue du cube = agrégation d’un ensemble d’images par opération locale de « map algebra » (Tomlin, 1983) La sélection des images à agréger dépend des dimensions non spatiales

Relation fait raster Modèle SOLAP raster Un raster O = Propriété: r x c pixels de valeur v où et Une fonction de géoréférenciation : Propriété: Une relation fait raster F = collection de mesures raster de même domaine Les dimensions non spatiales sont reliées à la table des faits comme dans un SOLAP classique

Agrégation des mesures raster Modèle SOLAP raster Agrégation des mesures raster Agrégation de n rasters Agrégation d’un raster en une valeur unique Agrégation spatiale d’un raster Fonction d’agrégation α appliquée entre pixels homologues Fonction d’agrégation α appliquée sur l’ensemble des pixels de O Cas 1: intersection avec un raster binaire (objet spatial) Cas 2: intersection avec un objet vecteur  Fonction d’agrégation α appliquée à un sous-ensemble de pixels de O

Schéma en étoile ou en flocon de neige Modèle SOLAP raster D2 D1 Schéma en étoile Fait_raster D spatiales (raster ou vecteur) Dn Dimension spatiale liée par jointure spatiale Dimension non spatiale liée par jointure relationnelle Jointure d’une dimension non spatiale d’un schéma en flocon de neige

Changement d’échelle Modèle SOLAP raster Fact_table_NO Fact_table_NE Fact_table_SO Fact_table_SE

Schéma en constellation Modèle SOLAP raster Dimensions non spatiales Schéma en constellation Même nombre de faits par table Toutes les mesures sont des images de même taille Une table des faits  une fonction de géoréférenciation Un niveau d’échelle  une résolution  (une bandwidth) Un jeu de dimensions spatiales raster par « coverage » Taille de l’entrepôt = F+4F+16F+32F+… Alternative: une seule table des faits avec plusieurs mesures raster Tables des faits Dimensions spatiales raster Dimensions spatiales vecteur (F NO NE SO SE)

Modèle SOLAP raster Représentations Une vue d’un cube raster correspond à l’agrégation des mesures raster selon les membres de plusieurs dimensions La représentation d’une vue dépend du nombre de dimensions visibles « 0 » D 1 D 1D 2D

Pourquoi du ROLAP? ROLAP: opérations dans un SGBD relationnel Modèle SOLAP raster Pourquoi du ROLAP? ROLAP: opérations dans un SGBD relationnel Traitements plus longs Grande capacité de stockage Supporte le format raster MOLAP: opérations dans un système multidimensionnel Traitements moins longs Capacité de stockage limitée Ne supporte pas (encore) le format raster Temps de traitement relatifs d’un SOLAP raster Sélection des données Agrégation des données Partie optimisée par un MOLAP  négligeable dans un SOLAP raster

Plan de l’exposé Introduction: business intelligence Modèle SOLAP raster Application: analyse de hotspots de criminalité Performance d’un SOLAP raster Conclusions Formation doctorale

But de l’application Application: analyse de hotspots de criminalité Crime.csv Localisation Type de crime Date ETL Entrepôt Serveur R-SOLAP raster Serveur M-SOLAP vecteur Analyse de la criminalité spatialement discrète Analyse de la criminalité spatialement continue (hotspots)

Estimation de densité par noyau (KDE) Application: analyse de hotspots de criminalité Estimation de densité par noyau (KDE) Technique très populaire pour la génération et la visualisation de hotspots Hotspots utilisés, entre autres, en criminalité pour de la prédiction Principe: Transformation de données ponctuelles en un champ continu (raster) Chaque cellule a comme valeur une fréquence dépendant du nombre de points à proximité Les hotspots sont isolés par classification de l’image (quantiles) KDE Classification

Propriété d’un KDE + = Application: analyse de hotspots de criminalité Si sont de même taille, même résolution, et même « bandwidth » = +

Intérêt technique de l’application Application: analyse de hotspots de criminalité Performance d’un SOLAP raster diminue avec: Nombre de dimensions non spatiales Taille des images Génération de hotspots Nécessite peu de dimensions Type de crime Temps (espace) KDE nécessite deux paramètres Bandwidth: indépendant de la taille de l’image dépendant de l’échelle d’analyse Résolution: influence sur la taille de l’image MAIS peu d’influence sur le résultat  utilisation de « petites images » (entre 200 et 600 ko non compressé) (Chainey, 2013): 150 x 150 ArcGIS: 250 x 250

Présentation des données Application: analyse de hotspots de criminalité Présentation des données Données de criminalité londonienne provenant de la « Metropolitan Police » et de la « City of London Police » http://www.police.uk/ Territoire d’environ 50km X 50km Année 2012 Fichiers CSV: Environ 1 200 000 crimes Données par mois et par type de crimes Latitude / longitude en WGS84 Fichiers KML Environ 7600 polygones des zones de police par mois

Types de crime Application: analyse de hotspots de criminalité Type de crime Occurrences Anti-social behaviour 348806 Other theft 192893 Violent crime 136324 Vehicule crime 96843 Burglary 94679 Criminal damage and arson 60638 Drugs 48659 Other crime 48464 Shoplifting 37068 Robbery 35528 Public disorder and weapons 30744

Modèle conceptuel (UML) Application: analyse de hotspots de criminalité SOLAP Raster SOLAP classique … Raster_fact Crime_fact ID_fact Month Crime_type ID_crime Month Crime_type 1 0-N Changement d’échelle 0-N 1-N Force_boundary ID_force Month

Intégration des données Application: analyse de hotspots de criminalités Alimentation de la table « crime_fact » (1200000 faits) Alimentation de la table « force_boundary » Suppression des données sans localisation Conversion latitude/longitude en « geometry » Projection dans British National Grid (SRID 27700) Suppression des données en dehors de la zone d’étude Etablissement du lien relationnel entre « crime_fact » et « force_boundary » Export de 132 shapefiles de points pour chaque croisement de dimension « crime_type-month » Génération de 132 images KDE Resolution: 300m Bandwidth: 1500m Alimentation de la table « raster_fact » Mise à jour des dimensions de la table « raster_fact » …

Application: analyse de hotspots de criminalités Vue raster_column

Comparaison SOLAP raster – SOLAP vecteur Application: analyse de hotspots de criminalité Comparaison SOLAP raster – SOLAP vecteur « Quelle est la répartition spatiale de la criminalité générale pour l’année 2012? »  Requête la plus lourde possible Entrepôt raster Entrepôt classique Addition des 132 images: environ 35 sec Sélection des 1200000 entrées: environ 27 sec KDE sur les données: environ 52 sec TOTAL: environ 79 sec

Exemples de requête Application: analyse de hotspots de criminalité « Quels sont les hotspots de criminalité liée à la drogue pour le premier trimestre 2012? » Stretch « standard deviation » Fact107 + fact207 + fact307

Exemples de requête Application: analyse de hotspots de criminalité « Quels sont les hotspots de criminalité liée à la drogue pour le premier trimestre 2012? » Ajout de la couche « Pub raster »

Exemples de requête Application: analyse de hotspots de criminalité « Quels sont les pubs générateurs de criminalité liée à la drogue pour le premier trimestre 2012? » - Slice couche « Pub raster » Zoom in Pub*(measure)

Exemples de requête Application: analyse de hotspots de criminalité « Quels sont les pubs générateurs de criminalité liée à la drogue pour le premier trimestre 2012? » Ajout couche « Pub point » Shoreditch Soho

Exemples de requête Application: analyse de hotspots de criminalité « Quels sont les pubs générateurs de criminalité liée à la drogue (poids: 2) et aux armes (poids: 1) pour le premier trimestre 2012? » Shoreditch Soho (2*(fact107+fact107+fact107)+(fact106+fact206+fact306))*pub

Exemples de requête Application: analyse de hotspots de criminalité «Quel est le nombre de crimes liés à la drogue et aux armes par force de police de mars 2012? » Drill across Add dimension force_boundary

Application: analyse de hotspots de criminalité 3 mois plus tard…

Exemples de requête Application: analyse de hotspots de criminalité « Quels sont les pubs générateurs de criminalité liée à la drogue pour le premier trimestre 2012? » Retour à la vue précédente Shoreditch Soho (Fact107 + fact207 + fact307)*pub

Exemples de requête Application: analyse de hotspots de criminalité « Quels sont les pubs générateurs de criminalité liée à la drogue pour le second trimestre 2012? » Cranbrook Estate Shoreditch Soho (Fact407 + fact507 + fact607)*pub

Exemples de requête Application: analyse de hotspots de criminalité « Quelle est l’évolution des pubs générateurs de criminalité liée à la drogue entre le premier trimestre et le second trimestre 2012? » Evolution avec la vue précédente Zoom out Cranbrook Estate Shoreditch Soho Mesure - mesure(-1)

Exemples de requête Application: analyse de hotspots de criminalité « Quelle est l’évolution des hotspots de criminalité liée à la drogue entre le premier trimestre et le second trimestre 2012? » Suppression de la dimension spatiale pub (Fact407 + fact507 + fact607) -(Fact107 + fact207 + fact307)

Optimisation du paramétrage des KDE Application: analyse de hotspots de criminalité Optimisation du paramétrage des KDE Prediction accuracy index (PAI) Indice utilisé en crime mapping pour évaluer la qualité de prédiction de hotspots PAI = PAI permet d’évaluer la qualité du paramètre « bandwidth » d’un KDE A exploiter pour optimiser le paramétrage des KDE au moment de l’intégration des données Rappel: une « bandwidth » par niveau d’échelle pour garder des images comparables (nombre de crimes dans hotspots / nombre de crimes total) (surface de hotspot / surface d’étude)

Plan de l’exposé Introduction: business intelligence Modèle SOLAP raster Application: analyse de hotspots de criminalité Performance d’un SOLAP raster Conclusions Formation doctorale

Contrainte de performance d’un OLAP Performance d’un SOLAP raster Contrainte de performance d’un OLAP OLAP report: groupement de chercheurs sur le OLAP créé en 1994 Définition du OLAP en 5 mots-clés Fast Requête simple < 1 sec Requête basique < 5 sec Requête complexe < 20 sec Analysis Shared Multidimensionnality Information

Performance d’un SOLAP classique Performance d’un SOLAP raster Performance d’un SOLAP classique Nombre de faits Nombre de données

Performance d’un SOLAP raster Temps d’agrégation Taille des rasters

Performance d’un SOLAP raster Nombre de faits Nombre de membres

Performance d’un SOLAP raster Nombre de faits Nombre de dimensions non spatiales

Plusieurs solutions Garcia Gutierrez & Baumann, 2008: Performance d’un SOLAP raster Plusieurs solutions Garcia Gutierrez & Baumann, 2008: Pré-agrégation des données Impossible de couvrir toutes les possibilités (infinité)  Kang et al, 2013: Etablissement de clusters de rasters Simplification des calculs d’agrégation exemple: A + B + C + D = 2*A + 2*C Perte de précision du résultat final 

Network OLAP (NOLAP) Solutions précédentes: Solution proposée Performance d’un SOLAP raster Network OLAP (NOLAP) Solutions précédentes: simplification des calculs Solution proposée Répartir les calculs sur plusieurs serveurs (cloud) Cube de données  cube de serveurs Principe: Requête divisée en sous-requêtes Agrégation des crime de type « drugs » et « violent crime » pour l’année 2012 = Agrégation des crimes de type « drugs » pour l’année 2012 + agrégation des crimes de type « violent crime » pour l’année 2012 Temps d’agrégation divisé par nombre de serveurs

Exemple d’architecture NOLAP Performance d’un SOLAP raster Exemple d’architecture NOLAP Gestion dimension « type de crime » Gestion dimensions spatiales Gestion dimension « temps » Cloud « Quels sont les hotspots de criminalité pour 2012? » Sous-requêtes d’agrégation selon dimension « temps » pour chaque type de crime Anti-social behaviour Other theft Client Requête principale Serveur maître Violent crime Vehicule crime Image finale Agrégation des images renvoyées selon dimension « type de crime » Burglary Criminal damage Chaque serveur renvoie son image d’agrégation Drugs Weapons Deux alternatives Un sous-cube par serveur du cloud  table des faits du serveur maître = liste d’adresse vers le cloud Cube complet copié dans chaque serveur Shoplifting Robbery

NOLAP: caractéristiques Performance d’un SOLAP raster NOLAP: caractéristiques Nombre de serveurs croît linéairement avec nombre de membres gérés par le serveur principal (exemple: types de crime)  Privilégier cloud pour la dimension temporelle croît exponentiellement avec nombre de dimensions non spatiales  Rester raisonnable Temps d’agrégation considérablement diminué MAIS il faut rajouter le temps de transfert des requêtes et des images à travers le réseau Dans notre cas: une image < 600 ko, maximum 11 images transférées Utilisation d’un langage de programmation capable de gérer le « multi tâches »: DotNet, php, …

Plan de l’exposé Introduction: business intelligence Modèle SOLAP raster Application: analyse de hotspots de criminalité Performance d’un SOLAP raster Conclusions Formation doctorale

Conclusions Modèle SOLAP raster théorique Analyse multidimensionnelle de l’information spatialement continue Mesure raster Méthodes d’agrégations spécifiques Modèle en constellation pour le changement d’échelle Application: analyse de hotspots de criminalité SOLAP raster adapté aux besoins et méthodes de la police (KDE) Application originale adaptée au système (petites images, peu de dimensions) Association d’un SOLAP raster et d’un SOLAP classique Intégration d’objets spatiaux à la volée A développer: Interface utilisateur Processus d’intégration des données (choix de la « bandwidth ») Système NOLAP Autres applications possibles: reporting, data mining

Plan de l’exposé Introduction: business intelligence Modèle SOLAP raster Application: analyse de hotspots de criminalité Performance d’un SOLAP raster Conclusions Formation doctorale