La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Module DataLift MagicCSV

Présentations similaires


Présentation au sujet: "Module DataLift MagicCSV"— Transcription de la présentation:

1 Module DataLift MagicCSV

2 Problématique du module
DataLift en un clic ! Le défi : peut-on déclencher en un seul clic l’élévation et l’interconnexion de jeux de données proches pour produire un jeu 5 étoiles ?

3 REALITY

4 Les données sources CSV or not CSV, that is the question
Beaucoup de données … certaines sont des data plutôt cool

5 CSV http://www.normes-internet.com/normes.php?rfc=rfc4180&lang=fr
Une RFC décrit le format CSV : RFC 4180 - Common Format and MIME Type for Comma-Separated Values (CSV) Files). Un fichier CSV doit respecter certaines contraintes. Être encodé en UTF-8 Ne pas contenir plus de champs que de colonnes Avoir un enregistrement par ligne Utiliser la virgule comme delimiteur Utiliser un delimiteur de fin de ligne Si un CSV s’écarte de ces contraintes, c’est un dialect  CSVDDF

6 CSV Dialect Description Format (CSVDDF)

7 CSV Dialect Description Format (CSVDDF)
{ "csvddf_version": 1.0, "dialect": { "delimiter": ",", "doublequote": false, "lineterminator": "\r\n", "quotechar": "\"", "skipinitialspace": false }

8 Simple Data Format (SDF)

9 Simple Data Format (SDF)
{ "name": "my-dataset", # here we list the data files in this dataset "resources": [ "path": "data.csv", "schema": { "fields": [ "id": "var1", "type": "string" }, "id": "var2", "type": "integer" "id": "var3", "type": "number" } ] 2 fichiers data.csv datapackage.json var1,var2,var3 A,1,2 B,3,4 data.csv datapackage.json

10 DSPL : Dataset Publishing Language
Un jeu de données DSPL est un lot qui contient un fichier XML (métadonnées du jeu de données) et un ensemble de fichiers CSV. https://developers.google.com/public-data/docs/tutorial

11 DSPL

12 Linked CSV

13 Plusieurs formats possibles
Nous avons choisi de commencer avec Linked CSV

14 La logique du magicCSV

15 Etape 1 : un répertoire Quelque soit le format de data de type CSV, nous partons d’un répertoire Ce répertoire contient des fichiers homogènes en format On ne traitera que les fichiers présentant cette homogénéité

16 Etape 2 : collecter les méta
Réunir tous les noms de colonne Nom de fichier Nom de colonne [Type de données] N fois Normaliser les noms de colonne Contexte : On pourrait noter la langue utilisée.

17 Etape 3 : Trouver des ontologies …
Les noms de colonne sont nos futurs prédicats Variante : profiter du type de données de la colonne Variante : profiter de la langue utilisée Pour chaque nom de colonne, le LOV ne pourrait-il pas nous proposer la liste des ontologies où on trouve ce nom ? Nom de fichier Nom de colonne [Type de données] {Ontologie}* N fois

18 les ontologies doivent être présentes dans LOV
Etape 4 : Reserrer Réduire le nombre d’ontologies mises en jeu dans la liste des prédicats et maximiser le score du matching Note 1 les ontologies doivent être présentes dans LOV Les noms de colonne qui matchent sont remplacés par l’URI du prédicat Using the LOV Search API. The number of ontologies per data set must be minimized to improve the level of consistency and integration.

19 Etape 5 : Finaliser Le matching peut demeurer incomplet Alternative : compléter automatiquement compléter manuellement Note 2 les manques de correspondances peuvent donner lieu à des « améliorations » d’ontologie. On finit de remplacer par des URI les derniers prédicats

20 Jeu d’essai retenu

21 Les ontologies mises en jeu
ORG - Core organization ontology

22 ORG - Core organization ontology
#PREFIX org: <http://www.w3.org/ns/org#>

23 Les ontologies mises en jeu
EVENT - The Event Ontology

24 EVENT - The Event Ontology
#PREFIX event: <http://purl.org/NET/c4dm/event.owl#>

25 Les données utilisées Des événements organisés par des organisations …
Des organisations organisants des événements … Des accidents subis par des entreprises, des collectivités … Liste des évènements culturels et des organismes producteurs d'événements en France et des grandes manifestations en France et à l'étranger …

26 Merci Gabriel Képéklian, resp. R&D
Atos, the Atos logo, Atos Consulting, Atos Worldline, Atos Sphere, Atos Cloud and Atos WorldGrid are registered trademarks of Atos SA. June 2011 © 2011 Atos. Confidential information owned by Atos, to be used by the recipient only. This document, or any part of it, may not be reproduced, copied, circulated and/or distributed nor quoted without prior written approval from Atos.


Télécharger ppt "Module DataLift MagicCSV"

Présentations similaires


Annonces Google