La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

18.07.2013 Module DataLift MagicCSV. 2 18.07.2013 Gabriel KEPEKLIAN Problématique du module DataLift en un clic ! Le défi : peut-on déclencher en un seul.

Présentations similaires


Présentation au sujet: "18.07.2013 Module DataLift MagicCSV. 2 18.07.2013 Gabriel KEPEKLIAN Problématique du module DataLift en un clic ! Le défi : peut-on déclencher en un seul."— Transcription de la présentation:

1 Module DataLift MagicCSV

2 Gabriel KEPEKLIAN Problématique du module DataLift en un clic ! Le défi : peut-on déclencher en un seul clic lélévation et linterconnexion de jeux de données proches pour produire un jeu 5 étoiles ?

3 Gabriel KEPEKLIAN REALITY

4 Gabriel KEPEKLIAN Les données sources CSV or not CSV, that is the question Beaucoup de données … certaines sont des data plutôt cool

5 Gabriel KEPEKLIAN CSV Une RFC décrit le format CSV : RFC Common Format and MIME Type for Comma-Separated Values (CSV) Files).RFC 4180 Un fichier CSV doit respecter certaines contraintes. – Être encodé en UTF-8 – Ne pas contenir plus de champs que de colonnes – Avoir un enregistrement par ligne – Utiliser la virgule comme delimiteur – Utiliser un delimiteur de fin de ligne – Si un CSV sécarte de ces contraintes, cest un dialect CSVDDF

6 Gabriel KEPEKLIAN CSV Dialect Description Format (CSVDDF)

7 Gabriel KEPEKLIAN CSV Dialect Description Format (CSVDDF) { "csvddf_version": 1.0, "dialect": { "delimiter": ",", "doublequote": false, "lineterminator": "\r\n", "quotechar": "\"", "skipinitialspace": false }

8 Gabriel KEPEKLIAN Simple Data Format (SDF)

9 Gabriel KEPEKLIAN Simple Data Format (SDF) 2 fichiers data.csv datapackage.json { "name": "my-dataset", # here we list the data files in this dataset "resources": [ { "path": "data.csv", "schema": { "fields": [ { "id": "var1", "type": "string" }, { "id": "var2", "type": "integer" }, { "id": "var3", "type": "number" } ] } ] } var1,var2,var3 A,1,2 B,3,4 datapackage.json data.csv

10 Gabriel KEPEKLIAN DSPL : Dataset Publishing Language Un jeu de données DSPL est un lot qui contient un fichier XML (métadonnées du jeu de données) et un ensemble de fichiers CSV. https://developers.google.com/public-data/docs/tutorial

11 Gabriel KEPEKLIAN DSPL

12 Gabriel KEPEKLIAN Linked CSV

13 Plusieurs formats possibles Nous avons choisi de commencer avec Linked CSV

14 La logique du magicCSV

15 Gabriel KEPEKLIAN Etape 1 : un répertoire Quelque soit le format de data de type CSV, nous partons dun répertoire Ce répertoire contient des fichiers homogènes en format On ne traitera que les fichiers présentant cette homogénéité

16 Gabriel KEPEKLIAN Etape 2 : collecter les méta Réunir tous les noms de colonne Nom de fichier Nom de colonne [Type de données] N fois Contexte : – On pourrait noter la langue utilisée. Normaliser les noms de colonne

17 Gabriel KEPEKLIAN Etape 3 : Trouver des ontologies … Les noms de colonne sont nos futurs prédicats Pour chaque nom de colonne, le LOV ne pourrait-il pas nous proposer la liste des ontologies où on trouve ce nom ? Variante : profiter du type de données de la colonne Variante : profiter de la langue utilisée Nom de fichier Nom de colonne [Type de données] {Ontologie}* N fois

18 Gabriel KEPEKLIAN Etape 4 : Reserrer Réduire le nombre dontologies mises en jeu dans la liste des prédicats et maximiser le score du matching Note 1 – les ontologies doivent être présentes dans LOV Les noms de colonne qui matchent sont remplacés par lURI du prédicat Using the LOV Search API. The number of ontologies per data set must be minimized to improve the level of consistency and integration.

19 Gabriel KEPEKLIAN Etape 5 : Finaliser Le matching peut demeurer incomplet Alternative : – compléter automatiquement – compléter manuellement Note 2 – les manques de correspondances peuvent donner lieu à des « améliorations » dontologie. On finit de remplacer par des URI les derniers prédicats

20 Jeu dessai retenu

21 Gabriel KEPEKLIAN Les ontologies mises en jeu ORG - Core organization ontology –

22 Gabriel KEPEKLIAN ORG - Core organization ontology #PREFIX org:

23 Gabriel KEPEKLIAN Les ontologies mises en jeu EVENT - The Event Ontology –

24 Gabriel KEPEKLIAN EVENT - The Event Ontology #PREFIX event:

25 Gabriel KEPEKLIAN Les données utilisées Des événements organisés par des organisations … Des organisations organisants des événements … Des accidents subis par des entreprises, des collectivités … Liste des évènements culturels et des organismes producteurs d'événements en France et des grandes manifestations en France et à l'étranger …

26 Atos, the Atos logo, Atos Consulting, Atos Worldline, Atos Sphere, Atos Cloud and Atos WorldGrid are registered trademarks of Atos SA. June 2011 © 2011 Atos. Confidential information owned by Atos, to be used by the recipient only. This document, or any part of it, may not be reproduced, copied, circulated and/or distributed nor quoted without prior written approval from Atos. Merci Gabriel Képéklian, resp. R&D


Télécharger ppt "18.07.2013 Module DataLift MagicCSV. 2 18.07.2013 Gabriel KEPEKLIAN Problématique du module DataLift en un clic ! Le défi : peut-on déclencher en un seul."

Présentations similaires


Annonces Google