Module DataLift MagicCSV

Slides:



Advertisements
Présentations similaires
Support.ebsco.com Guide dUtilisation Création dune collection locale.
Advertisements

ZOTERO logiciel de gestion bibliographique
Comment Protéger les bases SQL avec System Center Data Protection Manager 2007.
CORP VG G G 1 P&WC PROPRIETARY DATA 1 Charles Litalien PWC - Bureau de la Technologie Charles Litalien Août 2002 Conception & Développement dune.
VOTable et lobservatoire virtuel solaire Marco Soldati Haute École Spécialisée de la Suisse de nord-ouest.
Transformation de documents XML
Corese Moteur de recherche sémantique pour RDF
Le langage de requêtes SPARQL SPARQL Protocol And RDF Query Language
“Je me présente”.
JXDVDTEK – Une DVDthèque en Java et XML
Cours Web sémantique Langage SPARQL
Le Modèle Logique de Données
Cours 5 : Les Web Services et WSDL Mars Version 1.0 -
le langage les éléments
LICENCE MIAGE Introduction Programmation Orientée Objet JAVA philippe
Autorisations Utilisation eCATT
Le rôle des premières offres (offre et contre- offre initiales) sur lexploration et les résultats de la négociation Une analyse empirique fondée sur les.
Entrée d'immobilisations par capitalisation directe
Gestion de la communication par établissement sur le site ville
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Gestion des reprises (en-cours de fabrication) SAP Best Practices.
1 Comment utiliser votre Extranet Se connecter 2.My Site 3.Documentation 3.1 Documents dintégration 3.2 Documents types 4.Vos informations privées.
Collecte de données en ligne
Quelle heure est-il? What time is it?.
Décembre 2008Évaluation des acquis des élèves de primaire 1 Évaluation Application locale Application web académique Guide destiné aux formateurs académiques.
PC what happened? tell the sequence of events dabord ensuite, puis talk about a change or reaction to something Soudain, tout dun coup (suddenly) à ce.
Calcul du coût de revient type et de simulation
Benjamin Soulier Technical Expert Cambridge Technology Partners Le meilleur des deux mondes - SharePoint 2010 et Azure!
Recommandations et procédure d’attribution de DOI
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
Xpath XML Path language par Yves Bekkers
Dossier Médico-Social Partagé Nomade et Sécurisé (DMSP)
Projet Dossier Médico-Social Partagé (DMSP)
Comment choisir un métier…
Les nombres.
Gestion simplifiée des emplacements de magasin
2 Développer, tester et déployer un site web avec WebMatrix (RIA101) Christine Dubois 9 février 2011.
Budgétisation des produits
Postes clients OLAP Fichiers XML SGBD Requêtes Analyses Reports Intégration Synchronisation Recherche Serveurs.
Ordre interne pour les coûts marketing et autres frais généraux
Quelle heure est-il? What time is it ?.
Objectives Revise the numbers Say and ask for the time in French Tell what part of the day it is Ecrivez la date Aujourd’hui c’est _________, le _____.
Slide 1 of 39 Waterside Village Fête ses 20 ans.
SM C Ce document est la propriété d’Aerospatiale Matra Missiles. Il ne peut être communiqué à des tiers et /ou reproduit sans l’autorisation préalable.
Gestion des commandes client pour les clients potentiels
1 Le monde a changé Le web aussi … Datalift une plateforme Linked Data, Retour d'expériences Gabriel KEPEKLIAN Directeur R&D Atos SI.
Métadonnées: Harmonisation ou Respect des Différences? David Massart, European Schoolnet Educatec-Educatice, Paris 25 novembre 2010.
Juillet 2009 BLLQA1 Le métier Inspecteur Qualité.
Tirer le meilleur parti d’Office /10/ Vincent Bippus IT/OIS 07 octobre 2014.
Bonjour!! Pour être prêt: Répondez aux questions:
To practice: Quantities Un, une, des, de Du, de la, de l’, de Le, la, l’, les.
Formation sur la publication des données de biodiversité dans le réseau GBIF et leur aptitude à être utilisées, édition 2011 Comment le DwC-A a changé.
Livraison gratuite SAP Best Practices. ©2013 SAP AG. All rights reserved.2 Objectifs, avantages et principales étapes de processus Objectif  Ce scénario.
 The compound past tense (past indefinite), more commonly known as the passé composé, refers to an action or event completed in the past.  The word “compound”
Structure d’entreprise Présentation générale
Clôture de période des projets
Présentation de la taxonomie XBRL BE-fr-pfs-ci Bruxelles, le 25 janvier 2006 Camille Dümm Pascal Rodrique Centrale des bilans.
Projets internes SAP Best Practices. ©2013 SAP AG. All rights reserved.2 Objectifs, avantages et principales étapes de processus Objectif  Toutes les.
Gestion des notes de crédit SAP Best Practices. ©2013 SAP AG. All rights reserved.2 Objectifs, avantages et principales étapes de processus Objectif 
Cours sur le DOI COULET Alban GREMONT Baptiste GIDO2A Le 13/12/2007.
Michael IT Engineer GBIF France Buenos Aires (Argentina) 28 September 2011 Formation sur la publication des données de biodiversité.
Synthèse de structure d'entreprise SAP Best Practices.
Gestion des lots SAP Best Practices. ©2013 SAP AG. All rights reserved.2 Objectifs, avantages et principales étapes de processus Objectif  Expliquer.
Atos, Atos and fish symbol, Atos Origin and fish symbol, Atos Consulting, and the fish symbol itself are registered trademarks of Atos Origin SA. © 2006.
Gestion des déplacements professionnels SAP Best Practices.
Reporting sectoriel SAP Best Practices. ©2013 SAP AG. All rights reserved.2 Objectifs, avantages et principales étapes de processus Objectif  Le reporting.
Phase d’étudeDéveloppement Marketing & Vente.
1 Silverlight & XNA Développeurs, à vous le mobile! Pierre Cauchois - Microsoft France Relations avec les développeurs (mobiles et embarqués)
Merci de remplir le formulaire et de le renvoyer à avant le 16 mai 2016 Please complete and send to
Transcription de la présentation:

Module DataLift MagicCSV

Problématique du module DataLift en un clic ! Le défi : peut-on déclencher en un seul clic l’élévation et l’interconnexion de jeux de données proches pour produire un jeu 5 étoiles ?

REALITY

Les données sources CSV or not CSV, that is the question Beaucoup de données … certaines sont des data plutôt cool

CSV http://www.normes-internet.com/normes.php?rfc=rfc4180&lang=fr Une RFC décrit le format CSV : RFC 4180 - Common Format and MIME Type for Comma-Separated Values (CSV) Files). Un fichier CSV doit respecter certaines contraintes. Être encodé en UTF-8 Ne pas contenir plus de champs que de colonnes Avoir un enregistrement par ligne Utiliser la virgule comme delimiteur Utiliser un delimiteur de fin de ligne Si un CSV s’écarte de ces contraintes, c’est un dialect  CSVDDF http://www.normes-internet.com/normes.php?rfc=rfc4180&lang=fr

CSV Dialect Description Format (CSVDDF)

CSV Dialect Description Format (CSVDDF) { "csvddf_version": 1.0, "dialect": { "delimiter": ",", "doublequote": false, "lineterminator": "\r\n", "quotechar": "\"", "skipinitialspace": false } http://www.dataprotocols.org/en/latest/csv-dialect.html

Simple Data Format (SDF) http://www.dataprotocols.org/en/latest/simple-data-format.html

Simple Data Format (SDF) { "name": "my-dataset", # here we list the data files in this dataset "resources": [ "path": "data.csv", "schema": { "fields": [ "id": "var1", "type": "string" }, "id": "var2", "type": "integer" "id": "var3", "type": "number" } ] 2 fichiers data.csv datapackage.json var1,var2,var3 A,1,2 B,3,4 data.csv datapackage.json

DSPL : Dataset Publishing Language Un jeu de données DSPL est un lot qui contient un fichier XML (métadonnées du jeu de données) et un ensemble de fichiers CSV. https://developers.google.com/public-data/docs/tutorial

DSPL

Linked CSV http://jenit.github.io/linked-csv/

Plusieurs formats possibles Nous avons choisi de commencer avec Linked CSV

La logique du magicCSV

Etape 1 : un répertoire Quelque soit le format de data de type CSV, nous partons d’un répertoire Ce répertoire contient des fichiers homogènes en format On ne traitera que les fichiers présentant cette homogénéité

Etape 2 : collecter les méta Réunir tous les noms de colonne Nom de fichier Nom de colonne [Type de données] N fois Normaliser les noms de colonne Contexte : On pourrait noter la langue utilisée.

Etape 3 : Trouver des ontologies … Les noms de colonne sont nos futurs prédicats Variante : profiter du type de données de la colonne Variante : profiter de la langue utilisée Pour chaque nom de colonne, le LOV ne pourrait-il pas nous proposer la liste des ontologies où on trouve ce nom ? Nom de fichier Nom de colonne [Type de données] {Ontologie}* N fois

les ontologies doivent être présentes dans LOV Etape 4 : Reserrer Réduire le nombre d’ontologies mises en jeu dans la liste des prédicats et maximiser le score du matching Note 1 les ontologies doivent être présentes dans LOV Les noms de colonne qui matchent sont remplacés par l’URI du prédicat Using the LOV Search API. The number of ontologies per data set must be minimized to improve the level of consistency and integration.

Etape 5 : Finaliser Le matching peut demeurer incomplet Alternative : compléter automatiquement compléter manuellement Note 2 les manques de correspondances peuvent donner lieu à des « améliorations » d’ontologie. On finit de remplacer par des URI les derniers prédicats

Jeu d’essai retenu

Les ontologies mises en jeu ORG - Core organization ontology http://lov.okfn.org/dataset/lov/details/vocabulary_org.html

ORG - Core organization ontology #PREFIX org: <http://www.w3.org/ns/org#>

Les ontologies mises en jeu EVENT - The Event Ontology http://lov.okfn.org/dataset/lov/details/vocabulary_event.html

EVENT - The Event Ontology #PREFIX event: <http://purl.org/NET/c4dm/event.owl#>

Les données utilisées Des événements organisés par des organisations … Des organisations organisants des événements … Des accidents subis par des entreprises, des collectivités … Liste des évènements culturels et des organismes producteurs d'événements en France et des grandes manifestations en France et à l'étranger …

Merci Gabriel Képéklian, resp. R&D Atos, the Atos logo, Atos Consulting, Atos Worldline, Atos Sphere, Atos Cloud and Atos WorldGrid are registered trademarks of Atos SA. June 2011 © 2011 Atos. Confidential information owned by Atos, to be used by the recipient only. This document, or any part of it, may not be reproduced, copied, circulated and/or distributed nor quoted without prior written approval from Atos.