La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Linked Open Data Statistics Belgium Midi-conférence – 20/03/2017

Présentations similaires


Présentation au sujet: "Linked Open Data Statistics Belgium Midi-conférence – 20/03/2017"— Transcription de la présentation:

1 Linked Open Data Statistics Belgium Midi-conférence – 20/03/2017
L’objectif de ce midi-conférence est de vous expliquer, par des exemples concrets, ce qu’est le Linked Open Data (LOD). Cette technologie encore peu répandue dans les INS devrait nous permettre de structurer certaines de nos données de façon à ce qu'elles intègrent le Web des données, sorte de banque de données mondiale ouverte à tous. Nous verrons que, dans le Web de données, un fichier, une enquête, une personne, une commune ….est un concept que l’on peut identifier par un URI. Nous verrons comment créer ou ré-utiliser des URI existantes et comment, à l’aide de RDF, former des phrases « sujet-prédicat-objet » (aussi appelé « triplet ») qui lient ces concepts. Nous verrons que, pour les prédicats, il existe des vocabulaires standards permettant de créer des phrases pouvant être facilement interprétées par des agents logiciels. Certains vocabulaires sont particulièrement utiles pour les statisticiens. Notamment pour former des catalogues de données (StatDcat), des fichiers de nomenclatures (SKOS) et des fichiers de méta-données (Disco) ou de données (rdf data cube vocabulary). Nous verrons qu’il existe des grandes banques de données LOD comme DBPedia, Wikidata, Geonames. Ces banques de données nous fournissent un nombre très important d’URI que nous pouvons ré-utiliser dans nos phrases. Enfin, nous verrons qu’il existe des outils pour exploiter ou maintenir des banques de données LOD (SPARQL, Wikibase, …).

2 Open-Data

3 Portail Open-data mis en ligne en 2015

4 +-/ 110: Census, utilisation du sol, statistiques fiscales,… Formats: XLSX  Excel  Pivot tables CSV, TXT  R, SAS, …, PostgreSQL, … GML, SHP  QGIS, ArcGIS, … ,

5 5 * Open-Data

6 Il existe une mesure de qualité des données open-data

7 Statbel: Situation actuelle
Statbel: Situation actuelle Statbel: Ambition

8 Resource description framework (RDF)

9 Uniform resource identifier (URI)
Use URIs to identify things, so that people can point at your stuff Une URI permet d’identifier un concept. Exemple d’URI pour la commune de Rixensart: En général, à un URI est associé une page web qui documente le concept. Pour Rixensart:

10 Uniform resource identifier (URI)
Autre exemple d’URI Exemple d’URI qui identifie la DG Statistique: Page Web associée à cette URI: Il existe des règles pour former des URIs

11 Resource description framework (RDF)
Dans les fichiers RDF, on stocke des triplets du type “sujet-prédicat-objet” Les sujets sont des URIs. Les prédicats sont des URIs. Les objets sont des URIs ou des litéraux. Exemple (nomenclature): < < . Il existe des “vocabulaires standards” (règles pour former des triplets). Skos est l’un d’eux.

12 Resource description framework (RDF)
Il est possible d’utiliser des “prefix” pour “abréger” les URI dans les fichiers RDF Exemple: @prefix refnis: . @prefix skos: refnis:25091#id skos:prefLabel refnis:25091#id skos:broader refnis:25000#id.

13 Resource description framework (RDF)
Exemple de triplets RDF pour décrire une personne: Statbel:YoBa foaf:knows Statbel:DaLe  Statbel:YoBa foaf:name « Youri Baeyens » Statbel:YoBa foaf:birthday «   » Statbel:YoBa foaf:based_near geo:lat=« 50,858542 » Statbel:YoBa foaf:based_near geo:lat=« 4,355753 » Cette description utilise le vocabulaire « foaf »: “FOAF is a project devoted to linking people and information using the Web” Décrit ici:

14 Resource description framework (RDF)
Exemple de fichier RDF pour décrire une étude (métadonnées): ddi:Study_1 a disco:Study. ddi:Study_1 dcterms:title "National Population and Housing Census, ddi:Study_1 dcterms:identifier "ARG_1980_PHC_v01_A_IPUMS“ . Cette description utilise le vocabulaire « ddi-rdf » (disco): DDI-RDF is “A vocabulary for publishing metadata about data sets (research and survey data) into the Web of Linked Data” Décrit ici:

15 Resource description framework (RDF)
RDF = former des triplets Il existe plusieurs syntaxes pour les former: turtle, N-triples, xml, Exemples: voir note attachée à ce slide. Exemple en RDF/turtle (extrait de Wikipedia): @prefix rdf: < . @prefix dc: < . @prefix ex: < . < dc:title "RDF/XML Syntax Specification (Revised)" ; ex:editor [ ex:fullname "Dave Beckett"; ex:homePage < ] . Exemple en RDF/XML (extrait de Wikipedia): <rdf:RDF xmlns=" xmlns:dc=" xmlns:rdf=" > <Document rdf:about=" <dc:title xml:lang="en-US">N-Triples</dc:title> <maker> <Person rdf:nodeID="art"> <name>Art Barstow</name> </Person> </maker> <Person rdf:nodeID="dave"> <name>Dave Beckett</name> </Document> </rdf:RDF> Exemple en RDF/N-Triples (extrait de Wikipedia): < < < . < < . < < _:art . < < _:dave . _:art < < . _:art < "Art Barstow". _:dave < < . _:dave < "Dave Beckett".

16 Linked open-data (LOD)

17 Linked open data (LOD) Il est possible de lier plusieurs sources RDF. On parle alors de Linked Open Data (LOD). Exemples de sites LOD sur lesquels on peut se lier: Dbpedia Wikidata Geonames Une façon simple de se lier à une autre DB est de ré-utiliser ses URIs Exemple: Statbel:YoBa foaf:interest <

18 Linked open data (LOD) Exemple de LOD (nomenclature):
@prefix refnis: skos: refnis:25091#id skos:prefLabel refnis:25091#id skos:broader refnis:25000#id. refnis:25091#id skos:exactMatch < refnis:25091#id skos:exactMatch < .

19 Semantic web

20 Semantic web L’ensemble des phrases “sujet-prédicat-objet” des différents LOD forment un “knowledge graph” géant dont la taille augmente rapidement  c’est le “semantic web” 2007: Acteurs principaux

21 Semantic web 2017: Acteurs principaux

22 SPARQL Protocol and RDF Query Language (SPARQL)
RDF queries SPARQL Protocol and RDF Query Language (SPARQL)

23 SPARQL – Un « SQL » pour faire des queries sur RDF
Il est possible de faire des requêtes sur des fichiers RDF « SPARQL (prononcé sparkle en anglais : « étincelle ») est un langage de requête et un protocole qui permet de rechercher, d'ajouter, de modifier ou de supprimer des données RDF disponibles à travers Internet. »  « Son nom est un acronyme récursif qui signifie Simple Protocol and RDF Query Language. »

24 WikiData – Wikipedia en version RDF

25 Exemples de DBs RDF  URI: wd:Q493522

26 Sparql sur Wikidata - http://tinyurl.com/z9a3wrw

27 Petit outil sympa Vous pouvez faire du SPARQL directement sur des fichiers RDF à l’aide de

28 Search portal based on RDF
(cool stuff)

29 Discovery hub

30 RDF Graphs (cool stuff)

31 Outils pour visualiser des RDF graphs
IsaViz (outil développer par le W3C; travaille avec GraphViz)

32 Wikidata graph builder

33 Outils pour visualiser des RDF graphs
Gephi et son plug-in « Semantic web import »

34 RDF Stores

35 Datalift Datalift: un espèce de SGBD pour triplets. Utilisé par Insee.
Un même traitement avec R et Datalift. Voir ici.

36 Blazegraph

37 graphdb

38 Jena

39 Wikibase Wikibase: outil utilisé par Wikidata

40 Vocabulaires pour les statisticiens
Ontologies for statisticians

41 Vocabulaires standards
Classifications SKOS: Classifications (nomenclatures) XKOS: Extension de SKOS (pour la NACE, …) Documenter une liste de fichiers (catalogue) DCAT StatDCAT-AP GeoDCAT-AP

42 Vocabulaires standards
Meta-données: Dublin core DDI-RDF Données: RDF Data cube vocabulary

43 Vocabulaires standards
Autres vocabulaires intéressants conseillés par Eurostat: The Organization Ontology The PROV ontology Time Ontology in OWL Dublin Core ISA Core Vocabularies in RDF (Person, Public Organisation, Business, Public Service, Location) Vocabulary of Interlinked Datasets (VoID)

44 Nomenclatures Quelques nomenclatures, « controlled vocabularies » & thesauri conseillés par Eurostat: INSPIRE code lists EuroVoc thesaurus Named Authority Lists (NAL)

45 LOD dans les INS

46 LOD dans les INS Eurostat pas encore très actif
Quelques INS font déjà du LOD: Insee: quelques tables de codes + population légales Istat ONS + Geoportal uk Census 2011 in Ireland

47

48 RDF@INSEE  nomenclatures
« Le vocabulaire standard SKOS (Simple Knowledge Organization System) est utilisé comme base pour la publication des codes et nomenclatures. » « Pour décrire correctement les nomenclatures statistiques, le vocabulaire SKOS doit être complété sous divers aspects (représentation des niveaux, des tables de correspondances, etc.) : c'est l'objet du vocabulaire XKOS, qui est une extension de SKOS. » « La NAF et la nomenclature des catégories juridiques sont publiées selon ce vocabulaire. »

49 RDF@INSEE  nomenclatures  Nace (extrait)
< a skos:Concept ; skos:inScheme < ; skos:narrower < , < ; skos:notation "16" ; skos:prefLabel "Manufacture of wood and of products of wood and cork, except furniture; manufacture of articles of straw and plaiting , "Travail du bois et fabrication d'articles en bois et en liège, à l'exception des meubles ; fabrication d'articles en vannerie et ; skos:scopeNote < ; skosxl:altLabel < , < .

50  données

51

52 Que publier en LOD? Priorités pour la publication LOD:
Catalogue des données (faire savoir aux machines du monde entier que des données sont disponibles chez nous dans des formats csv, …) Des méta-données Des nomenclatures (créer des URIs pour la NACEBEL, le REFNIS, … + créer des fichiers qui exposent les hérarchies, …) Quelques données (par exemple: population légale des communes)

53 LOD@Statbel – Use Case 1 Catalogue des données disponibles
chaque “dataset” recevra un URI; le catalogue des datasets peut être diffusé (facilement importable dans open-data portals)

54 – Use Case 2 Certaines nomenclatures sont déjà disponibles ! Coopération avec FedICT  Refnis avec lien vers: Geonames Wikidata NACE

55 – Use Case 3 Méta-données statistiques (ddi, ..)

56 – Use Case 3 Quelques données de “référence” (chiffres de population, occupation du sol, …) Projet “Elections communales”? Exemple de triplet: “La Commune de Rixensart” “a pour densité de population” 1255 Wikidata:Q Wikidata:Q

57 LOD@Statbel – Use Case 3l
Le Linked Data (LOD) peut être intéressant pour un usage interne: RDF Store (répertoire des groupes  Antonio, Alexandre,…) KBO

58 Se former au LOD

59 Quelques références intéressantes
Articles: Introduction au semantic web sur Interstices.info Quelques applications du web sémentique Livres: A semantic web primer MOOCs Web sémantique et web des données sur FUN Introduction to a Web of Linked data sur FUN Semantic web technologies sur HPI


Télécharger ppt "Linked Open Data Statistics Belgium Midi-conférence – 20/03/2017"

Présentations similaires


Annonces Google