Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parJeanne Lefebvre Modifié depuis plus de 7 années
1
Linked Open Data Statistics Belgium Midi-conférence – 20/03/2017
L’objectif de ce midi-conférence est de vous expliquer, par des exemples concrets, ce qu’est le Linked Open Data (LOD). Cette technologie encore peu répandue dans les INS devrait nous permettre de structurer certaines de nos données de façon à ce qu'elles intègrent le Web des données, sorte de banque de données mondiale ouverte à tous. Nous verrons que, dans le Web de données, un fichier, une enquête, une personne, une commune ….est un concept que l’on peut identifier par un URI. Nous verrons comment créer ou ré-utiliser des URI existantes et comment, à l’aide de RDF, former des phrases « sujet-prédicat-objet » (aussi appelé « triplet ») qui lient ces concepts. Nous verrons que, pour les prédicats, il existe des vocabulaires standards permettant de créer des phrases pouvant être facilement interprétées par des agents logiciels. Certains vocabulaires sont particulièrement utiles pour les statisticiens. Notamment pour former des catalogues de données (StatDcat), des fichiers de nomenclatures (SKOS) et des fichiers de méta-données (Disco) ou de données (rdf data cube vocabulary). Nous verrons qu’il existe des grandes banques de données LOD comme DBPedia, Wikidata, Geonames. Ces banques de données nous fournissent un nombre très important d’URI que nous pouvons ré-utiliser dans nos phrases. Enfin, nous verrons qu’il existe des outils pour exploiter ou maintenir des banques de données LOD (SPARQL, Wikibase, …).
2
Open-Data
3
Portail Open-data mis en ligne en 2015
4
+-/ 110: Census, utilisation du sol, statistiques fiscales,… Formats: XLSX Excel Pivot tables CSV, TXT R, SAS, …, PostgreSQL, … GML, SHP QGIS, ArcGIS, … ,
5
5 * Open-Data
6
Il existe une mesure de qualité des données open-data
7
Statbel: Situation actuelle
Statbel: Situation actuelle Statbel: Ambition
8
Resource description framework (RDF)
9
Uniform resource identifier (URI)
Use URIs to identify things, so that people can point at your stuff Une URI permet d’identifier un concept. Exemple d’URI pour la commune de Rixensart: En général, à un URI est associé une page web qui documente le concept. Pour Rixensart:
10
Uniform resource identifier (URI)
Autre exemple d’URI Exemple d’URI qui identifie la DG Statistique: Page Web associée à cette URI: Il existe des règles pour former des URIs
11
Resource description framework (RDF)
Dans les fichiers RDF, on stocke des triplets du type “sujet-prédicat-objet” Les sujets sont des URIs. Les prédicats sont des URIs. Les objets sont des URIs ou des litéraux. Exemple (nomenclature): < < . Il existe des “vocabulaires standards” (règles pour former des triplets). Skos est l’un d’eux.
12
Resource description framework (RDF)
Il est possible d’utiliser des “prefix” pour “abréger” les URI dans les fichiers RDF Exemple: @prefix refnis: . @prefix skos: refnis:25091#id skos:prefLabel refnis:25091#id skos:broader refnis:25000#id.
13
Resource description framework (RDF)
Exemple de triplets RDF pour décrire une personne: Statbel:YoBa foaf:knows Statbel:DaLe Statbel:YoBa foaf:name « Youri Baeyens » Statbel:YoBa foaf:birthday « » Statbel:YoBa foaf:based_near geo:lat=« 50,858542 » Statbel:YoBa foaf:based_near geo:lat=« 4,355753 » Cette description utilise le vocabulaire « foaf »: “FOAF is a project devoted to linking people and information using the Web” Décrit ici:
14
Resource description framework (RDF)
Exemple de fichier RDF pour décrire une étude (métadonnées): ddi:Study_1 a disco:Study. ddi:Study_1 dcterms:title "National Population and Housing Census, ddi:Study_1 dcterms:identifier "ARG_1980_PHC_v01_A_IPUMS“ . Cette description utilise le vocabulaire « ddi-rdf » (disco): DDI-RDF is “A vocabulary for publishing metadata about data sets (research and survey data) into the Web of Linked Data” Décrit ici:
15
Resource description framework (RDF)
RDF = former des triplets Il existe plusieurs syntaxes pour les former: turtle, N-triples, xml, … Exemples: voir note attachée à ce slide. Exemple en RDF/turtle (extrait de Wikipedia): @prefix rdf: < . @prefix dc: < . @prefix ex: < . < dc:title "RDF/XML Syntax Specification (Revised)" ; ex:editor [ ex:fullname "Dave Beckett"; ex:homePage < ] . Exemple en RDF/XML (extrait de Wikipedia): <rdf:RDF xmlns=" xmlns:dc=" xmlns:rdf=" > <Document rdf:about=" <dc:title xml:lang="en-US">N-Triples</dc:title> <maker> <Person rdf:nodeID="art"> <name>Art Barstow</name> </Person> </maker> <Person rdf:nodeID="dave"> <name>Dave Beckett</name> </Document> </rdf:RDF> Exemple en RDF/N-Triples (extrait de Wikipedia): < < < . < < . < < _:art . < < _:dave . _:art < < . _:art < "Art Barstow". _:dave < < . _:dave < "Dave Beckett".
16
Linked open-data (LOD)
17
Linked open data (LOD) Il est possible de lier plusieurs sources RDF. On parle alors de Linked Open Data (LOD). Exemples de sites LOD sur lesquels on peut se lier: Dbpedia Wikidata Geonames Une façon simple de se lier à une autre DB est de ré-utiliser ses URIs Exemple: Statbel:YoBa foaf:interest <
18
Linked open data (LOD) Exemple de LOD (nomenclature):
@prefix refnis: skos: refnis:25091#id skos:prefLabel refnis:25091#id skos:broader refnis:25000#id. refnis:25091#id skos:exactMatch < refnis:25091#id skos:exactMatch < .
19
Semantic web
20
Semantic web L’ensemble des phrases “sujet-prédicat-objet” des différents LOD forment un “knowledge graph” géant dont la taille augmente rapidement c’est le “semantic web” 2007: Acteurs principaux
21
Semantic web 2017: Acteurs principaux
22
SPARQL Protocol and RDF Query Language (SPARQL)
RDF queries SPARQL Protocol and RDF Query Language (SPARQL)
23
SPARQL – Un « SQL » pour faire des queries sur RDF
Il est possible de faire des requêtes sur des fichiers RDF « SPARQL (prononcé sparkle en anglais : « étincelle ») est un langage de requête et un protocole qui permet de rechercher, d'ajouter, de modifier ou de supprimer des données RDF disponibles à travers Internet. » « Son nom est un acronyme récursif qui signifie Simple Protocol and RDF Query Language. »
24
WikiData – Wikipedia en version RDF
25
Exemples de DBs RDF URI: wd:Q493522
26
Sparql sur Wikidata - http://tinyurl.com/z9a3wrw
27
Petit outil sympa Vous pouvez faire du SPARQL directement sur des fichiers RDF à l’aide de
28
Search portal based on RDF
(cool stuff)
29
Discovery hub
30
RDF Graphs (cool stuff)
31
Outils pour visualiser des RDF graphs
IsaViz (outil développer par le W3C; travaille avec GraphViz)
32
Wikidata graph builder
33
Outils pour visualiser des RDF graphs
Gephi et son plug-in « Semantic web import »
34
RDF Stores
35
Datalift Datalift: un espèce de SGBD pour triplets. Utilisé par Insee.
Un même traitement avec R et Datalift. Voir ici.
36
Blazegraph
37
graphdb
38
Jena
39
Wikibase Wikibase: outil utilisé par Wikidata
40
Vocabulaires pour les statisticiens
Ontologies for statisticians
41
Vocabulaires standards
Classifications SKOS: Classifications (nomenclatures) XKOS: Extension de SKOS (pour la NACE, …) Documenter une liste de fichiers (catalogue) DCAT StatDCAT-AP GeoDCAT-AP
42
Vocabulaires standards
Meta-données: Dublin core DDI-RDF Données: RDF Data cube vocabulary
43
Vocabulaires standards
Autres vocabulaires intéressants conseillés par Eurostat: The Organization Ontology The PROV ontology Time Ontology in OWL Dublin Core ISA Core Vocabularies in RDF (Person, Public Organisation, Business, Public Service, Location) Vocabulary of Interlinked Datasets (VoID)
44
Nomenclatures Quelques nomenclatures, « controlled vocabularies » & thesauri conseillés par Eurostat: INSPIRE code lists EuroVoc thesaurus Named Authority Lists (NAL)
45
LOD dans les INS
46
LOD dans les INS Eurostat pas encore très actif
Quelques INS font déjà du LOD: Insee: quelques tables de codes + population légales Istat ONS + Geoportal uk Census 2011 in Ireland
48
RDF@INSEE nomenclatures
« Le vocabulaire standard SKOS (Simple Knowledge Organization System) est utilisé comme base pour la publication des codes et nomenclatures. » « Pour décrire correctement les nomenclatures statistiques, le vocabulaire SKOS doit être complété sous divers aspects (représentation des niveaux, des tables de correspondances, etc.) : c'est l'objet du vocabulaire XKOS, qui est une extension de SKOS. » « La NAF et la nomenclature des catégories juridiques sont publiées selon ce vocabulaire. »
49
RDF@INSEE nomenclatures Nace (extrait)
< a skos:Concept ; skos:inScheme < ; skos:narrower < , < ; skos:notation "16" ; skos:prefLabel "Manufacture of wood and of products of wood and cork, except furniture; manufacture of articles of straw and plaiting , "Travail du bois et fabrication d'articles en bois et en liège, à l'exception des meubles ; fabrication d'articles en vannerie et ; skos:scopeNote < ; skosxl:altLabel < , < .
50
données
52
Que publier en LOD? Priorités pour la publication LOD:
Catalogue des données (faire savoir aux machines du monde entier que des données sont disponibles chez nous dans des formats csv, …) Des méta-données Des nomenclatures (créer des URIs pour la NACEBEL, le REFNIS, … + créer des fichiers qui exposent les hérarchies, …) Quelques données (par exemple: population légale des communes)
53
LOD@Statbel – Use Case 1 Catalogue des données disponibles
chaque “dataset” recevra un URI; le catalogue des datasets peut être diffusé (facilement importable dans open-data portals)
54
– Use Case 2 Certaines nomenclatures sont déjà disponibles ! Coopération avec FedICT Refnis avec lien vers: Geonames Wikidata NACE
55
– Use Case 3 Méta-données statistiques (ddi, ..)
56
– Use Case 3 Quelques données de “référence” (chiffres de population, occupation du sol, …) Projet “Elections communales”? Exemple de triplet: “La Commune de Rixensart” “a pour densité de population” 1255 Wikidata:Q Wikidata:Q
57
LOD@Statbel – Use Case 3l
Le Linked Data (LOD) peut être intéressant pour un usage interne: RDF Store (répertoire des groupes Antonio, Alexandre,…) KBO
58
Se former au LOD
59
Quelques références intéressantes
Articles: Introduction au semantic web sur Interstices.info Quelques applications du web sémentique Livres: A semantic web primer MOOCs Web sémantique et web des données sur FUN Introduction to a Web of Linked data sur FUN Semantic web technologies sur HPI
Présentations similaires
© 2025 SlidePlayer.fr Inc.
All rights reserved.