La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Formation aux technologies du Web sémantique CCSD, Lyon, 8-10 septembre 2010.

Présentations similaires


Présentation au sujet: "Formation aux technologies du Web sémantique CCSD, Lyon, 8-10 septembre 2010."— Transcription de la présentation:

1 Formation aux technologies du Web sémantique CCSD, Lyon, 8-10 septembre 2010

2 2 Présentation de la formation Objectif : découvrir les technologies du Web sémantique tant du point de vue théorique que pratique Jour 1 Aspect théorique et Web de données Jour 2 Aspect pratique et Ontologie Jour 3 PHP et Web sémantique

3 Du Web de documents au Web de données Les technologies du Web sémantique Comparaisons avec XML et BDR Présentation du Linked Data Plan de la journée

4 4 Il était une fois le modèle en couches…. ApplicationApplication TransportTransport InternetInternet Sous-réseauSous-réseau LiaisonLiaison PhysiquePhysique 10Base2/5/T, RS232, V35, fibre HDLC, PPP, SLIP, CSLIP Ethernet, X25, FDDI Token Ring IP TCP, UDP, TP4, Routage Telnet, FTP, SMTP, HTTP Interfaces Protocoles

5 5 …et une des applications dInternet : le Web Source :

6 6 Quest-ce-que le Web ? Un dispositif technologique pour mettre à disposition, lier et partager des documents sur un réseau de machines connectées. Les quatre composantes du Web Un protocoleUn langageUn principe Un mécanisme didentification HTTPHTMLLhypertexteURL/URI

7 7 Quest-ce-que le Web ? Un dispositif technologique pour mettre à disposition, lier et partager des documents sur un réseau de machines connectées. Les quatre caractéristiques du protocole HTTP Code à la demande Ajax Mise en mémoire Optimisation sollicitation serveur Sans état Requête unitaire Pas de mémoire Client-serveur Dissociation IHM Stockage données

8 8 Quest-ce-que le Web ? Un dispositif technologique pour mettre à disposition, lier et partager des documents sur un réseau de machines connectées. Les trois bases de larchitecture du Web URI Représentations Identifiant Ressource

9 : 1 ère conférence WWW et premières idées « The Need for Semantics in the Web », Tim Berners-Lee Passer dun Web de documents « sans relief » peu compréhensible par les machines à…. un Web de choses relié à la réalité et compréhensible par les machines Source :

10 : Les premières briques du Web sémantique Source :http://www.w3.org/DesignIssues/Semantic.html « The Semantic Web is a web of data, in some ways like a global database » « The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation. » Source : Tim Berners-Lee Le layer cake ou Web semantic stack Tim Berners-Lee, James Hendler, Ora Lassila « Semantic Web », Scientific American, mai 2001 Acte de naissance auprès du grand public 1 er brouillon de la recommandation le 2 octobre 1997

11 11 Aujourdhui : « appelez le plutôt Web de données » Source : Tim Berners-Lee, « On the next Web », Conférence TED, Février 2009 « Raw Data now ! » Source : Dun Web de documents Documents reliés par des liens Pas de structuration sémantique Pas de requêtes structurées à un Web dapplications Données exposées à travers API API valable que pour un Silo Pas dineropérabilité entre les silos à un Web de données Web de données = espace unifié Liens entre les données APIs remplacés par standards ouverts

12 12 Sortir de la logique de silos de données… Les technologies ont eu tendance jusquà maintenant à enfermer les données dans des silos : logiciels, processus, APIs, protocoles spécifiques… Siège social dOracle, léditeur du SGBDR le plus utilisé dans le monde, dans la Silicon Valley « But the second big trend then is to decouple the data from the application or the application services, so that in that sense what you can do is write your application or create services independent of the data sources they have to deal with, which comes full circle back to having a virtual layer between application services and data. The application can go out and find whatever data sources are best to use for that particular question. Thats what semantic technology provides for enterprise information management. » Robert Shimp, vice Président, Oracle

13 13 …pour libérer les données sur le Web… « Webifier » les bases de données existantes pour les rendre accessible aux utilisateurs Il ne sagit pas de Déployer des protocoles spécifiques qui limitent lutilisation des données voire ne respectent pas les principes du Web Il sagit de Placer les données sur le Web, juste le Web Rendre le Web invisible visible

14 14 …et envisager une nouvelle évolution dans larchitecture des SI BA Silos applicatifs indépendants et non connectés BA Silos de services Indépendance des trois niveaux (applicatif, service, données)

15 15 Du Web de documents au Web de données Les technologies du Web sémantique Comparaisons avec XML et BDR Présentation du Linked Data Plan de la journée

16 16 Présentation des technologies du Web sémantique RDF Web sémantique RDF/XML RDFa SPARQL Thésaurus Ontologie Logique de description OWL RDFS Taxinomie Vocabulaires contrôlés Intelligence artificielle Métadonnées URI Triples Graphes NTriples Web Dublin Core SKOS TAL Bases de données

17 17 La grammaire du Web sémantique R R D D F F Cadre/modèle de Description dune ressource esource escription ramework

18 18 R R D D les URI pour identifier ; les triplets pour exprimer ; les graphes pour relier La grammaire du Web sémantique F F Les trois composants de sont :

19 19 RDF : les URIs (le principe) Terme/signifiant Identifiant/URI Représentation Objet « Pipe » Concept Smoking_pipe_%28tobacco%29 Représentations concept/en/Pipe_SmokingDevice guid.9202a8c f a8cf37 1- Prenez des choses/concepts/entités du monde réel et placez les dans le monde numérique, en les nommant et en les identifiant par des URIs. Ressource

20 20 RDF : les URIs (les règles) Scheme préfixe qui indique le contexte dans lequel les identifiants sont attribués (ex. URN, INFO, HTTP etc.) Pour garantir lunicité, le scheme doit être enregistré auprès de lIANA Le scheme est toujours suivi de « : » Authority Désigne lautorité en charge dattribuer des noms pour ce scheme Path/Name Nom (ou chemin) attribué par lautorité nommante Uniform Resource Identifier Système didentifiant mis au point conjointement par lIETF et le W3C dans le cadre des travaux de normalisation sur larchitecture du Web. La syntaxe Les contraintes dun identifiant unique ; pérenne ; maîtrisable ; extensible. Pour rappel, la problématique de la stabilité dune URL (=URI) nest pas technique, mais organisationnel… 1- Prenez des choses/concepts/entités du monde réel et placez les dans le monde numérique, en les nommant et en les identifiant par des URIs.

21 21 Puisque ces choses/concepts/entités sont identifiés par une URI, ils sont assimilables à des ressources (RFC 3986) RDF : les URIs (lexemple) Signifié dans le monde réel Signifiant dans le monde numérique Tim Berners-Lee Une personne Larticle « Semantic Web » de 2001 est Un texte 1- Prenez des choses/concepts/entités du monde réel et placez les dans le monde numérique, en les nommant et en les identifiant par des URIs.

22 22 RDF : le triplet (le principe) 2- Exprimez des relations entre ces ressources sous la forme de triplets ou comment décrire linformation à son niveau de granularité le plus basique, la donnée ? ChienAnimal Une série de signes reliés forme une donnée La donnée est encodée dans le cadre dun document Machine doit comprendre la donnée Ne comprend pas la donnée mais quil sagit dun paragraphe De plus, la donnée est toujours vraie même en dehors de ce document. Sujet prédicat La donnée elle-même est encodée sous la forme dun triplet. Objet La machine peut traiter et analyser la donnée car elle est encodée selon une logique formelle. Chaque membre du triplet est une ressource identifiée par une URI. Cest le principe du modèle RDF. chien animal est Le chien le chien est un animal

23 23 (,, ) Structure dun triplet RDF = Structure dune phrase simple Sujet Verbe Complément = (Sujet, Prédicat, Objet) Tim Berners-Lee est une personne Larticle Semantic Web de 2001 a pour créateur Tim Berners-Lee Larticle « Semantic Web » de 2001 est un texte RDF : le triplet (lexemple) 2- Exprimez des relations entre ces ressources sous la forme de triplets ou comment décrire linformation à son niveau de granularité le plus basique, la donnée ?

24 24 Nœud 1 Nœud 2 Arc 1 RDF : le graphe orienté (le principe) 3- Représentez et reliez les triplets sous la forme de graphes orientés Sujet Entités Relation Objet Nœud 1 Nœud 3 Arc 2 Nœud 1 Arc 2 Arc 1 Prédicat Nœud 4 Arc 1 Nœud 3

25 25 « Timothy Berners-Lee » RDF : le graphe orienté (lexemple) 3- Représentez et reliez les triplets sous la forme de graphes orientés

26 26 RDFS Le vocabulaire du Web sémantique Ressource Description Framework Schema OWL Web Ontology Language

27 27 Retour sur les systèmes dorganisation des connaissances Pour appréhender au mieux les connaissances, les hommes ont cherché des moyens de classer et contenir les informations du monde : Vocabulaire contrôléTaxinomie Mammifère Animal Reptile Primates Homme Chimpanzé ThésaurusOntologie Animal Reptile Mammifère Primates Homme Personne Animal Lieu possède habite est originaire de Pays de langue française Afrique Francophone Europe Francophone France Suisse Romande Francophonie narrower related

28 28 Définir des classes Dans notre monde, chaque chose a une nature, un type. Exemples : Tim Berners-Lee est une personne ; Une personne est un être vivant ; est une page Web Une page Web est un document … Dans le monde RDF, la nature dune chose/ressource est une « classe » Chose Être vivant Personne Chien Document Page Web Livre En RDF, une ressource appartient toujours à une classe.

29 29 Définir des propriétés Dans notre monde, chaque type de choses possède des caractéristiques. Exemples : une personne a un nom ; une personne connaît dautres personnes ; une page Web a un titre ; une page Web a un créateur ; … Dans le monde RDF, ces caractéristiques sont des propriétés. En RDF, un prédicat est une propriété définie dans un vocabulaire. « une chaîne de caractères » connaît créateur nom titre Page Web Personne Domaine Co-domaine

30 30 Définir une logique pour déduire Dans notre monde, chaque caractéristique et chaque type possèdent une logique interne. Exemple : Si un homme A est le frère dun homme B, alors lhomme B est le frère de la personne A ; … Dans le monde RDF, cette logique est exprimée clairement dans le vocabulaire. En RDF, la logique permet de faire des inférences, cest-à-dire de créer des nouvelles informations. » Est frère de Homme A Homme B Est frère de Homme B Homme A « Est frère de » est une propriété symétrique

31 31 Logique de description dans OWL Source : Fabien Gandon,

32 32 FOAF Dublin Core Basic Geo (WGS84 lat/long) Quelques vocabulaires et ontologies.... RSS 1.0 OAI-ORE Pour trouver dautres vocabulaires RDF ou ontologies, vous pouvez consulter le site : Schemapedia

33 33 RDF/XML Les alphabets du Web sémantique Syntaxe pour sérialiser le RDF RDFa Notation 3

34 34 RDF/XML Timothy Berners-Lee timbl

35 35 RDF/XML - alternative timbl

36 36 Notation 3 (N3, N-Triples, dc:. rdf:type foaf:Person ; foaf:name "Timothy Berners-Lee" ; foaf:maker ; foaf:nick "timbl".

37 37 RDFa Description de Timbl en XHTML + RDFa Le créateur du W3C a pour nom Timothy Berners-Lee et pour surnom Timbl.

38 38 SPARQL Interroger, accéder, transporter les données en RDF SPARQL Protocol and RDF Query Language Un langage de requêtesUn protocole daccès Un format XML pour les résultats Le langage de communication du Web sémantique

39 39 « bleu » (?resources ?string). 2. La chaîne de caractère liée à ces ressources par le prédicat 1. Les ressources liées à 1 par le prédicat « rouge » ( ?resources) ; Le langage de requêtes SPARQL : principes Soit le graphe suivant enregistré dans une base de données RDF (un triple store) : SPARQL permet dextraire un sous-ensemble de ce graphe par lexpression de contraintes sous la forme déquations Je cherche les ressources liées à 1 par prédicat « rouge » et la chaîne de caractères liée à ces ressources par le prédicat « bleu » : X Y Exemple :

40 40 Types de requêtes : ASK, CONSTRUCT, DESCRIBE LOAD, INSERT, DELETE (en cours de normalisation) foaf:knows ?personnes.Tim Berners-Lee connaît des personnes. Ces personnes sappellent ???.?personnes foaf:name ?nom. Je veux connaître lURI et les noms des personnes que connaît Tim Berners-Lee à partir de son fichier FOAF SELECT ?personnes ?nom FROM WHERE { } PREFIX foaf: Le langage de requêtes SPARQL : exemple

41 41 John Seely Brown John Gage Le format XML pour les résultats Rappel des variables déclarées Un élément « result » par combinaisons possibles de variables

42 42 Pour résumer : le layer cake aujourdhui Déjà normalisé ou en cours de normalisation au W3C

43 43 Les outils pour mettre en œuvre les technos du Web sémantique Créer des vocabulaires/ontologies avec le logiciel ProtegeProtege Mettre les données au format RDF Créer des données RDF avec un éditeur RDF (Morla ou Top Braid composer) ou un éditeur XMLMorlaTop Braid composer Transformer des données de XML vers RDF/XML avec XSL Transformer une base de données relationnelle en RDF avec D2R serverD2R server Stocker les données dans un triple store RDF Mémoire : Corese, RedstoreCoreseRedstore Triple store natif : Mulgara, AllegroGraph, BigOWLIM, 4store, Neo4jMulgaraAllegroGraphBigOWLIM4storeNeo4j BDR paramétrée : Virtuoso, ARC, Oracle 11g, Sesame, 3storeVirtuosoARCOracle 11gSesame3store Column store : Cstore, Heart, BigData, ClouderaCstoreHeartBigDataCloudera Exploiter les données en RDF En Java (triples) : Jena, Sesame, Trialox SCB, RDF2GoJenaSesameTrialox SCBRDF2Go En Java (ORM) : Topaz, RDFReactor, So(m)mer, Elmo, jenabeanTopazRDFReactorSo(m)merElmojenabean En PHP : RAP, ARC (généraliste)RAPARC En C : RedlandRedland En Python : RDFlibRDFlib En Ruby : ActiveRDFActiveRDF En Scala : ScardfScardf Si vous en voulez plus, une liste de 835 outils est disponible : Sweet toolsSweet tools

44 44 Du Web de documents au Web de données Les technologies du Web sémantique Comparaisons avec XML et BDR Présentation du Linked Data Plan de la journée

45 45 XML : une logique structurelle XML est un langage pour encoder une structure documentaire. Modèle dorganisation hiérarchique de linformation Arbre XML Syntaxe Règles un élément racine une balise ouvrante, une balise fermante un document XML doit être bien formé Encodage des caractères un document XML peut être valide par rapport à une grammaire (nom des éléments et des attributs, règles de structuration, type de données…) ForcesLimites Pas un format binaire Indépendant outils/systèmes dexploitation Assure une cohérence dans un domaine précis Respecte la logique du document physique Encodage contextuel au document Enfermement dans la logique documentaire Interopérabilité stricte (grammaire et son application) Le lien est un pointeur Les relations sont implicites Mon joli document Mon joli paragraphe Question : Un ensemble de métadonnées forme-t-il un document ?

46 46 Exemple de la logique XML : retour sur EAD/EAC EAD est la réponse des archivistes pour encoder le document inventaire selon les principes dISAD(G). LEAD est la stricte transposition du document inventaire dans le monde numérique Outre les avantages de XML, lEAD a constitué lopportunité de continuer et de rendre concret le travail engagé avec ISAD(G). Limites La description dun niveau archivistique na du sens que dans le contexte du document XML Les identifiants sont locaux / spécifiques au document XML Une section ne peut être référencé directement depuis un autre inventaire (on ne peut faire quun pointeur) Les notices dautorités sont référencés sous la forme dune chaîne de caractères Comment lier une notice EAC dans un fichier EAD ? linteropérabilité avec dautres systèmes de descriptions impose un mapping sur le plus petit dénominateur commun Question : Un inventaire constitue-t-il encore un document ou une suite de (méta)données structurées ?

47 47 Différences entre XML et RDF XML : un modèle darbreRDF : un modèle de graphes Description structuréeDescription formelle La structure est pensée pour le contexte du document (interopérabilité très complexe) Relations entre les nœuds implicites Navigation dans larbre pour passer dun nœud à un autre Lidentification des ressources est spécifique au contexte du document Idéal pour exprimer la structure dun document VS Les choses sont décrites comme des objets logiques Aucune relation nest implicite Plus facile de naviguer dans le graphe si les données sont fortement reliées Toutes les ressources sont identifiées par des URI Idéal pour décrire des données

48 48 ore:isAggregatedBy Les données archivistiques en RDF Composant (c) rdfs:XMLLitteral Composant de haut niveau (archdesc) foaf:Person foaf:Organization skos:Concept xsd:string foaf:Organization ore:Aggregation ore:ResourceMap Objet physique frbr:Item (?) event:Event Inventaire (eadheader) xsd:string time:TemporalEntity Entrepôt (repository) ore:describes ore:isAggregatedBy dct:subject dct:coverage dct:title dct:identifier dct:description xsd:string dct:extent dct:temporal event:time dct:type skos:Concept frbr:embodied scopeNote foaf:topic foaf:Agent event:producedIn

49 49 Les limites du modèle relationnel idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-enlongitudelatitude 1AthènesAthens PékinBeijing id athlete label-frlabel-enlabel-cnbirth Date death Date 1Zhang Yining 1981/10/05NULL Voici un modèle relationnel classique décrivant les JO : Analysons les problèmes quils posent

50 50 Les limites du relationnel (1) : la structure des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-enlongitudelatitude 1AthènesAthens PékinBeijing id athlete label-frlabel-enlabel-cnbirth Date death Date 1Zhang Yining 1981/10/05NULL 1- Séparation entre la structure des données et les données elles-mêmes

51 51 Les limites du relationnel (1) : la structure des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-enlongitudelatitude 1AthènesAthens PékinBeijing id athlete label-frlabel-enlabel-cnbirth Date death Date 1Zhang Yining 1981/10/05NULL 1- Séparation entre la structure des données et les données elles-mêmes Si on extrait les données de la base, il faut aussi en extraire la structure pour comprendre à quoi correspond chacune des données

52 52 Les limites du relationnel (1) : la structure des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-enlongitudelatitude 1AthènesAthens PékinBeijing id athlete label-frlabel-enlabel-cnbirth Date death Date 1Zhang Yining 1981/10/05NULL 1- Séparation entre la structure des données et les données elles-mêmes Une donnée sapplique à un enregistrement car elle est associée à un champ. La relation est induite par la structure de la table.

53 53 Les limites du relationnel (1) : la structure des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-enlongitudelatitude 1AthènesAthens PékinBeijing id athlete label-frlabel-enlabel-cnbirth Date death Date 1Zhang Yining 1981/10/05NULL 1- Séparation entre la structure des données et les données elles-mêmes Les données ne sont pas indépendantes les unes des autres. Elles se conçoivent dans le contexte de la base, dun enregistrement et dun champ.

54 54 Les limites du relationnel (1) : la structure des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-enlongitudelatitude 1AthènesAthens PékinBeijing id athlete label-frlabel-enlabel-cnbirth Date death Date 1Zhang Yining 1981/10/05NULL 2- La structure dune base de données est rigide

55 55 Les limites du relationnel (1) : la structure des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-enlongitudelatitude 1AthènesAthens PékinBeijing id athlete label-frlabel-enlabel-jabirth Date death Date 1Zhang Yining 1981/10/05NULL 2- La structure dune base de données est rigide Si une donnée est manquante pour un champ dans un enregistrement, une valeur « NULL » fictive est ajoutée.

56 56 Les limites du relationnel (1) : la structure des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant id athletes Representant2 athletes Number motto /04/061896/04/15NULL 241NULL /08/082008/08/ One World one Dream id athlete label-frlabel-enlabel-jabirth Date death Date 1Zhang Yining 1981/10/05NULL 2Toto NULL 2- La structure dune base de données est rigide Si une donnée de même nature est en double pour un enregistrement (même pour un seul), il est nécessaire de créer un autre champ ou... idvillelabel-frlabel-enlongitudelatitude 1AthènesAthens PékinBeijing

57 57 Les limites du relationnel (1) : la structure des données idid ville yearopened Ceremony Date closed Ceremony Date athletes Number motto /04/061896/04/15241NULL /08/082008/08/ One World one Dream id athlete label-frlabel-enlabel-jabirth Date death Date 1Zhang Yining 1981/10/05NULL 2Toto NULL 2- La structure dune base de données est rigide … ou une autre table… idjoidAthleteRepresentant 21 22

58 58 Les limites du relationnel (1) : la structure des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-enlabel-jalongitudelatitude 1AthènesAthensNULL PékinBeijing id athlete label-frlabel-enlabel-jabirth Date death Date 1Zhang Yining 1981/10/05NULL 2- La structure dune base de données est rigide Pour gérer le multilinguisme, il faut créer de champs correspondant à chacune des langues, alors que la signification du champ est exactement la même ou créer une table spécifique.

59 59 Les limites du relationnel (1) : la structure des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-enlongitudelatitude 1AthènesAthens PékinBeijing id athlete label-frlabel-enlabel-jabirth Date death Date 1Zhang Yining 1981/10/05NULL 3- Les relations entre deux tables sont induites

60 60 Les limites du relationnel (1) : la structure des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-enlongitudelatitude 1AthènesAthens PékinBeijing id athlete label-frlabel-enlabel-jabirth Date death Date 1Zhang Yining 1981/10/05NULL 3- Les relations entre deux tables sont induites La relation entre les données de deux tables est induite par lutilisation didentifiants communs dites clés étrangères. La nature de la relation nest pas exprimée clairement ni dans la structure, ni dans la donnée.

61 61 Les limites du relationnel (1) : la structure des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-enlongitudelatitude 1AthènesAthens PékinBeijing id athlete label-frlabel-enlabel-jabirth Date death Date 1Zhang Yining 1981/10/05NULL 3- Les relations entre deux tables sont induites Lextraction dune base de données ne met pas en lumière ces relations. Il faut extraire les données des différentes tables pour conserver la relation.

62 62 Les limites du relationnel (1) : la structure des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-enlongitudelatitude 1AthènesAthens PékinBeijing id athlete label-frlabel-enlabel-cnbirth Date death Date 1Zhang Yining 1981/10/05NULL 4- Lidentifiant dun enregistrement est une donnée comme les autres

63 63 Les limites du relationnel (1) : la structure des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-enlongitudelatitude 1AthènesAthens PékinBeijing id athlete label-frlabel-enlabel-cnbirth Date death Date 1Zhang Yining 1981/10/05NULL 4- Lidentifiant dun enregistrement est une donnée comme les autres Lidentifiant dun enregistrement na pas une forme normalisée. Il est dépendant de la base voire de la table (donc de la structure).

64 64 Les limites du relationnel (2) : linteropérabilité des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-en 1AthènesAthens 2PékinBeijing id athlete label-frlabel-enlabel-cnbirth Date death Date 1Zhang Yining 1981/10/05NULL 1- Les identifiants sont locaux et spécifiques à une base de données idvillelongitudelatitude alpha beta Il nest pas possible didentifier nativement deux ressources équivalentes entre deux bases de données différentes.

65 65 Les limites du relationnel (2) : linteropérabilité des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-en 1AthènesAthens 2PékinBeijing id athlete label-frlabel-enlabel-cnbirth Date death Date 1Zhang Yining 1981/10/05NULL 2- Les noms des champs sont spécifiques à une base de données idcitynamelongitudelatitude alphaAthènes betaPékin La structure dune base de données est locale. Il nexiste pas de normes pour dénommer les propriétés et les rattacher à une normalisation de tel ou tel type de données.

66 66 Les limites du relationnel (2) : linteropérabilité des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-en 1AthènesAthens 2PékinBeijing id athlete label-frlabel-enlabel-cnbirth Date death Date 1Zhang Yining 1981/10/05NULL 3- La structure dune base ne sappuie sur aucun mécanisme dhéritages idcitynamelongitudelatitude alphaAthènes betaPékin Il nest pas possible de relier une table à un modèle générique de description local ou externe dont il peut hériter les caractéristiques ce qui impose de construire un MCD à zéro ou presque. La table athlete une spécialisation de description dune personne ? La table JO une spécialisation de description dun événement ?

67 67 Les limites du relationnel (2) : linteropérabilité des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-en 1AthènesAthens 2PékinBeijing id athlete label-frlabel-enlabel-cnbirth Date death Date 1Zhang Yining 1981/10/05NULL 4- Il nexiste aucune représentation normalisée pour échanger des BDR sur un réseau. idcitynamelongitudelatitude alphaAthènes betaPékin Lextraction dune base de données est spécifique pour chaque base, il nexiste aucune syntaxe normalisée pour échanger les données dune base et les fusionner avec une autre base.

68 68 Les limites du relationnel (2) : linteropérabilité des données idid ville yearopened Ceremony Date closed Ceremony Date id athletes Representant athletes Number motto /04/061896/04/15NULL241NULL /08/082008/08/ One World one Dream idvillelabel-frlabel-en 1AthènesAthens 2PékinBeijing id athlete label-frlabel-enlabel-cnbirth Date death Date 1Zhang Yining 1981/10/05NULL 5- Il nexiste aucun moyen normalisé de requêter directement une BDR sur le Web. idcitynamelongitudelatitude alphaAthènes betaPékin Lextraction dune base de données est spécifique pour chaque base, il nexiste aucune syntaxe normalisée pour échanger les données dune base et les fusionner avec une autre base.

69 69 Différences entre RDBMS et RDF RDBMS : un modèle de tablesRDF : un modèle de graphes Description orientée enregistrementsDescription orientée triple pérenne Le modèle relationnel fait la différence entre les relations internes (attributs) et externes (clés) Structure dune table rigide : valeurs absentes explicites, pas de possibilité de répéter un champ pour une notice Modèle centralisé : les identifiants denregistrements ne sont valables que pour la base de données Modèle logique et modèle physique confondu (cf. la forme et lutilisation de SQL) Idéal pour des relations simples, figées et nécessitant un contrôle dintégrité a priori VS Les relations font partie des données Chaque triplet est autonome, absolu et pérenne Contrôle dintégrité par inférence a posteriori Modèle distribué Séparation entre modèle logique et modèle physique (Cf. RDBMS2RDF et SPARQL) Idéal pour décrire des données avec haut niveau dorganisation, réparties et pérennes Table 1 Idatt1att2att3 0null421 1bnull6 Table 2 Idatt1att2 0a6 1b0 6c1

70 70 Data Application API spécifique Différences entre une API Web spécifique et SPARQL API Web spécifiqueSPARQL VS Protocole normalisé pour linterrogation de données structurées selon le modèle RDF Possibilité (en théorie) dinterroger plusieurs bases RDF décentralisées via une seule requête Requête possible sur toutes les données Langage de requêtes complet Lintelligence de la requête est dans les données et non dans le protocole Le schéma dexposition na pas besoin dêtre adapté en fonction du client, cest le client qui adapte sa requête Appli Data RDF + SPARQL endpoint SPARQL Protocole pour récupérer des données structurées dun site API spécifique Langage de requêtes limité aux possibilités de lAPI Lintelligence de la requête est dans les verbes de lAPI et non dans les données

71 71 Protocole normalisé pour lexposition et lindexation des métadonnées de notices (problème pour la granularité des ressources) Langage de requête très limité Un schéma par défaut de métadonnées OAI_DC basé sur XML Nécessite un service provider pour interroger plusieurs « data provider OAI » : impossible dinterroger directement une base OAI Adapté à lindexation massive de notices uniformes Différences entre OAI-PMH et SPARQL OAI-PMHSPARQL VS Protocole normalisé pour linterrogation de données structurées selon le modèle RDF Possibilité (en théorie) dinterroger plusieurs bases RDF décentralisées via une seule requête Requête possible sur toutes les données Langage de requêtes complet Lintelligence de la requête est dans les données et non dans le protocole Le schéma dexposition na pas besoin dêtre adapté en fonction du client, cest le client qui adapte sa requête Adapté à linterrogation de bases de données hétérogènes et distribuées Appli Data RDF + SPARQL endpoint SPARQL HTTP Notices oai_dc Cat-OAI Notices oai_dc OAI-Num Notices oai_dc OAI-SUDOC Moteur de recherche Data provider HTTP Service provider

72 72 Du Web de documents au Web de données Les technologies du Web sémantique Comparaisons avec XML et BDR Présentation du Linked Data Plan de la journée

73 73 Les quatre principes du Linked data Source : Smoking_pipe_%28tobacco%29 Utiliser des URIs Utiliser des URIs accessibles via HTTP Donner laccès aux données utiles en utilisant les standards SPARQL et RDF Exprimer lURI des objets liés

74 74 Linked data cloud en détail : ressources dintérêt général Ressources dintérêt général

75 75 Le projet DBPedia 213,000 personnes, 328,000 lieux, 57,000 albums musicaux, 36,000 films, etc. 274 millions dinformations (triplets RDF) DBpedia est une initiative visant à extraire de linformation structurée à partir de Wikipedia et à rendre cette information disponible sur le Web. DBPedia permet de faire des requêtes complexes sur les données de Wikipedia, et de relier dautres ensembles de données du Web à Wikipedia. Mis au point et maintenu par Universität Leipzig, Freie Universität Berlin et la société OpenLink Software dans le cadre du projet

76 76 Linked data cloud en détail : ressources « sociales » Ressources dintérêt général Ressources « sociales »

77 77 Linked data cloud en détail : ressources géographiques Ressources dintérêt général Ressources « sociales » Ressources géographiques et statistiques

78 78 Geonames et LinkedGeoData Geonames est un système dinformation géographique dont les informations sont libres (CC BY). 8 millions demplacements géographiques (villes, monuments, montagnes…) dans le monde sont référencés et géotaggués ce qui en fait un des référentiels géographiques les plus complets. En complément de Web services, les données sont accessibles selon les principes du Linked Data. RDF pour les machines HTML pour les humains LinkedGeoData est à OpenStreetMap ce que Dbpedia est à Wikipedia 320 millions de points géoréférencés 25 millions ditinéraires

79 79 Les données gouvernementales Data.gov.uk Data.gov A la suite de lannonce de Barack Obama de mettre à disposition les données publiques américaines, les initiatives dans le domaine se multiplient. Les principes du Linked Data sont au cœur de la réflexion, mais pas forcément utilisés. Sous la direction de Nigel Shadbolt et Tim Berners-Lee ensembles de données Utilisation des technos du Web sémantique Initiative de Barack Obama 1076 ensembles de données Utilisation des technos du Web sémantique

80 80 Linked data cloud en détail : ressources multimédia Ressources dintérêt général Ressources « sociales » Ressources géographiques et statistiques Ressources multimédia

81 81 Les sites de la BBC : exploiter et enrichir le « cloud » La BBC utilise pour plusieurs de ses sites les données du Linked Data pour construire des sites Web et les enrichit avec ses propres données. Données de la BBC Données de Music Brainz Données de Dbpedia BBC Music Beta Données de Dbpedia Données de la BBC BBC Wildlife finder

82 82 Linked data cloud en détail : ressources biologiques et médicales Ressources dintérêt général Ressources « sociales » Ressources géographiques et statistiques Ressources multimédia Ressources médicales et biologiques

83 83 Linked data cloud en détail : ressources bibliographiques Ressources dintérêt général Ressources « sociales » Ressources géographiques et statistiques Ressources multimédia Ressources médicales et biologiques Ressources bibliographiques

84 84 LIBRIS (catalogue collectif suédois) FRBRisation Lien avec Dbpedia Métadonnées descriptives traditionnelles

85 85 Exemple dutilisation 1 : Linked book Mashup

86 86 Exemple dutilisation 1 : Linked book Mashup

87 87 Exemple dutilisation 2 : Linked My Music

88 88 Exemple dutilisation 2 : Linked My Music

89 89 Pas de conversion / mapping Chacun utilise son propre de format de métadonnées, ce qui n'empêche pas de rassembler les triplets en RDF Pas de données redondantes Chacun créée les données dont il a besoin, et récupère les informations qui existent déjà Pas de moissonnage / collecte de métadonnées Les données sont disponibles directement sur le Web Pas de problème de traçabilité Grâce aux URI, on peut revenir aux données source, quelle que soit leur origine Pas de développements spécifiques Tout repose sur des standards ouverts comme RDF, SPARQL... pas besoin d'apprendre de nouveaux langages et protocoles Avantages du Web de données

90 Merci pour votre attention Gautier Poupeau Antidot | GSM: +33 (0) F-75 Paris | mailto: Blog : Les petites cases | Twitter petites cases


Télécharger ppt "Formation aux technologies du Web sémantique CCSD, Lyon, 8-10 septembre 2010."

Présentations similaires


Annonces Google