La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Journée de lAUSIDEF – Lyon, 10-11 juin 2010 RDF et le Web de données.

Présentations similaires


Présentation au sujet: "Journée de lAUSIDEF – Lyon, 10-11 juin 2010 RDF et le Web de données."— Transcription de la présentation:

1 Journée de lAUSIDEF – Lyon, 10-11 juin 2010 Philippe.Bourdenet@univ-lemans.fr RDF et le Web de données

2 En guise de préambule…

3 Problèmes dintégration des outils de référencement dans les systèmes dinformation ou systèmes dingénierie documentaire Catalogue local Catalogue collectifPériodiques en ligne Thèses en ligne e-books Ressources pédagogiques Ressources multimédias Bases de signets Enregistrements sonores Catalogues de bibliothèques associées ou partenaires Archives ouvertes

4 Un point dentré unique ? Catalogue local Catalogue collectif Périodiques en ligne Thèses en ligne e-books Ressources pédagogiques Ressources multimédias Bases de signets Enregistrements sonores Catalogues de bibliothèques associées ou partenaires Archives ouvertes Ok Catalogue de la bibliothèque Documentation scientifique et technique Bibliothèques / agences bibliographiques nationales Supports pédagogiques Documents multimédias Revues e-books Vidéos oai-pmh API OpenURL Z 39.50 SRU Z 39.50 WebService v v v v v v iso 2709

5 Web invisible (« deep web, hidden web ») Le Web invisible ou Web caché est la partie du Web correspondant à l'ensemble des documents qui ne sont pas indexés par les outils de recherche traditionnels. « Les ressources du Web invisible comprennent, entre autres -les sites Web construits autour d'une base de données (interrogeable uniquement par un moteur de recherche interne) - les pages accessibles par un formulaire de recherche - les pages protégées par un mot de passe - les pages interdites aux robots d'indexation - les pages écrites dans des formats propriétaires - les intranets et - les extranets. » [AFUL] Les données sont contrôlées par des applications, et chaque application les garde pour son propre usage… Pour accéder à ces données, un utilisateur doit passer par un portail ou un moteur de recherche dédié qui créée un chemin vers le données prisonnières dune base de données.

6 Catalogue local Catalogue collectif Périodiques en ligne Thèses en ligne e-books Ressources pédagogiques Ressources multimédias Bases de signets Enregistrements sonores Catalogues de bibliothèques associées ou partenaires Archives ouvertes Ok Catalogue de la bibliothèque Documentation scientifique et technique Bibliothèques / agences bibliographiques nationales Supports pédagogiques Documents multimédias Revues e-books Vidéos oai-pmh API OpenURL Z 39.50 SRU Z 39.50 WebService v v v v v v iso 2709

7 SQL > select base1.UNIMARC.UNIMARC12,base1.UNIMARC.UNIQUE_KEY from base1.UNIMARC,system.EXEMPLAIRE where substr(system.EXEMPLAIRE.CATALOG_ID,17,10) = to_char(base1.UNIMARC.UNIQUE_KEY) and system.EXEMPLAIRE.SECTION='1' and system.EXEMPLAIRE.STATUS in (1,2,3,5,6,100,101,110,210) and base1.UNIMARC.UNIMARC12 in ('2008', '2009'); Je veux restreindre un corpus de résultats aux ouvrages de sciences édités en 2008 et 2009

8 Il y a 10 ans, lenjeu était de promouvoir son catalogue sur le web (« opacweb »). On consacre aujourdhui encore beaucoup de temps à ladministration dun SIGB ou dun SID w eb opac web réseau interne BDD On travaille à rendre son application interopérable, capable daller puiser des informations dans des sources hétérogènes, et capable de fournir des informations à dautres applications. Demain on travaillera peut-être à rendre nos données compatibles avec le web sémantique BDD opac web Réseaux sociaux moteurs commerciaux Agences bibliograph iques

9 SIGB Z3950 OAI-PMH SID OpenURL SRU ENT shibboleth

10 VS

11 Le Web sémantique

12 WEB de documents http

13 Problème :Le contenu du web est fait pour être lu par des humains, pas par des ordinateurs. Problème? : avec laccroissement du nombre de pages web, les recherches deviennent de moins en moins efficaces. on arrive aujourdhui à la limite de lefficacité des metatags. (crawlés par moteurs de recherche). Une éventuelle solution ? Consisterait rendre ces contenus compréhensibles par des machines, que les machines puissent identifier leur nature sans ambiguïté. >> dune certaine façon, donner du sens au contenu (doù « sémantique »). Mise en œuvre : il faut mettre à disposition un langage pour décrire des ressources de façon intelligibles (RDF) qui va permettre de définir des structures. RDF est plus mode de stockage des définitions, un modèle, donc Une remarque :il faut distinguer cette entreprise de lIA qui centralise les données dans une base de données, alors quavec RDF, elles peuvent être nimporte où, sans quon ait besoin de les stocker : chaque élément RDF peut être appelé par un URI. Pour éviter que les « agents » ou programmes rencontrent des situations ambiguës, (homonymies ou synonymies), il faut introduire des ontologies, qui reposent sur des classes (OWL) Des promesses : les applications reposant sur ces structures de données vont pouvoir traiter et manipuler des données sans les humains Des projets ? Pour linstant le web sémantique est mis en application dans le domaine du commerce électronique, mais cela peut sétendre dautres types de données (les bibliothèques, peut-être ?) et dautres biens de consommation (domotique par exemple). Du boulot : il faut que les documents soient décrits comme lattend le web sémantique…

14 web « traditionnel »vsweb sémantique « espace universel déchange consultable par tout internaute » objectif : apporter la sémantique formelle nécessaire pour que les machines, elles aussi, puissent consulter et interpréter les informations présentes sur le web sappuie sur 3 couches de base XML : support ou cadre dimplémentation RDF : cadre de description des ressources, modèle dannotation sous forme dURI OWL : moyen décrire des ontologies sur le web « ensemble structuré de savoirs dans un domaine de connaissance particulier »

15 Web… sémantique ? Gère des documents.htm,.html.pdf.xml.mp3 Gère des « objets » personnes endroits événements musique films.??? organisations… concerts σ μα

16 événement lévenement ou comporte des propriétés qui peuvent être supportées par des web services :,,, Ces propriétés ou « sèmes » sont reliées entre elles. on pourrait ajouter et proposer un, suivi dune la aurait elle-même comme propriété obligatoire :,,,, etc.

17 Quelques mots-clés pour indexer cette journée… RDF* OWL* RDFS* FRAD FRBR RDA SKOS FRBRoo FOAF XML * NB la plupart des documentions importantes de W3C ont été traduites en français ! SPARQL*

18 RDF : Resource description Framework = Cadre de description des ressources « Modalité dannotation dune ressource (sous forme dURI) sur la base dun vocabulaire partagé. » La syntaxe de base sexprime sous forme dun triplet resource property literal On parle aussi de représentation par « graphe »

19 Blaise Cendrars est_auteur_de Rhum <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns# " xmlns:s="http://monsite.fr/schema.rdf#"> Blaise Cendrars Expression du triplet dans un fichier RDF : NAME SPACE obligatoire A propos de Rhum, il y a un auteur : Blaise Cendrars On a utilisé lattribut rdf:about. Il existe dautres attributs : rdf:ID, rdf:type, rdf;bag, rdf:seq, rdf:alt On a introduit la relation s:creator, mais elle peut être subdivisée n sous-classes ; interprète, compositeur, préfacier, etc.

20 Son outil de recherche : SPARQL Les requêtes SPARQL sinspirent de SQL (modèle simple). On peut ajouter une clause DISTINCT après SELECT ou LIMIT, OFFSET, et ORDER après WHERE des clauses : OPTIONAL UNION FILTER Ex: rapatrier le nom dune personne et éventuellement son pict Ex. Trouver les personnes qui ont un e-mail et celles qui ont un pict Impose des contraintes sur les variables (Ex. on veut trouver toutes les auteurs des publications du mois de septembre 2009) Dans la documentation SPARQL, il est fait mention dune autre syntaxe un peu différente : Turtle (pour « Terse RDF Triple Language) Soit lensemble de données : @prefix dc:. @prefix :. @prefix ns:. :book1 dc:title "SPARQL Tutorial". :book1 ns:price 42. :book2 dc:title "The Semantic Web". :book2 ns:price 23. Soit la requête : PREFIX dc: PREFIX ns: SELECT ?title ?price FROM WHERE { ?x dc:title ?title. OPTIONAL { ?x ns:price ?price. FILTER (?price < 30) } } Résultat :| title | price | ============================== | "The Semantic Web" | 23 | | "SPARQL Tutorial" | | ------------------------------

21 RDF-S (RDF-Schema) Permet de définir un modèle ou schéma dans un domaine dexpertise : - définition de hiérarchies de classes et de propriétés - formulation de contraintes. Comment déclarer une classe de ressource : 2 moyens 1. utiliser lattribut rdf:type en se référant au type Class <rdf:Description rdf:about="http://www.w3.org/2000/01/rdfschema# Class"/> 2. utiliser lespace de nom rdfs à laide dune déclaration xmlns:rdfs=http://www.w3.org/2000/01/rdf-schema# #Artist Dans un éditeur de graphe, la fonction AddSubclassOf permet dajouter une sous-classe #Painter à la Classe #Artist #Painter

22 Pourquoi passer de RDF-S à OWL ? RDF-S apparaît vite comme insuffisant, en empruntant des éléments de la logique formelle : rdfs:range définit le domaine de valeurs dune propriété quelle que soit la classe concernée Ex. ne permet pas dexprimer que les vaches ne mangent que de lherbe, alors que dautres sortes danimaux mangent aussi de la viande Pas de possibilité dexprimer que deux classes sont disjointes Ex. La classe des hommes et des femmes sont disjointes Ne permet pas de créer des classes par combinaison ensembliste dautres classes (inter, union, complément) Ex. Si lon veut construire la classe Personne comme lunion disjointe des classes Hommes et Femmes Ne permet pas de définir de restriction sur le nombre doccurrences de valeurs que peut prendre une propriété. Ex. On ne peut pas dire quune personne a exactement deux parents ne permet pas de définir certaines caractéristiques des propriétés: transitivité (ex: estPlusGrand- Que), unicité (ex: estLePèreDe), inverse (ex: mange est la propriété inverse de estMangéPar). [Paul] – a_pour_sœur [Virginie] Si les contraintes dexpressivité sont trop grandes, il faut passer à des définitions ontologiques « déportées », extérieures au schéma, qui vont uniquement gérer la complexité des relations logiques entre classes, doù OWL

23 Ontologies ?

24 ville code postal mairie site internet département région pays(OWL)

25 ville code postal mairie site internet département région pays adresse téléphone URL

26 Et pour les bibliothèques ?

27 Il faut absolument veiller à conserver les fonctionnalités de recherche (!), (Ce qui donne du sens au travail des bibliothécaires et de la valeur aux SID.) mais elles peuvent émerger/sexprimer différemment. Elles peuvent peut-être saffiner, mais pas disparaître. Contrat des FRBR : Un catalogue doit permettre de « trouver, identifier, sélectionner et obtenir » une ressource (B. Tillet) « Je cherche les Variations Goldberg de J.-S. Bach …» Mais « Jaimerais bien écouter les Variations Goldberg, interprétées par Daniel Barenboim, en concert à Buenos Aires en 1989. Je crois que ça existe chez Erato » Rendre les applications interopérables : on sait faire (à peu près…) Rendre les données portables dans dautres contextes, pour dautres usages et utilisables par dautres médias : on ne sait pas (encore) faire (pas pour tout en tout cas).

28 [A propos du web sémantique] Parmi les changements que les bibliothèques vont avoir besoin de mettre en oeuvre pour y pourvoir doit figurer la migration du catalogue public dune base de données de notices bibliographiques, autonome et isolée, vers un ensemble de données hyperliées qui peut interagir avec les ressources informationnelles du web. On pourra alors intégrer les données documentaires aux environnements numériques de travail des utilisateurs, auxquels les bibliothèques apporteront leur service. ALAs Library Technology Reports is publishing Understanding the Semantic Web: Bibliographic Data and Metadata by Karen CoyleUnderstanding the Semantic Web: Bibliographic Data and MetadataKaren Coyle

29 examen programme document diplôme préparé droits de prêt situation localisation droits daccès heures douverture

30 examen programme document diplôme préparé droits de prêt situation localisation droits daccès heures douverture

31 examen programme document diplôme préparé droits de prêt situation localisation droits daccès heures douverture

32 programme document droits daccès auteur titre éditeur mots-clés niveau « événement » niveau bibliographique œuvre manifestation

33 La conclusion approche… …ou : « pourquoi sinquiéter ? » …et : « pour quoi sinquiéter ? »

34 001 070305692 010 ##$a1-59059-003-1$bbr. 073 #0$a9781590590034 200 1#$a@XML programming$bTexte imprimé$eWeb applications and Web services with JSP and ASP$fAlexander Nakhimovsky, Tom Myers 210 ##$aBerkeley, Calif.$cApress$dcop. 2002 215 ##$a1 vol. (XVIII-555 p.)$cill., couv. ill. en coul.$d24 cm 225 0#$aThe @expert's voice$ebooks for professionals by professionals 300 ##$aLa couv. porte en plus : "Learn practical and up-to-date information on XML specifications and related technologies, including XLink, XPointer, XML Schema, RELAX NG, SOAP, WSDL, UDDI; "Find substantial examples in Java and VB/VB Script that are written to be understandable by any programmer, whatever his or her language background"; "Create Web applications and Web services that use DOM, SAX, and XSLT to process XML data, both virtual (generated in memory) and persistent (stored in files or databases) 320 ##$aIndex 410 ##$0069269572@Books for professionals by professionals 605 ##$a@Active server pages$2lc 606 ##$aXML (Document markup language)$2lc 606 ##$aMicrosoft Visual BASIC$2lc 606 ##$aJavaServer pages$2lc 606 ##$aWeb sites$xDesign$2lc 606 ##$aWeb site development$2lc 606 ##$aJava (Computer program language)$2lc 606 ##$3035260521XML (langage de balisage)$2rameau 606 ##$3052625877JavaServer pages (logiciel)$2rameau 606 ##$3035805684Sites Web -- Développement$2rameau 606 ##$3050768735Fournisseurs de services applicatifs$2rameau 680 ##$aQA76.76.H94$bN355x 2002 700 #1$3059632887Nakhimovsky, Alexander D.$4070 701 #1$3059632585Myers, Thomas J. (1952-....)$4070 801 #0 $bPPT$gAACR2 801 #1 $bPPT$gAACR2

35 001 070305692 010 ##$a1-59059-003-1$bbr. 073 #0$a9781590590034 200 1#$a@XML programming$bTexte imprimé$eWeb applications and Web services with JSP and ASP$fAlexander Nakhimovsky, Tom Myers 210 ##$aBerkeley, Calif.$cApress$dcop. 2002 215 ##$a1 vol. (XVIII-555 p.)$cill., couv. ill. en coul.$d24 cm 225 0#$aThe @expert's voice$ebooks for professionals by professionals 300 ##$aLa couv. porte en plus : "Learn practical and up-to-date information on XML specifications and related technologies, including XLink, XPointer, XML Schema, RELAX NG, SOAP, WSDL, UDDI; "Find substantial examples in Java and VB/VB Script that are written to be understandable by any programmer, whatever his or her language background"; "Create Web applications and Web services that use DOM, SAX, and XSLT to process XML data, both virtual (generated in memory) and persistent (stored in files or databases) 320 ##$aIndex 410 ##$0069269572@Books for professionals by professionals 605 ##$a@Active server pages$2lc 606 ##$aXML (Document markup language)$2lc 606 ##$aMicrosoft Visual BASIC$2lc 606 ##$aJavaServer pages$2lc 606 ##$aWeb sites$xDesign$2lc 606 ##$aWeb site development$2lc 606 ##$aJava (Computer program language)$2lc 606 ##$3035260521XML (langage de balisage)$2rameau 606 ##$3052625877JavaServer pages (logiciel)$2rameau 606 ##$3035805684Sites Web -- Développement$2rameau 606 ##$3050768735Fournisseurs de services applicatifs$2rameau 680 ##$aQA76.76.H94$bN355x 2002 700 #1$3059632887Nakhimovsky, Alexander D.$4070 701 #1$3059632585Myers, Thomas J. (1952-....)$4070 801 #0 $bPPT$gAACR2 801 #1 $bPPT$gAACR2

36 id= 070305692 oeuvre.Titre=« XML Programming » id= 3059632585 Personne.Nom= Tom Myers id= 3059632887 Personne.Nom= Alexander Nakhimovsky id= 127261852 édition id= 3035260521 vedette rameau.Forme retenue= XML (langage de balisage) id= 69850 Langue.Libellé=« English » id= 0069269572 Collection.Titre=« Books for profesionnals » a_pour_auteur a_pour_sujet a_pour_langue appartient_à a_pour_éditeur adapté de Yann Nicolas

37 On peut présumer que le formalisme introduit par RDF et OWL permet de mieux structurer les données pour les présenter sur le web. MAIS : produire des données sous forme de graphe nest pas dans les habitudes. Pour les bibliothécaires, Il faudra passer dune représentation syntagmatique / paradigmatique à une représentation atomique Les outils pour produire ces données sont demandent à être améliorés (bien quoffrant déjà de grandes possibilités : http://protege.stanford.edu/) Cela ne se fera quau prix de «changements assez importants dans la gestion des flux informationnels ». Cela se produira sans doute par étapes, par exemple en commençant par lintroduction de microformats (« ensembles de conventions permettant dajouter des notions sémantiques aux documents html » sans recourir à de nouveaux langages. Cela ne se fera pas sans une observation stricte des normes et des formats ! Pas de web sémantique sans saisie des données… …ni avec un minimum de contrôle des données. cest nous ! cest nous aussi !

38 Journée de lAUSIDEF – Lyon, 10-11 juin 2010 Philippe.Bourdenet@univ-lemans.fr Merci de votre attention !


Télécharger ppt "Journée de lAUSIDEF – Lyon, 10-11 juin 2010 RDF et le Web de données."

Présentations similaires


Annonces Google