Journée d’information CNFPT

Slides:



Advertisements
Présentations similaires
abes agence bibliographique de l’enseignement supérieur
Advertisements

RDA : Pourquoi, quoi, qui et quand Des règles aux entités : Catalogage avec la RDA ACB, le 29 mai 2009 Gillian Cantello Bibliothèque et Archives Canada.
quelques questions soulevées par RDA et les FRBR
Métadonnées des publications scientifiques Acclimater Eprints Application Profile (UK) Yann Nicolas, ABES Couperin AO, 21 mai 2007.
W3Line | 10 Ter, Rue Pasteur – BOURG LES VALENCE | Tél. : – Fax : | – Web :
Atelier sur les Archives Ouvertes mai 2012, Monastir, Tunisie Les Archives ouvertes et les archives institutionnelles. NEREUS : portail européen.
Les fonctionnalités de STAR : archivage, signalement et diffusion STAR 8ième cercle le 27 septembre 2013.
Présentation générale
Traduction française des formats UNIMARC
« Charting the new landscape of library standards » Lisbonne – mars 2006 Philippe Bourdenet * Fédération des utilisateurs de logiciels de bibliothèque.
2 Nos catalogues sont régis par des règles qui datent des années 1960/70 Principes de Paris 1961 Points daccès ISBD Description bibliographique.
Que faire des FRBR ? Réunion CfU / AFNOR groupe de travail sur RDA / FULBI / fournisseurs de systèmes informatisés 25 novembre 2010.
RDA en France : quelles orientations ? Réunion du Groupe stratégique, 25 mars 2011 Deuxième réunion de travail sur l'application de FRBR, FRAD et RDA dans.
Rapport au Groupe stratégique Réunion du 16 novembre 2011 Groupe technique sur ladoption de RDA en France.
Quest-ce que RDA ? RDA = Ressources : Description et Accès –Ressources couvrir tous les types de ressources –en particulier les ressources électroniques.
Le modèle FRBR Functional Requirements for Bibliographic Records
Quest-ce que RDA ? RDA = Ressources : Description et Accès –Ressources couvrir tous les types de ressources –en particulier les ressources électroniques.
Le modèle FRBR Functional Requirements for Bibliographic Records
FRBR 1.
Julien Béal Membre du groupe national de formateurs à l’évolution des catalogues et du catalogage Formateur préparation aux concours de bibliothèques.
Médiathèque de la Cité de la musique, Paris - France
De nouveaux modèles de données pour les catalogues de bibliothèques Médiathèque de la Cité de la musique, Paris - France Patrice Verrier, Coordinateur.
BSN, SGB mutualisé, ISTEX, FRBRisation, Web de données, RDA… 2013 sera une année cruciale pour définir et enclencher la politique bibliographique nationale.
Métadonnées pour les thèses numériques françaises
Abes agence bibliographique de lenseignement supérieur Catalogage.
The worlds libraries. Connected. Métadonnées hors de contrôle: agrégations au niveau du réseau. JABES 2013 Montpellier, 14 mai 2013 Titia van der Werf.
Vive lamitié France-RDA ? Journées Abes Philippe Le Pape, Abes.
Interaction ISO avec OCLC-WCRS – Lemprunt Mai 2012.
Raymond BERARD Journées ABES 17 mai 2011
Nouvelles Pratiques des catalogues. Rendre les données plus utiles sur le web. Publier des pages HTML sur lesquelles les utilisateurs et les moteurs de.
Les API Sudoc Le Sudoc autrement…
Construire une base de données bibliographiques Elaborer un site web
3e Rencontre internationale dutilisateurs dUNIMARC enssib, 31 mars 2010 Les produits et services bibliographiques de la Bibliothèque nationale de France.
Projets de numérisation des bibliothèques du gouvernement Bernie Gloyn Le 1er juin 2012 Bibliothèque de Statistique Canada Projet de numérisation
Web Sémantique: Le Relief Actuel
Autour des autorités Journées ABES 2012 Yann Nicolas.
III. Modèles FRBR et FRAD
Les FRBR et l ’évolution des règles de catalogage
Journées ABES Montpellier Jeudi 27 mai 2010 Conseil dOCLC pour la politique dutilisation des notices.
Cataloguer dans un Sudoc « frbr-isé »
Ingrid Geretschläger and Jocelyne Jerdelet/CERN ETT-SIS-DM1 La litterature grise : importation et gestion au SIS u Dans le passé, échange entre.
Rosa María Gómez de Regil Paris, 25 janvier 2011
Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011.
Une présentation de Mireille Huneault Directrice du traitement documentaire de la collection patrimoniale Direction générale de la conservation Bibliothèque.
Identification des expressions
1 Journée RERO 2007 Un aperçu du modèle FRBR et de ses applications Journée RERO 24 mai 2007 présenté par Pat Riva Présidente, Groupe FRBR de l'IFLA Bibliothèque.
RDA : Ressources : description et accès Direction du traitement documentaire des collections patrimoniales Centre de conservation.
Mediadix – Novembre 2013 Marie-Line GUILLAUMEE (BIU Sorbonne)
RDA : Ressources : description et accès Direction du traitement documentaire des collections patrimoniales Centre de conservation.
De RCAA2 à RDA Présentation au 11 e Congrès de l’Association professionnelle des techniciennes et techniciens en documentation du Québec Marcel Plourde.
1 : Le nom du fichier contenant les métadonnées. 2 : Affichage des données du programme (Varie selon le mode – lecture/saisie). 3 : Application de filtres.
Quiz Identification des manifestations et des items.
Environnement hybride. Bibliothèque et Archives nationales du Québec ▪ 2 Bases de données hybrides  Notices RCAA2 et notices RDA vont cohabiter dans.
Étapes préparatoires avant l’implantation RDA Danielle Poirier et Pat Riva Direction du traitement documentaire des collections patrimoniales Centre de.
IV. RDA a) Présentation générale 1. RDA : Resource Description and Access  Code de catalogage à vocation internationale  piloté par un « Joint Steering.
RDA : Pourquoi, quoi, qui et quand Des règles aux entités : Catalogage avec la RDA ACB, le 29 mai 2009 Gillian Cantello Bibliothèque et Archives Canada.
Quiz Identification des manifestations et des items.
Cours sur le DOI COULET Alban GREMONT Baptiste GIDO2A Le 13/12/2007.
AMICUS et le Catalogue collectif national Transition vers OCLC Breffage de la table ronde des utilisateurs du CCN.
Catalogues en devenir nouveaux usages, nouveaux outils
Le Traitement Automatique des Langues (TAL)
Congrès de l’ABF – Lyon - 6 juin 2013
Analyse du sujet -1- Eléments issus de la lecture du sujet
UNIMARC : contexte institutionnel Agnès Manneheut Agence bibliographique de l’Enseignement supérieur Deuxième journée d’information UNIMARC, Paris, 27.
Formation d’auxiliaire de bibliothèque
Parcours FRBR 3 : format RDF et FRBRisation Le « J.e-cours » va bientôt commencer, merci de votre patience…… Merci de désactiver votre micro : - Repérer.
Abes agence bibliographique de l’enseignement supérieur Traitement des documents spécifiques.
La « FRBRisation » du Sudoc Journées Abes Atelier 2 Vers des transferts réguliers améliorés Philippe Le Pape.
Les catalogues au défi du web (de données)
Monsieur Jourdain du Web de données
Transcription de la présentation:

Journée d’information CNFPT Angers, 16 mai 2013 Journée d’information CNFPT Les catalogues au défi du Web: projets et réalisations d’OCLC en matière de FRBRisation Titia van der Werf Avec un grand merci à mes collègues de OCLC Research (en particulier Janifer Gatenby, Thom Hickey et Jenny Toves) et à Françoise Leresche de la BnF (pour avoir relu et amélioré le français). Senior Program Officer OCLC

OCLC Research Cela va être difficile de vous donner un aperçu en 15 minutes de tous les projets de recherche pertinents en la matière qui ont été réalisés par OCLC Research pendant les 15 dernières années ! Je vais vous parler des efforts de FRBRisation de WorldCat, du developpement de VIAF et des experimentations pour exposer toutes ces données sous forme de données liées sur le Web – et je partagerai quelques observations sur l’application de RDA par les bibliothèques.

Département de la recherche OCLC Research Département de la recherche (50+ personnes localisées à Dublin/San Mateo/Leiden); Ressource communautaire pour et avec les bibliothèques. OCLC Research est le département de la recherche à OCLC où travaillent une cinquantaine de chercheurs. C’est une ressource communautaire qui travaille pour et avec les bibliothèques membres de la cooperative OCLC. Je tiens à le souligner, parce que le caractère collaboratif d’OCLC Research est très peu connu en Europe et il faut changer cela: les bibliothèques en Europe peuvent et doivent en profiter plus!

La croissance de WorldCat La croissance exponentielle de WorldCat à partir de 2002 est pertinente pour notre sujet. Durant les 10 dernières années, la base de donnée a été augmentée par le téléchargement de très grands fichiers provenant de bibliothèques nationales d’Europe et d’autres sources externes. La base s’est transformée d’une base de données relativement homogènes en une base de données hétérogènes. Du coup, il y avait beaucoup de doublons et de notices bibliographiques cataloguées dans des langues différentes et selon des règles de catalogage différentes. Les efforts de dédoublonnage (7 millions de doublons en 2010) et de regroupement des notices parallèles ont donc eu lieu durant cette même période – entre 2002 et 2012. Mesures en April 2012 4

OCLC Research et FRBR WorldCat: base de données qui renvoie aux documents se trouvant dans les bibliothèques; Croissance et ‘contamination’ de la base avec des notices de toutes sortes = plus de richesse - moins d’uniformité Nécessité d’afficher les résultats à un niveau d’entité plus élevé (exemplaire => oeuvre) Utiliser le modèle FRBR Les efforts de regroupement avaient pour but d’améliorer la qualité de la base de données WorldCat dans son ensemble – sans toucher à la qualité des notices individuelles provenant des bibliothèques. Et en même temps, le regroupement devait aussi améliorer l’expérience de la recherche dans WorldCat. Au lieu d’afficher des centaines et même des milliers de résultats pour un titre, au niveau des exemplaires, il valait mieux regrouper les exemplaires et afficher les résultats au niveau de l’oeuvre et ses différentes expressions et manifestations. Le modèle FRBR était venu au bon moment pour aider à la restructuration des données dans la base WorldCat.

Niveaux des entités FRBR (2002) Item Manifestation Expression Work The novel Original Text Translation Critical Edition Paper Copy 1 Autographed Copy 2 PDF HTML The movie Original Version Les niveaux des entités FRBR selon Tillett, Barbara. 2004. What is FRBR?: A Conceptual Model for the Bibliographic Universe. http://www.loc.gov/cds/downloads/FRBR.PDF Traduction française disponible : FRBR, qu'est-ce que c'est ? : un modèle conceptuel pour l'univers bibliographique / Barbara Tillett ; traduction française établie par la BnF. www.loc.gov/catdir/cpso/FRBRFrench.pdf‎ Based on a graphic in Tillett, Barbara: http://www.iccu.sbn.it/upload/documenti/Tillett.ppt

2004 : premiers résultats Analyse de WorldCat: Fouille de données et développement d’un algorithme FRBR Prototypes (FictionFinder, xISBN) Planification pour l’implémentation de l’algorithme FRBR dans WorldCat (2004- 2006) En 2004 OCLC Research pouvait présenter les premiers résultats de ses expérimentations : une analyse des données de WorldCat permettant d’identifier les catégories FRBR et le développement d’un algorithme FRBR; 2) deux prototypes implémentant l’algorithme FRBR et 3) une planification pour l’implémentation à échelle dans WorldCat.

2004 : algorithme FRBR Catégorie problématique: Expressions Traductions Augmentations Révisions etc. et la démarcation avec les catégories adjacentes Le développement de l’algorithme FRBR n’a pas été facile. Surtout la catégorie “Expressions” posait des problèmes. Toutes les traductions se regroupent au niveau de l’expression mais elles s’avèrent difficiles à identifier, parce que les titres sont différents – même si l’auteur est le même. Pour les révisions: en principe tout peut changer (titre, auteur, nombre de pages, etc.) Et la démarcation entre une nouvelle expression et une nouvelle oeuvre est souvent floue : quelles caractéristiques font d’une augmentation une nouvelle oeuvre?

Cette illustration du document FRBR montre bien les zones grises entre les catégories FRBR ...

2004 : algorithme FRBR e¹ e² e³ e4 e¹ Oeuvre¹ Oeuvre² Illustrated 3/29/2017 2004 : algorithme FRBR Illustrated edition Spanish edition Abridged edition Spoken word Adaptation Et voici une autre illustration. Les notices sont regroupées en utilisant les champs auteur et titre Les noms d’ auteurs et les titres normalisés pour construire une clé pour l’œuvre Toutes les notices avec la même clé sont regroupés pour former un ensemble au niveau de l’œuvre e¹ e² e³ e4 e¹ Expressions Oeuvre¹ Oeuvre² http://www.loc.gov/cds/downloads/FRBR.PDF

2004 : conclusions La capacité à regrouper rétrospectivement des notices dans une même catégorie est limitée par les données bibliographiques disponibles; Les distinctions entre les catégories FRBR ne sont pas suffisament explicites (zones grises). Le travail empirique soutient et informe le travail de modélisation FRBR Les variations dans la pratique du catalogage et les erreurs ou omissions pendant la transcription et la saisie des données conduit à des regroupements (clusters) faux; Les définitions des catégories FRBR ne sont pas suffisament claires. Il vaut mieux pouvoir expliciter les différences saillantes (examples: braille et e-books). Le travail empirique soutient et informe le travail de modélisation FRBR (Working group on the expression entity)

2004 : statistiques Œuvres avec une seule manifestation: 78% Œuvres avec une seule expression mais plusieurs manifestations: 16% Œuvres avec plusieurs expressions: 6% Les chiffres extrapolés montrent la répartition suivante des catégories FRBR dans WorldCat. Ce sont les mesures de 2004.

2004 : prototype FictionFinder Un prototype où 2.6+ millions de notices bibliographiques pour la fiction ont été regroupées en fonction de l’algorithme FRBR En raison de la difficulté d'identifier les expressions de manière fiable, les manifestations sont organisées par la langue d'expression Le département de recherche a aussi construit 2 prototypes: FictionFinder – qui regroupe les notices bibliographiques pour la fiction xISBN – qui regroupe tous les ISBNs des manifestations appartenant à la même categorie d’oeuvre. FictionFinder est intéressant parce qu’on a du prendre des décisions pratiques, là où l’algorithme FRBR ne permettait pas d’identifier les expressions de manière fiable.

FictionFinder : affichage oeuvre/expression & manifestation Dans FictionFinder, toutes les expressions sont des traductions. Donc, on passe de l’oeuvre aux manifestations à travers un niveau qui regroupe toutes les traductions. Le niveau supérieur est déterminé par les données concernant l’oeuvre, comme les résumés, les genres de fiction et les sujets. Puis on choisit la langue – dans cet exemple il y a un choix entre 4 manifestations de l’oeuvre en anglais. Au niveau inférieur, celui de la manifestation, les éléments de différenciation sont la date de publication, l’éditeur, le numéro iSBN, etc.

FRBRisation de WorldCat : 2006 – aujourd’hui Genres Traductions Manifestations Reproductions Voici une manière de visualiser la méthode de regroupement FRBR dans WorldCat, telle qu’elle s’est développée depuis 2006. Il s’agit d’une amélioration continue des algorithmes. En allant du centre à la périphérie : 1) L’ensemble des manifestations contient les examplaires qui représentent exactement le même document physique ; 2) Au niveau de l’expression, l’ensemble des reproductions qui sont une copie exacte du contenu mais sous une autre forme (livre; e-book; HTML; PDF; microforme) ; 3) Toujours encore au niveau de l’expression : l’ensemble des traductions ; 4) Au niveau de l’œuvre : l’ensemble des oeuvres qui se distinguent par leur genre (film, musique, pièce de théatre,...)

2009: GLIMIR Avec la croissance de WorldCat après 2003 : augmentation du nombre de notices “parallèles” pour une même manifestation Avant 2004, il y avait presque une relation 1-à-1 entre les identifiants des notices d’OCLC et les manifestations. Mais avec la croissance exponentielle de WorldCat à partir de 2003 et le nombre croissant des notices parallèles et des doublons, cette relation a disparu.

2009: GLIMIR Améliorer les “clusters” par le dédoublement des notices et le regroupement des notices de manifestations cataloguées dans des langues différentes et faites en suivant des règles de catalogage différentes Attribuer un identifiant à chaque groupe de manifestations. Le but du projet GLIMIR était donc de regrouper les notices d’une même manifestation et d’accorder un identifiant à ce groupe.

FRBRisation de WorldCat : 2006 – aujourd’hui Genres Traductions Manifestations GLIMIR: Regroupe des notices différentes par la langue et les règles de catalogage Reproductions Vous voyez ici à quel niveau la méthode GLIMIR est employée.

2011 : Multilingual Bib Structure Regrouper le titre original et toutes ses traductions Créer des notices d’autorité pour les titres au niveau de l’œuvre Récemment nous avons commencé un nouveau projet pour regrouper les notices d’un titre et de ses traductions – et d’attribuer un identifiant à ce groupe.

FRBRisation de WorldCat: 2006 – aujourd’hui Genres Traductions Multilingual Bib structure : regroupe les notices du titre original + ses traductions. Manifestations Reproductions Et voici où se situe ce projet dans la visualisation des ensembles FRBR de WorldCat.

Tous ces efforts de regroupement conduisent à des statistiques intéressantes: par example le nombre de titres publiés par le même auteur, le nombre de traductions, le nombre d’exemplaires localisés dans les bibliothèques, etc. Ces données peuvent être consultées en cherchant dans WorldCat Identities. Ici, une page sur Baudelaire et son oeuvre. Remarquez les différents rôles de Beaudelaire (traducteur, créateur, illustrateur, ...) qui dénotent la relation de Beaudelaire avec une publication.

Et en déroulant la page, vous voyez les publications de Baudelaire, et pour chaque œuvre: le nombre d’éditions, de traductions et d’examplaires.

Used by permission of William Denton On a beaucoup parlé d’entités. Mais le modèle FRBR porte également sur les relations entre les entités. Très peu de relations ont été codifiées de façon uniforme dans les notices bibliographiques. Prenez par exemple les pratiques actuelles concernant le «rôle» des personnes par rapport à une œuvre, une expression, une manifestation ou un document. Bien sûr, les règles de catalogage permettent l'utilisation de certains codes de fonction comme «rédacteur», «illustrateur», etc. et le format MARC 21 permet une grande variété de codes. Mais la plupart des bibliothèques ne les utilisent que dans des cas spéciaux ou pas du tout. Les relations sont souvent codées en «langue naturelle» et sont donc invisibles. Used by permission of William Denton

Efforts de recherche à partir de 2011 Les champs en texte libre des notices MARC contiennent une foule de données non-structurées que l’on peut extraire à l’aide de machines sémantiques. Nos efforts actuels à OCLC Research sont axés là-dessus. Fouille de données / machines sémantiques : extraction d’entités nommées et de relations qui se trouvent cachées dans les champs en texte libre des notices bibliographiques

Efforts de recherche à partir de 2011 L’exposition des entités et de leurs relations sur le web est un autre domaine d’intérêt. Schema.org est une initiative des grands moteurs de recherche sur Internet, qui propose un schéma de micro-données permettant aux robots d’indexation de mieux repérer les informations pertinentes dans les pages indexées. Les notices bibliographiques de WorldCat ont toutes été transposées en schema.org afin de fournir les données de titres et d’auteurs aux robots de Google et Bing. Mais schema.org ne permet pas d’exprimer tous les niveaux FRBR. Schema.org ne connait que 2 niveaux: CreativeWork et Product. C’est pourquoi le groupe W3C Schema Bib Extend cherche à proposer des ajouts au schéma de Schema.org. BIBFrame aussi ne distingue que 2 niveaux: work/instance. OCLC est impliqué dans BIBFrame et dans W3C Schema Bib Extend. Grâce à sa vaste base de données, OCLC peut contribuer à la modélisation avec des expérimentations pratiques. Efforts de modélisation des données liées FRBR et Schema.org W3C Schema Bib Extend Community Group BIBFRAME (Bibliothèque du Congrès)

Voici un exemple d’une notice bibliographique de WorldCat avec sa version en Schema.org.

On reconnaît par exemple le champ Schema On reconnaît par exemple le champ Schema.org pour l’auteur (schema: author) et vous pouvez voir qu’un numéro VIAF a été rempli dans ce champs, avec un URI qui renvoie à la page VIAF de Baudelaire.

Et voici la page VIAF de Baudelaire, qui rassemble toutes les données fournies par les notices d’autorité des différentes bibliothèques nationales. Cette page contient à son tour des liens qui renvoient vers d’autres ressources sur Baudelaire, comme par exemple l’article Wikipedia. Nous nous trouvons en plein Web de données.

Pour réaliser la promesse du Web des données Entités et liens doivent être non-ambigus et explicités Maintenir des notices d’autorité pour les entités importantes : personnes, œuvres, etc. (VIAF, work-authorities) Identifiants URI pour les personnes (ISNI), les œuvres, etc. Exprimer et codifier les liens entre les entités Pour réaliser la promesse du Web de données, les entités les plus importantes , comme l’auteur et son oeuvre, doivent être identifiées sans ambiguïté et reliées très explicitement avec des identifiants URI. Les notices d’autorité peuvent donc jouer un rôle essentiel dans le Web de données.

A propos des URI Objectif : renforcer la présence/visibilité des bibliothèques sur le Web => les ressources bibliographiques ont besoin d’identifiants URI Relation entre work-id, manifestation-id et oclc-record-id ? En tant qu’agrégateur, OCLC joue un rôle de pivot qui relie les autorités gérées par les bibliothèques. Example : VIAF. Il s’agit donc de préparer les données bibliographiques et de les exposer sur le Web de manière à ce que leur potentiel puisse être réalisé sur le Web. Et OCLC peut et veut jouer un rôle de pivot dans tout ça.

Quelques observations pour RDA Codifier les entités importantes (QUOI, QUI, OÙ, QUAND) dans des notices d’autorité Gérer les liens entre les éléments de description et les notices d’autorité par identifiant numérique/URI Codifier la langue de catalogage, les règles suivies (RDA, Afnor, AACR2, etc.), pas d’abréviations, moins de texte non-structuré… Je suis arrivée à la fin de ma présentation – et je voudrais terminer avec quelques observations concernant RDA – le sujet de cette journée. De ce qui précède, il découle qu’on doit surtout codifier les données bibliographiques à l’aide de notices d’autorité et qu’on doit surtout éviter les champs en texte libre. Nous avons besoin d'encoder les données de manière à ce qu’elles puissent être réutilisées par des machines, pas seulement en fonction des utilisateurs finaux.

Quelques observations pour RDA MAIS… il faut balancer l’effort humain. La possibilité d’appliquer des techniques informatiques pour extraire les entités nommées des millions de notices bibliographiques et les relier entre elles est pleine de promesses. Les agrégateurs de métadonnées comme OCLC et l’ABES ont un rôle à jouer pour transformer les notices en triplets et un rôle de pivot pour relier les entités avec les autorités. MAIS, le message le plus important c’est peut-être bien celui de ne pas trop vouloir encoder ! Après tout les machines sont plus précises et plus rapides. On a vu qu’il existe des possibilités d’extraire les entités nommées des millions de notices bibliographiques et de les relier entre-elles. On a vu le rôle de pivot que les grands agrégateurs peuvent jouer pour préparer les données bibliographiques pour le Web de données. La pratique du catalogage doit donc tirer parti de ces avantages.

Titia van der Werf Titia.vanderwerf@oclc.org Questions? 33 33 33