Des autorités aux autorités enrichies : vers une liaison automatique sémantiquement contrôlée aux autorités Sudoc Collaboration Abes/Lirmm dans le cadre.

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

Treuil IRD Abdelwahed FSSM-Marrakech
La diffusion des métadonnées de la thèse
Le langage de requêtes SPARQL SPARQL Protocol And RDF Query Language
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Urbanisation de Systèmes d'Information
Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.
UML - Présentation.
Cours n°1ue304b (S. Sidhom) UE 304 b Cours_L2.documentation_n°1 Gestion des documents : Technologies de lInformation et de la Communication Par : Sahbi.
Rapport au Groupe stratégique Réunion du 16 novembre 2011 Groupe technique sur ladoption de RDA en France.
De nouveaux modèles de données pour les catalogues de bibliothèques Médiathèque de la Cité de la musique, Paris - France Patrice Verrier, Coordinateur.
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Métadonnées pour les thèses numériques françaises
Création de notices bibliographiques
Abes agence bibliographique de lenseignement supérieur Catalogage.
Estella Annoni, Franck Ravat, Olivier Teste, Gilles Zurfluh
Initiation au système d’information et aux bases de données
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Initiation au système d’information et aux bases de données
Chapitre 4 : la gestion électronique des documents
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Intégrer IdRef dans les applications documentaires de votre université. Pourquoi ? Comment ? Atelier JABES2011.
Les autorités Sudoc au-delà du Sudoc JABES Stratégie ABES Connecter des notices bibliographiques aux autorités Sudoc » Notamment les Personnes Quelles.
Web Sémantique: Le Relief Actuel
B2i Lycée Circulaire BO n°31 du 29/08/2013.
Introduction à la conception de Bases de Données Relationnelles
Autour des autorités Journées ABES 2012 Yann Nicolas.
OUVERTURE DES DONNÉES. Le projet d'établissement de l'ABES , p. 4.
Le Travail Collaboratif ...
La structuration et la représentation informatique de l'information
SYSTEMES D’INFORMATION
SCIENCES DE L ’INGENIEUR
MOT Éditeur de modèles de connaissances par objets typés
Un modèle sémantique pour linteropérabilité de systèmes dinformation Equipe Ingénierie informatique et base de données – Laboratoire LE2I Université de.
Web sémantique : Web de demain
1 Couplage dun langage de contrôle de formatage avec un système de formatage existant DEA ISC : 1 avril 2003 Fateh Boulmaiz
Présentation de larchive ouverte « ArchiveTématice » Colloque Technologies pour lapprentissage et léducation, Paris,
SUDOC (le catalogue des ouvrages, des thèses et des périodiques des bibliothèques françaises) Contenu Le catalogue du Système Universitaire de DOCumentation.
LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Approches Formelles en Systèmes d'information
Web sémantique Par Lydia Carine Mampais KI Bamba SISSOKO
Mediadix – Novembre 2013 Marie-Line GUILLAUMEE (BIU Sorbonne)
CONSTRUIRE SON DIAPORAMA
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
Intégration de schémas
Le langage Racket (Lisp)
Quiz Identification des manifestations et des items.
Web sémantique est pratique documentaire
Les épreuves du baccalauréat STG
Management de la qualité
N.Mellouli-Nauwynck & M.Lamolle1 Intégration de bases de données hétérogènes N.Mellouli-Nauwynck M.Lamolle.
Abes agence bibliographique de l’enseignement supérieur Consignes pour le catalogage dans le Sudoc.
Modélisation des documents: DTD et Schéma
Recherche d ’ information: application à la veille stratégique J.Link-Pezet Janvier 2001 DESS Siad.
Les menuiseries au cœur de la maquette numérique
Stage à Ontomantics Master Pro TILDE
1 Structure en MC Principes Stockage des données dans la mémoire volatile d’un ordinateur Problèmes Stockage temporaire «Petits» volumes de données Langages.
Savoir-être : Fréquenter le CDI
SUJET. Analyse du sujet -1- Eléments issus de la lecture du sujet Niveau : Discipline partenaire/ Collaboration : professeur Thème : Sujet : Production.
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
A L I M E N T A T I O N A G R I C U L T U R E E N V I R O N N E M E N T ProdInra en Web sémantique Esther Dzalé Y. Kaboré Sophie Aubin Hugues Leiser.
Introduction Module 1.
R ETOURS SUR LE PROJET DISTIL ET PERSPECTIVES 2011 Sylvie Ranwez Gérard Dray.
Démarche d’enseignement de l’APL : analyser
Modélisation des Actions Mécaniques Première sti2d
Les bases de données Séance 3 Construction du Modèle Conceptuel de Données.
ARIANE : Interopérabilité sémantique et accès aux sources d'information sur Internet Sylvain Aymard, Michel Joubert, Dominique Fieschi, Marius Fieschi.
Abes agence bibliographique de l’enseignement supérieur Traitement des documents spécifiques.
Transcription de la présentation:

Des autorités aux autorités enrichies : vers une liaison automatique sémantiquement contrôlée aux autorités Sudoc Collaboration Abes/Lirmm dans le cadre du TGE Adonis Jabes 2010

Equipe Projet Equipe de recherche Graphik du LIRMM – Equipe de recherche en informatique (UM2, CNRS, INRIA) – Domaine : Représentation des connaissances et les raisonnements (branche de l’intelligence artificielle) – Spécificité : approche « réseau sémantique » – Collaboration avec l’ABES : Michel Chein, Michel Leclère ABES – Christophe Bonnefond – Yann Nicolas – Olivier Rousseaux

Contexte de la collaboration : Appel à projets Adonis : plate-forme d’accès unifié aux données Verrous technologiques et scientifiques – Unification des formats des méta-données => utilisation de RDF(S) – Unification des vocabulaires de description des méta-données Classes et Propriétés => Définition d’ontologies Entités individuelles => Pb de l’identification d’entité

Présentation Objectif général : Identifier des co-références à la même entité individuelle dans deux notices bibliographiques Reconnaître dans différentes notices bibliographiques des réfèrences au même document, même auteur, même sujet… Principe général : Utiliser la base d’autorités du Sudoc comme standard de référencement de ces entités – Reconnaître dans une notice des entités référencées dans la base d’autorités du Sudoc pour ajouter dans cette notice l’identifiant Sudoc de cette entité : la liaison Objectif du projet : définir un service d’identification d’autorités Autorités Sudoc Entités référencées dans une notice … … Autorités Sudoc

La liaison aux autorités : les différentes approches Liaison manuelle – Soit un « terme » et un « type d’autorité », on recherche dans les formes retenues ou rejetées les autorités correspondantes – Pour chaque autorité, on propose les informations de la notice d’autorités et des notices biblios liées – L’annotateur sélectionne l’autorité « la plus pertinente » ou décide d’en créer une nouvelle Liaison automatique par mesures de proximité – Soit quelques attributs (ex. nom, prénom, dates pour les personnes) sur l’autorité recherchée – Pour chaque autorité, une mesure de « proximité » aux attributs correspondants de l’autorité est calculée – Le système sélectionne l’autorité « la plus proche » (avec seuil minimal)

Approche « Connaissance » Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle 1.Représenter le SUDOC en RDF(S) 2.Construire une base d’autorités enrichies 3.Définir des opérateurs de liaison sémantique aux autorités

Définition d’une ontologie formelle pour les connaissances du Sudoc Fondée sur le modèle FRBRoo 1.0 (2009) -Modélisation riche de l’univers bibliographique intégrant les modèles FRBR et CIDOC CRM Formalisée en RDFS Etendue pour : – Représenter des propriétés spécifiques sous-propriétés de propriétés FRBRoo – Séparer les entités conceptuelles des données les référençant Un titre vs. une chaîne de caractères lue sur la couverture – Représenter des propriétés associées aux notices (date, origine, sources…) en plus de celles associées aux entités

Transformation des notices Unimarc en annotation RDF : exemple d’autorité Personne Fiche Sudoc « brute » support à l’indexation 001A$ : B$ : $t11:43: D$ : U$0utf8 001X$ C$S##$a0$b1$c0 012E$S##$ab 028A$S#1$40y$dChristian$aBernard 037F$S##$aDessinateur de bandes dessinées 047M$S##$aHépatite virale C ; ça craint ! / Dr Léo Py, Christian Bernard, 2003 Fiche Sudoc interprétable par un utilisateur No notice : XXXXXX36Vedette Nom de personne Forme retenue : Bernard, Christian Forme savante ou à valeur internationale Pays : France Langues : français Notes : Dessinateur de bandes dessinées Sources : Hépatite virale C ; ça craint ! / Dr Léo Py, Christian Bernard, 2003 Annotation sémantique support aux raisonnements (vision simplifiée RDF) Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr Notes langue «Dessinateur… » « Hépatite… / Dr. Léo Py, Christian Bernard» Sources Pays : FR pays

Approche « Connaissance » Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle 1.Représenter le SUDOC en RDF 2.Construire une base d’autorités enrichies Explicitant les connaissances présentes dans les notices d’autorité Les enrichissant par des inférences exploitant les liens aux notices bibliographiques 3.Définir des opérateurs de liaison sémantique aux autorités

Les outils de l’enrichissement Règles d’inférences Si connaissance observée alors ajouter nouvelle connaissance – Exemple Fusion des entités liées à la même autorité – Deux entités de même type repérées par le même identifiant sont identiques Manifestation :Personne: thématique sujet Matière : responsable

Une notice d’autorité Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue

Explicitation des connaissances internes à un attribut Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue

Explicitation des connaissances internes à un attribut Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom

Intégration des connaissances bibliographiques Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43Manifestation : aPropos Langue : fr langue titre auteur date Personne:Notice : 15 identifiéPar 2003 Personne:Notice : 36 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière :Notice : 87 identifiéPar

Fusion des entités Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43Manifestation : aPropos Langue : fr langue titre auteur date Personne:Notice : 15 identifiéPar 2003 Personne:Notice : 36 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière :Notice : 87 identifiéPar

Fusion des entités Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43Manifestation : aPropos Langue : fr langue titre auteur date Personne:Notice : 15 identifiéPar 2003 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière :Notice : 87 identifiéPar

Enrichissement par inférences Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43Manifestation : aPropos Langue : fr langue titre auteur date Personne:Notice : 15 identifiéPar 2003 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière :Notice : 87 identifiéPar ManifestationPersonne thématique sujet Matière : responsable

Enrichissement par inférences Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43Manifestation : aPropos Langue : fr langue titre auteur date Personne:Notice : 15 identifiéPar 2003 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière :Notice : 87 identifiéPar thématique ManifestationPersonne thématique sujet Matière : responsable

Obtention d’un autorité enrichie Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Personne : co-auteur « Léo» nom « Christian» prénom

Approche « Connaissance » Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle 1.Représenter le SUDOC en RDF 2.Construire une base de descripteurs sémantiques des autorités Sudoc 3.Définir des opérateurs de liaison sémantique aux autorités 1.Identification par raisonnement des attributs à comparer 2.Sélection des autorités par requêtage sur la base des descripteurs 3.Contrôle de la cohérence globale du rapprochement des attributs

Outil pour l’identification des attributs à comparer Définition d’un schéma de sélection par type d’autorité Partie obligatoire : les connaissances pour lesquelles une correspondance forte doit exister avec l’autorité enrichie La partie obligatoire sélectionne des autorités candidates Partie additionnelle : les connaissances qui renforceront ou affaibliront les rapprochements aux autorités candidates La partie additionnelle permet d’ordonner les autorités candidates Exemple : schéma pour les personnes Personne : Langue : langue nom prénom Sujet : Manifestation : rôle thématique forme date Liaison 1

Identification des attributs à comparer Enrichissement préalable de la nouvelle notice Thèse : directeur «Modelisation… » titre auteur Personne: Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique Personne: co-auteur Liaison 1

Identification des attributs Thèse : directeur «Modelisation… » titre auteur Personne: Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique co-auteur Appariement du schéma de sélection Liaison 1

Requête de sélection obtenue Thèse : directeur «Modelisation… » titre auteur Personne: Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique co-auteur Identification des attributs Appariement du schéma de sélection Liaison 1 Personne: « Bernard» nom « Christian» prénom Notice : ? aPropos

Thèse : directeur «Modelisation… » titre auteur Personne: Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique co-auteur Identification des attributs Appariement du schéma de sélection Critère de classement obtenu Liaison 1 Personne: directeur « Artificial Intelligence » thématique Matière: forme Thèse : Notice : ? aPropos

Recherche des autorités candidates Recherche des notices qui satisfont la requête de sélection Liaison 2 Personne: « Bernard» nom « Christian» prénom Notice : ? aPropos

Recherche des autorités candidates Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelliigence artificielle» formeRejetée « Machines Intelligentes» Liaison 2

Classement des autorités La partie additionnelle est utilisée comme critère de classement des autorités sélectionnés – On mesure le coût de la transformation de l’autorité enrichie pour qu’elle satisfasse la partie additionnelle – L’utilisation de mesures de proximité entre données à apparier permet d’affiner le classement Notice : ? aPropos Personne: directeur « Artificial Intelligence » thématique Matière: forme Thèse : Liaison 2

Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes» Classement des autorités Liaison 2

Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes» Classement des autorités Liaison 2

Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée directeur Thèse : Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes» Liaison 2

Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes» directeur Thèse : Le second est privilégié Classement des autorités Liaison 2

Contrôle de la cohérence des liaisons Utilisation de contraintes sur les relations entre autorités – Exemple : deux co-auteurs doivent avoir des dates, des langues… cohérentes Sélection de combinaisons cohérentes d’autorités – En fonction des connaissances contenues dans les autorités enrichies sélectionnées – Privilégiant les autorités les mieux classées Exemple : – Si «Jean Petit», [a11, a41, a35] «Christian Bernard», [a55, a36] (a11,a55) et (a41,a55) et (a41,a36) co-auteurs incohérents – Renvoyer («Jean Petit»,«Christian Bernard»), [(a11, a36),(a35,a55),(a35,a36)] Liaison 3

Travail en cours Poursuite du travail de formalisation et transformation des différentes notices Définition des règles d’enrichissement Définition du schéma pour chaque type d’autorité Expérimentations pour affiner les critères de rapprochement

Perspectives Définition de correspondances avec d’autres ontologies (Dublin Core, Bibo…) pour faciliter l’intégration de notices externes Introduire le service d’identification d’autorité lors du catalogage Extension à des procédures de gestion de la qualité des autorités – Suppression des doublons – Identification d’erreurs de liaison