Des autorités aux autorités enrichies : vers une liaison automatique sémantiquement contrôlée aux autorités Sudoc Collaboration Abes/Lirmm dans le cadre du TGE Adonis Jabes 2010
Equipe Projet Equipe de recherche Graphik du LIRMM – Equipe de recherche en informatique (UM2, CNRS, INRIA) – Domaine : Représentation des connaissances et les raisonnements (branche de l’intelligence artificielle) – Spécificité : approche « réseau sémantique » – Collaboration avec l’ABES : Michel Chein, Michel Leclère ABES – Christophe Bonnefond – Yann Nicolas – Olivier Rousseaux
Contexte de la collaboration : Appel à projets Adonis : plate-forme d’accès unifié aux données Verrous technologiques et scientifiques – Unification des formats des méta-données => utilisation de RDF(S) – Unification des vocabulaires de description des méta-données Classes et Propriétés => Définition d’ontologies Entités individuelles => Pb de l’identification d’entité
Présentation Objectif général : Identifier des co-références à la même entité individuelle dans deux notices bibliographiques Reconnaître dans différentes notices bibliographiques des réfèrences au même document, même auteur, même sujet… Principe général : Utiliser la base d’autorités du Sudoc comme standard de référencement de ces entités – Reconnaître dans une notice des entités référencées dans la base d’autorités du Sudoc pour ajouter dans cette notice l’identifiant Sudoc de cette entité : la liaison Objectif du projet : définir un service d’identification d’autorités Autorités Sudoc Entités référencées dans une notice … … Autorités Sudoc
La liaison aux autorités : les différentes approches Liaison manuelle – Soit un « terme » et un « type d’autorité », on recherche dans les formes retenues ou rejetées les autorités correspondantes – Pour chaque autorité, on propose les informations de la notice d’autorités et des notices biblios liées – L’annotateur sélectionne l’autorité « la plus pertinente » ou décide d’en créer une nouvelle Liaison automatique par mesures de proximité – Soit quelques attributs (ex. nom, prénom, dates pour les personnes) sur l’autorité recherchée – Pour chaque autorité, une mesure de « proximité » aux attributs correspondants de l’autorité est calculée – Le système sélectionne l’autorité « la plus proche » (avec seuil minimal)
Approche « Connaissance » Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle 1.Représenter le SUDOC en RDF(S) 2.Construire une base d’autorités enrichies 3.Définir des opérateurs de liaison sémantique aux autorités
Définition d’une ontologie formelle pour les connaissances du Sudoc Fondée sur le modèle FRBRoo 1.0 (2009) -Modélisation riche de l’univers bibliographique intégrant les modèles FRBR et CIDOC CRM Formalisée en RDFS Etendue pour : – Représenter des propriétés spécifiques sous-propriétés de propriétés FRBRoo – Séparer les entités conceptuelles des données les référençant Un titre vs. une chaîne de caractères lue sur la couverture – Représenter des propriétés associées aux notices (date, origine, sources…) en plus de celles associées aux entités
Transformation des notices Unimarc en annotation RDF : exemple d’autorité Personne Fiche Sudoc « brute » support à l’indexation 001A$ : B$ : $t11:43: D$ : U$0utf8 001X$ C$S##$a0$b1$c0 012E$S##$ab 028A$S#1$40y$dChristian$aBernard 037F$S##$aDessinateur de bandes dessinées 047M$S##$aHépatite virale C ; ça craint ! / Dr Léo Py, Christian Bernard, 2003 Fiche Sudoc interprétable par un utilisateur No notice : XXXXXX36Vedette Nom de personne Forme retenue : Bernard, Christian Forme savante ou à valeur internationale Pays : France Langues : français Notes : Dessinateur de bandes dessinées Sources : Hépatite virale C ; ça craint ! / Dr Léo Py, Christian Bernard, 2003 Annotation sémantique support aux raisonnements (vision simplifiée RDF) Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr Notes langue «Dessinateur… » « Hépatite… / Dr. Léo Py, Christian Bernard» Sources Pays : FR pays
Approche « Connaissance » Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle 1.Représenter le SUDOC en RDF 2.Construire une base d’autorités enrichies Explicitant les connaissances présentes dans les notices d’autorité Les enrichissant par des inférences exploitant les liens aux notices bibliographiques 3.Définir des opérateurs de liaison sémantique aux autorités
Les outils de l’enrichissement Règles d’inférences Si connaissance observée alors ajouter nouvelle connaissance – Exemple Fusion des entités liées à la même autorité – Deux entités de même type repérées par le même identifiant sont identiques Manifestation :Personne: thématique sujet Matière : responsable
Une notice d’autorité Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue
Explicitation des connaissances internes à un attribut Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue
Explicitation des connaissances internes à un attribut Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom
Intégration des connaissances bibliographiques Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43Manifestation : aPropos Langue : fr langue titre auteur date Personne:Notice : 15 identifiéPar 2003 Personne:Notice : 36 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière :Notice : 87 identifiéPar
Fusion des entités Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43Manifestation : aPropos Langue : fr langue titre auteur date Personne:Notice : 15 identifiéPar 2003 Personne:Notice : 36 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière :Notice : 87 identifiéPar
Fusion des entités Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43Manifestation : aPropos Langue : fr langue titre auteur date Personne:Notice : 15 identifiéPar 2003 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière :Notice : 87 identifiéPar
Enrichissement par inférences Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43Manifestation : aPropos Langue : fr langue titre auteur date Personne:Notice : 15 identifiéPar 2003 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière :Notice : 87 identifiéPar ManifestationPersonne thématique sujet Matière : responsable
Enrichissement par inférences Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43Manifestation : aPropos Langue : fr langue titre auteur date Personne:Notice : 15 identifiéPar 2003 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière :Notice : 87 identifiéPar thématique ManifestationPersonne thématique sujet Matière : responsable
Obtention d’un autorité enrichie Notice : 36Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Personne : co-auteur « Léo» nom « Christian» prénom
Approche « Connaissance » Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle 1.Représenter le SUDOC en RDF 2.Construire une base de descripteurs sémantiques des autorités Sudoc 3.Définir des opérateurs de liaison sémantique aux autorités 1.Identification par raisonnement des attributs à comparer 2.Sélection des autorités par requêtage sur la base des descripteurs 3.Contrôle de la cohérence globale du rapprochement des attributs
Outil pour l’identification des attributs à comparer Définition d’un schéma de sélection par type d’autorité Partie obligatoire : les connaissances pour lesquelles une correspondance forte doit exister avec l’autorité enrichie La partie obligatoire sélectionne des autorités candidates Partie additionnelle : les connaissances qui renforceront ou affaibliront les rapprochements aux autorités candidates La partie additionnelle permet d’ordonner les autorités candidates Exemple : schéma pour les personnes Personne : Langue : langue nom prénom Sujet : Manifestation : rôle thématique forme date Liaison 1
Identification des attributs à comparer Enrichissement préalable de la nouvelle notice Thèse : directeur «Modelisation… » titre auteur Personne: Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique Personne: co-auteur Liaison 1
Identification des attributs Thèse : directeur «Modelisation… » titre auteur Personne: Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique co-auteur Appariement du schéma de sélection Liaison 1
Requête de sélection obtenue Thèse : directeur «Modelisation… » titre auteur Personne: Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique co-auteur Identification des attributs Appariement du schéma de sélection Liaison 1 Personne: « Bernard» nom « Christian» prénom Notice : ? aPropos
Thèse : directeur «Modelisation… » titre auteur Personne: Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique co-auteur Identification des attributs Appariement du schéma de sélection Critère de classement obtenu Liaison 1 Personne: directeur « Artificial Intelligence » thématique Matière: forme Thèse : Notice : ? aPropos
Recherche des autorités candidates Recherche des notices qui satisfont la requête de sélection Liaison 2 Personne: « Bernard» nom « Christian» prénom Notice : ? aPropos
Recherche des autorités candidates Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelliigence artificielle» formeRejetée « Machines Intelligentes» Liaison 2
Classement des autorités La partie additionnelle est utilisée comme critère de classement des autorités sélectionnés – On mesure le coût de la transformation de l’autorité enrichie pour qu’elle satisfasse la partie additionnelle – L’utilisation de mesures de proximité entre données à apparier permet d’affiner le classement Notice : ? aPropos Personne: directeur « Artificial Intelligence » thématique Matière: forme Thèse : Liaison 2
Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes» Classement des autorités Liaison 2
Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes» Classement des autorités Liaison 2
Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée directeur Thèse : Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes» Liaison 2
Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes» directeur Thèse : Le second est privilégié Classement des autorités Liaison 2
Contrôle de la cohérence des liaisons Utilisation de contraintes sur les relations entre autorités – Exemple : deux co-auteurs doivent avoir des dates, des langues… cohérentes Sélection de combinaisons cohérentes d’autorités – En fonction des connaissances contenues dans les autorités enrichies sélectionnées – Privilégiant les autorités les mieux classées Exemple : – Si «Jean Petit», [a11, a41, a35] «Christian Bernard», [a55, a36] (a11,a55) et (a41,a55) et (a41,a36) co-auteurs incohérents – Renvoyer («Jean Petit»,«Christian Bernard»), [(a11, a36),(a35,a55),(a35,a36)] Liaison 3
Travail en cours Poursuite du travail de formalisation et transformation des différentes notices Définition des règles d’enrichissement Définition du schéma pour chaque type d’autorité Expérimentations pour affiner les critères de rapprochement
Perspectives Définition de correspondances avec d’autres ontologies (Dublin Core, Bibo…) pour faciliter l’intégration de notices externes Introduire le service d’identification d’autorité lors du catalogage Extension à des procédures de gestion de la qualité des autorités – Suppression des doublons – Identification d’erreurs de liaison