AlgoDoublons : un service de détection de doublons d’autorité

Slides:



Advertisements
Présentations similaires
Gestion de la concurrence avec Entity Framework Développement d’application avec base de données Chapitre 23 Hugo St-Louis – Automne 2015.
Advertisements

Catalog fonctionne sur vos données Catalog est préconfiguré pour fonctionner directement avec les données – WinBooks Accounting – WinBooks Logistics –
GCstar Gestionnaire de collections personnelles Christian Jodar (Tian)
QuickPlace de LOTUS Logiciel générateur de SITE WEB : Installé sur un serveur (grenet), Permet de créer / gérer / utiliser un site privé, De donner des.
Gestion des PJ Service National d'Enregistrement Dossier Unique.
CINI – Li115 1 Semaine 9 Algorithmes de tri ● Introduction ● Tri à bulle ● - principe ● - algorithme ● - efficacité ● Tri par sélection ● - principe, algorithme,
KOSMOS 1 Communiquer et publier de l’information Module 4 1.Transmettre des informations par les services des rubriques 2.Animer un blog 3.Notifier des.
Mode d’emploi TÉLÉINSCRIPTION. D ES T ÉLÉ - SERVICES À LA T ÉLÉ - INSCRIPTION TINSCRIPTIONS OBJECTIFS : pour les parents d’élèves :  Prendre connaissance.
Notre site Internet Un outil d'information au service de tous
TMS session pratique Session pratique pour utilisateurs des associations.
AMUE – SIFAC Intégration Fichier Mouvements BDF
21/10/2017 L’organisation et la gestion des fichiers sur le site collaboratif MartineCochet 2SitePleiadeGestionFichier.
Fonds de pension RREGOP
I- ANALYSE DU BESOIN / Plan
Téléchargement de fichiers
Exploitation de logiciels :
Rechercher des articles et des sites web
Le suivi évaluation : de quoi s'agit-il et à quoi cela sert-il ?
abes Présentation du Sudoc
L’utilisation des formulaires pour un exemplarisateur
AlgoLiens : un nouveau service de "détection d'absence de liens 5XX, 60X 7XX dans les notices" pour les catalogueurs du Sudoc Description Formation pour.
Présentation du site
AlgoLiens : prise en main personnalisée
abes Données agence bibliographique de l’enseignement supérieur
Identifiant de messagerie
De WinIBW à Colodus… pour un responsable de Centre Régional
Profils d’emplois JT du 24 septembre 2001
abes Dédoublonnage Dédoublonnage
Asynchronous Javascript And Xml
Et la vie lycéenne Vous présentent.
IdRef V2 Description Public Intervenants
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
Gestion du cours Aissa Boulmerka.
Les outils de contrôle des données Partie 2
Gestion du compte et Méthodes d’inscription
4.4 Tests D’hypothèses sur une moyenne
Direction du système d’information et de la stratégie numérique
Mise en correspondance des logins entre PRONOTE et ATRIUM
Formation du 03/02/14.
Partager la propriété d’un dépôt HAL
Création de notices bibliographiques
Gestion des photos Organisation du disque dur, Navigation
CountrySTAT / FENIX Aperçu globale de l’Editeur DSD dans la nouvelle plateforme CountrySTAT FORMATION DES POINTS FOCAUX SUR LE SYSTEME CountrySTAT/FENIX.
Présentation de la base Frantext
La création de notices d’autorité.
Consignes pour le catalogage dans le Sudoc
Modification de l’ORS dans le 2D : Gestion des moyens
Comment personnaliser Microsoft SharePoint Site web
La gestion des habilitations par le partenaire
La thèse Quelques conseils
Données.
AIAC GEET-12 Année : Régulation Industrielle: Programme M.BAHATTI.
La création de notices d’exemplaires
Promotion d’IdRef IdRef - Autorités Coopérations bases interopérantes
Metadata Editor. Éditeur de métadonnées. Le catalogage dans Alma (4)
Transition vers l’assignation automatique des stages à la résidence
Plateforme CountrySTAT Aperçu global de la préparation des tableaux dans la nouvelle plateforme CountrySTAT FORMATION DES POINTS FOCAUX SUR LE SYSTEME.
Objectifs Pourquoi utiliser EndNote ? Créer une base de données EndNote.
Les erreurs de mesure Projet d’Appui au renforcement des capacités
Tableaux croisés dynamiques sous Excel et Tableau Software :
Présentation du site Martine Cochet.
Collaborateurs & managers
nouvelle interface de visualisation et de correction des liens
1. 2 TABLEUR: Calc mars 19 Myriam Boullanger - Bureautique - Calc Suite Gratuite Libre Office Dans le navigateur (Internet Explorer, Google Chrome, FireFox,…),
Aline Le Provost (service autorités & référentiels)
Impact Evaluation 4 Peace March 2014, Lisbon, Portugal 1 Echantillonage pour une Evaluation d’Impact Latin America and the Caribbean’s Citizen Security.
ScienceDirect Guide d’utilisation de la base de données : ScienceDirect Pr R. EL OUAHBI.
DONNÉE DE BASE QM Manuel de formation. Agenda 2  Introduction  Objectif de la formation  Données de base QM: Caractéristique de contrôle Catalogue.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Initiation à la recherche documentaire
Transcription de la présentation:

AlgoDoublons : un service de détection de doublons d’autorité Description Formation pour la prise en main d'AlgoDoublons, générateur de rapports de doublons d’autorité Public Correspondant Autorité Correspondant catalogage Coordinateur Sudoc Intervenants François Mistral, responsable IdRef-Autorités modérateur : Olivier Kosinski, service formation et documentation La formation débutera à 11h, merci de votre patience… Attention : La session sera enregistrée afin d'être diffusée sur notre plateforme d'autoformation http://moodle.abes.fr. En rejoignant cette session, vous consentez à ces enregistrements.

plan L’algorithme d’AlgoDoublons Générer un rapport 25/09/2014 plan L’algorithme d’AlgoDoublons Générer un rapport Engager votre chantier

L’algorithme d’AlgoDOUBLONs

Fonctionnement (1) AlgoDoublons est un web service de génération de rapport de doublons d’autorité potentiels. La source primaire est VIAF* On extrait chaque mois tous les clusters VIAF qui contiennent plus d’un identifiant IdRef. VIAF effectue ses calculs de clusterisation sur les données que l’on trouve dans les notices d’autorité et biblio de toutes ses sources. La clusterisation consiste à créer des grappes avec les notices qui se réfèrent à une même entité. Donc sur une masse considérable et riche de données. Mais 1) les données fournies par les sources peuvent être fausses, maigres, etc. 2) VIAF est paramétré pour éviter de placer plusieurs notices d’une même source dans un cluster. Souvent il préférera créer un autre cluster. Garder à l’esprit donc que si les calculs et les résultats sont puissants, les données sont ce qu’elles sont : imparfaites. *A ce mois, VIAF contient 8465 clusters contenant au moins 2 PPN. On peut estimer que c’est une bonne proportion des doublons (et anomalies) de notre base. Mais ce n’est pas la totalité de ceux-ci. Il faudra donc compléter cette source par d’autres moyens de détection. On pense ici aux méthodes et outils développées dans le cadre de Qualinca. Ainsi on peut considérer que dans le cadre d’une V2, AlgoDoublons intégrera la détection d’anomalies par ces outils. Mais ce n’est pas pour demain. De plus, dans le cadre de la démarche qualité, la notion de doublons qui concerne les notices pourra être étendue aux points d’accès. Dès lors que 2 points d’accès sont identiques, ils sont en doublon et il est nécessaire d’ajouter des qualificatifs pour les distinguer. Cette extension n’est pas encore implémentée ici. *en septembre 2017, VIAF contient 8465 clusters contenant au moins 2 PPN. On peut estimer que c’est une bonne proportion des doublons (et anomalies) de notre base. Mais ce n’est pas la totalité de ceux-ci.

Fonctionnement (2) Appeler le web service par url : http://www.idref.fr/AlgoDoublons? Compléter par des paramètres : rechercher par établissement &iln= rechercher par établissement &rcr= rechercher à partir d’un jour &date=* rechercher par type de document &typaut=* ** ces deux paramètres sont de portée limitée car : 95% doublons concernent des Personnes le volume pour chaque ILN est de taille réduite Exemple complet : http://www.idref.fr/AlgoDoublons?iln=xxx&rcr=xxxxxxxxx&date=xxxxxxxx&typaut=x Valeur du paramètre typaut : a = personne, b = collectivité, c = géo, e = famille, f = titre, h = auteur/titre Ce paramètre est toutefois limité car 95% doublons concernent des Personnes Ce périmètre est à la fois celui des autorités que nous gérons en propre et celui des autorités que VIAF recueille : donc hors Rameau et Fmesh !

Exemple 1 cibler un iln Je souhaite détecter : - tous les doublons - créés par l'ILN 004 (paramètre iln=4) www.idref.fr/AlgoDoublons?iln=4

Exemple 2 Cibler une période et un rcr Je souhaite détecter : - tous les doublons créés par la Bibliothèque Diderot Education (Lyon) (paramètre rcr=693872301) - modifiés depuis le 1er mai 2016 (paramètre date=20160501) www.idref.fr/AlgoDoublons?rcr=693872301&date=20160501

Exemple 3 Cibler un type d'autorité Je souhaite détecter : les Collectivités en doublon (paramètre typaut=b) créés par la bibliothèque de l'Institut de France (paramètre iln=96) www.idref.fr/AlgoDoublons?typaut=b&iln96

Extrait d’un rapport dynamique A partir des données mensuelles de VIAF, les paires de PPN sont extraites. Les 2 identifiants sont classés par ordre de grandeur : la notice la plus récente (=la plus grande) est le doublon à fusionner ; l’établissement dernier modificateur doit intervenir sur cette notice * Les requêtes WinIBW « che » et « bal » sont préécrites. *le n°RCR de l'établissement dernier modificateur se trouve dans WinIBW en haut de la notice [modification : RCR]"

Attention aux mots AlgoDoublons restitue les paires de notices présentes dans les clusters VIAF. Ces notices sont des doublons dans les clusters VIAF… …mais peuvent ne pas être des doublons dans IdRef ! Rester vigilant et respecter les bonnes pratiques en matière de dédoublonnage.

Rappel des bonnes pratiques Le principe = douter jusqu’à détention d’une preuve ; s’assurer que l’on a bien affaire à un doublon : 2 notices décrivant la même entité. ETAPE 1 = vérifier soigneusement les 2 notices d’autorité et les notices bibliographiques liées Et retourner dans VIAF au besoin Ces règles ont été énoncées dans le Jecours sur le dédoublonnage des autorités de décembre 2015 : http://moodle.abes.fr/course/view.php?id=93

Rappel des bonnes pratiques ETAPE 2 = poursuivre la fusion par le balayage d’index Bal per … Bal org … Bal vma … Bal ati … * * Ces règles ont été énoncées dans le Jecours sur le dédoublonnage des autorités de décembre 2015.

Rappel des bonnes pratiques ETAPE 3 = S’abstenir de fusionner si le doute est encore permis si après cet examen attentif. Mieux vaut un doublon potentiel connu que deux identités mêlées dans une même autorité. Ces règles ont été énoncées dans le Jecours sur le dédoublonnage des autorités de décembre 2015.

Attention aux résultats Que trouve-t-on dans les rapports d’AlgoDoublons ? 1 % de paires de notices indécidables 99 % d’anomalies dont 90 % de vrais doublons 9 % d’autres cas (erreurs de catalogage, notices incomplètes, faux liens) dans ces 10 %, on trouve des cas difficiles ! Les tests effectués par les collègues ont permis de rejeter d’autres hypothèses, notamment : les résultats contiennent des erreurs de VIAF Les résultats contiennent des anomalies contenues dans les autres notices du cluster impactant de façon trompeuse nos données, et sans possibilité d’une intervention curative.

Exemples Vrais doublons : che ppn 035139013 ou 068947399 Cas attendu et traitement classique par fusion Erreurs de catalogage : che ppn 130986550 ou 14526825X Surprise et temps de diagnostic avant traitement au cas par cas sur les notices d’autorité Faux liens : che PPN 070151822 ou 124098258 Surprise et temps de diagnostic avant traitement au cas par cas sur les notices d’autorité et biblio ! Les vrais doublons : che 035139013 ou 068947399 Les faux liens : che 070151822 ou 124098258

Générer un rapport dynamique

Principes La manipulation : une url dans un navigateur Ajouter des paramètres pour personnaliser la requête Le résultat : un fichier .csv À enregistrer * en local sur son poste** À modifier comme on veut (tri..) Pour servir de feuille de route *Attention au « 0……… » des PPN : format des cellules = Texte ! ** Le téléchargement du fichier peut varier en fonction de la configuration de l’ordinateur et du navigateur.

Extrait des résultats d’un rapport Le rapport dynamique peut être retravaillé dans un tableur : ajout / suppression de colonnes tri mise en forme

Données de gestion d’un rapport 1) Date et heure de génération du rapport dynamique 2) Url de génération du rapport dynamique 3) Intitulés des colonnes Un rapport a une durée de vie d’un mois car la mise à jour de VIAF est mensuelle.

Le manuel Se reporter à la documentation : http://documentation.abes.fr/sudoc/manuels/controle_bibliographique/algodoublons/index.html Accessible depuis la page Manuel du GM :

Engager VOTRE chantier

conseils Lancez-vous : générer votre rapport afin d’en prendre connaissance et de voir comment il fonctionne Quand vous modifiez une notice, vous devez aussi : Faire une relecture globale de la notice Vérifier la complétude et l’exactitude des données Vous pouvez informer l’ABES de l’avancée de vos corrections et nous solliciter.

prise en main Exercice : la ventilation des doublons par ILN Lancer www.idref.fr/AlgoDoublons?iln=votreiln Compter le nombre de doublons Renseigner le tableau partagé https://docs.google.com/spreadsheets/d/1u7ZUsvMCN6s4DPBD33jhKIPouciPspPdlWZeXugpNA4/edit?usp=sharing