Conduire un projet de numérisation Sylvain Machefert 12 MARS
2 Contexte Objectifs Étapes Facteurs Technique Conduire un projet de numérisation
Le contexte CC-BY-SA // Manfrys // FlickrFlickr
4 Un sujet d'actualité Le contexte Sujet d'actualité et de surcroît « brûlant » en matière de bibliothéconomie, la numérisation ne laisse pas de susciter maints commentaires Conduire un projet de numérisation /
5 Les bibliothèques numériques Le contexte ● Corpus de documents, le plus souvent du domaine public, numérisés et disponibles en ligne ● Développées principalement par les bibliothèques ● Volumétries très variables ● Qualité très variable ● Qualité du contenu ● Qualité de la présentation
6 Projet Gutenberg Le contexte ● Projet bénévole lancé en 1971 ● ouvrages ● Vérification manuelle g
7 Gallica Le contexte ● Lancé par la BnF en 1997 ● 1 million de documents ● livres ● fascicules de périos ● Mode texte et image ● Documents sous droits ● Depuis 2007 ● livres
8 Wikisource Le contexte ● Projet frère de Wikipedia, lancé en 2003 ● Relecture par des bénévoles ● Ouvrages du domaine public (plusieurs dizaines de milliers)
9 Google Books Le contexte ● Lancé en décembre 2004 ● 10 millions d'ouvrages numérisés ● 1,5 millions du domaine public ● 2 millions en partenariat avec les éditeurs ● Un accueil mitigé ● € de dommages et intérêts à La Martinière (déc. 2009) ● ~ 20 bibliothèques partenaires Le téléchargement dans Google Books
Les objectifs CC-BY-SA // Multimotyl // Wikimedia CommonsWikimedia Commons
11 Diffuser Les objectifs ● Document aisément reproductible ● Palliatif intéressant pour les ouvrages difficilement communicables ● Ne nécessite pas de matériel spécifique (≠ microfiches) ● Non exclusif
12 Valoriser Les objectifs ● Mise en avant sur un site Internet ● Diffusion élargie ● Moissonnage par des bibliothèques d'envergure ● intégration dans des projets externes aux bibliothèques – Flickr Commons Flickr Commons – Wikimedia Commons Wikimedia Commons
13 Préserver Les objectifs ● Limite les manipulations des originaux ● pérennité des supports numériques
Les facteurs CC-BY // Cat & Nat // FlickrFlickr
15 Type de document Les facteurs ● Forme de l'objet ● Texte ou graphique ● Imprimé ou manuscrit ● Couleur / Noir et blanc ● Contenu ● Texte ● Formulaire ● Niveau de structuration
16 Format du document Les facteurs ● Taille (A4, A3, format spécifique...) ● Couleur ● Papier ● Pagination ● Automatisation ● Choix du format de sortie (multipage ?)
17 Volume Les facteurs ● Méthode et coût ● Automatisation, sous-traitance ● OCR et recherche plein texte (plutôt qu'indexation ?) ● Gestion des transferts vers le prestataire ● Ressources disponibles en interne ● Stockage des documents numériques
18 Homogénéité du fonds Les facteurs ● Formats différents ● Méthode de scannage à adapter ? ● Qualité de l'OCR sur un corpus hétérogène ? ● Coût ● Documents de nature différente ● Pertinence du traitement dans un seul projet ?
19 État des documents Les facteurs ● Choix du scanner et de la méthode ● Traitement sur place ● Création d'un atelier ● Main d'œuvre dédiée
20 Aspects juridiques Les facteurs « Les opérations de numérisation de documents ne confèrent à la bibliothèque aucun droit de propriété littéraire et artistique sur les œuvres ainsi reproduites. » ● En France : domaine public 70 ans après la mort de l'auteur ● Exceptions pour les créateurs « morts pour la France »
21 Coût Les facteurs ● 15 à 75 centimes par page ● 60 à 75 % du coût en main d'œuvre ● Ne pas négliger les coûts induits en local ● Sélection des documents ● Préparation des trains de numérisation ● Contrôle qualité
Aspects techniques CC-BY // Dolarz // FlickrFlickr
23 Modes de numérisation Aspects techniques Idéal : une combinaison des deux numérisations
24 OCR Aspects techniques ● Reconnaissance optique de caractères ● Taux de reconnaissance > 99% pour des textes propres ● Plus compliqué sur du document ancien ou manuscrit
25 ICR Aspects techniques ● Reconnaissance intelligente de caractères ● Mécanisme d'apprentissage ● Plus adapté aux manuscrits
26 L 'expérience reCAPTCHA Aspects techniques SourceOCRreCAPTCHA
27 Résolution Aspects techniques ● Se mesure en point par pouce ● 1 pouce = 2,54 cm ● 1 pouce = 1 inch ● Résolutions standards (BnF, 2008) : ● Fichiers de conservation : 300 dpi ● Fichiers de diffusion : 150 dpi ● Fichier de visualisation : 72 dpi
28 Formats d'images Aspects techniques
29 Couleurs Aspects techniques ● Noir & Blanc ● Niveau de gris ● Couleurs ● Échantillonage (bits par pixel) ● 1 bit → 2 couleurs (noir et blanc) ● 2 bits → 4 couleurs ou niveaux de gris ● 8 bits → 256 couleurs ou niveaux de gris ● 24 bits → 16 millions de couleurs (vraies couleurs)
30 Métadonnées EXIF ● Exchangeable Image File ● Dernière version en 2002 (2.2) ● Standard de fait ● Produite par un appareil photo ou ajoutées a posteriori ● Décrit : ● Résolution, dimension, orientation de l'image ● Date et heure de la prise de vue ● Informations sur l'appareil (fabricant, type, réglages) ● Coordonnées géographiques Aspects techniques CC-BY-SA // YellowShark // Wikimedia CommonsWikimedia Commons
31 Métadonnées IPTC-IIM ● International Press and Telecommunications Council Information Interchange Model ● Utilisé dès 1994 par Adobe ● Métadonnées descriptives : ● Titre ● Auteur ● Agence ●... Aspects techniques
32 XMP ● eXtensible Metadata Platform ● Créé par Adobe en 2001 ● Basé sur XML / Dublin Core, IPTC-IIM et EXIF ● Encapsulable dans des fichiers JPG, TIFF, DNG, PDF Aspects techniques
33 PDF ● Format initié par Adobe ● Standard de fait, norme ISO depuis 2008 ● Restitution à l'identique ● Texte + Image ● PDF/A ● Version dédiée à l'archivage ● Plus limitée ● Pas de sécurisation Aspects techniques
34 Autres formats ● PostScript (.ps) ● Initié par Adobe (1982) ● Utilisé dans le domaine de l'édition ● Djvu (.djvu,.djv) ● Initié par AT&T Research (1996) ● Alternative au PDF ● Utilisé par le projet Wikisource entre autres Aspects techniques
CC-BY-SA // Sémhur // Wikimedia CommonsWikimedia Commons Étapes du projet
36 La numérisation ● Définir les objectifs de la numérisation ● Sélectionner le fonds à traiter ● Fonds préexistant ou sélection d'un sous-corpus ● Importance de l'homogénéité de l'ensemble ● S'assurer des contraintes législatives ● Répartir les rôles Étapes du projet
37 La numérisation ● Définir les questions techniques ● Résolution ● Format ● OCR ● Métadonnées ● Support de livraison ● Définir une règle de nommage ● Contrôler la qualité des documents produits ● Archiver les documents Étapes du projet
38 La diffusion ● Choisir ce qui doit être diffusé ● Choisir la manière de diffuser ● Via un outil interne ● Via un site web externe ● Si on diffuse via un outil interne, s'assurer de : ● Son ouverture ● Son interopérable ● Son accessibilité Étapes du projet
MERCI u- bordeaux3.fr symac Inspiré du support de cours de Claire Scopsi CNAM / INTD