Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
projet de numérisation
28 AVRIL Mettre en place un projet de numérisation Sylvain Machefert
2
Numérisation // Médiaquitaine // 28-04-2010
[[1]] Contexte [[2]] Objectifs [[3]] Facteurs [[4]] Aspects légaux Numérisation // Médiaquitaine //
3
Numérisation // Médiaquitaine // 28-04-2010
[[5]] Aspects techniques [[6]] La mise en ligne [[7]] Rappel des étapes Numérisation // Médiaquitaine //
4
1 Contexte CC-BY-SA // Manfrys // Flickr
5
Un sujet d'actualité Bulletin d'information de l'ABF 1992
Sujet d'actualité et de surcroît « brûlant » en matière de bibliothéconomie, la numérisation ne laisse pas de susciter maints commentaires Conduire un projet de numérisation / 2002 Bulletin d'information de l'ABF 1992 1971 : début du projet 1992 2005 2010 Contexte
6
Les bibliothèques numériques
Corpus de documents, le plus souvent du domaine public, numérisés et disponibles en ligne Développées principalement par les bibliothèques Volumétries très variables Qualité très variable Qualité du contenu Qualité de la présentation Bulletin d'information de l'ABF 1992 Contexte
7
Projet bénévole lancé en 1971 30 000 ouvrages Vérification manuelle
Projet Gutenberg Projet bénévole lancé en 1971 ouvrages Vérification manuelle Bulletin d'information de l'ABF 1992 Contexte
8
700 000 fascicules de périodiques Mode texte et image
Gallica Lancé par la BnF en 1997 1 million de documents livres fascicules de périodiques Mode texte et image Documents sous droits Depuis 2007 livres Bulletin d'information de l'ABF 1992 Contexte
9
Projet frère de Wikipedia, lancé en 2003
Wikisource Projet frère de Wikipedia, lancé en 2003 Ouvrages du domaine public (plusieurs dizaines de milliers) Partenariat avec la BnF Désaccord avec Gallimard (informations) Bulletin d'information de l'ABF 1992 Contexte
10
10 millions d'ouvrages numérisés 1,5 millions du domaine public
Google Books Lancé en décembre 2004 10 millions d'ouvrages numérisés 1,5 millions du domaine public 2 millions en partenariat avec les éditeurs Un accueil mitigé chez les professionnels € de dommages et intérêts à La Martinière (déc ) ~ 20 bibliothèques partenaires Bulletin d'information de l'ABF 1992 Le téléchargement dans Google Books Contexte
11
Un avis sur la numérisation de masse
Quantitatif : avantage Google ⟶ Plus, plus vite et moins cher que tout le monde Qualitatif : avantage Google ⟶ Presque aussi bien que tout le monde Accès : avantage Google ⟶ Plus rapide, plus efficace, plus « pratique », plus central Source : Olivier Ertzscheid CC-BY-NC-SA // Kathelinejeanpierre.ca // Flickr
12
2 Les objectifs CC-BY-SA // Multimotyl // Wikimedia Commons
13
Document aisément reproductible
Diffuser Document aisément reproductible Palliatif intéressant pour les ouvrages difficilement communicables Ne nécessite pas de matériel spécifique (≠ microfiches) Non exclusif Objectifs
14
Mise en avant sur un site Internet Diffusion élargie
Valoriser Mise en avant sur un site Internet Diffusion élargie Moissonnage par des bibliothèques d'envergure intégration dans des projets externes aux bibliothèques Flickr Commons Wikimedia Commons Objectifs
15
⚠ Préserver Limite les manipulations des originaux
Pérennité des supports numériques Objectifs
16
3 Les facteurs CC-BY // Cat & Nat // Flickr
17
Niveau de structuration
Type de document Forme de l'objet Texte ou graphique Imprimé ou manuscrit Couleur / Noir et blanc Contenu Texte Formulaire Niveau de structuration Facteurs
18
Taille (A4, A3, format spécifique ...) Couleur Papier Pagination
Format du document Taille (A4, A3, format spécifique ...) Couleur Papier Pagination Automatisation Choix du format de sortie (multipage ?) Facteurs
19
Automatisation, sous-traitance
Volume Méthode et coût Automatisation, sous-traitance OCR et recherche plein texte (plutôt qu'indexation ?) Gestion des transferts vers le prestataire Ressources disponibles en interne Stockage des documents numériques Facteurs
20
Méthode de scannage à adapter ?
Homogénéité du fonds Formats différents Méthode de scannage à adapter ? Qualité de l'OCR sur un corpus hétérogène ? Coût Documents de nature différente Pertinence du traitement dans un seul projet ? Facteurs
21
Choix du scanner et de la méthode Traitement sur place
État des documents Choix du scanner et de la méthode Traitement sur place Création d'un atelier Main d'œuvre dédiée Facteurs
22
15 à 75 centimes par page (très variable)
Coût 15 à 75 centimes par page (très variable) 60 à 75 % du coût en main d'œuvre Ne pas négliger les coûts induits en local Sélection des documents Préparation des trains de numérisation Contrôle qualité Facteurs
23
4 Aspects légaux CC-BY // Lnanimatt // Flickr
24
« Les opérations de numérisation de documents ne confèrent à la bibliothèque aucun droit de propriété littéraire et artistique sur les œuvres ainsi reproduites. »
25
Le droit moral Droit de divulgation Droit de paternité
Droit au respect de l'œuvre Droit au repentir CC-BY // Midgefrazel // Flickr
26
Les droits patrimoniaux
Droits de reproduction Droits de représentation CC-BY-NC-SA // France.Diplomatie // Flickr
27
L'auteur jouit, sa vie durant, du droit exclusif d'exploiter son œuvre sous quelque forme que ce soit et d'en tirer un profit pécuniaire. Au décès de l'auteur, ce droit persiste au bénéfice de ses ayants droit pendant l'année civile en cours et les soixante-dix années qui suivent. Art. L du code de la propriété intellectuelle
28
Creative Commons BY NC ND SA Attribution Non Commercial No Derivative
Share Alike CC-BY-SA // Arnij // Flickr
29
5 Aspects techniques CC-BY // Dolarz // Flickr
30
Modes de numérisation Idéal : une combinaison des deux numérisations
Mode texte Mode image + Donne du sens au contenu Permet l'indexation, la recherche Restitution du document original à l'identique - Plus cher Nécessite d'avoir des outils performants Limite les possibilités en terme d'usage Technique
31
Reconnaissance optique de caractères
OCR Reconnaissance optique de caractères Taux de reconnaissance > 99% pour des textes propres Plus compliqué sur du document ancien ou manuscrit Technique
32
Reconnaissance intelligente de caractères Mécanisme d'apprentissage
ICR Reconnaissance intelligente de caractères Mécanisme d'apprentissage Plus adapté aux manuscrits Technique
33
L 'expérience reCAPTCHA
Source OCR reCAPTCHA Technique
34
Se mesure en point par pouce 1 pouce = 2,54 cm 1 pouce = 1 inch
Résolution Se mesure en point par pouce 1 pouce = 2,54 cm 1 pouce = 1 inch Résolutions standards (BnF, 2008) : Fichiers de conservation : 300 dpi Fichiers de diffusion : 150 dpi Fichier de visualisation : 72 dpi Technique
35
Échantillonage (bits par pixel) 1 bit → 2 couleurs (noir et blanc)
Noir & Blanc Niveau de gris Couleurs Échantillonage (bits par pixel) 1 bit → 2 couleurs (noir et blanc) 2 bits → 4 couleurs ou niveaux de gris 8 bits → 256 couleurs ou niveaux de gris 24 bits → 16 millions de couleurs (vraies couleurs) Technique
36
Exchangeable Image File Dernière version en 2002 (2.2)
Métadonnées EXIF Exchangeable Image File Dernière version en 2002 (2.2) Standard de fait Produite par un appareil photo ou ajoutées a posteriori Décrit : Résolution, dimension, orientation de l'image Date et heure de la prise de vue Informations sur l'appareil (fabricant, type, réglages) Coordonnées géographiques CC-BY-SA // YellowShark // Wikimedia Commons Technique
37
Métadonnées descriptives : Titre Auteur Agence ...
Métadonnées IPTC-IIM International Press and Telecommunications Council Information Interchange Model Utilisé dès 1994 par Adobe Métadonnées descriptives : Titre Auteur Agence ... Technique
38
eXtensible Metadata Platform Créé par Adobe en 2001
XMP eXtensible Metadata Platform Créé par Adobe en 2001 Basé sur XML / Dublin Core, IPTC-IIM et EXIF Encapsulable dans des fichiers JPG, TIFF, DNG, PDF Technique
39
6 La mise en ligne CC-BY // Arnoldius // Wikimedia Commons
40
Une étape obligatoire Pour répondre à nos décideurs / financeurs
Pour répondre à nos usagers Pour rencontrer un nouveau public CC-BY-SA // Roulex_45 // Wikimedia Commons
41
Priorités Ouverture Interopérabilité Accessibilité
Libre de droits // Rundvald // Wikimedia Commons
42
OAI - PMH Format d'échange basé sur XML Fourniture des données en Dublin Core Protocole très simple Informations sur un serveur Liste des enregistrements Nécessite d'avoir des urls pérennes
43
Choix des outils Libre / Propriétaire Local / Hébergé Full-web ou pas
CC-BY // SophieA // Flickr
44
BM Toulouse Sur son site Sur Flickr
Logiciel libre : Greenstone (unesco) Application web Classement par collections Sur Flickr Projet The Commons Dissémination du contenu 920 images Mise en ligne
45
BM Lille Logiciel libre : SDX Application web
46
BM Fréjus Hébergement chez Arkhenum
Numérisation des archives d'un journal local Numérisation PDF / Texte Mise en ligne
47
Université Rennes 2 Logiciel libre : Omeka Application web
Plugins variés : Serveur OAI Géolocalisation Visualisation Mise en ligne
48
7 Étapes du projet CC-BY-SA // Sémhur // Wikimedia Commons
49
Définir les objectifs de la numérisation
Sélectionner le fonds à traiter Fonds préexistant ou sélection d'un sous-corpus Importance de l'homogénéité de l'ensemble S'assurer des contraintes législatives Répartir les rôles Étapes
50
Définir les questions techniques Résolution Format OCR Métadonnées
La numérisation Définir les questions techniques Résolution Format OCR Métadonnées Support de livraison Définir une règle de nommage Contrôler la qualité des documents produits Archiver les documents Étapes
51
Choisir ce qui doit être diffusé Choisir la manière de diffuser
La diffusion Choisir ce qui doit être diffusé Choisir la manière de diffuser Via un outil interne Via un site web externe Si on diffuse via un outil interne, s'assurer de : Son ouverture Son interopérable Son accessibilité Étapes
52
Inspiré du support de cours de Claire Scopsi
sous licence Creative Commons BY SA MERCI Inspiré du support de cours de Claire Scopsi (INTD-CNAM) symac
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.