La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Conduire un projet de numérisation Sylvain Machefert 12 MARS 2 0 1 0.

Présentations similaires


Présentation au sujet: "Conduire un projet de numérisation Sylvain Machefert 12 MARS 2 0 1 0."— Transcription de la présentation:

1 Conduire un projet de numérisation Sylvain Machefert 12 MARS 2 0 1 0

2 2 Contexte Objectifs Étapes Facteurs Technique Conduire un projet de numérisation

3 Le contexte CC-BY-SA // Manfrys // FlickrFlickr

4 4 Un sujet d'actualité Le contexte Sujet d'actualité et de surcroît « brûlant » en matière de bibliothéconomie, la numérisation ne laisse pas de susciter maints commentaires Conduire un projet de numérisation / 2002 199220052010

5 5 Les bibliothèques numériques Le contexte ● Corpus de documents, le plus souvent du domaine public, numérisés et disponibles en ligne ● Développées principalement par les bibliothèques ● Volumétries très variables ● Qualité très variable ● Qualité du contenu ● Qualité de la présentation

6 6 Projet Gutenberg Le contexte ● Projet bénévole lancé en 1971 ● 30 000 ouvrages ● Vérification manuelle http://www.gutenberg.or g

7 7 Gallica Le contexte ● Lancé par la BnF en 1997 ● 1 million de documents ● 150 000 livres ● 700 000 fascicules de périos ● Mode texte et image ● Documents sous droits ● Depuis 2007 ● 20 000 livres http://gallica.bnf.fr/

8 8 Wikisource Le contexte ● Projet frère de Wikipedia, lancé en 2003 ● Relecture par des bénévoles ● Ouvrages du domaine public (plusieurs dizaines de milliers) http://fr.wikisource.org

9 9 Google Books Le contexte ● Lancé en décembre 2004 ● 10 millions d'ouvrages numérisés ● 1,5 millions du domaine public ● 2 millions en partenariat avec les éditeurs ● Un accueil mitigé ● 300 000 € de dommages et intérêts à La Martinière (déc. 2009) ● ~ 20 bibliothèques partenaires http://books.google.fr/ Le téléchargement dans Google Books

10 Les objectifs CC-BY-SA // Multimotyl // Wikimedia CommonsWikimedia Commons

11 11 Diffuser Les objectifs ● Document aisément reproductible ● Palliatif intéressant pour les ouvrages difficilement communicables ● Ne nécessite pas de matériel spécifique (≠ microfiches) ● Non exclusif

12 12 Valoriser Les objectifs ● Mise en avant sur un site Internet ● Diffusion élargie ● Moissonnage par des bibliothèques d'envergure ● intégration dans des projets externes aux bibliothèques – Flickr Commons Flickr Commons – Wikimedia Commons Wikimedia Commons

13 13 Préserver Les objectifs ● Limite les manipulations des originaux ● pérennité des supports numériques

14 Les facteurs CC-BY // Cat & Nat // FlickrFlickr

15 15 Type de document Les facteurs ● Forme de l'objet ● Texte ou graphique ● Imprimé ou manuscrit ● Couleur / Noir et blanc ● Contenu ● Texte ● Formulaire ● Niveau de structuration

16 16 Format du document Les facteurs ● Taille (A4, A3, format spécifique...) ● Couleur ● Papier ● Pagination ● Automatisation ● Choix du format de sortie (multipage ?)

17 17 Volume Les facteurs ● Méthode et coût ● Automatisation, sous-traitance ● OCR et recherche plein texte (plutôt qu'indexation ?) ● Gestion des transferts vers le prestataire ● Ressources disponibles en interne ● Stockage des documents numériques

18 18 Homogénéité du fonds Les facteurs ● Formats différents ● Méthode de scannage à adapter ? ● Qualité de l'OCR sur un corpus hétérogène ? ● Coût ● Documents de nature différente ● Pertinence du traitement dans un seul projet ?

19 19 État des documents Les facteurs ● Choix du scanner et de la méthode ● Traitement sur place ● Création d'un atelier ● Main d'œuvre dédiée

20 20 Aspects juridiques Les facteurs « Les opérations de numérisation de documents ne confèrent à la bibliothèque aucun droit de propriété littéraire et artistique sur les œuvres ainsi reproduites. » http://www.culture.gouv.fr/culture/mrt/numerisation/fr/dll/juridi.html ● En France : domaine public 70 ans après la mort de l'auteur ● Exceptions pour les créateurs « morts pour la France »

21 21 Coût Les facteurs ● 15 à 75 centimes par page ● 60 à 75 % du coût en main d'œuvre ● Ne pas négliger les coûts induits en local ● Sélection des documents ● Préparation des trains de numérisation ● Contrôle qualité

22 Aspects techniques CC-BY // Dolarz // FlickrFlickr

23 23 Modes de numérisation Aspects techniques Idéal : une combinaison des deux numérisations

24 24 OCR Aspects techniques ● Reconnaissance optique de caractères ● Taux de reconnaissance > 99% pour des textes propres ● Plus compliqué sur du document ancien ou manuscrit http://gallica.bnf.fr/ark:/12148/bpt6k56800101.texte.f7 http://gallica.bnf.fr/ark:/12148/bpt6k56800101.f7

25 25 ICR Aspects techniques ● Reconnaissance intelligente de caractères ● Mécanisme d'apprentissage ● Plus adapté aux manuscrits

26 26 L 'expérience reCAPTCHA Aspects techniques SourceOCRreCAPTCHA

27 27 Résolution Aspects techniques ● Se mesure en point par pouce ● 1 pouce = 2,54 cm ● 1 pouce = 1 inch ● Résolutions standards (BnF, 2008) : ● Fichiers de conservation : 300 dpi ● Fichiers de diffusion : 150 dpi ● Fichier de visualisation : 72 dpi

28 28 Formats d'images Aspects techniques http://fr.wikipedia.org/wiki/Image_num%C3%A9rique

29 29 Couleurs Aspects techniques ● Noir & Blanc ● Niveau de gris ● Couleurs ● Échantillonage (bits par pixel) ● 1 bit → 2 couleurs (noir et blanc) ● 2 bits → 4 couleurs ou niveaux de gris ● 8 bits → 256 couleurs ou niveaux de gris ● 24 bits → 16 millions de couleurs (vraies couleurs)

30 30 Métadonnées EXIF ● Exchangeable Image File ● Dernière version en 2002 (2.2) ● Standard de fait ● Produite par un appareil photo ou ajoutées a posteriori ● Décrit : ● Résolution, dimension, orientation de l'image ● Date et heure de la prise de vue ● Informations sur l'appareil (fabricant, type, réglages) ● Coordonnées géographiques Aspects techniques CC-BY-SA // YellowShark // Wikimedia CommonsWikimedia Commons

31 31 Métadonnées IPTC-IIM ● International Press and Telecommunications Council Information Interchange Model ● Utilisé dès 1994 par Adobe ● Métadonnées descriptives : ● Titre ● Auteur ● Agence ●... Aspects techniques

32 32 XMP ● eXtensible Metadata Platform ● Créé par Adobe en 2001 ● Basé sur XML / Dublin Core, IPTC-IIM et EXIF ● Encapsulable dans des fichiers JPG, TIFF, DNG, PDF Aspects techniques

33 33 PDF ● Format initié par Adobe ● Standard de fait, norme ISO depuis 2008 ● Restitution à l'identique ● Texte + Image ● PDF/A ● Version dédiée à l'archivage ● Plus limitée ● Pas de sécurisation Aspects techniques

34 34 Autres formats ● PostScript (.ps) ● Initié par Adobe (1982) ● Utilisé dans le domaine de l'édition ● Djvu (.djvu,.djv) ● Initié par AT&T Research (1996) ● Alternative au PDF ● Utilisé par le projet Wikisource entre autres Aspects techniques

35 CC-BY-SA // Sémhur // Wikimedia CommonsWikimedia Commons Étapes du projet

36 36 La numérisation ● Définir les objectifs de la numérisation ● Sélectionner le fonds à traiter ● Fonds préexistant ou sélection d'un sous-corpus ● Importance de l'homogénéité de l'ensemble ● S'assurer des contraintes législatives ● Répartir les rôles Étapes du projet

37 37 La numérisation ● Définir les questions techniques ● Résolution ● Format ● OCR ● Métadonnées ● Support de livraison ● Définir une règle de nommage ● Contrôler la qualité des documents produits ● Archiver les documents Étapes du projet

38 38 La diffusion ● Choisir ce qui doit être diffusé ● Choisir la manière de diffuser ● Via un outil interne ● Via un site web externe ● Si on diffuse via un outil interne, s'assurer de : ● Son ouverture ● Son interopérable ● Son accessibilité Étapes du projet

39 MERCI smachefert @ u- bordeaux3.fr symac Inspiré du support de cours de Claire Scopsi CNAM / INTD


Télécharger ppt "Conduire un projet de numérisation Sylvain Machefert 12 MARS 2 0 1 0."

Présentations similaires


Annonces Google