La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Mettre en place un projet de numérisation – Sylvain Machefert –

Présentations similaires


Présentation au sujet: "Mettre en place un projet de numérisation – Sylvain Machefert –"— Transcription de la présentation:

1 Mettre en place un projet de numérisation – Sylvain Machefert – 22 04 2011

2 Contexte CC-BY-SA // Manfrys // FlickrFlickr

3 Sujet d'actualité et de surcroît « brûlant » en matière de bibliothéconomie, la numérisation ne laisse pas de susciter maints commentaires Conduire un projet de numérisation / 2002 199220052010 Contexte Un sujet d'actualité

4 ● Corpus de documents, le plus souvent du domaine public, numérisés et disponibles en ligne ● Développées principalement par les bibliothèques ● Volumétries très variables ● Qualité très variable – Qualité du contenu – Qualité de la présentation Les bibliothèques numériques

5 Projet Gutenberg ● Projet bénévole lancé en 1971 ● 33 000 ouvrages ● Vérification manuelle http://www.gutenberg.or g

6 Gallica ● Lancé par la BnF en 1997 ● 1 million de documents – 150 000 livres – 700 000 fascicules de périodiques ● Mode texte et image ● Documents sous droits – Depuis 2007 – 20 000 livres http://gallica.bnf.fr /

7 Wikisource ● Projet frère de Wikipedia, lancé en 2003 ● Ouvrages du domaine public (plusieurs dizaines de milliers) ● Partenariat avec la BnF ● Désaccord avec Gallimard (informations)informations http://fr.wikisource.org

8 Google Books ● Lancé en décembre 2004 ● 15 millions d'ouvrages numérisés – 1,5 millions du domaine public – 2 millions en partenariat avec les éditeurs ● Un accueil mitigé chez les professionnels – 300 000 € de dommages et intérêts à La Martinière (déc. 2009) – ~ 20 bibliothèques partenaires http://books.google.fr/ Le téléchargement dans Google Books

9 Europeana ● Lancé en novembre 2008 ● 15 millions de documents disponibles ● Agrège les contenus de 1 500 institutions http://europeana.eu/

10 Des initiatives locales : BNSA ● Initiative de la région ● 90 000 documents ● 15 millions de documents disponibles http://bnsa.patrimoines.aquitaine.fr/

11 CC-BY-NC-SA // Kathelinejeanpierre.ca // FlickrFlickr Quantitatif : avantage Google Plus, plus vite et moins cher que tout le monde Qualitatif : avantage Google Presque aussi bien que tout le monde Accès : avantage Google Plus rapide, plus efficace, plus « pratique », plus central Source : Olivier ErtzscheidOlivier Ertzscheid Un avis sur la numérisation de masse

12 Objectifs CC-BY-SA // Multimotyl // Wikimedia CommonsWikimedia Commons

13 Diffuser ● Document aisément reproductible ● Palliatif intéressant pour les ouvrages difficilement communicables ● Ne nécessite pas de matériel spécifique (≠ microfiches) ● Non exclusif

14 Valoriser ● Mise en avant sur un site Internet ● Diffusion élargie – Moissonnage par des bibliothèques d'envergure – intégration dans des projets externes aux bibliothèques – Flickr Commons Flickr Commons – Wikimedia Commons Wikimedia Commons

15 Préserver ● Limite les manipulations des originaux ● Pérennité des supports numériques

16 Facteurs CC-BY // Cat & Nat // FlickrFlickr

17 Type de document ● Forme de l'objet – Texte ou graphique – Imprimé ou manuscrit – Couleur / Noir et blanc ● Contenu – Texte – Formulaire – Niveau de structuration

18 Format du document ● Taille (A4, A3, format spécifique...) ● Couleur ● Papier ● Pagination – Automatisation – Choix du format de sortie (multipage ?)

19 Volume ● Méthode et coût – Automatisation, sous-traitance ● OCR et recherche plein texte (plutôt qu'indexation ?) ● Gestion des transferts vers le prestataire ● Ressources disponibles en interne ● Stockage des documents numériques

20 Homogénéité du fonds ● Formats différents – Méthode de scannage à adapter ? – Qualité de l'OCR sur un corpus hétérogène ? – Coût ● Documents de nature différente – Pertinence du traitement dans un seul projet ?

21 État des documents ● Choix du scanner et de la méthode ● Traitement sur place – Création d'un atelier – Main d'œuvre dédiée

22 Coût ● 15 à 75 centimes par page (très variable) ● 60 à 75 % du coût en main d'œuvre ● Ne pas négliger les coûts induits en local – Sélection des documents – Préparation des trains de numérisation – Contrôle qualité

23 Questions légales CC-BY // Lnanimatt // FlickrFlickr

24 24 « Les opérations de numérisation de documents ne confèrent à la bibliothèque aucun droit de propriété littéraire et artistique sur les œuvres ainsi reproduites. » http://www.culture.gouv.fr/culture/mrt/numerisation/fr/dll/juridi.html

25 25 Le droit moral ● Droit de divulgation ● Droit de paternité ● Droit au respect de l'œuvre ● Droit au repentir CC-BY // Midgefrazel // FlickrFlickr

26 26 Les droits patrimoniaux ● Droits de reproduction ● Droits de représentation CC-BY-NC-SA // France.Diplomatie // FlickrFlickr

27 27 L'auteur jouit, sa vie durant, du droit exclusif d'exploiter son œuvre sous quelque forme que ce soit et d'en tirer un profit pécuniaire. Au décès de l'auteur, ce droit persiste au bénéfice de ses ayants droit pendant l'année civile en cours et les soixante- dix années qui suivent. Art. L.123-1 du code de la propriété intellectuelle

28 28 Creative Commons BY Attribution NC Non Commercial ND No Derivative SA Share Alike CC-BY-SA // Arnij // FlickrFlickr

29 CC-BY // Dolarz // FlickrFlickr Questions techniques

30 Modes de numérisation Idéal : une combinaison des deux numérisations

31 OCR ● Reconnaissance optique de caractères ● Taux de reconnaissance > 99% pour des textes propres ● Plus compliqué sur du document ancien ou manuscrit http://gallica.bnf.fr/ark:/12148/bpt6k56800101.texte.f7 http://gallica.bnf.fr/ark:/12148/bpt6k56800101.f7

32 ICR ● Reconnaissance intelligente de caractères ● Mécanisme d'apprentissage ● Plus adapté aux manuscrits Technique

33 L'expérience reCAPTCHA SourceOCRreCAPTCHA

34 Résolution ● Se mesure en point par pouce – 1 pouce = 2,54 cm – 1 pouce = 1 inch ● Résolutions standards (BnF, 2008) : – Fichiers de conservation : 300 dpi – Fichiers de diffusion : 150 dpi – Fichier de visualisation : 72 dpi

35 Couleurs ● Noir & Blanc ● Niveau de gris ● Couleurs ● Échantillonage (bits par pixel) – 1 bit → 2 couleurs (noir et blanc) – 2 bits → 4 couleurs ou niveaux de gris – 8 bits → 256 couleurs ou niveaux de gris – 24 bits → 16 millions de couleurs (vraies couleurs) Technique

36 Métadonnées EXIF ● Exchangeable Image File ● Dernière version en 2002 (2.2) ● Standard de fait ● Produite par un appareil photo ou ajoutées a posteriori ● Décrit : – Résolution, dimension, orientation de l'image – Date et heure de la prise de vue – Informations sur l'appareil (fabricant, type, réglages) – Coordonnées géographiques CC-BY-SA // YellowShark // Wikimedia CommonsWikimedia Commons Technique

37 Métadonnées IPTC-IIM ● International Press and Telecommunications Council Information Interchange Model ● Utilisé dès 1994 par Adobe ● Métadonnées descriptives : – Titre – Auteur – Agence –... Technique

38 XMP ● eXtensible Metadata Platform ● Créé par Adobe en 2001 ● Basé sur XML / Dublin Core, IPTC-IIM et EXIF ● Encapsulable dans des fichiers JPG, TIFF, DNG, PDF

39 Du matériel spécifique

40 OAI - PMH ● Format d'échange basé sur XML ● Fourniture des données en Dublin Core ● Protocole très simple – Informations sur un serveur Informations sur un serveur – Liste des enregistrements Liste des enregistrements ● Nécessite d'avoir des urls pérennes

41 Mise en ligne

42 42 Une étape obligatoire ● Pour répondre à nos décideurs / financeurs ● Pour répondre à nos usagers ● Pour rencontrer un nouveau public CC-BY-SA // Roulex_45 // Wikimedia CommonsWikimedia Commons

43 43 Priorités ● Ouverture ● Interopérabilité ● Accessibilité Libre de droits // Rundvald // Wikimedia CommonsWikimedia Commons

44 Dissémination des contenus (via OAI-PMH)

45 CC-BY // SophieA // FlickrFlickr Choix des outils ● Libre / Propriétaire ● Local / Hébergé ● Full-web ou pas

46 Consultation des documents

47

48 Mise en ligne BM Toulouse Sur son site ● Logiciel libre : Greenstone (unesco) ● Application web ● Classement par collections http://numerique.bibliotheque.toulouse.fr Sur Flickr ● Projet The Commons ● Dissémination du contenu ● 920 images http://www.flickr.com/photos/bibliothequedetoulouse/

49 BM Lille ● Logiciel libre : SDX ● Application web http://numerique.bibliotheque.bm-lille.fr

50 Mise en ligne BM Fréjus ● Hébergement chez Arkhenum ● Numérisation des archives d'un journal local ● Numérisation PDF / Texte http://www1.arkhenum.fr/bm_frejus_le_var/

51 Mise en ligne Université Rennes 2 ● Logiciel libre : Omeka ● Application web ● Plugins variés : ● Serveur OAI ● Géolocalisation ● Visualisation http://bibnum.univ-rennes2.fr

52 Valorisation des contenus

53 Étapes du projet

54 La numérisation ● Définir les objectifs de la numérisation ● Sélectionner le fonds à traiter – Fonds préexistant ou sélection d'un sous- corpus – Importance de l'homogénéité de l'ensemble – S'assurer des contraintes législatives ● Répartir les rôles

55 ● Définir les questions techniques – Résolution – Format – OCR – Métadonnées – Support de livraison ● Définir une règle de nommage ● Contrôler la qualité des documents produits ● Archiver les documents La numérisation

56 La diffusion ● Choisir ce qui doit être diffusé ● Choisir la manière de diffuser – Via un outil interne – Via un site web externe ● Si on diffuse via un outil interne, s'assurer de : – Son ouverture – Son interopérable – Son accessibilité

57 CC-BY-NC-ND // Spencer.Lattimer // FlickrFlickr première page, CC-BY // Joshua Keller // FlickrFlickr


Télécharger ppt "Mettre en place un projet de numérisation – Sylvain Machefert –"

Présentations similaires


Annonces Google