La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

projet de numérisation

Présentations similaires


Présentation au sujet: "projet de numérisation"— Transcription de la présentation:

1 projet de numérisation
28 AVRIL Mettre en place un projet de numérisation Sylvain Machefert

2 Numérisation // Médiaquitaine // 28-04-2010
[[1]] Contexte [[2]] Objectifs [[3]] Facteurs [[4]] Aspects légaux Numérisation // Médiaquitaine //

3 Numérisation // Médiaquitaine // 28-04-2010
[[5]] Aspects techniques [[6]] La mise en ligne [[7]] Rappel des étapes Numérisation // Médiaquitaine //

4 1 Contexte CC-BY-SA // Manfrys // Flickr

5 Un sujet d'actualité Bulletin d'information de l'ABF 1992
Sujet d'actualité et de surcroît « brûlant » en matière de bibliothéconomie, la numérisation ne laisse pas de susciter maints commentaires Conduire un projet de numérisation / 2002 Bulletin d'information de l'ABF 1992 1971 : début du projet 1992 2005 2010 Contexte

6 Les bibliothèques numériques
Corpus de documents, le plus souvent du domaine public, numérisés et disponibles en ligne Développées principalement par les bibliothèques Volumétries très variables Qualité très variable Qualité du contenu Qualité de la présentation Bulletin d'information de l'ABF 1992 Contexte

7 Projet bénévole lancé en 1971 30 000 ouvrages Vérification manuelle
Projet Gutenberg Projet bénévole lancé en 1971 ouvrages Vérification manuelle Bulletin d'information de l'ABF 1992 Contexte

8 700 000 fascicules de périodiques Mode texte et image
Gallica Lancé par la BnF en 1997 1 million de documents livres fascicules de périodiques Mode texte et image Documents sous droits Depuis 2007 livres Bulletin d'information de l'ABF 1992 Contexte

9 Projet frère de Wikipedia, lancé en 2003
Wikisource Projet frère de Wikipedia, lancé en 2003 Ouvrages du domaine public (plusieurs dizaines de milliers) Partenariat avec la BnF Désaccord avec Gallimard (informations) Bulletin d'information de l'ABF 1992 Contexte

10 10 millions d'ouvrages numérisés 1,5 millions du domaine public
Google Books Lancé en décembre 2004 10 millions d'ouvrages numérisés 1,5 millions du domaine public 2 millions en partenariat avec les éditeurs Un accueil mitigé chez les professionnels € de dommages et intérêts à La Martinière (déc ) ~ 20 bibliothèques partenaires Bulletin d'information de l'ABF 1992 Le téléchargement dans Google Books Contexte

11 Un avis sur la numérisation de masse
Quantitatif : avantage Google ⟶ Plus, plus vite et moins cher que tout le monde Qualitatif : avantage Google ⟶ Presque aussi bien que tout le monde Accès : avantage Google ⟶ Plus rapide, plus efficace, plus « pratique », plus central Source : Olivier Ertzscheid CC-BY-NC-SA // Kathelinejeanpierre.ca // Flickr

12 2 Les objectifs CC-BY-SA // Multimotyl // Wikimedia Commons

13 Document aisément reproductible
Diffuser Document aisément reproductible Palliatif intéressant pour les ouvrages difficilement communicables Ne nécessite pas de matériel spécifique (≠ microfiches) Non exclusif Objectifs

14 Mise en avant sur un site Internet Diffusion élargie
Valoriser Mise en avant sur un site Internet Diffusion élargie Moissonnage par des bibliothèques d'envergure intégration dans des projets externes aux bibliothèques Flickr Commons Wikimedia Commons Objectifs

15 ⚠ Préserver Limite les manipulations des originaux
Pérennité des supports numériques Objectifs

16 3 Les facteurs CC-BY // Cat & Nat // Flickr

17 Niveau de structuration
Type de document Forme de l'objet Texte ou graphique Imprimé ou manuscrit Couleur / Noir et blanc Contenu Texte Formulaire Niveau de structuration Facteurs

18 Taille (A4, A3, format spécifique ...) Couleur Papier Pagination
Format du document Taille (A4, A3, format spécifique ...) Couleur Papier Pagination Automatisation Choix du format de sortie (multipage ?) Facteurs

19 Automatisation, sous-traitance
Volume Méthode et coût Automatisation, sous-traitance OCR et recherche plein texte (plutôt qu'indexation ?) Gestion des transferts vers le prestataire Ressources disponibles en interne Stockage des documents numériques Facteurs

20 Méthode de scannage à adapter ?
Homogénéité du fonds Formats différents Méthode de scannage à adapter ? Qualité de l'OCR sur un corpus hétérogène ? Coût Documents de nature différente Pertinence du traitement dans un seul projet ? Facteurs

21 Choix du scanner et de la méthode Traitement sur place
État des documents Choix du scanner et de la méthode Traitement sur place Création d'un atelier Main d'œuvre dédiée Facteurs

22 15 à 75 centimes par page (très variable)
Coût 15 à 75 centimes par page (très variable) 60 à 75 % du coût en main d'œuvre Ne pas négliger les coûts induits en local Sélection des documents Préparation des trains de numérisation Contrôle qualité Facteurs

23 4 Aspects légaux CC-BY // Lnanimatt // Flickr

24 « Les opérations de numérisation de documents ne confèrent à la bibliothèque aucun droit de propriété littéraire et artistique sur les œuvres ainsi reproduites. »

25 Le droit moral Droit de divulgation Droit de paternité
Droit au respect de l'œuvre Droit au repentir CC-BY // Midgefrazel // Flickr

26 Les droits patrimoniaux
Droits de reproduction Droits de représentation CC-BY-NC-SA // France.Diplomatie // Flickr

27 L'auteur jouit, sa vie durant, du droit exclusif d'exploiter son œuvre sous quelque forme que ce soit et d'en tirer un profit pécuniaire. Au décès de l'auteur, ce droit persiste au bénéfice de ses ayants droit pendant l'année civile en cours et les soixante-dix années qui suivent. Art. L du code de la propriété intellectuelle

28 Creative Commons BY NC ND SA Attribution Non Commercial No Derivative
Share Alike CC-BY-SA // Arnij // Flickr

29 5 Aspects techniques CC-BY // Dolarz // Flickr

30 Modes de numérisation Idéal : une combinaison des deux numérisations
Mode texte Mode image + Donne du sens au contenu Permet l'indexation, la recherche Restitution du document original à l'identique - Plus cher Nécessite d'avoir des outils performants Limite les possibilités en terme d'usage Technique

31 Reconnaissance optique de caractères
OCR Reconnaissance optique de caractères Taux de reconnaissance > 99% pour des textes propres Plus compliqué sur du document ancien ou manuscrit Technique

32 Reconnaissance intelligente de caractères Mécanisme d'apprentissage
ICR Reconnaissance intelligente de caractères Mécanisme d'apprentissage Plus adapté aux manuscrits Technique

33 L 'expérience reCAPTCHA
Source OCR reCAPTCHA Technique

34 Se mesure en point par pouce 1 pouce = 2,54 cm 1 pouce = 1 inch
Résolution Se mesure en point par pouce 1 pouce = 2,54 cm 1 pouce = 1 inch Résolutions standards (BnF, 2008) : Fichiers de conservation : 300 dpi Fichiers de diffusion : 150 dpi Fichier de visualisation : 72 dpi Technique

35 Échantillonage (bits par pixel) 1 bit → 2 couleurs (noir et blanc)
Noir & Blanc Niveau de gris Couleurs Échantillonage (bits par pixel) 1 bit → 2 couleurs (noir et blanc) 2 bits → 4 couleurs ou niveaux de gris 8 bits → 256 couleurs ou niveaux de gris 24 bits → 16 millions de couleurs (vraies couleurs) Technique

36 Exchangeable Image File Dernière version en 2002 (2.2)
Métadonnées EXIF Exchangeable Image File Dernière version en 2002 (2.2) Standard de fait Produite par un appareil photo ou ajoutées a posteriori Décrit : Résolution, dimension, orientation de l'image Date et heure de la prise de vue Informations sur l'appareil (fabricant, type, réglages) Coordonnées géographiques CC-BY-SA // YellowShark // Wikimedia Commons Technique

37 Métadonnées descriptives : Titre Auteur Agence ...
Métadonnées IPTC-IIM International Press and Telecommunications Council Information Interchange Model Utilisé dès 1994 par Adobe Métadonnées descriptives : Titre Auteur Agence ... Technique

38 eXtensible Metadata Platform Créé par Adobe en 2001
XMP eXtensible Metadata Platform Créé par Adobe en 2001 Basé sur XML / Dublin Core, IPTC-IIM et EXIF Encapsulable dans des fichiers JPG, TIFF, DNG, PDF Technique

39 6 La mise en ligne CC-BY // Arnoldius // Wikimedia Commons

40 Une étape obligatoire Pour répondre à nos décideurs / financeurs
Pour répondre à nos usagers Pour rencontrer un nouveau public CC-BY-SA // Roulex_45 // Wikimedia Commons

41 Priorités Ouverture Interopérabilité Accessibilité
Libre de droits // Rundvald // Wikimedia Commons

42 OAI - PMH Format d'échange basé sur XML Fourniture des données en Dublin Core Protocole très simple Informations sur un serveur Liste des enregistrements Nécessite d'avoir des urls pérennes

43 Choix des outils Libre / Propriétaire Local / Hébergé Full-web ou pas
CC-BY // SophieA // Flickr

44 BM Toulouse Sur son site Sur Flickr
Logiciel libre : Greenstone (unesco) Application web Classement par collections Sur Flickr Projet The Commons Dissémination du contenu 920 images Mise en ligne

45 BM Lille Logiciel libre : SDX Application web

46 BM Fréjus Hébergement chez Arkhenum
Numérisation des archives d'un journal local Numérisation PDF / Texte Mise en ligne

47 Université Rennes 2 Logiciel libre : Omeka Application web
Plugins variés : Serveur OAI Géolocalisation Visualisation Mise en ligne

48 7 Étapes du projet CC-BY-SA // Sémhur // Wikimedia Commons

49 Définir les objectifs de la numérisation
Sélectionner le fonds à traiter Fonds préexistant ou sélection d'un sous-corpus Importance de l'homogénéité de l'ensemble S'assurer des contraintes législatives Répartir les rôles Étapes

50 Définir les questions techniques Résolution Format OCR Métadonnées
La numérisation Définir les questions techniques Résolution Format OCR Métadonnées Support de livraison Définir une règle de nommage Contrôler la qualité des documents produits Archiver les documents Étapes

51 Choisir ce qui doit être diffusé Choisir la manière de diffuser
La diffusion Choisir ce qui doit être diffusé Choisir la manière de diffuser Via un outil interne Via un site web externe Si on diffuse via un outil interne, s'assurer de : Son ouverture Son interopérable Son accessibilité Étapes

52 Inspiré du support de cours de Claire Scopsi
sous licence Creative Commons BY SA MERCI Inspiré du support de cours de Claire Scopsi (INTD-CNAM) symac


Télécharger ppt "projet de numérisation"

Présentations similaires


Annonces Google