Conduire un projet de numérisation Sylvain Machefert 12 MARS 2 0 1 0.

Slides:



Advertisements
Présentations similaires
Jean-René Caron Technicien, formation en ligne Ordre des conseillers en ressources humaines agréés Formation Via Introduction à la plateforme et meilleures.
Advertisements

1 Comité de suivi régional du SINP LR - 8 juin 2012 Comité technique du SINP LR Montpellier, 8 juin 2012.
Outils et scénarios d’édition collaborative en Haute École Étienne Vandeput Projet HETICE © CRIFA - ULg.
OpenArticles : Libérez votre savoir ! Mise en place d'un service libre et gratuit de dépôt et d'accès aux articles scientifiques David Larlet – Janvier.
4 domaines principaux d'activité Production Distribution Bibliothèque Assistance technique Assistance technique Services Audiovisuels Que faisons-nous?
Les profils du SEDA confection de profil avec Agape.
Donner du style à sa thèse (Word 2010) Sylvain Machefert – SCD Bordeaux 3 smachefert
L'OpenURL Une piste pour la valorisation des ressources électroniques ? Sylvain Machefert - 29/11/2007 CC-BY-SA // Sugree // FlickrFlickr.
Analyser un tableau avec un diaporama. Les droits de l'image ● Toutes les images ne sont pas libres de droits ● L'usage d'images non libres de droit est.
AVRIL Gestion de contenu // Wikipédia Sylvain Machefert.
1 Gestion Electronique de documents (GED) ✔ Définition Efficacité d'une entreprise dépend de la capacité à traiter et consulter les informations qu'elle.
La question sur corpus.
Mettre en place un projet de numérisation – Sylvain Machefert –
Que faire? La recherche découverte. Dans une recherche découverte Sensibilisation ; Discussion ; Préparation-projet ; Opération-activités ; Réflexion.
Réaliser un CD lecteur de salon (photos ou vidéos) pouvant être lu
Aspects Juridiques et Economiques de Logiciel
Recherche d’informations
Recherche Summon - HINARI (Module 3)
Devenez journaliste pendant la 1ère Guerre mondiale
Les ressources numériques de la BnF au service de l’éducation artistique et culturelle Dijon, Jeudi 13 octobre 2016.
JT12-RSI mars 1999 Délégation aux systèmes d'information
Wikimédia France et les institutions culturelles
MULTIMEDIA & INTERNET Enjeux et perspectives
LE PROJET D’ETABLISSEMENT CAARUD
La Bibliothèque numérique élève: Prisecariu mihaela classe – la Xe a professeur coordinateur: Bengescu otiliA.
Élise LEBOUCHER, responsable
Formation sur la publication des données de biodiversité dans le réseau GBIF et leur aptitude à être utilisées , édition 2011 Comment le DwC-A a changé.
Le commentaire de document(s)
MOT Éditeur de modèles de connaissances par objets typés
projet de numérisation
STAGE BASSIN Antibes/Valbonne Vendredi 10 février 2017
SP6 Cas d'usage & intégration 06/12/2016
D3 – Produire, traiter, exploiter et diffuser des documents numériques
PROTECTION LOGO / NOMS DE DOMAINE
Numérisation partielle
Droit à l’image et droit de l’image.
Daniel STROOBANTS – Formateur
Processus « Contrôler les subventions réglementaires» Harmonisation et simplification administrative – 11 mai CSS.
3- Nouvelles pages d’accueil
Trouver des thèses juridiques
GUIDE DE MISE EN ŒUVRE d’une PRESENTATION
Structuration du contenu
Catherine Cyrot - bibliothèques numériques - Cours 2
Programmation Android Première application Android
MPS Marchés Publics Simplifiés « dites- le nous une fois »
Module bibliothèques numériques : le format PDF
Approche réalisation d’un objet technique tout ou en partie
Utiliser PowerPoint dans le cadre des TPE
CHAPITRE 10 Temps et évolution chimique Cinétique et catalyse
Comment utiliser l’application ?
Zeendoc et les logiciels comptables
FORMATION POWERPOINT 2007/2010
Je clique sur l’icône Kiosk en page d’accueil de E-SIDOC sur le site du cdi : pour un accès découverte. Les revues.
Catherine Cyrot - bibliothèques numériques - Cours 5
Enquête sur la Communication des Missions Locales (octobre 2017) : état des lieux des actions, des moyens et des ressources Synthèse des résultats.
JDepend - Analyse de la qualité du code Java -
PRESENTATION CABINET La mission SIMUL’AUTO Entrer
Logiciel de présentation
Administrer le site des théâtres de Compiègne
Elles contiennent des informations autre que géométriques
Donnez votre avis ! Depuis votre smartphone, sur :
COMMENT REDIGER UNE BIBLIOGRAPHIE?
Formation « Utiliser un site Internet école »
Sur la base d’exemples, ce diaporama recense l’ensemble des
Economie Droit Management
Numériser des données astronomiques contemporaines
MOT Éditeur de modèles de connaissances par objets typés
L’harmonisation de la gestion différenciée
Les données structurées et leur traitement
Catherine Cyrot - bibliothèques numériques - cours 3
Transcription de la présentation:

Conduire un projet de numérisation Sylvain Machefert 12 MARS

2 Contexte Objectifs Étapes Facteurs Technique Conduire un projet de numérisation

Le contexte CC-BY-SA // Manfrys // FlickrFlickr

4 Un sujet d'actualité Le contexte Sujet d'actualité et de surcroît « brûlant » en matière de bibliothéconomie, la numérisation ne laisse pas de susciter maints commentaires Conduire un projet de numérisation /

5 Les bibliothèques numériques Le contexte ● Corpus de documents, le plus souvent du domaine public, numérisés et disponibles en ligne ● Développées principalement par les bibliothèques ● Volumétries très variables ● Qualité très variable ● Qualité du contenu ● Qualité de la présentation

6 Projet Gutenberg Le contexte ● Projet bénévole lancé en 1971 ● ouvrages ● Vérification manuelle g

7 Gallica Le contexte ● Lancé par la BnF en 1997 ● 1 million de documents ● livres ● fascicules de périos ● Mode texte et image ● Documents sous droits ● Depuis 2007 ● livres

8 Wikisource Le contexte ● Projet frère de Wikipedia, lancé en 2003 ● Relecture par des bénévoles ● Ouvrages du domaine public (plusieurs dizaines de milliers)

9 Google Books Le contexte ● Lancé en décembre 2004 ● 10 millions d'ouvrages numérisés ● 1,5 millions du domaine public ● 2 millions en partenariat avec les éditeurs ● Un accueil mitigé ● € de dommages et intérêts à La Martinière (déc. 2009) ● ~ 20 bibliothèques partenaires Le téléchargement dans Google Books

Les objectifs CC-BY-SA // Multimotyl // Wikimedia CommonsWikimedia Commons

11 Diffuser Les objectifs ● Document aisément reproductible ● Palliatif intéressant pour les ouvrages difficilement communicables ● Ne nécessite pas de matériel spécifique (≠ microfiches) ● Non exclusif

12 Valoriser Les objectifs ● Mise en avant sur un site Internet ● Diffusion élargie ● Moissonnage par des bibliothèques d'envergure ● intégration dans des projets externes aux bibliothèques – Flickr Commons Flickr Commons – Wikimedia Commons Wikimedia Commons

13 Préserver Les objectifs ● Limite les manipulations des originaux ● pérennité des supports numériques

Les facteurs CC-BY // Cat & Nat // FlickrFlickr

15 Type de document Les facteurs ● Forme de l'objet ● Texte ou graphique ● Imprimé ou manuscrit ● Couleur / Noir et blanc ● Contenu ● Texte ● Formulaire ● Niveau de structuration

16 Format du document Les facteurs ● Taille (A4, A3, format spécifique...) ● Couleur ● Papier ● Pagination ● Automatisation ● Choix du format de sortie (multipage ?)

17 Volume Les facteurs ● Méthode et coût ● Automatisation, sous-traitance ● OCR et recherche plein texte (plutôt qu'indexation ?) ● Gestion des transferts vers le prestataire ● Ressources disponibles en interne ● Stockage des documents numériques

18 Homogénéité du fonds Les facteurs ● Formats différents ● Méthode de scannage à adapter ? ● Qualité de l'OCR sur un corpus hétérogène ? ● Coût ● Documents de nature différente ● Pertinence du traitement dans un seul projet ?

19 État des documents Les facteurs ● Choix du scanner et de la méthode ● Traitement sur place ● Création d'un atelier ● Main d'œuvre dédiée

20 Aspects juridiques Les facteurs « Les opérations de numérisation de documents ne confèrent à la bibliothèque aucun droit de propriété littéraire et artistique sur les œuvres ainsi reproduites. » ● En France : domaine public 70 ans après la mort de l'auteur ● Exceptions pour les créateurs « morts pour la France »

21 Coût Les facteurs ● 15 à 75 centimes par page ● 60 à 75 % du coût en main d'œuvre ● Ne pas négliger les coûts induits en local ● Sélection des documents ● Préparation des trains de numérisation ● Contrôle qualité

Aspects techniques CC-BY // Dolarz // FlickrFlickr

23 Modes de numérisation Aspects techniques Idéal : une combinaison des deux numérisations

24 OCR Aspects techniques ● Reconnaissance optique de caractères ● Taux de reconnaissance > 99% pour des textes propres ● Plus compliqué sur du document ancien ou manuscrit

25 ICR Aspects techniques ● Reconnaissance intelligente de caractères ● Mécanisme d'apprentissage ● Plus adapté aux manuscrits

26 L 'expérience reCAPTCHA Aspects techniques SourceOCRreCAPTCHA

27 Résolution Aspects techniques ● Se mesure en point par pouce ● 1 pouce = 2,54 cm ● 1 pouce = 1 inch ● Résolutions standards (BnF, 2008) : ● Fichiers de conservation : 300 dpi ● Fichiers de diffusion : 150 dpi ● Fichier de visualisation : 72 dpi

28 Formats d'images Aspects techniques

29 Couleurs Aspects techniques ● Noir & Blanc ● Niveau de gris ● Couleurs ● Échantillonage (bits par pixel) ● 1 bit → 2 couleurs (noir et blanc) ● 2 bits → 4 couleurs ou niveaux de gris ● 8 bits → 256 couleurs ou niveaux de gris ● 24 bits → 16 millions de couleurs (vraies couleurs)

30 Métadonnées EXIF ● Exchangeable Image File ● Dernière version en 2002 (2.2) ● Standard de fait ● Produite par un appareil photo ou ajoutées a posteriori ● Décrit : ● Résolution, dimension, orientation de l'image ● Date et heure de la prise de vue ● Informations sur l'appareil (fabricant, type, réglages) ● Coordonnées géographiques Aspects techniques CC-BY-SA // YellowShark // Wikimedia CommonsWikimedia Commons

31 Métadonnées IPTC-IIM ● International Press and Telecommunications Council Information Interchange Model ● Utilisé dès 1994 par Adobe ● Métadonnées descriptives : ● Titre ● Auteur ● Agence ●... Aspects techniques

32 XMP ● eXtensible Metadata Platform ● Créé par Adobe en 2001 ● Basé sur XML / Dublin Core, IPTC-IIM et EXIF ● Encapsulable dans des fichiers JPG, TIFF, DNG, PDF Aspects techniques

33 PDF ● Format initié par Adobe ● Standard de fait, norme ISO depuis 2008 ● Restitution à l'identique ● Texte + Image ● PDF/A ● Version dédiée à l'archivage ● Plus limitée ● Pas de sécurisation Aspects techniques

34 Autres formats ● PostScript (.ps) ● Initié par Adobe (1982) ● Utilisé dans le domaine de l'édition ● Djvu (.djvu,.djv) ● Initié par AT&T Research (1996) ● Alternative au PDF ● Utilisé par le projet Wikisource entre autres Aspects techniques

CC-BY-SA // Sémhur // Wikimedia CommonsWikimedia Commons Étapes du projet

36 La numérisation ● Définir les objectifs de la numérisation ● Sélectionner le fonds à traiter ● Fonds préexistant ou sélection d'un sous-corpus ● Importance de l'homogénéité de l'ensemble ● S'assurer des contraintes législatives ● Répartir les rôles Étapes du projet

37 La numérisation ● Définir les questions techniques ● Résolution ● Format ● OCR ● Métadonnées ● Support de livraison ● Définir une règle de nommage ● Contrôler la qualité des documents produits ● Archiver les documents Étapes du projet

38 La diffusion ● Choisir ce qui doit être diffusé ● Choisir la manière de diffuser ● Via un outil interne ● Via un site web externe ● Si on diffuse via un outil interne, s'assurer de : ● Son ouverture ● Son interopérable ● Son accessibilité Étapes du projet

MERCI u- bordeaux3.fr symac Inspiré du support de cours de Claire Scopsi CNAM / INTD