projet de numérisation

Slides:



Advertisements
Présentations similaires
Conduire un projet de numérisation Sylvain Machefert 12 MARS
Advertisements

Fête de l'Internet 26 Mars 2011 Introduction Création numériques : Sous quelles licences les partager ?
1 Comité de suivi régional du SINP LR - 8 juin 2012 Comité technique du SINP LR Montpellier, 8 juin 2012.
Outils et scénarios d’édition collaborative en Haute École Étienne Vandeput Projet HETICE © CRIFA - ULg.
Présentation LabPlus v3. Solution novatrice en Technologies de l’information Solution novatrice en Technologies de l’information Application pour la Gestion.
OpenArticles : Libérez votre savoir ! Mise en place d'un service libre et gratuit de dépôt et d'accès aux articles scientifiques David Larlet – Janvier.
Les profils du SEDA confection de profil avec Agape.
Colloque International ePrep 2008 Supélec, Campus de Gif -sur-Yvette – mai 2008 Session 2 De L'usage des ressources partagées sur le Web sans pillage.
L'OpenURL Une piste pour la valorisation des ressources électroniques ? Sylvain Machefert - 29/11/2007 CC-BY-SA // Sugree // FlickrFlickr.
Analyser un tableau avec un diaporama. Les droits de l'image ● Toutes les images ne sont pas libres de droits ● L'usage d'images non libres de droit est.
1 Gestion Electronique de documents (GED) ✔ Définition Efficacité d'une entreprise dépend de la capacité à traiter et consulter les informations qu'elle.
Mettre en place un projet de numérisation – Sylvain Machefert –
Données ouvertes et Web de données : enjeux et perspectives pour BAnQ Jean-François Gauvin Marielle St-Germain Direction de l’architecture et de la conception.
Aspects Juridiques et Economiques de Logiciel
Recherche d’informations
Recherche Summon - HINARI (Module 3)
Voyage dans le logiciel de présentation de la suite libre.
Présenté par M. Anis DIALLO
Devenez journaliste pendant la 1ère Guerre mondiale
PDF Accessibilité et PDF.
Les ressources numériques de la BnF au service de l’éducation artistique et culturelle Dijon, Jeudi 13 octobre 2016.
Expérience de l’Université de Boumerdes
JT12-RSI mars 1999 Délégation aux systèmes d'information
Le réseau GBIF et le point nodal GBIF France
Wikimédia France et les institutions culturelles
MULTIMEDIA & INTERNET Enjeux et perspectives
La Bibliothèque numérique élève: Prisecariu mihaela classe – la Xe a professeur coordinateur: Bengescu otiliA.
Formation sur la publication des données de biodiversité dans le réseau GBIF et leur aptitude à être utilisées , édition 2011 Comment le DwC-A a changé.
NEW SKILLS AND NEW JOBS IN THE HEALTH CARE AND SOCIAL WORK SECTOR
FENIX Aperçu GLOBALE DU Système
Veille technologique Nassima Mahcer 17 MAI 2017.
Comment bien communiquer avec un diaporama
Montage de projets : les données au cœur des projets de recherche
Usage responsable du Numérique
SP6 Cas d'usage & intégration 06/12/2016
D3 – Produire, traiter, exploiter et diffuser des documents numériques
1- L'usage des images en milieu scolaire
PROTECTION LOGO / NOMS DE DOMAINE
Numérisation partielle
Droit à l’image et droit de l’image.
Les grandes étapes de la recherche
3- Nouvelles pages d’accueil
Trouver des thèses juridiques
Structuration du contenu
Cahier journal Lundi 4 septembre:
Expérimentation des tablettes à lire
Catherine Cyrot - bibliothèques numériques - Cours 2
Programmation Android Première application Android
et travaux universitaires
MPS Marchés Publics Simplifiés « dites- le nous une fois »
Module bibliothèques numériques : le format PDF
Approche réalisation d’un objet technique tout ou en partie
L’encadrement juridique du libre accès aux thèses en droit
Zeendoc et les logiciels comptables
CAS AFPA Sprint n°1.
Présenté par M. Anis DIALLO
FORMATION POWERPOINT 2007/2010
Catherine Cyrot - bibliothèques numériques - Cours 5
La recherche avancée.
Un point d’étape sur les apports de la loi République numérique en matière d’Open Access Par Lionel Maurel Université Paris Lumières.
JDepend - Analyse de la qualité du code Java -
PRESENTATION CABINET La mission SIMUL’AUTO Entrer
Logiciel de présentation
Administrer le site des théâtres de Compiègne
Elles contiennent des informations autre que géométriques
COMMENT REDIGER UNE BIBLIOGRAPHIE?
Formation « Utiliser un site Internet école »
Groupe de travail « Gestion des données de l’université »
Les données structurées et leur traitement
Catherine Cyrot - bibliothèques numériques - cours 3
Transcription de la présentation:

projet de numérisation 28 AVRIL 2 0 1 0 Mettre en place un projet de numérisation ------------------------------------ Sylvain Machefert

Numérisation // Médiaquitaine // 28-04-2010 [[1]] Contexte [[2]] Objectifs [[3]] Facteurs [[4]] Aspects légaux Numérisation // Médiaquitaine // 28-04-2010

Numérisation // Médiaquitaine // 28-04-2010 [[5]] Aspects techniques [[6]] La mise en ligne [[7]] Rappel des étapes Numérisation // Médiaquitaine // 28-04-2010

1 Contexte CC-BY-SA // Manfrys // Flickr

Un sujet d'actualité Bulletin d'information de l'ABF 1992 Sujet d'actualité et de surcroît « brûlant » en matière de bibliothéconomie, la numérisation ne laisse pas de susciter maints commentaires Conduire un projet de numérisation / 2002 Bulletin d'information de l'ABF 1992 1971 : début du projet 1992 2005 2010 Contexte

Les bibliothèques numériques Corpus de documents, le plus souvent du domaine public, numérisés et disponibles en ligne Développées principalement par les bibliothèques Volumétries très variables Qualité très variable Qualité du contenu Qualité de la présentation Bulletin d'information de l'ABF 1992 Contexte

Projet bénévole lancé en 1971 30 000 ouvrages Vérification manuelle Projet Gutenberg http://www.gutenberg.org Projet bénévole lancé en 1971 30 000 ouvrages Vérification manuelle Bulletin d'information de l'ABF 1992 Contexte

700 000 fascicules de périodiques Mode texte et image Gallica http://gallica.bnf.fr/ Lancé par la BnF en 1997 1 million de documents 150 000 livres 700 000 fascicules de périodiques Mode texte et image Documents sous droits Depuis 2007 20 000 livres Bulletin d'information de l'ABF 1992 Contexte

Projet frère de Wikipedia, lancé en 2003 Wikisource http://fr.wikisource.org Projet frère de Wikipedia, lancé en 2003 Ouvrages du domaine public (plusieurs dizaines de milliers) Partenariat avec la BnF Désaccord avec Gallimard (informations) Bulletin d'information de l'ABF 1992 Contexte

10 millions d'ouvrages numérisés 1,5 millions du domaine public Google Books http://books.google.fr/ Lancé en décembre 2004 10 millions d'ouvrages numérisés 1,5 millions du domaine public 2 millions en partenariat avec les éditeurs Un accueil mitigé chez les professionnels 300 000 € de dommages et intérêts à La Martinière (déc. 2009) ~ 20 bibliothèques partenaires Bulletin d'information de l'ABF 1992 Le téléchargement dans Google Books Contexte

Un avis sur la numérisation de masse Quantitatif : avantage Google ⟶ Plus, plus vite et moins cher que tout le monde Qualitatif : avantage Google ⟶ Presque aussi bien que tout le monde Accès : avantage Google ⟶ Plus rapide, plus efficace, plus « pratique », plus central Source : Olivier Ertzscheid CC-BY-NC-SA // Kathelinejeanpierre.ca // Flickr

2 Les objectifs CC-BY-SA // Multimotyl // Wikimedia Commons

Document aisément reproductible Diffuser Document aisément reproductible Palliatif intéressant pour les ouvrages difficilement communicables Ne nécessite pas de matériel spécifique (≠ microfiches) Non exclusif Objectifs

Mise en avant sur un site Internet Diffusion élargie Valoriser Mise en avant sur un site Internet Diffusion élargie Moissonnage par des bibliothèques d'envergure intégration dans des projets externes aux bibliothèques Flickr Commons Wikimedia Commons Objectifs

⚠ Préserver Limite les manipulations des originaux Pérennité des supports numériques Objectifs

3 Les facteurs CC-BY // Cat & Nat // Flickr

Niveau de structuration Type de document Forme de l'objet Texte ou graphique Imprimé ou manuscrit Couleur / Noir et blanc Contenu Texte Formulaire Niveau de structuration Facteurs

Taille (A4, A3, format spécifique ...) Couleur Papier Pagination Format du document Taille (A4, A3, format spécifique ...) Couleur Papier Pagination Automatisation Choix du format de sortie (multipage ?) Facteurs

Automatisation, sous-traitance Volume Méthode et coût Automatisation, sous-traitance OCR et recherche plein texte (plutôt qu'indexation ?) Gestion des transferts vers le prestataire Ressources disponibles en interne Stockage des documents numériques Facteurs

Méthode de scannage à adapter ? Homogénéité du fonds Formats différents Méthode de scannage à adapter ? Qualité de l'OCR sur un corpus hétérogène ? Coût Documents de nature différente Pertinence du traitement dans un seul projet ? Facteurs

Choix du scanner et de la méthode Traitement sur place État des documents Choix du scanner et de la méthode Traitement sur place Création d'un atelier Main d'œuvre dédiée Facteurs

15 à 75 centimes par page (très variable) Coût 15 à 75 centimes par page (très variable) 60 à 75 % du coût en main d'œuvre Ne pas négliger les coûts induits en local Sélection des documents Préparation des trains de numérisation Contrôle qualité Facteurs

4 Aspects légaux CC-BY // Lnanimatt // Flickr

« Les opérations de numérisation de documents ne confèrent à la bibliothèque aucun droit de propriété littéraire et artistique sur les œuvres ainsi reproduites. » http://www.culture.gouv.fr/culture/mrt/numerisation/fr/dll/juridi.html

Le droit moral Droit de divulgation Droit de paternité Droit au respect de l'œuvre Droit au repentir CC-BY // Midgefrazel // Flickr

Les droits patrimoniaux Droits de reproduction Droits de représentation CC-BY-NC-SA // France.Diplomatie // Flickr

L'auteur jouit, sa vie durant, du droit exclusif d'exploiter son œuvre sous quelque forme que ce soit et d'en tirer un profit pécuniaire. Au décès de l'auteur, ce droit persiste au bénéfice de ses ayants droit pendant l'année civile en cours et les soixante-dix années qui suivent. Art. L.123-1 du code de la propriété intellectuelle

Creative Commons BY NC ND SA Attribution Non Commercial No Derivative Share Alike CC-BY-SA // Arnij // Flickr

5 Aspects techniques CC-BY // Dolarz // Flickr

Modes de numérisation Idéal : une combinaison des deux numérisations Mode texte Mode image + Donne du sens au contenu Permet l'indexation, la recherche Restitution du document original à l'identique - Plus cher Nécessite d'avoir des outils performants Limite les possibilités en terme d'usage Technique

Reconnaissance optique de caractères OCR Reconnaissance optique de caractères Taux de reconnaissance > 99% pour des textes propres Plus compliqué sur du document ancien ou manuscrit http://gallica.bnf.fr/ark:/12148/bpt6k56800101.f7 http://gallica.bnf.fr/ark:/12148/bpt6k56800101.texte.f7 Technique

Reconnaissance intelligente de caractères Mécanisme d'apprentissage ICR Reconnaissance intelligente de caractères Mécanisme d'apprentissage Plus adapté aux manuscrits Technique

L 'expérience reCAPTCHA Source OCR reCAPTCHA Technique

Se mesure en point par pouce 1 pouce = 2,54 cm 1 pouce = 1 inch Résolution Se mesure en point par pouce 1 pouce = 2,54 cm 1 pouce = 1 inch Résolutions standards (BnF, 2008) : Fichiers de conservation : 300 dpi Fichiers de diffusion : 150 dpi Fichier de visualisation : 72 dpi Technique

Échantillonage (bits par pixel) 1 bit → 2 couleurs (noir et blanc) Noir & Blanc Niveau de gris Couleurs Échantillonage (bits par pixel) 1 bit → 2 couleurs (noir et blanc) 2 bits → 4 couleurs ou niveaux de gris 8 bits → 256 couleurs ou niveaux de gris 24 bits → 16 millions de couleurs (vraies couleurs) Technique

Exchangeable Image File Dernière version en 2002 (2.2) Métadonnées EXIF Exchangeable Image File Dernière version en 2002 (2.2) Standard de fait Produite par un appareil photo ou ajoutées a posteriori Décrit : Résolution, dimension, orientation de l'image Date et heure de la prise de vue Informations sur l'appareil (fabricant, type, réglages) Coordonnées géographiques CC-BY-SA // YellowShark // Wikimedia Commons Technique

Métadonnées descriptives : Titre Auteur Agence ... Métadonnées IPTC-IIM International Press and Telecommunications Council Information Interchange Model Utilisé dès 1994 par Adobe Métadonnées descriptives : Titre Auteur Agence ... Technique

eXtensible Metadata Platform Créé par Adobe en 2001 XMP eXtensible Metadata Platform Créé par Adobe en 2001 Basé sur XML / Dublin Core, IPTC-IIM et EXIF Encapsulable dans des fichiers JPG, TIFF, DNG, PDF Technique

6 La mise en ligne CC-BY // Arnoldius // Wikimedia Commons

Une étape obligatoire Pour répondre à nos décideurs / financeurs Pour répondre à nos usagers Pour rencontrer un nouveau public CC-BY-SA // Roulex_45 // Wikimedia Commons

Priorités Ouverture Interopérabilité Accessibilité Libre de droits // Rundvald // Wikimedia Commons

OAI - PMH Format d'échange basé sur XML Fourniture des données en Dublin Core Protocole très simple Informations sur un serveur Liste des enregistrements Nécessite d'avoir des urls pérennes

Choix des outils Libre / Propriétaire Local / Hébergé Full-web ou pas CC-BY // SophieA // Flickr

BM Toulouse Sur son site Sur Flickr Logiciel libre : Greenstone (unesco) Application web Classement par collections http://numerique.bibliotheque.toulouse.fr Sur Flickr Projet The Commons Dissémination du contenu 920 images http://www.flickr.com/photos/bibliothequedetoulouse/ Mise en ligne

BM Lille Logiciel libre : SDX Application web http://numerique.bibliotheque.bm-lille.fr

BM Fréjus Hébergement chez Arkhenum Numérisation des archives d'un journal local Numérisation PDF / Texte http://www1.arkhenum.fr/bm_frejus_le_var/ Mise en ligne

Université Rennes 2 Logiciel libre : Omeka Application web Plugins variés : Serveur OAI Géolocalisation Visualisation http://bibnum.univ-rennes2.fr Mise en ligne

7 Étapes du projet CC-BY-SA // Sémhur // Wikimedia Commons

Définir les objectifs de la numérisation Sélectionner le fonds à traiter Fonds préexistant ou sélection d'un sous-corpus Importance de l'homogénéité de l'ensemble S'assurer des contraintes législatives Répartir les rôles Étapes

Définir les questions techniques Résolution Format OCR Métadonnées La numérisation Définir les questions techniques Résolution Format OCR Métadonnées Support de livraison Définir une règle de nommage Contrôler la qualité des documents produits Archiver les documents Étapes

Choisir ce qui doit être diffusé Choisir la manière de diffuser La diffusion Choisir ce qui doit être diffusé Choisir la manière de diffuser Via un outil interne Via un site web externe Si on diffuse via un outil interne, s'assurer de : Son ouverture Son interopérable Son accessibilité Étapes

Inspiré du support de cours de Claire Scopsi sous licence Creative Commons BY SA MERCI Inspiré du support de cours de Claire Scopsi (INTD-CNAM) symac