La numérisation de la presse à la BnF Choix documentaires – état davancement – aspects techniques Journées Patrimoine écrit – 14 septembre 2007 Philippe Mezzasalma – Frédérique Joannic-Seta
Rappel La numérisation de la presse nationale: un programme-phare de la Bibliothèque nationale de France Lancement : 2005 Plan pluriannuel : titres concernés (de leur origine à 1944, dernière année de numérisation). A lorigine 21 titres de PQN + 6 sup. + 3 ajouts de PQN + 1 ajout de presse régionale A terme 3,5 M de pages
Plan Éléments de contexte : les collections de presse de la BnF De la sélection à la mise en ligne : choix et procédures État davancement Démonstration des accès Évolution du programme de numérisation de la presse
Les collections de presse à la BnF Entrées courantes : quotidiens ou périodiques de grand format (principalement hebdomadaires), dinformation générale (nationaux ou locaux) ou relevant des disciplines droit, économie, politique - 848titres, (676 entrant par le Dépôt légal) dont 222 quotidiens, soit fascicules Fonds clos : périodiques cotés Jo, Gr fol-Jo, JoA, Job précédemment à Versailles : journaux locaux, presse professionnelle, presse partisane et syndicale, bulletins d associations, presse de loisirs cotes au total, pour un nombre presque équivalent de titres. quotidiens ou périodiques de grand format du Département des périodiques Le fonds de microfilms : bobines de presse, près de 7500 titres sauvegardés ; accroissement annuel d environ 6000 bobines : courant : tous les titres de PQN, 40 titres de PQR jusquà 2003, 20 depuis. rétrospectif : reproduction de périodiques Jo ; sélection des titres sur la base de corpus ou à partir des demandes de lecteurs
Les collections de presse de la BnF : communication au public Communications en Rez-de-jardin : plus de bobines de microfilms, plus de unités de conservation du fonds clos Jo Communications de microfilms en salles D et J : sélection de 43 titres Salle A : 273 titres en libre-accès, interrogation de cédéroms ou bases de données, 165 entrées par jour
Typologie de la presse la presse nationale : presse politique et d'information générale presse populaire presse d'échos, presse satirique la presse régionale et locale la presse d outre-mer la presse spécialisée la presse de lecture la presse gratuite la presse de type publication officielle la presse alternative
La Presse : pourquoi numériser ? Une richesse documentaire incontestable contenu exceptionnel Un ensemble en danger… auquel la numérisation offre de nouvelles perspectives => Une opération à la fois de sauvegarde et de diffusion
De la sélection à la mise en ligne Définition du plan de numérisation Enquête sur les usages attendus de la presse numérisée Aspects juridiques Sélection de lexemplaire et recollement Choix techniques de numérisation et conséquences sur Gallica Le mode texte
La définition du corpus Un programme axé autour de la presse quotidienne nationale Un panorama représentatif du pluralisme d opinion, des grands titres historiques aux quotidiens populaires Une ouverture vers les régions : Ouest-Eclair Un corpus accompagné par des outils critiques : Annuaire de la presse...
Les titres retenus : plus de 3 millions de pages sur 5 ans La Croix Le Temps Le Figaro LHumanité La Presse Le Petit Parisien Le Figaro Littéraire LAction Française Le Journal des débats Supplément du Petit Parisien Le Matin Le Petit Journal Le Petit Journal illustré L'Aurore La Justice Le Gaulois Le Constitutionnel LUnivers L'intransigeant Le Siècle Le Rappel Gil Blas Gil Blas illustré La Lanterne Supplément de la Lanterne LÉcho de Paris Ouest Éclair En prévision : Les Échos, Le Canard enchaîné
Les aspects juridiques Rappel : droit d auteur = 70 ans à compter de la mort de l auteur à compter de la publication quand œuvre collective =>la presse obéit à ces règles Conséquences : Accord des titres vivants (convention) Pas de mise en ligne postérieure à 1935 Masquage éventuel des images
Préparation des documents Une décision : repartir des originaux Récolement fascicule par fascicule lacunes à compléter auprès d établissements extérieurs signalement des défauts physiques Préparation des supports : démontage/déreliage petites réparations dépoussiérage et repassage
Catalogage et métadonnées Choix de lunité – fascicule Catalogage : Création dans le catalogue dune cote numérique correspondant au titre Pour chaque cote numérique, utilisation du fichier de récolement pour lier les fascicules numériques Métadonnées : constitution par extraction des données à partir du catalogue
Numérisation 4 chaînes opérationnelles pour ce programme, dont 2 confiées à un prestataire Opérations de prise de vue et dinsertion/création des métadonnées Une numérisation de haute qualité (300 dpi – niveau de gris), TIFF non compressé pour la sauvegarde compressé en JPEG pour la diffusion
Ocr et numérisation de la presse Usages attendus : une recherche plein texte plutôt quune transcription =>le choix dun OCR brut et dune segmentation (format Alto) un niveau qualitatif minimum de 95% de reconnaissance de caractère
Titres numérisés – état au 14/09/07 Le Temps : en ligne Le Figaro : en ligne (lacunes ) Le Figaro littéraire : en ligne (lacunes et ) La Croix : en ligne L Humanité : en ligne (lacunes ) La Presse : en ligne Le Journal des débats : en ligne NB : les lacunes signalées ici résultent des opérations de contrôle qualité, à l exception de l Humanité
Les titres en cours de numérisation En cours de numérisation : La Presse Le Journal des débats Le Petit Parisien Ouest-Eclair (édition de Caen) A suivre en : Le Gaulois LAurore Le Monde diplomatique
Deux accès vers la presse numérisée Le catalogue Bn-Opale plus Gallica
Accès par le catalogue Accès par cote numérique Les autres recherches proposées par le catalogue sont également valides : recherche par titre, par cote de l original papier...
Accès par le catalogue Exemplaire numérique Visualiser
Navigation dans Le Temps
10 juillet 1861
Navigation dans Le Temps Circulation par année Circulation par jour Zoom et accès au mode texte
Accès dans Gallica
Améliorations attendues Dans le cadre de Gallica 2 (à partir de lété 2008) Page de présentation des titres de presse Mise en place dun espace de travail personnel (panier, taggage des pages…) Mise en relation des titres de presse avec des documents qui leur sont consacrés (Tables du Temps ; fichier du journal Le Matin )
Numérisation de la presse à la BnF : extensions à venir Extension à l étude vers des corpus thématiques presse des immigrations presse des anciens territoires et colonies journaux de tranchées (BnF, BDIC, BNUS, BM Lyon, Stuttgart) presse clandestine de la Résistance presse hebdomadaire (politique, littéraire, de théâtre, de mode) Axe francophone : « Réseau des bibliothèques nationales numériques francophones »
La valorisation du corpus de presse Lien avec la recherche (équipe Montpellier III - Paris I – Paris IV) Publications prévues pour 2007 : Guide des