Le dépôt légal de l’Internet Clément Oury Service du dépôt légal numérique, Bibliothèque nationale de France clement(point)oury(at)bnf(point)fr Colloque patrimoine, numérisation et accès aux savoirs Bordeaux, 22 octobre 2009
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA2 Pourquoi un DL de l’Internet ? Parce que l’Internet est devenu l’un des principaux supports de diffusion et d’expression de la société française Pour assurer la continuité des collections Parce que c’est une mission confiée à la BnF par la loi ?
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA3 Le DL de l’Internet : enjeux juridiques, techniques et scientifiques
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA4 1537 : les livres 1648 : les estampes, cartes et plans 1793 : les partitions musicales 1925 : les photographies, arts graphiques de toute nature 1938 : les phonogrammes 1941 : les affiches 1975 : les vidéogrammes et les documents multimédias 1977 : les œuvres cinématographiques 1992 : les documents audiovisuels de la radio télévision, l’édition électronique sur support (progiciels, bases de données, systèmes experts). 2006 (la Dadvsi) : L’Internet Dans la continuité du dépôt légal
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA5 Le DL de l’Internet dans la DADVSI Le titre IV de la loi DADVSI votée le 1er août 2006 prévoit l’extension du dépôt légal à tous “ les signes, signaux, écrits, sons ou messages de toute nature qui font l’objet d’une communication au public par voie électronique ”. Les sanctions pénales pour non respect de cette obligation n’entreront toutefois pas en vigueur avant un délai de 3 ans. Un décret d’application viendra préciser les conditions de sélection et de consultation des informations collectées. L’Institut national de l’Audiovisuel collectera les sites du domaine de la communication audiovisuelle (en particulier ceux de la radio et de la télévision) et la Bibliothèque nationale de France tous les autres. L’obligation de dépôt légal pèse sur les personnes qui éditent et produisent des sites Internet sur le territoire français. Contrairement à ce qui est pratiqué pour les autres supports, elle n’implique pas de démarche particulière de leur part La seule obligation qui incombe aux producteurs est de fournir les codes et les informations techniques susceptibles de faciliter l’archivage de leurs sites en cas de difficulté Le décret devrait autoriser la consultation des archives de la Toile par des chercheurs dûment accrédité, dans les seules emprises de la BnF (salles de recherche), comme pour les autres collections issues du dépôt légal.
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA6 Logiciel appelé robot de collecte, « moissonneur » ou « aspirateur » de sites Part d'une liste d'adresses URL « graines » Extrait les liens dans le code des pages, les suit comme un internaute automatique Copie les éléments qu’il trouve et qui font partie du périmètre de la collecte Une affaire de moissonnage
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA7 Le modèle intégré : principes Des collectes annuelles à grande échelle (instantanés), réalisées principalement sur le.fr, en partenariat avec la fondation Internet Archive Des collectes ciblées (courantes ou projets) pilotées par des bibliothécaires, internalisées en 2007 Des dépôts numériques à l’unité, organisés avec les producteurs, dans des cas exceptionnels
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA8 Le modèle intégré: schéma NOMBRE DE SITES PROFONDEURPROFONDEUR Collectes larges Collectes ciblées Dépôts
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA9 Le circuit du document Accès Préservation Sélection Collecte
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA10 Les collections constituées Cinq collectes larges du domaine national français réalisées par Internet Archive une fois l’an de 2004 à 2008 Des acquisitions rétrospectives également livrées par Internet Archive Des collectes ciblées, réalisées en interne par la BnF : collectes électorales, journaux intimes, développement durable…et toutes les collectes courantes État des collections début 2009 : –13 milliards de fichiers –156 Téraoctets de données Objectif d’internalisation complète à la fin de l’année
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA11 L’accès aux archives
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA12
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA13
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA14 Capture du site arpel.aquitaine.fr, 3 avril 2004
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA15
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA16
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA17 Archivage numérique et territoire
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA18 Capture du site 4 décembre 2008www.bordeaux.fr
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA19 Capture du site contributions.aquitaine.fr, 4 mai 2009
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA20 La collecte des sites électoraux
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA21 Pourquoi les sites électoraux ? Un temps fort de la vie politique à l’échelle de la nation et des régions Un enjeu de continuité des collections Des sites très volatils Un projet limité dans le temps… qui permet de mobiliser les équipes
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA22 Calendrier du projet Octobre-décembre 2006 : archivage de la « pré- campagne » Janvier-mai 2007 : archivage des sites de l’élection présidentielle Janvier 2007 : appel à candidature envoyé aux BDLI Avril-juillet 2007 : archivage des sites des élections législatives
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA23 Chiffres-clefs 39 agents impliqués (dont 15 au sein des BDLI) sites collectés 64 millions de fichiers 3.4 téraoctets de données
22 octobre 2009Journée Patrimoine, numérisation et accès aux savoirs - ECLA24 Le maillage régional