L’information numérique : quelle pérennisation ? ABF - 10 octobre 2005 Marie-Elise Fréon marie-elise.freon@bnf.fr
Sommaire Contexte et objectifs de la préservation des documents numériques Le modèle de référence OAIS - Norme ISO 14721 Des métadonnées pour gérer des objets numériques 14/11/2018 BNF/DSR/DSC/SN/mef
Contexte et objectifs de la préservation des documents numériques 14/11/2018 BNF/DSR/DSC/SN/mef
Contexte général Développement massif et rapide de l'information numérique ; Le marché du numérique s'élargit à tous les secteurs d'activité ; Des Facteurs de croissance importants ; Décroissance des coûts de stockage : rapport capacité/coûts en constante évolution. 14/11/2018 BNF/DSR/DSC/SN/mef
Une information puissante Une forme d'information qui offre des possibilités infinies : d'utilisation et de traitements ; de préservation sans aucune altération ; des coûts de stockage faibles ; Permet la représentation des textes, des nombres, du son, de l’image fixe et animée, et de toutes les combinaisons de ces dernières. 14/11/2018 BNF/DSR/DSC/SN/mef
Une information "sensible" Possibilités d’altération ou de falsification des documents ; Données numériques facilement perdues ou corrompues ; Les supports numériques sont fragiles, et "vieillissent" parfois très rapidement ; L’accès à une donnée numérique est dépendant de son environnement : Rythme soutenu de l’évolution technologique Une grande vulnérabilité au temps données propriétaires qu’on ne sait plus relire description de l’information le plus souvent incomplète, inexacte, voire non disponible 14/11/2018 BNF/DSR/DSC/SN/mef
Préservation à Long Terme L'objectif de la Préservation numérique est de maintenir la capacité : d'afficher ; d'extraire ; et d'utiliser les collections numériques sur le long terme. Long terme : période assez longue pour que l’on se soucie de l'impact : des changements technologiques ; de l'évolution de la communauté des utilisateurs sur les informations détenues par une archive ; Période qui peut s’étendre à l’infini. 14/11/2018 BNF/DSR/DSC/SN/mef
Pérennisation La préservation de l'information sous une forme correcte et directement utilisable à Long Terme comprend : la conservation physique des fichiers, des métadonnées associées, scripts et programmes ; l'assurance d'une utilisation continue de la collection d'images numériques ; le maintien de la sécurité de la collection. Pérenniser de l’information n'est pas seulement la stocker ; L'information doit être comprise et utilisée sans devoir recourir à des ressources spécifiques. 14/11/2018 BNF/DSR/DSC/SN/mef
Information et données Une information est un élément de connaissance susceptible d’être codé pour être conservé, traité ou communiqué. Produite en général par un capteur qui détecte un phénomène ; L’information devient numérique par application d'un processus de transformation ; Une "donnée" est un conteneur porteur d’une information (ou d’un fragment d’information) : Lorsqu’elle est transmise à un individu, celui-ci pourra, sous certaines conditions, en dériver une information qui modifiera un capital de connaissances personnel ou collectif. 14/11/2018 BNF/DSR/DSC/SN/mef
L'objet numérique Objet d'information avec un contenu intellectuel : Représenté au niveau le plus bas par une suite de bits préserver consiste à conserver l'exacte succession des bits ; Présenté sous forme codée et structurée préserver l'accès consiste à effectuer la correspondance entre les codes et les langages de format (présentation, structuration, compression...) ; Consultable par le biais de plates-formes logicielles et matérielles Offrir des moyens de consultation consiste à maintenir, faire migrer, émuler. 14/11/2018 BNF/DSR/DSC/SN/mef
Gestion à long terme Nécessite de reconnaître : Implique de savoir : Le type de fichier (extension, fichiers cachés, …) ; La composition du fichier (documents composites) ; La composition du document (volume multi-page, objet simple, collection d'objets) ; Implique de savoir : Gérer les supports et les lecteurs ; Préserver l'accès (environnement changeant, faire communiquer les plates-formes, faire évoluer les formats de données) ; Nécessite d'avoir des éléments techniques et de description permettant la recherche et la veille technologique pour "pérenniser l'accès". 14/11/2018 BNF/DSR/DSC/SN/mef
Sites à visiter Préservation des documents numériques : sites proposés par le Portail Culture http://www- texte.culture.fr/EtudesEtRecherchesCulturelle s/c389/c401 Le document numérique : Notions fondamentales http://editer.abcdoc.net/#documentnumerique 05/04/2005 BNF/DSR/DSC/SN/mef
Le modèle de référence OAIS Norme ISO 14721 14/11/2018 BNF/DSR/DSC/SN/mef
Modèle de référence OAIS Modèle aidant à comprendre la problématique de l'archivage des informations numériques ; Modèle d’information, modèle fonctionnel, analyses complémentaires : migrations, coopérations entre archives… ; Système d’Archivage Ouvert (OAIS) : i. e. une archive (Organisme responsable de l’accès intellectuel), composée d’un ensemble de personnes et de systèmes organisés. 14/11/2018 BNF/DSR/DSC/SN/mef
Modèle normatif OAIS Open Archival Information System (OAIS) Reference Model for an Open Archival Information System (OAIS). Blue Book. Version : 1. January 2002. http://www.ccsds.org/CCSDS/recommandreports.html document CCSDS 650.0-B-1 Devenu norme internationale : ISO 14721:2003. Space data and information transfer systems - Open archival information system - Reference model http://www.iso.ch/iso/en/CatalogueDetailPage.Catalog ueDetail?CSNUMBER=24683 Traduction en collaboration entre le CNES et la BNF (soumise à l'ISO été 2005) 14/11/2018 BNF/DSR/DSC/SN/mef
Information de représentation Information d'un OAIS Objet Numérique Objet Données Information de représentation ou = + Objet d'Information = Objet physique Interpreté à l'aide de son Information syntaxique Information sémantique Ajoute du sens à L’Information de Représentation : Une personne comprend une information grâce à sa Base de Connaissances (par ex. l'anglais), en l'absence de Base de connaissance il faut lui fournir l'information de représentation (par ex. dictionnaire, grammaire) 14/11/2018 BNF/DSR/DSC/SN/mef
Pérenniser l'information Objet d'Information Pour assurer la pérennité d'un document, il faut pérenniser : = Le contenu : documents figés ; documents qui évoluent (modifications enrichissements). Objet Contenu de Données + L'apparence visuelle : but juridique ; but de mémoire. Information de représentation 14/11/2018 BNF/DSR/DSC/SN/mef
Paquet d’Information "Conteneur” conceptuel qui comprend deux types d’informations : le Contenu d’Information (Objet contenu de données + Information de représentation) ; l’Information Descriptive de la Pérennisation ou PDI (Preservation Description Information). Le Contenu d’Information et la PDI sont encapsulés et identifiables au moyen de l'Information d’Empaquetage. Contenu d'Information PDI Information d'empaquetage Paquet 1 L'Information Descriptive du paquet permet de le retrouver. Info Descriptive sur le Paquet 1 14/11/2018 BNF/DSR/DSC/SN/mef
Information des Paquets Information d'empaquetage Identifie et met en rapport le Contenu d'Information et les informations descriptives de la préservation (cartographie des composants du Paquet) ; Regroupe ou relie par des liens les composants inclus dans un paquetage. Information de Description : Information utilisée pour trouver les paquets dans lesquels réside le contenu d'Information que l'on recherche : titre ; ou intitulé du paquet ; ou notice descriptive. 14/11/2018 BNF/DSR/DSC/SN/mef
Modèle fonctionnel SIP : Paquet d’Information Soumis AIP : Paquet d’Information Archivé DIP : Paquet d’Information Disséminé 14/11/2018 BNF/DSR/DSC/SN/mef
Les différents types de paquet Distinguer les Paquets d’Information : soumis à un OAIS = Paquet d’Information Soumis ou SIP (Submission Information Package), Envoyé à un OAIS par un Producteur de Données ; préservés par un OAIS = Paquet d’Information Archivé ou AIP (Archival Information Package), transformation d'un ou plusieurs SIP en un ou plusieurs AIP en vue de la préservation de l'information ; diffusés par un OAIS = Paquet d’Information Disséminé ou DIP (Dissemination Information Package), fourniture d'une partie ou de l’intégralité d’un AIP à la demande d'un Utilisateur de Données. 14/11/2018 BNF/DSR/DSC/SN/mef
Versement Accepte les SIP provenant des Producteurs de Données et prépare leur contenu en vue du stockage et de la gestion des données au sein de l’archive. Ces fonctions comprennent : la réception des SIP et leur contrôle d'assurance qualité ; la préparation du contenu en vue du stockage : génère des AIP conformes aux normes de documentation et de formatage des données de l’archive ; l'extraction de l’Information Descriptive des AIP pour l'inclure dans la base de données de l’archive et coordonner les mises à jour à effectuer au niveau du Stockage et de la Gestion des Données. 14/11/2018 BNF/DSR/DSC/SN/mef
Règles de soumission Elles sont de la responsabilité de l'OAIS : qui doit fixer un certain nombre de critères aidant à déterminer les types d’information souhaités et autorisés qui doit négocier lorsque le rôle du Producteur de Données et le rôle de l'archive sont de la responsabilité d’une seule et même entité qui doit se procurer, suffisamment d’Informations Descriptive pour aider sa Communauté d’Utilisateurs à identifier le Contenu d'Information présentant un intérêt. qui doit s'assurer que les informations sont conformes aux normes internes de l’OAIS. 14/11/2018 BNF/DSR/DSC/SN/mef
Stockage Services relatifs au stockage, à la maintenance et à la récupération des AIP. Ces fonctions comprennent : la réception des AIP en provenance du versement et leur inclusion dans l'espace de stockage permanent la gestion de la hiérarchie du stockage la surveillance et le renouvellement des supports les contrôles d’erreurs spécifiques et de routine la fourniture des moyens de sauvegarde en cas de catastrophe, la transmission des AIP à l'entité Accès pour satisfaire les commandes. 14/11/2018 BNF/DSR/DSC/SN/mef
Gestion de Données Gère l'enrichissement, la mise à jour et l'accès à l'Information de Description et aux données administratives utilisées pour gérer l’archive. Ces fonctions comprennent : l'administration des fonctions de la base de données de l’archive les mises à jour de la base de données au fur et à mesure des versements et des actions menées sur les AIP Le traitement des requêtes provenant de l'Accès la production de jeux des résultats, et de rapports sur les fonds et leurs utilisations (statistiques) 14/11/2018 BNF/DSR/DSC/SN/mef
Planification de la préservation Entité qui fournit les recommandations pour garantir l'accès à long terme à l'information archivée. Elle doit : Effectuer la veille technologique (technologies émergentes et en voie d'obsolescence) Planifier les migrations Donner son accord et valider les processus appliqués pour pérenniser les données Evaluer les risques et développer des stratégies de préservation et des standards Surveiller les évolutions des usagers (Producteurs et Utilisateurs) 14/11/2018 BNF/DSR/DSC/SN/mef
Administration Gère le fonctionnement global de l’archive, avec pour fonction : Proposer et négocier des accords de soumission Vérifier les soumissions Gérer la configuration du matériel et des logiciels du système , assurer son fonctionnement global Suivre les changements intervenant au niveau des Communautés d’Utilisateurs Contrôler l'accès physique Activer les demandes enregistrées (ouverture clôture de comptes utilisateurs), Assurer un support clients. 14/11/2018 BNF/DSR/DSC/SN/mef
Accès Fournit une interface unique entre les utilisateurs et les fonds d'archives Les aide à déterminer si une information existe dans un OAIS, Trouve sa description, sa localisation et sa disponibilité, Leur permet de demander et de recevoir des produits de données Traite les demandes des utilisateurs Récupère les AIP à partir du Stockage Transmet les réponses aux Utilisateurs (DIP, jeux de résultats, rapports) Limite l’accès à l'information bénéficiant d’une protection particulière 14/11/2018 BNF/DSR/DSC/SN/mef
Services de base Les services du système d’exploitation : exploitent et gèrent la plate-forme des applications assurent l'interface entre les logiciels d’application et la plate-forme. Les services du réseau fournissent les moyens et les mécanismes : pour les applications réparties qui exigent l'accès aux données l’interopérabilité des applications dans des environnements hétérogènes en réseau Les Services de sécurité fournissent des moyens et des mécanismes de protection de l’information 14/11/2018 BNF/DSR/DSC/SN/mef
Perspectives de préservation Prendre en compte La nature éphémère des supports de stockage renouvellement, duplication L'obsolescence des technologies sur le long terme Transformation (réversible ou irréversible) Préserver l'accès (maintenance des API, émulation) 14/11/2018 BNF/DSR/DSC/SN/mef
Les Migrations numériques Renouvellement de Support : migration ayant pour effet de remplacer un support, par un support de même type, en copiant les bits sur le support utilisé Duplication : migration sans modification de l’information. Les bits utilisés pour véhiculer les objets d’informations sont préservés dans le transfert vers le même ou un nouveau support. Ré-empaquetage : migration avec quelques modifications des bits de l’information d’empaquetage (enveloppe de gestion des fichiers). Transformation : migration avec quelques modifications tout en tentant de préserver l’intégralité du contenu de l’information. La transformation des bits doit autant que possible rester réversible 14/11/2018 BNF/DSR/DSC/SN/mef
Quand Migrer vers de nouveaux supports ? Dégradation des supports déplacer les informations vers un nouveau support Meilleure rentabilité, supports plus performants et moins coûteux déplacer les données vers de nouveaux types de supports jamais utilisés précédemment Nouvelles exigences de service consommateur révision et déplacement des données vers des supports plus performants Implications : déplacer des paquets de données et gérer les liens entre fichiers (documents composites, métadonnées…) 14/11/2018 BNF/DSR/DSC/SN/mef
Préservation des services d'accès La nécessité d'utiliser un logiciel implique des actions à mener au cours des évolutions technologiques : Des API (interface programmatiques) peuvent être maintenues par l’archive au cours du temps lorsque : l'API est peu complexe l'API est applicable à de nombreuses unités d'archives les codes sources peuvent être Portés sous un nouvel environnement (tester pour s'assurer qu'il n'y a pas perte d'information) Il peut-être possible de reconstituer un environnement informatique complet qui permet d’exécuter l’application spécifique à une gamme d'objets On peut effectuer une émulation de la plate-forme de matériel d’origine : simuler l’environnement matériel et logiciel pour relire l'information d'origine. 14/11/2018 BNF/DSR/DSC/SN/mef
Recommandations pour préserver l'accès Demander un code source et une documentation adéquate sur les applications d’accès clé Ne pas tenter de préserver l’accès via une application pour laquelle on ne dispose que d’un exécutable pour l’application Bien définir et bien documenter les API Ne pas utiliser de formats ou d’applications propriétaires ou privés pour fournir l’accès aux fonds qui doivent être préservés à long terme. Choisir des niveaux de qualité permettant la réutilisation sur le long terme 14/11/2018 BNF/DSR/DSC/SN/mef
Autres normes ou standards Producer-Archive Interface Methodology : Abstract Standard, CCSDS 651.0-B-1, BLUE BOOK, May 2004 (RECOMMENDATION) : http://public.ccsds.org/documents/651x0b1.pdf Records management, norme ISO 15489 : http://www.archives.ie/ISO_15489-1.pdf, en cours de révision NF Z 42-013 Archivage électronique. Recommandations relatives à la conception et à l’exploitation de systèmes informatiques en vue d’assurer la conservation et l’intégrité des documents stockés dans ces systèmes. AFNOR, juillet 1999, révisée 2001 : supports non réinscriptibles (WORM) Projet ISO 18509. Stockage à long terme des données dans les systèmes informatiques. Sera une reprise de la norme AFNOR NF Z 42-013 14/11/2018 BNF/DSR/DSC/SN/mef
Des métadonnées pour gérer des objets numériques 05/04/2005 BNF/DSR/DSC-mef
L'objet numérique L'objet numérique est hétérogène... par sa nature (livre numérisé, page Web, notice bibliographique…) par sa forme (un fichier, plusieurs fichiers juxtaposés, plusieurs fichiers hiérarchisé) par son niveau (un fichier, un groupe de fichiers, un document, un groupe de documents) Un objet simple : ne pose pas de problèmes de gestion à son niveau mais peut être traité comme un objet complexe Un objet complexe peut l’être : par sa nature (un ou plusieurs fichiers numériques) par sa forme (un ou plusieurs formats de fichier) par sa composition logique (structure interne et externe de l’objet). 14/11/2018 BNF/DSR/DSC/SN/mef
Objet complexe Un document complexe peut avoir plusieurs niveaux d’accès ou niveaux de granularité Collection Document (notice bibliographique) Vue de détail (article) Volume, tome, fascicule... Page Document simple : pas de problème de structure en soi, mais peut tout de même avoir plusieurs niveaux d’accès Vue de détail Lot (notice bibliographique) Collection Image (légende) 14/11/2018 BNF/DSR/DSC/SN/mef
Gestion des objets complexes La gestion d’un objet numérique complexe implique : une gestion complexe du (une ou plusieurs notices, descriptions à niveaux) une gestion complexe des aspects techniques (s’il y a différents formats de fichier par ex.) une gestion complexe des aspects administratifs (droits, suivi des évolutions du document, suivi des évolutions des métadonnées) une gestion complexe de sa structure physique (organisation des fichiers entre eux) une gestion complexe de sa structure logique (organisation des parties du contenu entre elles) 14/11/2018 BNF/DSR/DSC/SN/mef
Le rôle des métadonnées (1) document numérique / électronique = suite de fichiers sans lien entre eux Identifiant unique (localisation) ? Métadonnées descriptives Rattacher le document à l’original / différentes versions d’un document Donner accès à la copie numérique / électronique Métadonnées de structure Rattacher les fichiers entre eux Reconstituer la structure du document Métadonnées administratives Gérer la collection, c’est-à-dire Gérer les droits d’accès Préserver les informations techniques nécessaires à la lecture des fichiers 14/11/2018 BNF/DSR/DSC/SN/mef
Le rôle des métadonnées (2) Les métadonnées administratives : Métadonnées techniques Pour la conservation (migration, émulation) Pour la restitution (pour savoir comment visualiser ce qu’on a conservé) Métadonnées de gestion des droits Pour contrôler l’accès (droits d’auteur, confidentialité) Pour contrôler l’usage (un fois qu’on a accédé au document, droit de l’imprimer, le copier, le modifier…) Métadonnées de source et de provenance Pour faire le lien avec un document source / original, analogique ou non Pour conserver l’historique des modifications subies par l’objet numérique 14/11/2018 BNF/DSR/DSC/SN/mef
Le rôle des métadonnées (3) Les métadonnées de structure : Connaître tous les fichiers qui composent un document y compris les fichiers de différents formats (texte / image) y compris les fichiers de différentes natures (versions) Connaître la relation physique entre ces fichiers ordre d’affichage fichier cible qui donne accès à l’ensemble ... Connaître la relation logique entre ces fichiers délimitation de chapitres, de séries détail du contenu d’un fichier 14/11/2018 BNF/DSR/DSC/SN/mef
Utilité des métadonnées de préservation Permettent de constituer une base de données issues de la collecte de l'information sur la chaîne de dépendance technique : formats, environnement, supports Informations stockées avec l'archive : pour la faire évoluer : modifications renseignées à chaque action menée sur l'AIP pour la surveiller (veille technologique) pour pouvoir produire des alertes 14/11/2018 BNF/DSR/DSC/SN/mef
Utilité des métadonnées de préservation Permettent de gérer : Les cycles de vie du document (documents administratifs) les versions et éditions les droits de propriété intellectuelle et/ou industrielles les droits des utilisateurs (permissions, contraintes) 14/11/2018 BNF/DSR/DSC/SN/mef
Niveaux d'informations à renseigner Périodique ** Série Monogr. à Plusieurs Vol. (MPV) Document Multimédia multi-support (MMS) * Le niveau de la collection est géré par le biais de la notice bibliographique Ensemble* Volume Fascicule Cassette, disque, disque vinyle, planche de diapos, disquette, ** Pour les périodiques MMS : répétition du niveau Ensemble avec attribut "supérieur" ou "inférieur" Groupe d'Objets Page Fichier html Face d'un disque Objet Vue de détail (fichier image) Fichier texte Fichier vidéo Fichier audio Image (d'une planche de diapo, d'un fichier html) Fichier 14/11/2018 BNF/DSR/DSC/SN/mef
Sites à visiter PREMIS: PREservation Metadata Implementation Strategies - Preservation Metadata and the OAIS Information Model : A Metadata Framework to Support the Preservation of Digital Objects http://www.oclc.org/research/projects/pmwg/ et http://www.rlg.org/en/pdfs/pm_framework.pdf National Library of Australia. 1999. Preservation Metadata for Digital Collections -Exposure Draft. http://www.nla.gov.au/preserve/pmeta.html Metadata Standards Framework for National Library of New Zealand http://www.natlib.govt.nz/en/whatsnew/4initiatives.html#m eta 14/11/2018 BNF/DSR/DSC/SN/mef