L’archivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013
Formation STAR, Paris – 27/09/2013 Sommaire Le CINES. La problématique de l’archivage numérique pérenne La plateforme d’archivage du CINES: PAC La mission d’archivage au CINES Architecture; Principe de fonctionnement Implémentation des procédures d’assurance qualités (techniques et organisationnelles) Les données archivées; Volumétrie Formation STAR, Paris – 27/09/2013
Centre Informatique National de l’Enseignement Supérieur Le CINES Centre Informatique National de l’Enseignement Supérieur Basé à Montpellier (Hérault, France) EPA créé en 1999, succédant au CNUSC (Centre National Universitaire Sud de Calcul) – créé en 1980 Placé sous la tutelle de la DGRI (Direction Générale de la Recherche et de l’Innovation) et de la DGESIP (Direction Générale pour l’Enseignement Supérieur et l’Insertion Professionnelle) du Ministère de l’Enseignement Supérieur et de la Recherche Missions : Calcul numérique intensif Archivage pérenne de documents électroniques Activité transversale : hébergement d'environnements informatiques Plus d’information : http://www.cines.fr/ Formation STAR, Paris – 27/09/2013
La mission d’archivage du CINES Depuis 2004, le CINES a une mission nationale d’archivage du patrimoine scientifique. Arrêté du 7 août 2006 relatif aux modalités de dépôt, de signalement, de reproduction, de diffusion et de conservation des thèses ou des travaux présentés en soutenance en vue d’un doctorat Convention du 2 mai 2007 (faisant suite à celle du 15 octobre 2003) relative à la mise en ligne et l’archivage pérenne de données numérisées dans le cadre du programme Persée Lettre de cadrage du 12 février 2008 recentrant les activités du CINES autour de deux missions stratégiques : le calcul intensif et l’archivage pérenne Pour la remplir, le CINES a mis en place le projet PAC, qui a doté le CINES d’une plate-forme et d’un service d’archivage numérique pérenne L’équipe : 1 chef de projet, 8 ingénieurs, 1 archiviste, 2 techniciens (11 ETP) Formation STAR, Paris – 27/09/2013
Le service d’archivage pérenne du CINES Objectifs : la mise en place d’une solution Performante pour la conservation à moyen et long terme du patrimoine numérique des établissements Economique et sécurisée Contraintes Besoin d’une solution générique, basée sur les normes du domaine ; Adoption de standards → facilite la démarche qualité pour la conservation ; Veille technologique et de migration. Les données concernées sont : Les données scientifiques – résultats d’observations ou de calcul Les données patrimoniales – pédagogiques, publications, etc. Les données administratives – archives intermédiaires Dans le respect du contexte législatif archivistique français Formation STAR, Paris – 27/09/2013
PAC: Les infrastructures, supports et moyens de PAC La Plateforme d’archivage pérenne au CINES – PAC v2.0 Capacité actuelle 40 To + 10 To en reserve En exploitation depuis Mai 2008 Logiciel d’archivage (Arcsys (Infotel)+développements spécifiques CINES) Serveurs applicatifs et baie de stockage SUN – Oracle Librairie de bandes IBM (2 x 1Po) Tous les projets d’archives à long terme partagent la même plateforme Mutualisation de l’infrastructure matérielle d’archivage ; Protocole de versement générique ; Diminution des coûts de mise en place et d’exploitation. Le service d’archivage bénéficie des infrastructure et de l’équipe d’experts d’un Centre Informatique National 4 salles machine (820 m2), 1 salle 500m2 en construction Alimentation électrique (lignes 2,6 MW et 10MW) secourue (groupe électrogène 1,5MW) Réseau RENATER (lien 10Gbits) Formation STAR, Paris – 27/09/2013
Le contexte, la problématique et les constats Qu’est-ce que l’archivage électronique pérenne ? L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient : Dans son aspect physique comme dans son aspect intellectuel, Sur le très long terme soit 30 ans et au-delà, De manière à ce qu’il soit en permanence accessible et compréhensible. Conserver dans le document à la fois dans le fond et la forme. 30 ans et plus. Ce qui est large au vu de l’évolution de l’informatique en 50 ans. Conservation en le gardant en permanence accessible et compréhensible. Formation STAR, Paris – 27/09/2013
Le contexte, la problématique et les constats Temps 4 risques inéluctables : Connaissance perdue du contenu des fichiers ; Format de fichier inconnu ; Support physique détérioré ; Logiciel ou matériel de lecture disparu. Archivage pérenne = Mise en place de procédures d’assurance qualité pour atténuer l’impact des risques lorsqu’ils se réalisent On distingue 4 risque inéluctables dans la conservation de doc electro. Perte du contenu du fichier: si tous les fichiers theses on le meme nom on ne saura jamais quel fichier correspond à quoi . Le format de fichier inconnu: ex saisie d’une thèse avec WordPerfect il y a 15 ans ne sont plus lisibles aujourd’hui. Support détérioré: si ce fichier de these a été enregistré sur un disq 3p1/2 et rangée depuis 10 ans dans une armoire (poussière et var de temp), il ya fort a parier qu’elle n’est plus exploitable. Logiciel ou matériel disparu: il n’y a plus de lecteur 3p1/2 sur les portable et autres tablette aujourd’hui. Même si la disquette est encore correcte, je n’ai plus les moyens de la lire . Donc l’archivage pérenne c’est mettre en œuvre des procédures d’assurance qualité pour limiter ces risques. Formation STAR, Paris – 27/09/2013
Les défis, orientations et choix pour l’archivage au CINES De quoi s’agit-il déjà ? Est-ce bien ce qui est indiqué sur la disquette ? La disquette est-elle toujours en bon état ? Voici un document que j’ai créé en 1998… SUPPORT : VEILLE + MIGRATION PHYSIQUE METADONNEES DESCRIPTIVES + IDENTIFICATION UNIQUE et PERENNE Mon portable, acheté en 2006, n’a pas de lecteur de disquette… Ça marche ! Mais j’ai perdu toute ma mise en forme… ENVIRONNEMENT MATERIEL : VEILLE TECHNO et ANTICIPATION INTEGRITE AUTHENTICITE J’ai créé ce document avec Claris Works. Comment retrouver ce logiciel ? Quel est le format du document ? J’ai trouvé le logiciel, mais puis-je l’installer et l’utiliser sous Windows XP ? ENVIRONNEMENT LOGICIEL : privilégier les FORMATS DURABLES + MIGRATION LOGIQUE SYSTÈME D’EXPLOITATION
Les normes et standards utilisés OAIS - ISO 14721 : Reference model for an Open Archival Information System Modèle purement conceptuel, ne fait aucune recommandation technique P2A Politique et pratiques d’archivage (sphère publique) Recommandations en termes d’architecture, moyens, sécurité, etc. Standard d’échanges de données pour l’archivage électronique, versement, communication, élimination Normes internationales de description archivistique ISAAR-CPF – Norme Internationale sur les notices d’autorité utilisées pour les Archives relatives aux collectivités, aux personnes ou aux familles ISAD-G – Norme générale et internationale de description archivistique Métadonnées descriptives de l’archive DCMI – Dublin Core Metadata Initiative Identifiant unique et pérenne Interne, séquentiel, basé sur le principe URI Couplé à un identifiant persistant externe de type ARK Empreintes numériques Hashing MD5, SHA-256, SHA-1 Formation STAR, Paris – 27/09/2013
Qualité organisationnelle: La certification Le CINES a une démarche de certification pour valider, mettre en avant les procédures d’assurance qualité mises en œuvre : Plusieurs audits internes/externes depuis 2009 en collaboration avec le cabinet de consultants Ourouk Agrément du SIAF pour la conservation d’archives publiques intermédiaires (Arrêté du 14 décembre 2010) Accréditation Data Seal of Approval - attribuée aux centres de préservation numérique ayant mis en place des procédures d’assurance qualité afin de garantir l’accessibilité et l’intelligibilité des informations (15 Mars 2011) (16 critères) Test audit ISO 16363 pour la certification de systèmes d’archivage électronique dans le cadre du projet européen APARSEN (7 Juin 2011) dont le CINES est partenaire (48 critères) Objectif de certification du service à l’horizon 2014. Formation STAR, Paris – 27/09/2013
Les types de documents à archiver de façon pérenne Présentant une valeur patrimoniale scientifique ou technique De préférence des objets dits « primaires » Documents originaux, Bruts de scan, etc. Dans un format identifié et vérifiable : Format publié Format largement utilisé (ou promis à l’être) Format normalisé si possible Les formats doivent respecter les spécifications de leur format Type Format Texte HTML, PDF, TXT, XML, ODT Image GIF, JPEG, TIFF, PNG, SVG Audio WAV, AIFF, AAC, VORBIS Vidéo MJPEG2000, MPEG4, THEORA Le système PAC est interfacé avec les outils Jhove, ImageMagick, DROID, ODF Validator, MPlayer pour Identifier, Valider, Caractériser le format des fichiers transférés Formation STAR, Paris – 27/09/2013
Un outil en ligne pour valider les formats de fichier FACILE – validation du Format d’Archivage du CInes par anaLyse et Expertise Outil en ligne permettant de valider les fichiers par rapport aux spécifications de leur format Les contrôles effectués sont les mêmes que ceux effectués lors d’un dépôt de document Intègre les mêmes outils (Jhove, Imagemagick, DROID, Mplayer) que la plateforme d’archivage PAC Permet une validation des fichiers avant dépôt de la part du producteur http://facile.cines.fr/ Formation STAR, Paris – 27/09/2013
BIR,Bibliothèque d’Informations de Représentation PAC: Qualité des métadonnées : Les niveaux de MD dans PAC Fonds ou Projet d’archives PPDI.XML Document BIR,Bibliothèque d’Informations de Représentation SIP.XML / AIP.XML formats Spécifications des formats des fichiers archivés. Les schémas xsd, dtd … Métadonnees_métier.XML Projet PPDI , profil d‘archivage, convention, élimination … Spécifications doc techniques
La structure du document à archiver Document à archiver composé de deux pièces : La description de l’archive Fichier sip.xml (schéma http://www.cines.fr/pac/sip.xsd) 3 sections décrivant : Le document dans son projet d’archives (DocDC) Le document proprement dit (DocMeta) Les fichiers du document (FichMeta) Le dossier contenant les documents électroniques à archiver Répertoire « DEPOT » Sous-arborescence autorisée Tout fichier présent doit être décrit dans le fichier sip.xml Formation STAR, Paris – 27/09/2013
Formation STAR, Paris – 27/09/2013 Les acteurs Le producteur Personne physique ou morale, publique ou privée, qui a produit, reçu et conservé des archives dans l’exercice de son activité. Le service versant Organisation qui transfère une archive à un service d’archives Le service de contrôle Personne physique ou morale qui effectue le contrôle scientifique, juridique et technique des documents archivés, et éventuellement valide les demandes de communication d’archives Le service d’archives Organisation recevant le document à archiver transféré et chargée de la conserver pour permettre à une communauté d’utilisateurs/un service demandeur d’y accéder et de l’utiliser L’utilisateur Toute personne ou système client en relation avec le service d’archives pour trouver les informations archivées présentant un intérêt, et pour accéder au détail de ces informations, dans le respect de la législation applicable en matière de communication des archives. Formation STAR, Paris – 27/09/2013
Formation STAR, Paris – 27/09/2013 Les échanges Transfert d’archives Transmission physique d’une archive ou d’un ensemble d’archives par un service versant à un service d’archives Modification d’archives Modification des métadonnées et/ou du document pour en assurer la préservation Elimination d’archives Elimination des métadonnées et/ou du document à la demande du services d’archives, du service versant ou du service de contrôle Restitution d’archives Transmission de documents par le service d’archives au service versant ou au producteur afin de leur en restituer la garde Communication d’archives Transmission de copie de document à un utilisateur ayant l’autorisation du service versant et /ou du service de contrôle Formation STAR, Paris – 27/09/2013
Le modèle fonctionnel OAIS Planification dans le temps par exemple des migrations de formats; Les stratégies de conservation MANAGEMENT: ce sont les responsables décisionnels du SAE. Responsable de la gestion du projet, processus. Définir la politique d’archivage, Formation STAR, Paris – 27/09/2013
L’architecture logique de la plateforme PAC Service de Contrôle PAC : Plateforme d’archivage du CINES Serveur de Transfert Serveur de Stockage Serveur d’Accès Utilisateur Producteur Service Versant Administrateur Formation STAR, Paris – 27/09/2013
Les principes de fonctionnement Serveurs Fonctions Transfert réception des SIP détection d’un nouveau transfert envoi d’un accusé de réception contrôle des SIP structure informatique conformité des métadonnées sip.xml par rapport au schéma sip.xsd correspondance entre la description sip.xml et les fichiers qui composent le document contrôle et validation du format des fichiers calcul de l’empreinte numérique de chaque fichier création des AIP création de l’identifiant du document archivé mise à jour des métadonnées : sip.xml > aip.xml transfert de l’AIP au serveur de stockage Stockage archivage des AIP copie multiple de l’AIP sur les différents médias ou supports envoi du certificat d’archivage vérification périodique de l’intégrité des AIP archivés migration technologique fourniture d’états et de statistiques Accès contrôle de l’authentification de l’utilisateur consultation du catalogue des AIP archivés communication d’une copie d’un document archivé Formation STAR, Paris – 27/09/2013
Les étapes du versement d’archives Formation STAR, Paris – 27/09/2013
PAC: Qualité du stockage La qualité du stockage garantit la conservation du train de bits composant les fichiers de données Copies multiples: 2 copies sur disques 1 réplication sur un site distant CC-IN2P3 2 copies sur bandes Indépendance des supports de copies (mélange disques/bandes, localisation géographique) Audit fréquent de l’intégrité des copies Au niveau matériel : vérification des contrôleurs de disques, contrôleurs réseau etc. Migration physique. Au niveau logiciel : (Archeck module de supervision qui détecte les corruptions silencieuses,..) Calcul des empreintes numériques par échantillonnage et comparaison avec l’empreinte initiale Utilisation d’algorithme de hachage (MD5, SHA-256), etc. 22 Formation STAR, Paris – 27/09/2013
La stratégie de préservation des documents La stratégie de préservation des documents archivés repose sur la migration (pas d’émulation) Migration physique La technologie évolue: changement du support de stockage Effectuée en tâche de fond par l’application d’archivage, pas d’arrêt de service, le service versant est informé Migration logique Conversion de formats Expertise et veille technologique pour la détection de l’obsolescence d’un format de fichier pris en charge sur la plateforme Identification d’un format offrant de meilleures garanties de pérennité Migration après accord des services versants concernés Pas de modification pour le service versant de l’identifiant unique attribué lors de l’archivage Conservation des versions 1 (initiale), n-1 et n d’un document migré Formation STAR, Paris – 27/09/2013
L’archivage au CINES en quelques dates… 2004 2006 2008 2010 2013 1ères réflexions sur l’archivage numérique Prestation de conseil en AE (2005) Arrêté du 7 août 2006 (Thèses) 1ères thèses versées dans PAC_V1, une plateforme d’archivage « maison » (arrêté du 07/08/2006) Convention pour l’archivage du portail Persée (02/05/2007) Recadrage des activités du CINES (lettre du 12/02/2008) Mise en production de PAC_V2 (basée sur la solution Arcsys d’Infotel et un client spécifique) « migration de plateforme » Archivage de HAL (Hyper Articles en Ligne), des données orales du CRDO (TGE- Adonis), de livres numérisés (Cujas, BIUS, BUPMC,BSG…) 2009 : 1er To archivé Agrément du SIAF (14/12/2010) Archivage Cour des comptes, Inserm Accréditation DSA (2011) Certification ISO 16363 (en cours) 26 To archivés Arrêté du 7 aout 2006 relatif au Thèse site le CINES comme centre archiveur des thèses électroniques. Lettre de cadrage de fev 2008: 2 missions du CINES Pour répondre à ces nouvelles missions: projet PAC: des matériels des logiciels, une équipe (un service) Formation STAR, Paris – 27/09/2013
Les utilisateurs de PAC 11/07/2012
Les thèses : Volumétrie Début septembre 19873 thèses déposées 12/01/2012 Formation STAR, Paris – 27/09/2013
Les thèses : Répartition des versions de formats Nombre Pourcentage PDF 1.2 157 0,6% PDF 1.3 761 2,8% PDF 1.4 14013 51,9% PDF 1.5 3672 13,6% PDF 1.6 2156 8,0% PDF 1.7 208 0,8% XML 1.0 106 0,4% WAV 659 2,4% TXT PNG 1.0 3001 11,1% PNG 1.1 20 0,1% AAC 1796 6,7% MPEG-4 118 JPEG NA 97 JPEG 1.01 JPEG 1.02 34 GIF 89a 29 FLAC 1 0,0% TIFF 5.0 5 TIFF 6.0 38 Total 26997 100,0% Formation STAR, Paris – 27/09/2013
Bilan des théses Dépôt sur les deux dernières années Mois Mois Volumétrie réelle (en Go) Cumul dépôts Dépôts mensuels 1 oct.-11 103 6983 520 2 nov.-11 112 7445 462 3 déc.-11 117 7807 362 4 janv.-12 128 8502 695 5 févr.-12 141 9314 812 6 mars-12 155 10107 793 7 avr.-12 165 10697 590 8 mai-12 173 11203 506 9 juin-12 181 11667 464 10 juil.-12 191 12268 601 11 août-12 192 12355 87 12 sept.-12 199 12738 383 13 oct.-12 221 13542 804 14 nov.-12 226 13935 393 15 déc.-12 238 14559 624 16 janv.-13 254 15565 1006 17 févr.-13 267 16263 698 18 mars-13 279 16882 619 19 avr.-13 292 17678 796 20 mai-13 302 18228 21 juin-13 314 18980 752 22 juil.-13 329 19751 771 23 août-13 331 19873 122 Dépôt sur les deux dernières années Formation STAR, Paris – 27/09/2013
Questions & Réponses Formation STAR, Paris – 27/09/2013 Plus d’information à l’adresse : http://www.cines.fr/spip.php?rubrique219 mireille.gay@cines.fr Formation STAR, Paris – 27/09/2013