La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

L’archivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013.

Présentations similaires


Présentation au sujet: "L’archivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013."— Transcription de la présentation:

1 L’archivage pérenne du document numérique au CINES Mireille Gay(CINES) Formation STAR – 27 septembre 2013

2 Formation STAR, Paris – 27/09/2013
Sommaire Le CINES. La problématique de l’archivage numérique pérenne La plateforme d’archivage du CINES: PAC La mission d’archivage au CINES Architecture; Principe de fonctionnement Implémentation des procédures d’assurance qualités (techniques et organisationnelles) Les données archivées; Volumétrie Formation STAR, Paris – 27/09/2013

3 Centre Informatique National de l’Enseignement Supérieur
Le CINES Centre Informatique National de l’Enseignement Supérieur Basé à Montpellier (Hérault, France) EPA créé en 1999, succédant au CNUSC (Centre National Universitaire Sud de Calcul) – créé en 1980 Placé sous la tutelle de la DGRI (Direction Générale de la Recherche et de l’Innovation) et de la DGESIP (Direction Générale pour l’Enseignement Supérieur et l’Insertion Professionnelle) du Ministère de l’Enseignement Supérieur et de la Recherche Missions : Calcul numérique intensif Archivage pérenne de documents électroniques Activité transversale : hébergement d'environnements informatiques Plus d’information : Formation STAR, Paris – 27/09/2013

4 La mission d’archivage du CINES
Depuis 2004, le CINES a une mission nationale d’archivage du patrimoine scientifique. Arrêté du 7 août 2006 relatif aux modalités de dépôt, de signalement, de reproduction, de diffusion et de conservation des thèses ou des travaux présentés en soutenance en vue d’un doctorat Convention du 2 mai 2007 (faisant suite à celle du 15 octobre 2003) relative à la mise en ligne et l’archivage pérenne de données numérisées dans le cadre du programme Persée Lettre de cadrage du 12 février 2008 recentrant les activités du CINES autour de deux missions stratégiques : le calcul intensif et l’archivage pérenne Pour la remplir, le CINES a mis en place le projet PAC, qui a doté le CINES d’une plate-forme et d’un service d’archivage numérique pérenne L’équipe : 1 chef de projet, 8 ingénieurs, 1 archiviste, 2 techniciens (11 ETP) Formation STAR, Paris – 27/09/2013

5 Le service d’archivage pérenne du CINES
Objectifs : la mise en place d’une solution Performante pour la conservation à moyen et long terme du patrimoine numérique des établissements Economique et sécurisée Contraintes Besoin d’une solution générique, basée sur les normes du domaine ; Adoption de standards → facilite la démarche qualité pour la conservation ; Veille technologique et de migration. Les données concernées sont : Les données scientifiques – résultats d’observations ou de calcul Les données patrimoniales – pédagogiques, publications, etc. Les données administratives – archives intermédiaires Dans le respect du contexte législatif archivistique français Formation STAR, Paris – 27/09/2013

6 PAC: Les infrastructures, supports et moyens de PAC
La Plateforme d’archivage pérenne au CINES – PAC v2.0 Capacité actuelle 40 To To en reserve En exploitation depuis Mai 2008 Logiciel d’archivage (Arcsys (Infotel)+développements spécifiques CINES) Serveurs applicatifs et baie de stockage SUN – Oracle Librairie de bandes IBM (2 x 1Po) Tous les projets d’archives à long terme partagent la même plateforme Mutualisation de l’infrastructure matérielle d’archivage ; Protocole de versement générique ; Diminution des coûts de mise en place et d’exploitation. Le service d’archivage bénéficie des infrastructure et de l’équipe d’experts d’un Centre Informatique National 4 salles machine (820 m2), 1 salle 500m2 en construction Alimentation électrique (lignes 2,6 MW et 10MW) secourue (groupe électrogène 1,5MW) Réseau RENATER (lien 10Gbits) Formation STAR, Paris – 27/09/2013

7 Le contexte, la problématique et les constats
Qu’est-ce que l’archivage électronique pérenne ? L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient : Dans son aspect physique comme dans son aspect intellectuel, Sur le très long terme soit 30 ans et au-delà, De manière à ce qu’il soit en permanence accessible et compréhensible. Conserver dans le document à la fois dans le fond et la forme. 30 ans et plus. Ce qui est large au vu de l’évolution de l’informatique en 50 ans. Conservation en le gardant en permanence accessible et compréhensible. Formation STAR, Paris – 27/09/2013

8 Le contexte, la problématique et les constats
Temps 4 risques inéluctables : Connaissance perdue du contenu des fichiers ; Format de fichier inconnu ; Support physique détérioré ; Logiciel ou matériel de lecture disparu. Archivage pérenne = Mise en place de procédures d’assurance qualité pour atténuer l’impact des risques lorsqu’ils se réalisent On distingue 4 risque inéluctables dans la conservation de doc electro. Perte du contenu du fichier: si tous les fichiers theses on le meme nom on ne saura jamais quel fichier correspond à quoi . Le format de fichier inconnu: ex saisie d’une thèse avec WordPerfect il y a 15 ans ne sont plus lisibles aujourd’hui. Support détérioré: si ce fichier de these a été enregistré sur un disq 3p1/2 et rangée depuis 10 ans dans une armoire (poussière et var de temp), il ya fort a parier qu’elle n’est plus exploitable. Logiciel ou matériel disparu: il n’y a plus de lecteur 3p1/2 sur les portable et autres tablette aujourd’hui. Même si la disquette est encore correcte, je n’ai plus les moyens de la lire . Donc l’archivage pérenne c’est mettre en œuvre des procédures d’assurance qualité pour limiter ces risques. Formation STAR, Paris – 27/09/2013

9 Les défis, orientations et choix pour l’archivage au CINES
De quoi s’agit-il déjà ? Est-ce bien ce qui est indiqué sur la disquette ? La disquette est-elle toujours en bon état ? Voici un document que j’ai créé en 1998… SUPPORT : VEILLE + MIGRATION PHYSIQUE METADONNEES DESCRIPTIVES + IDENTIFICATION UNIQUE et PERENNE Mon portable, acheté en 2006, n’a pas de lecteur de disquette… Ça marche ! Mais j’ai perdu toute ma mise en forme… ENVIRONNEMENT MATERIEL : VEILLE TECHNO et ANTICIPATION INTEGRITE AUTHENTICITE J’ai créé ce document avec Claris Works. Comment retrouver ce logiciel ? Quel est le format du document ? J’ai trouvé le logiciel, mais puis-je l’installer et l’utiliser sous Windows XP ? ENVIRONNEMENT LOGICIEL : privilégier les FORMATS DURABLES + MIGRATION LOGIQUE SYSTÈME D’EXPLOITATION

10 Les normes et standards utilisés
OAIS - ISO : Reference model for an Open Archival Information System Modèle purement conceptuel, ne fait aucune recommandation technique P2A Politique et pratiques d’archivage (sphère publique) Recommandations en termes d’architecture, moyens, sécurité, etc. Standard d’échanges de données pour l’archivage électronique, versement, communication, élimination Normes internationales de description archivistique ISAAR-CPF – Norme Internationale sur les notices d’autorité utilisées pour les Archives relatives aux collectivités, aux personnes ou aux familles ISAD-G – Norme générale et internationale de description archivistique Métadonnées descriptives de l’archive DCMI – Dublin Core Metadata Initiative Identifiant unique et pérenne Interne, séquentiel, basé sur le principe URI Couplé à un identifiant persistant externe de type ARK Empreintes numériques Hashing MD5, SHA-256, SHA-1 Formation STAR, Paris – 27/09/2013

11 Qualité organisationnelle: La certification
Le CINES a une démarche de certification pour valider, mettre en avant les procédures d’assurance qualité mises en œuvre : Plusieurs audits internes/externes depuis 2009 en collaboration avec le cabinet de consultants Ourouk Agrément du SIAF pour la conservation d’archives publiques intermédiaires (Arrêté du 14 décembre 2010) Accréditation Data Seal of Approval - attribuée aux centres de préservation numérique ayant mis en place des procédures d’assurance qualité afin de garantir l’accessibilité et l’intelligibilité des informations (15 Mars 2011) (16 critères) Test audit ISO pour la certification de systèmes d’archivage électronique dans le cadre du projet européen APARSEN (7 Juin 2011) dont le CINES est partenaire (48 critères) Objectif de certification du service à l’horizon 2014. Formation STAR, Paris – 27/09/2013

12 Les types de documents à archiver de façon pérenne
Présentant une valeur patrimoniale scientifique ou technique De préférence des objets dits « primaires » Documents originaux, Bruts de scan, etc. Dans un format identifié et vérifiable : Format publié Format largement utilisé (ou promis à l’être) Format normalisé si possible Les formats doivent respecter les spécifications de leur format Type Format Texte HTML, PDF, TXT, XML, ODT Image GIF, JPEG, TIFF, PNG, SVG Audio WAV, AIFF, AAC, VORBIS Vidéo MJPEG2000, MPEG4, THEORA Le système PAC est interfacé avec les outils Jhove, ImageMagick, DROID, ODF Validator, MPlayer pour Identifier, Valider, Caractériser le format des fichiers transférés Formation STAR, Paris – 27/09/2013

13 Un outil en ligne pour valider les formats de fichier
FACILE – validation du Format d’Archivage du CInes par anaLyse et Expertise Outil en ligne permettant de valider les fichiers par rapport aux spécifications de leur format Les contrôles effectués sont les mêmes que ceux effectués lors d’un dépôt de document Intègre les mêmes outils (Jhove, Imagemagick, DROID, Mplayer) que la plateforme d’archivage PAC Permet une validation des fichiers avant dépôt de la part du producteur Formation STAR, Paris – 27/09/2013

14 BIR,Bibliothèque d’Informations de Représentation
PAC: Qualité des métadonnées : Les niveaux de MD dans PAC Fonds ou Projet d’archives PPDI.XML Document BIR,Bibliothèque d’Informations de Représentation SIP.XML / AIP.XML formats Spécifications des formats des fichiers archivés. Les schémas xsd, dtd … Métadonnees_métier.XML Projet PPDI , profil d‘archivage, convention, élimination … Spécifications doc techniques

15 La structure du document à archiver
Document à archiver composé de deux pièces : La description de l’archive Fichier sip.xml (schéma 3 sections décrivant : Le document dans son projet d’archives (DocDC) Le document proprement dit (DocMeta) Les fichiers du document (FichMeta) Le dossier contenant les documents électroniques à archiver Répertoire « DEPOT » Sous-arborescence autorisée Tout fichier présent doit être décrit dans le fichier sip.xml Formation STAR, Paris – 27/09/2013

16 Formation STAR, Paris – 27/09/2013
Les acteurs Le producteur Personne physique ou morale, publique ou privée, qui a produit, reçu et conservé des archives dans l’exercice de son activité. Le service versant Organisation qui transfère une archive à un service d’archives Le service de contrôle Personne physique ou morale qui effectue le contrôle scientifique, juridique et technique des documents archivés, et éventuellement valide les demandes de communication d’archives Le service d’archives Organisation recevant le document à archiver transféré et chargée de la conserver pour permettre à une communauté d’utilisateurs/un service demandeur d’y accéder et de l’utiliser L’utilisateur Toute personne ou système client en relation avec le service d’archives pour trouver les informations archivées présentant un intérêt, et pour accéder au détail de ces informations, dans le respect de la législation applicable en matière de communication des archives. Formation STAR, Paris – 27/09/2013

17 Formation STAR, Paris – 27/09/2013
Les échanges Transfert d’archives Transmission physique d’une archive ou d’un ensemble d’archives par un service versant à un service d’archives Modification d’archives Modification des métadonnées et/ou du document pour en assurer la préservation Elimination d’archives Elimination des métadonnées et/ou du document à la demande du services d’archives, du service versant ou du service de contrôle Restitution d’archives Transmission de documents par le service d’archives au service versant ou au producteur afin de leur en restituer la garde Communication d’archives Transmission de copie de document à un utilisateur ayant l’autorisation du service versant et /ou du service de contrôle Formation STAR, Paris – 27/09/2013

18 Le modèle fonctionnel OAIS
Planification dans le temps par exemple des migrations de formats; Les stratégies de conservation MANAGEMENT: ce sont les responsables décisionnels du SAE. Responsable de la gestion du projet, processus. Définir la politique d’archivage, Formation STAR, Paris – 27/09/2013

19 L’architecture logique de la plateforme PAC
Service de Contrôle PAC : Plateforme d’archivage du CINES Serveur de Transfert Serveur de Stockage Serveur d’Accès Utilisateur Producteur Service Versant Administrateur Formation STAR, Paris – 27/09/2013

20 Les principes de fonctionnement
Serveurs Fonctions Transfert réception des SIP détection d’un nouveau transfert envoi d’un accusé de réception contrôle des SIP structure informatique conformité des métadonnées sip.xml par rapport au schéma sip.xsd correspondance entre la description sip.xml et les fichiers qui composent le document contrôle et validation du format des fichiers calcul de l’empreinte numérique de chaque fichier création des AIP création de l’identifiant du document archivé mise à jour des métadonnées : sip.xml > aip.xml transfert de l’AIP au serveur de stockage Stockage archivage des AIP copie multiple de l’AIP sur les différents médias ou supports envoi du certificat d’archivage vérification périodique de l’intégrité des AIP archivés migration technologique fourniture d’états et de statistiques Accès contrôle de l’authentification de l’utilisateur consultation du catalogue des AIP archivés communication d’une copie d’un document archivé Formation STAR, Paris – 27/09/2013

21 Les étapes du versement d’archives
Formation STAR, Paris – 27/09/2013

22 PAC: Qualité du stockage
La qualité du stockage garantit la conservation du train de bits composant les fichiers de données Copies multiples: 2 copies sur disques 1 réplication sur un site distant CC-IN2P3 2 copies sur bandes Indépendance des supports de copies (mélange disques/bandes, localisation géographique) Audit fréquent de l’intégrité des copies Au niveau matériel : vérification des contrôleurs de disques, contrôleurs réseau etc. Migration physique. Au niveau logiciel : (Archeck module de supervision qui détecte les corruptions silencieuses,..) Calcul des empreintes numériques par échantillonnage et comparaison avec l’empreinte initiale Utilisation d’algorithme de hachage (MD5, SHA-256), etc. 22 Formation STAR, Paris – 27/09/2013

23 La stratégie de préservation des documents
La stratégie de préservation des documents archivés repose sur la migration (pas d’émulation) Migration physique La technologie évolue: changement du support de stockage Effectuée en tâche de fond par l’application d’archivage, pas d’arrêt de service, le service versant est informé Migration logique Conversion de formats Expertise et veille technologique pour la détection de l’obsolescence d’un format de fichier pris en charge sur la plateforme Identification d’un format offrant de meilleures garanties de pérennité Migration après accord des services versants concernés Pas de modification pour le service versant de l’identifiant unique attribué lors de l’archivage Conservation des versions 1 (initiale), n-1 et n d’un document migré Formation STAR, Paris – 27/09/2013

24 L’archivage au CINES en quelques dates…
2004 2006 2008 2010 2013 1ères réflexions sur l’archivage numérique Prestation de conseil en AE (2005) Arrêté du 7 août (Thèses) 1ères thèses versées dans PAC_V1, une plateforme d’archivage « maison » (arrêté du 07/08/2006) Convention pour l’archivage du portail Persée (02/05/2007) Recadrage des activités du CINES (lettre du 12/02/2008) Mise en production de PAC_V2 (basée sur la solution Arcsys d’Infotel et un client spécifique) « migration de plateforme » Archivage de HAL (Hyper Articles en Ligne), des données orales du CRDO (TGE- Adonis), de livres numérisés (Cujas, BIUS, BUPMC,BSG…) 2009 : 1er To archivé Agrément du SIAF (14/12/2010) Archivage Cour des comptes, Inserm Accréditation DSA (2011) Certification ISO (en cours) 26 To archivés Arrêté du 7 aout 2006 relatif au Thèse site le CINES comme centre archiveur des thèses électroniques. Lettre de cadrage de fev 2008: 2 missions du CINES Pour répondre à ces nouvelles missions: projet PAC: des matériels des logiciels, une équipe (un service) Formation STAR, Paris – 27/09/2013

25 Les utilisateurs de PAC
11/07/2012

26 Les thèses : Volumétrie
Début septembre thèses déposées 12/01/2012 Formation STAR, Paris – 27/09/2013

27 Les thèses : Répartition des versions de formats
Nombre Pourcentage PDF 1.2 157 0,6% PDF 1.3 761 2,8% PDF 1.4 14013 51,9% PDF 1.5 3672 13,6% PDF 1.6 2156 8,0% PDF 1.7 208 0,8% XML 1.0 106 0,4% WAV 659 2,4% TXT PNG 1.0 3001 11,1% PNG 1.1 20 0,1% AAC 1796 6,7% MPEG-4 118 JPEG NA 97 JPEG 1.01 JPEG 1.02 34 GIF 89a 29 FLAC 1 0,0% TIFF 5.0 5 TIFF 6.0 38 Total 26997 100,0% Formation STAR, Paris – 27/09/2013

28 Bilan des théses Dépôt sur les deux dernières années Mois
Mois Volumétrie réelle (en Go) Cumul dépôts Dépôts mensuels 1 oct.-11 103 6983 520 2 nov.-11 112 7445 462 3 déc.-11 117 7807 362 4 janv.-12 128 8502 695 5 févr.-12 141 9314 812 6 mars-12 155 10107 793 7 avr.-12 165 10697 590 8 mai-12 173 11203 506 9 juin-12 181 11667 464 10 juil.-12 191 12268 601 11 août-12 192 12355 87 12 sept.-12 199 12738 383 13 oct.-12 221 13542 804 14 nov.-12 226 13935 393 15 déc.-12 238 14559 624 16 janv.-13 254 15565 1006 17 févr.-13 267 16263 698 18 mars-13 279 16882 619 19 avr.-13 292 17678 796 20 mai-13 302 18228 21 juin-13 314 18980 752 22 juil.-13 329 19751 771 23 août-13 331 19873 122 Dépôt sur les deux dernières années Formation STAR, Paris – 27/09/2013

29 Questions & Réponses Formation STAR, Paris – 27/09/2013
Plus d’information à l’adresse : Formation STAR, Paris – 27/09/2013


Télécharger ppt "L’archivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013."

Présentations similaires


Annonces Google