Séminaire sur l’archivage des données de recensements Direction de la Statistique Séminaire sur l’archivage des données de recensements Expérience marocaine Addis Abeba, 20-23 septembre 2011
Direction de la Statistique PLAN Direction de la statistique Opérations statistique Recensements marocains Exploitation du dernier recensement (2004) Archivage de questionnaires papier Loi du 30 novembre 2007 relative aux archives Documents sources Sauvegarde Archivage Dissémination Anonymisation Sécurité Addis Ababa, 20-23 septembre 2011
Direction de la Statistique DS La DS relevant du Haut Commissariat au Plan constitue le noyau central du Système National d’informations Statistiques au Maroc; Sa mission consiste à produire, collecter et publier les statistiques démographiques, économiques et sociales de sources et natures variées. Addis Ababa, 20-23 septembre 2011
Opérations statistiques Direction de la Statistique Opérations statistiques Une opération statistique peut être un recensement, une enquête ou un traitement de formulaires ou documents provenant d’autres sources d’informations; L’exploitation informatique des recensements sont réalisés dans le même cadre et de la même façon que ceux concernant les autres opérations statistiques; La seule différence est le fait que les recensements de la population et de l’habitat ayant une grande quantité de données. Addis Ababa, 20-23 septembre 2011
Recensements Marocains Direction de la Statistique Recensements Marocains RGPH 1960 : l’exploitation des questionnaires a été exhaustive. On ne dispose plus ni des questionnaires ni des micro données; RGPH 1971 : l’exploitation a été à 100%. On dispose plus des micro données et une partie des questionnaires a été détériorée; RGPH 1982 : l’exploitation a été à 25%. Les micro données et les questionnaires sont bien préservés; RGPH 1994 : l’exploitation a été à 20%. Les micro données et les questionnaires sont bien préservés; RGPH 2004 : l’exploitation a été à 100%. Les micro données et les questionnaires sont bien préservés et aussi les questionnaires en format image (numérique); La prochain RGPH aura en 2014. Addis Ababa, 20-23 septembre 2011
Exploitation du dernier recensement (2004) Direction de la Statistique Exploitation du dernier recensement (2004) Exploitation du RGPH 2004 a été très différente des celles des précédents RGPH. En effet, pour la saisie et la purement des questionnaires, on a utilisé la technique de la lecture automatique de documents (LAD); Technique basée sur : Numérisation de documents (questionnaires); Reconnaissance de caractères (OCR) : déduire de l’image l’information texte; Vérification de certaines règles de validité et de cohérence; Vidéo codage : intervention humaine pour valider ou corriger certaines informations jugées incertaines par l’OCR ou bien incorrectes vis a vis des règles formulées; Obtention de fichiers textes; Finalisation d’apurement de données.
Exploitation du dernier recensement (2004) suite Direction de la Statistique Exploitation du dernier recensement (2004) suite Avantages : Réduction énorme des délais d’exploitation; Qualité plus élevée de données; Obtention des images numériques de questionnaires; D’autres tâches peuvent être incluses et réalisées rapidement, efficacement et d’une façon plus conviviale, notamment l’apurement et la codification.
Archivage de questionnaires papier Direction de la Statistique Archivage de questionnaires papier La Division de l’Imprimerie, de la Documentation et de l’Archivage (DIDA) de la DS, se charge principalement de la documentation et de l’archivage de tout ce qui est papier (questionnaires, formulaires, documents, …) DIDA dispose d’un grand locale situé au siège de la DS et dans centre éloigné. Ces deux locaux sont réservés pour l’archivage de documents papier. Tous les questionnaires et les documents issus des opérations statistiques réalisées depuis 1971 sont stockés dans ces locaux. Ces documents sont organisés par opérations, par dates de réalisation et par plusieurs niveaux géographiques. Depuis 2007, la DS a commencé l’adaptation de la collecte par ordinateur de poche (PDA). A court terme, cette méthode sera généralisé pour l’ensemble des enquêtes de ménage.
Archivage de questionnaires papier (suite) Direction de la Statistique Archivage de questionnaires papier (suite) La collecte par ordinateur de poche permit d’éviter l’archivage de questionnaires papier. A cause du coût élevé d’acquisition de locaux pour l’archivage et les traitements efficaces pour préserver les documents, l’archivage est devenu très coûteuse. Pour cela la DS envisage à numériser les questionnaires relatifs aux enquêtes qui ne peut être réalisée que par l’intermédiaire de questionnaires papier.
Loi du 30 novembre 2007 relative aux archive Direction de la Statistique Loi du 30 novembre 2007 relative aux archive La loi du 30 novembre 2007 a été établie pour régler l’archivage, la préservation, la confidentialité et la diffusion de tous les documents appartenant à l’état y compris les questionnaires et documents issus des recensements et enquêtes statistiques. Loi 2007 sur les archives.docx
Loi du 30 novembre 2007 relative aux archive (suite) Direction de la Statistique Loi du 30 novembre 2007 relative aux archive (suite) Principaux points du loi : Un document peut être de n’importe quelle format; La loi incite à archiver les documents papier en format numérique; La loi insiste sur la préservation de documents; La loi insiste sur La confidentialité; Les questionnaires statistiques non anonymes peut être consulter après 60 ans. Mais à des fins de recherches scientifiques, ces questionnaires peuvent être consultés, sans toutes fois porter atteinte au secret de la vie privée; Concernant la destruction et la dégradation de documents, la loi stipule des clauses pénales.
Direction de la Statistique Documents Sources Dossiers méthodologiques; Dossiers organisationnels; Moyens humains et matériels utilisés dans les différentes étapes; Distribution de budget; Cartes cartographiques; Questionnaires (non remplis); Variables, leurs modalités, leurs définitions; Codes et nomenclatures; Manuels concernant la cartographie, la collecte et l’exploitation; Règles de validités et de cohérences; Logiciels utilisés;
Direction de la Statistique Documents Sources Codes sources concernant les applications informatiques développées par la DS; Structures de fichiers plats ou ascii; Modèle Physique de données concernant la base de données; Problèmes rencontrés dans les différentes étapes et les solutions adaptées; Lettres, rapports, procès verbaux de réunions, décret, … Pourquoi l’archivage des documents sources : Pour mieux exploiter et utiliser les micro données; Expérience utile pour les recensements futurs; Pour l’histoire.
Documents Sources (suite) Direction de la Statistique Documents Sources (suite) Comment archiver les documents sources : Par TOOLKIT; Pages Web bien structurées et bien conçues, stockées dans un DVD et consultées à partir de l’INTRANET. A quel moment on devra commencer l’archivage des données source : L’archivage des documents sources concernant le dernier RGPH n’a commencé que après la fin du traitement de données et la sortie et la publication des résultats. Ceci était une vraie contrainte pour rassembler l’ensemble des documents; Pour le RGPH futur prévu pour 2014, la DS prévoit que l’archivage commencera du le début de la préparation du recensement et désignera les personnes qui seront chargées de cette tâches.
Direction de la Statistique Micro données Concernant le RGPH 2004, la saisie des questionnaires était accomplie par la technologie «Lecture automatique de documents (LAD) ». En plus de l’obtention des micro données, cette technologie permet aussi d’avoir les questionnaires en format image (numérique). Les noms d’individus et les adresses de ménages n’ont pas été saisis. Une grande partie d’apurement était réalisée pendant l’étape de saisie. L’apurement final des données a été achevé par une application informatique développée par la DS spécialement pour ce besoin. Cette application permet aussi le stockage de données et de questionnaires images, en assurant la liaison entre eux. Les données sont stockées sur une base ORACLE.
Direction de la Statistique Micro données (suite) Après l’apurement et le contrôle d’exhaustivité et de qualité, les données stockées sur la base ORACLE ont été considérées comme une version finale. Les statisticiens et les démographes chargés de l’analyse et la tabulation étaient permis d’accéder à la base. Il est à signalé que les données ORACLE peuvent être utilisées ou importées par tout logiciel ayant la possibilité d’accès à une base de données relationnelle, notamment (SPSS, SAS, EXCEL, ARC GIS, ..). Des copies CSPRO et ASCII ont été extraites de la base ORACLE.
Direction de la Statistique Sauvegarde Les données sont stockés sur un baie de stockage. Généralement, on réalise deux sauvegardes par semaine. Une le mercredi soir et l’autre le vendredi soir. La sauvegarde concerne les bases de données et les machines virtuelles. Avec l’utilisation de RAID 5, on a jugé que deux sauvegardes par semaine et suffisantes. La sauvegarde du mercredi est transportée à un local éloigné sécurisé. Au moment de traitement d’un recensement ou d’une enquête, la sauvegarde de la base de données correspondante se fait chaque soir.
Direction de la Statistique Sauvegarde (suite) La sauvegarde d’une machine virtuelle permet de sauvegarder le système d’exploitation, tous les logiciels et les données stockés dans une machine virtuelle. Et la restauration se fait, facilement et rapidement, sur n’importe quelle machine, même dans le cas où la configuration matérielle de cette dernière est très différente. Donc la sauvegarde d’une machine virtuelle permet de rependre, dans le cas d’un incident ou d’une catastrophe, le travail d’une façon rapide. La fiabilité de sauvegarde est testée de temps en temps. Les sauvegardes des 4 dernières semaines sont gardées. L’exploitation du RGPH 2004 a été faite dans un locale éloigné. Et chaque soir on fait la sauvegarde suivie par une restauration sur un serveur situé au siège de la DS.
Direction de la Statistique Archivage La DS a commencé l’archivage des données et documents numériques des recensements et des enquêtes depuis très longtemps. Mais cette archivage n’est pas exhaustive surtout au niveau de documents, et elle ne se base sur aucun système ni aucune procédure. Par contre, on a arrivé à préserver presque la totalité des données et une partie de documents. A partir de 2009, on a commencé à utilisé TOOLKIT. Mais on n’a pas encore migrer l’ensemble des données et documents dans le système TOOLKOT. Les 3 derniers recensements (1982, 1984 et 2004) et certaines enquêtes sont encore archivés sur DVD d’une façon non structurée. Tout les micro données ont une version ASCII.
Direction de la Statistique Archivage (suite) Tout les archives électroniques sont stockés dans : le baie de stockages (ensemble de disques de Data Center); 2 jeux de bandes magnétiques dont un est déposé dans le local éloigné; 2 jeux de DVD dont un est déposé dans le local éloigné. Chaque fois que la DS acquiert a nouveau logiciel ou une nouvelle version d’un logiciel, on procède à la conversion de tous les fichiers concernés. La sauvegarde et l’archivage est sous la responsabilité d’un service relevant de la division informatique. Il est à avouer que les procédures cités ci-dessus ne sont pas toujours respectés. Donc pour remédier à ce problème, des procédures, des chartes et des mécanismes de contrôle seront établit
Direction de la Statistique Archivage (suite) Tout les archives électroniques sont stockés dans : le baie de stockages (ensemble de disques de Data Center); 2 jeux de bandes magnétiques dont un est déposé dans le local éloigné; 2 jeux de DVD dont un est déposé dans le local éloigné. Chaque fois que la DS acquiert a nouveau logiciel ou une nouvelle version d’un logiciel, on procède à la conversion de tous les fichiers concernés. La sauvegarde et l’archivage est sous la responsabilité d’un service relevant de la division informatique. Il est à avouer que les procédures cités ci-dessus ne sont pas toujours respectés. Donc pour remédier à ce problème, des procédures, des chartes et des mécanismes de contrôle seront établit
Dissémination des micro données Direction de la Statistique Dissémination des micro données Tous les résultats du recensement 2004 (tableaux, rapports, cartes thématiques, graphiques, …) ont été diffusés par le biais de tous les moyens possible notamment Site Web, papier, CD Rom. Concernant les micro données, une copie totale a été mise à la disposition du Centre d’Étude et de Recherche Démographique relevant du Haut Commissariat au Plan. Et 16 copies partielles, chacune contant les données relatives à une région a été donnée à à la Direction Régionale correspondante. Ces 16 Directions Régionales relevant administrativement au Haut Commissariat au Plan sont chargées de la statistique régionale. En général, les demandes, faites par une administration, une association, une société d’études, un chercheur, une université ou autres, de résultats (tableau, rapport, …) relatives aux données d’un recensement, sont satisfaites par la DS, CERD ou l’une des Directions Régionales.
Dissémination des micro données (suite) Direction de la Statistique Dissémination des micro données (suite) Des contactes en cours avec IPUMS pou la possibilité de diffusion de 5% de données de chaque recensement. Les documents sources, gérés par NADA, sont publiés à l’INTRANET de la DS.
Direction de la Statistique Anonymisation A l’exception des identifiants directs (noms et adresses), aucune anonymisation n’a été faite.
Direction de la Statistique Sécurité Un système antivirus centralisé. 1 Intrusion Detection System, 1 Intrusion Protection System et 1 Fire Wall sont installés pour la protection de l »extérieur. L’entrée au réseau n’est permis que par authentification. L’accès à une base de données n’est permis que par l’attribution d’une permission
Merci