Fichiers anonymisés d’étudiants : sources, pratiques, usages Séminaire Société Française de Statistique 19/01/12
Plan de l’exposé Les sources et les utilisations au MESR Les procédés d’anonymisation et les utilisations ailleurs 2
SISE : Système d’Information sur le Suivi des Etudiants - Depuis Recensement annuel des INSCRIPTIONS et RESULTATS aux diplômes des étudiants inscrits dans L’Université Publique puis progressivement : Les IUFM ( ) Les instituts catholiques ( ) Les écoles d’ingénieur non universitaires ( ) Les écoles de Management ( ) Les ENS et grands établissements ( ) Les écoles vétérinaires ( ) Les écoles paramédicales et sociales (source DREES) 3
SISE : Système d’Information sur le Suivi des Etudiants -> Données individuelles issues des logiciels de gestion de la scolarité -> Source administrative exhaustive -> Contient un enregistrement par inscription prise (1 étudiant inscrit pour plusieurs diplômes apparaît plusieurs fois) 4
SISE : Système d’Information sur le Suivi des Etudiants Nature des données Scolarité actuelle Diplôme préparé, établissement fréquenté, commune de l’établissement Données socio-démographiques PCS des parents, sexe, date de naissance, nationnalité, INE, code commune de résidence, code commune de résidence des parents Scolarité antérieure (académie du baccalauréat, année d’obtention, série, année de première inscription dans le système universitaire français) 5
Autres sources : AGLAE et OCEAN Automatisation de la Gestion du Logement et de l’Aide à l’Etudiant Gère l’ensemble des demandes de bourses et de logements sociaux du CNOUS Mois de Mars Boursiers de l’échelon « zero » compris Organisation des Concours et Examens Académiques et Nationaux Gestion Brevet, Baccalauréat, BTS, … 6
Sources : Point commun Identifiant National Etudiant 2 formes Depuis 1995, numéro BEA qui est le numéro d’inscription au baccalauréat Numéro attribué par l’université »Etudiants relevant d’autres ministères (Agriculture) »Bacheliers ayant passé leur baccalauréat dans un lycée français à l’étranger »Dans certains cas : ré-immatriculation < 1 % Suivi de l’étudiant, taux de réussite 7
Exemples de diffusion et utilisation Alimenter le débat public Indicateurs pour le pilotage - Exemples d’Etudes et Publications annuelles: Etat de l’Enseignement Supérieur et de la recherche -Taux de réussite en DUT en 2 ou 3 ans - Taux de réussite en licence pro (longitudinal) : cohorte - Taux de réussite en licence générale suivant discipline d’obtention - Devenir des inscrits en M1 Repères et références statistiques - Notes d’informations: - Focus sur un secteur : NI mai 2009 sur devenir étudiants 1 er cycle de médecine Etude sur mise en place de la PACES en cours
Exemples de diffusion et utilisation
SISE Unifié Projet initié en 2010 Problème : Doublons (reconstituer les inscriptions principales) Fichier sur l’ensemble du champ : base unique Particulièrement utile par ex. dans l’optique d’étude sur les différenciations entre réorientations et sorties
Objectifs pour les universités - Situer leur population étudiants par rapport aux autres établissements Cd-Roms données nationales agrégées et de données de l’université (depuis 2002) -Etudes des parcours et des migrations inter-universités Loi LRU 11 août Relation par exemple avec taux d’échec en premier cycle et sorties sans qualification : -Nécessité de pouvoir différencier les « vraies » sorties des « fausses » sorties -Nécessité de pouvoir comparer public et offre 11
12 Anonymisation de données : dans la pratique Suivi longitudinal : diffusion de l’INE aux universités CNIL : INE Identification Ex : Curriculum Vitae électronique Utilisation malveillante Parfois conséquences graves Possibilités de diffusion : arrêté du 23 avril 2003, modifié après avis de la CNIL le 24 juillet 2007
Anonymisation de données : dans la pratique 13
Anonymisation de données : dans la pratique Hachage Convention avec le CHU de Dijon Logiciel Anonymat Algorithme SHA (Standard Hash Algorithm), validé par le service central de la sécurité des ministères d’information (organisme ministériel) Transforme INE de manière IRREVERSIBLE x x x x x x x x x x x 14 Numéro Etab (base 36) Année d’immatriculation Numéro d’ordre de l’étudiant Clé Transformé en 40 caractères sans signification interne Risque de collision (2 numéro INE distincts donnant même INE « haché » quasi nul 11 caractères
Anonymisation de données : dans la pratique Mesures de sécurité complémentaires : Ordinateur « coupé du monde » Clé de hachage gardée dans un coffre fort et non sur le disque dur Pas d’INE dans le fichier de sortie 2 tris distincts : sur INE dans fichier d’entrée, sur INE haché dans fichier de sortie Nationalités regroupés Processus actif depuis 10 ans 15
Anonymisation de données : dans la pratique Education Nationale FAERE Fichiers Anonymisés d’Elèves pour la Recherche et les Etudes Processus mis en place à Direction de l’Evaluation et de la Prospective du MEN depuis 2 ans Fichiers mis à disposition d’utilisateurs autorisés technique plus complexe : Inspirée de l’Office Fédéral de Statistiques Suisses Hachage puis cryptage fichier source par Unité productrice Décryptage puis cryptage à la DEPP Pérennité du processus
Exemples de diffusion et utilisation Observatoire de la Vie Etudiante Fichier national crypté pour étude des trajectoires Universités « Pannelisation » des données Historique à des niveaux fins : par secteurs disciplinaires, cursus Appariements SISE et AGLAE ou OCEAN Convention de recherche mai 2010 avec ENS sur SISE-AGLAE : impact des bourses sur réussite Réseau des Universités de l’Ouest Atlantique Juillet 2010 – Juillet 2011 : 10 universités, étude flux de mobilité L3 vers M1
Séminaire Société Française de Statistique 19/01/12 MERCI DE VOTRE ATTENTION
Exemples de diffusion et utilisation Construction d’une cohorte Appariement entre fichiers SISE de plusieurs années consécutives Soit sur plusieurs fichiers SISE Inscrits Exemple : taux de passage entre deux années consécutives de formation (L1 en L2) Soit entre fichiers SISE Inscrits et SISE Résultats Exemple : les taux de réussite Exemple de construction taux de réussite en licence en 3 ans Exemple : taux de réussite licence en 3
Exemples de diffusion et utilisation 1.Exemple : taux de réussite en licence 2008 : A partir de SISE inscrits 2005, sélection des entrants en 2005 en L1 ou en DEUG 1 ère année, bacheliers et non bacheliers inscriptions principales, non inscrits en parallèle en CPGE 2.Appariement du fichier des inscrits en L1 et de SISE- résultats session Appariement du fichier initial avec les fichiers SISE-inscrits 2006/ SISE- résultats session Appariement avec les fichiers SISE-inscrits 2007/ SISE-résultats session % ne se réinscrivent pas à l ’université après la première année 48 % seulement restent dans le même établissement trois années consécutives Cumul des redoublements, réorientation et changement d’établissements
Exemples de diffusion et utilisation Doublons SISE Unifié
Anonymisation de données : dans la pratique