Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada 3 GREYC, Université Caen Basse-Normandie, CNRS Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet2 Le fil conducteur Introduction –Contexte, problématique –Les 2 Corpus traités –Anonymiser : définitions, exemples Le processus danonymisation –Marquage –Fouille –Substitution Bilan de lapplication aux 2 corpus Perspective
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet3 Introduction Partage de données en recherche –Mulce : "Repository" de Corpus multimodaux denseignement et dapprentissage –Calico : "Repository" + Outils danalyse de Forums, Blogs, etc. Données personnelles non partageables Anonymisation nécessaire Corpus dinteraction = Gros volumes Besoin de méthode et doutils
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet4 Anonymiser : pourquoi ? Obligation légale (selon les pays) : –En France : CNIL, –Directives de la Commission Européenne –Canada : comités éthiques Déontologie de la recherche –Protéger les données perso. des participants –Gagner leur confiance –Mieux garantir lindépendance
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet5 Anonymiser : le « quoi » Cacher les données personnelles –Noms (prénoms, patronymes, noms utilisateurs, …) –Identifiants (N°Passeport, N°Etudiant, N°INSEE, …) –Lieux (villes, rues, adresse, coordonnées) –Institution (école, club, entreprise, …) –Références de contacts ( , mobile, MSN, skype, twitter, téléphone/fax, …) –Références explicites (URL page perso, blogs) –Noms dutilisateurs de média sociaux (facebook, MySpace, Hi5, Soundcloud, Badoo, Friendster, …) Et maintenir cohérence et consistance du texte
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet6 2 corpus Nomades (1)Pgm Court (2) Durée 3,5 mois5 mois Outils GalanetKnowledge F. Niveau Format° Langues 1 ère (Lycée) fr, it, es, br Master fr (qc) Participants 2 tuteurs, 101 élèves 1 tuteur 7 étudiants Taille : 915 messages graphies Lexique : messages graphies Lexique : 4 900
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet7 Ex: Données personnelles { T19:24 Gabibr Re: Quelques informations...} Eu amo a língua Francesa! Quem sabe falar francês me adiconem no meu FACEBOOK;) J'aime parler français! Qui peut parler français? M'ajouter dans FACEBOOK;) Nom: GABRIELA MEDEIROS. { T09:25 Miche Re: Les stéréotypes culinaires answers} inviate i vostri documenti alla mia mail grazie!!!;) { T19:52 PBS Re: Por que me chamo assim?! } Yo me llamo Peimikà Bibiana. Como mi madre es tailandesa y mi padre es italiano, mi primer nombre, Peimikà, es tailandés y significa " dueña del amor ", mientras mi según nombre, Bibiana, es italiano y procede del etrusco " vibius " que significa " vida ". Me gusta mucho tener dos nombres (en Italia es más usual tener un nombre) y sobre todo estoy orgullosa de los orígenes diferentes que tienen y que hacen mi nombre aún más particular (además Peimikà no es muy difundido en tampoco en Tailandia y tampoco Bibiana en Italia
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet8 En cherchant sur la toile…
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet9 Peimikà Bibiana… suite
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet10 Anonymisation Contraintes: 1.Toute référence (ex: nom, lieu, etc.) doit être suffisamment imprécise pour englober plusieurs centaines de personnes. 2.Toute graphie identifiée doit être marquée (numériquement) même si elle est inchangée. 3.Conserver le maximum de dépendances sémantiques et culturelle. Dans un corpus anonymisé, aucun participant ne doit être identifiable par une personne externe
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet11 Comment rendre anonyme ? Une info (isolée) => 100+ personnes Faisceau dinfos combinées => 7+ pers. Penser aux sources externes… « Bonjour, je m'appelle Kelly. J'ai 16 ans, je suis une élève en 1ère S dans le lycée Rosa Luxemburg à Canet, pas très loin de Perpignan. »
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet12 Anonymisation Avant : { T08:22 KellyM Re: Qui sommes- nous? } Bonjour, je m'appelle Kellly. J'ai 16 ans, je suis une élève en 1ère S dans le lycée Rosa Luxemburg à Canet, non loin de Perpignan… Après: { T08:22 FLG01 Re: Qui sommes- nous? } Bonjour, je m'appelle Kittty*. J'ai 16 ans, je suis une élève en 1ère S dans le lycée Margherita Duras* à Aigues- Vives*, non loin de Perpignan… Avant Après
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet13 Quelques difficultés Synonymie ou altérations lexicales Exemple : Venise –Erreurs de typo: Verise, Venize… –Multilinguisme : Venizia, Venice, … Homonymie : «Sylvie Paris semble avoir développé une véritable addiction au PMU (Paris Mutuels Urbains). Elle fréquente assidument lhippodrome de Longchamp à côté de Paris. »
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet14 Processus dAnonymisation Corpus à anonymiser Corpus avec entités marquées Table de transformation des entités nommées Liste initiale participants, login, institution… Détection de nouvelles graphies Marquage Corpus Anonymisé Substitution
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet15 Table de transformation : exemple Synonymes : 2 graphies différentes représentent la même entité nommée = Homonymes: La même graphie représente différentes entités
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet16 Marquage : Exemple (Kelly) A - Le concordanceur donne le contexte de chaque occurrence
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet17 Marquage: Exemple (Kelly) + B – Ajouter Gene Kelly comme personne publique dans la table
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet18 Marquage : Exemple (Kelly) C- Associer chaque graphie à lentité correspondante Patronyme, forme normale, inchangée représente la célébrité Gene Kelly Prénom, forme normale, à changer : représente le participant KellyM
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet19 Processus dAnonymisation Corpus à anonymiser Corpus avec entités marquées Table de transformation des entités nommées Liste initiale participants, login, institution… Détection de nouvelles graphies Marquage Corpus Anonymisé Substitution
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet20 Détection de nouvelle graphies : 2 stratégies Règles lexicales : syntaxe proche –Eli -> Elô Ely ELY Seli –Gabriela -> GABRIELA –José -> Jose Règles contextuelles : même contexte –First names: mi chiamo …, accord avec … –Cities: Soy de …, vivo en …, jhabite à …
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet21 1 ère Stratégie : Règles Lexicales adriana Alexia Antonhy baptiste Cleisa Elô Ely ELY Seli Louise MAnuel Federiac fran Fran GABRIELA guillem iñigo Jacqueline jean Jose Kellly Leo léo MariAna mary May Miche michelina moni olalla oleguer Adriana Alèxia Anthony Baptiste Cleissa Eli… Elouise Emmanuel Federica Ferran Gabriela Guillem Iñigo Jaqueline Jean José Kelly Léo Mariana Mary Michela Monica Olalla Oleguer 103 graphies connues 31 nouvelles graphies
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet22 2 ème Stratégie : Règles contextuelles 103 prénoms connus (Adrià, …, Veronica) 145 contextes : Gauches/Droits Total: règles testées 15 nouvelles graphies retenues Antonhy Belle Bet Christine Fede Federiac Kellly Leo Line Maria May Peimikà Regina fran jean léo 47 règles retenues
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet23 Processus dAnonymisation Corpus à anonymiser Corpus avec entités marquées Table de transformation des entités nommées Liste initiale participants, login, institution… Détection de nouvelles graphies Marquage Corpus Anonymisé Substitution
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet24 Substitution : principes & précautions Vérifications avant exécution: –Homonymie (entre participants) maintenue –Pas dintroduction de nouveaux homonymes –Cohérence des graphies de substitution –Codage des acteurs (intra/inter corpus) Exécution en une seule passe pour éviter les remplacements en cascade Vérification par le chercheur par lecture (au moins sur un échantillon)
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet25 Evaluation de lanonymisation Sur le corpus 1 (Nomades) Annuaire des données personnelles : prénoms, patronymes, institutions, villes, courriels : 269 données / 117 trouvées / 279 occurrences Méthode : Relecture exhaustive par lanimatrice 7 graphies oubliées // 117 trouvées 6 sur 7 dues à une application manuelle =>1 seule vraie oubliée par la méthode : Excellent résultat pour lanonymisation
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet26 Evaluation de lanonymisation Sur le corpus 2 (Prog. court) Annuaire des données personnelles : prénoms, patronymes : 9 données / 11 trouvées / 115 occ. marquées Méthode : Expression régulière (Majuscule) : =>792 occ. représentant 328 graphies distinctes 8 graphies : 2 institutions, 1 village, 5 pers. Soit 31 occurrences oubliées Peu dinformation au départ => moins efficace.
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet27 Discussion Expressions régulières (majuscules) : –Corpus 1 (Nomades) : occ. (1509 g) –Corpus 2 (Pgrm court) : 792 occ. (328 g) –Règles inutilisable en Allemand, autres ? Dictionnaires externes –Corpus 1 (Nomades) : 5 langues (avec recouvrements) –Corpus 2 (Pgrm court) : Français du Québec Réutilisation des règles : (1) -> 2 ?
JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet28 Conclusion 1.Une méthode (sans dictionnaire) pour anonymiser 2.Retour aux hypothèses –Automatisation 100% impossible –2 techniques de fouille complémentaires prometteuses –Selon contexte : ajouter expressions régulières 3.Le paradoxe de lanonymisation –Ex: Google facilite la ré-identification => utilisons-le pour déterminer ce quil faut anonymiser ! 4.Perspectives –Développement (au dessus de Calico)
Merci C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada 3 GREYC, Université Caen Basse-Normandie, CNRS Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.