La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1.

Présentations similaires


Présentation au sujet: "Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1."— Transcription de la présentation:

1 Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada 3 GREYC, Université Caen Basse-Normandie, CNRS Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.

2 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet2 Le fil conducteur Introduction –Contexte, problématique –Les 2 Corpus traités –Anonymiser : définitions, exemples Le processus danonymisation –Marquage –Fouille –Substitution Bilan de lapplication aux 2 corpus Perspective

3 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet3 Introduction Partage de données en recherche –Mulce : "Repository" de Corpus multimodaux denseignement et dapprentissage –Calico : "Repository" + Outils danalyse de Forums, Blogs, etc. Données personnelles non partageables Anonymisation nécessaire Corpus dinteraction = Gros volumes Besoin de méthode et doutils

4 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet4 Anonymiser : pourquoi ? Obligation légale (selon les pays) : –En France : CNIL, –Directives de la Commission Européenne –Canada : comités éthiques Déontologie de la recherche –Protéger les données perso. des participants –Gagner leur confiance –Mieux garantir lindépendance

5 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet5 Anonymiser : le « quoi » Cacher les données personnelles –Noms (prénoms, patronymes, noms utilisateurs, …) –Identifiants (N°Passeport, N°Etudiant, N°INSEE, …) –Lieux (villes, rues, adresse, coordonnées) –Institution (école, club, entreprise, …) –Références de contacts ( , mobile, MSN, skype, twitter, téléphone/fax, …) –Références explicites (URL page perso, blogs) –Noms dutilisateurs de média sociaux (facebook, MySpace, Hi5, Soundcloud, Badoo, Friendster, …) Et maintenir cohérence et consistance du texte

6 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet6 2 corpus Nomades (1)Pgm Court (2) Durée 3,5 mois5 mois Outils GalanetKnowledge F. Niveau Format° Langues 1 ère (Lycée) fr, it, es, br Master fr (qc) Participants 2 tuteurs, 101 élèves 1 tuteur 7 étudiants Taille : 915 messages graphies Lexique : messages graphies Lexique : 4 900

7 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet7 Ex: Données personnelles { T19:24 Gabibr Re: Quelques informations...} Eu amo a língua Francesa! Quem sabe falar francês me adiconem no meu FACEBOOK;) J'aime parler français! Qui peut parler français? M'ajouter dans FACEBOOK;) Nom: GABRIELA MEDEIROS. { T09:25 Miche Re: Les stéréotypes culinaires answers} inviate i vostri documenti alla mia mail grazie!!!;) { T19:52 PBS Re: Por que me chamo assim?! } Yo me llamo Peimikà Bibiana. Como mi madre es tailandesa y mi padre es italiano, mi primer nombre, Peimikà, es tailandés y significa " dueña del amor ", mientras mi según nombre, Bibiana, es italiano y procede del etrusco " vibius " que significa " vida ". Me gusta mucho tener dos nombres (en Italia es más usual tener un nombre) y sobre todo estoy orgullosa de los orígenes diferentes que tienen y que hacen mi nombre aún más particular (además Peimikà no es muy difundido en tampoco en Tailandia y tampoco Bibiana en Italia

8 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet8 En cherchant sur la toile…

9 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet9 Peimikà Bibiana… suite

10 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet10 Anonymisation Contraintes: 1.Toute référence (ex: nom, lieu, etc.) doit être suffisamment imprécise pour englober plusieurs centaines de personnes. 2.Toute graphie identifiée doit être marquée (numériquement) même si elle est inchangée. 3.Conserver le maximum de dépendances sémantiques et culturelle. Dans un corpus anonymisé, aucun participant ne doit être identifiable par une personne externe

11 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet11 Comment rendre anonyme ? Une info (isolée) => 100+ personnes Faisceau dinfos combinées => 7+ pers. Penser aux sources externes… « Bonjour, je m'appelle Kelly. J'ai 16 ans, je suis une élève en 1ère S dans le lycée Rosa Luxemburg à Canet, pas très loin de Perpignan. »

12 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet12 Anonymisation Avant : { T08:22 KellyM Re: Qui sommes- nous? } Bonjour, je m'appelle Kellly. J'ai 16 ans, je suis une élève en 1ère S dans le lycée Rosa Luxemburg à Canet, non loin de Perpignan… Après: { T08:22 FLG01 Re: Qui sommes- nous? } Bonjour, je m'appelle Kittty*. J'ai 16 ans, je suis une élève en 1ère S dans le lycée Margherita Duras* à Aigues- Vives*, non loin de Perpignan… Avant Après

13 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet13 Quelques difficultés Synonymie ou altérations lexicales Exemple : Venise –Erreurs de typo: Verise, Venize… –Multilinguisme : Venizia, Venice, … Homonymie : «Sylvie Paris semble avoir développé une véritable addiction au PMU (Paris Mutuels Urbains). Elle fréquente assidument lhippodrome de Longchamp à côté de Paris. »

14 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet14 Processus dAnonymisation Corpus à anonymiser Corpus avec entités marquées Table de transformation des entités nommées Liste initiale participants, login, institution… Détection de nouvelles graphies Marquage Corpus Anonymisé Substitution

15 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet15 Table de transformation : exemple Synonymes : 2 graphies différentes représentent la même entité nommée = Homonymes: La même graphie représente différentes entités

16 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet16 Marquage : Exemple (Kelly) A - Le concordanceur donne le contexte de chaque occurrence

17 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet17 Marquage: Exemple (Kelly) + B – Ajouter Gene Kelly comme personne publique dans la table

18 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet18 Marquage : Exemple (Kelly) C- Associer chaque graphie à lentité correspondante Patronyme, forme normale, inchangée représente la célébrité Gene Kelly Prénom, forme normale, à changer : représente le participant KellyM

19 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet19 Processus dAnonymisation Corpus à anonymiser Corpus avec entités marquées Table de transformation des entités nommées Liste initiale participants, login, institution… Détection de nouvelles graphies Marquage Corpus Anonymisé Substitution

20 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet20 Détection de nouvelle graphies : 2 stratégies Règles lexicales : syntaxe proche –Eli -> Elô Ely ELY Seli –Gabriela -> GABRIELA –José -> Jose Règles contextuelles : même contexte –First names: mi chiamo …, accord avec … –Cities: Soy de …, vivo en …, jhabite à …

21 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet21 1 ère Stratégie : Règles Lexicales adriana Alexia Antonhy baptiste Cleisa Elô Ely ELY Seli Louise MAnuel Federiac fran Fran GABRIELA guillem iñigo Jacqueline jean Jose Kellly Leo léo MariAna mary May Miche michelina moni olalla oleguer Adriana Alèxia Anthony Baptiste Cleissa Eli… Elouise Emmanuel Federica Ferran Gabriela Guillem Iñigo Jaqueline Jean José Kelly Léo Mariana Mary Michela Monica Olalla Oleguer 103 graphies connues 31 nouvelles graphies

22 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet22 2 ème Stratégie : Règles contextuelles 103 prénoms connus (Adrià, …, Veronica) 145 contextes : Gauches/Droits Total: règles testées 15 nouvelles graphies retenues Antonhy Belle Bet Christine Fede Federiac Kellly Leo Line Maria May Peimikà Regina fran jean léo 47 règles retenues

23 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet23 Processus dAnonymisation Corpus à anonymiser Corpus avec entités marquées Table de transformation des entités nommées Liste initiale participants, login, institution… Détection de nouvelles graphies Marquage Corpus Anonymisé Substitution

24 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet24 Substitution : principes & précautions Vérifications avant exécution: –Homonymie (entre participants) maintenue –Pas dintroduction de nouveaux homonymes –Cohérence des graphies de substitution –Codage des acteurs (intra/inter corpus) Exécution en une seule passe pour éviter les remplacements en cascade Vérification par le chercheur par lecture (au moins sur un échantillon)

25 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet25 Evaluation de lanonymisation Sur le corpus 1 (Nomades) Annuaire des données personnelles : prénoms, patronymes, institutions, villes, courriels : 269 données / 117 trouvées / 279 occurrences Méthode : Relecture exhaustive par lanimatrice 7 graphies oubliées // 117 trouvées 6 sur 7 dues à une application manuelle =>1 seule vraie oubliée par la méthode : Excellent résultat pour lanonymisation

26 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet26 Evaluation de lanonymisation Sur le corpus 2 (Prog. court) Annuaire des données personnelles : prénoms, patronymes : 9 données / 11 trouvées / 115 occ. marquées Méthode : Expression régulière (Majuscule) : =>792 occ. représentant 328 graphies distinctes 8 graphies : 2 institutions, 1 village, 5 pers. Soit 31 occurrences oubliées Peu dinformation au départ => moins efficace.

27 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet27 Discussion Expressions régulières (majuscules) : –Corpus 1 (Nomades) : occ. (1509 g) –Corpus 2 (Pgrm court) : 792 occ. (328 g) –Règles inutilisable en Allemand, autres ? Dictionnaires externes –Corpus 1 (Nomades) : 5 langues (avec recouvrements) –Corpus 2 (Pgrm court) : Français du Québec Réutilisation des règles : (1) -> 2 ?

28 JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet28 Conclusion 1.Une méthode (sans dictionnaire) pour anonymiser 2.Retour aux hypothèses –Automatisation 100% impossible –2 techniques de fouille complémentaires prometteuses –Selon contexte : ajouter expressions régulières 3.Le paradoxe de lanonymisation –Ex: Google facilite la ré-identification => utilisons-le pour déterminer ce quil faut anonymiser ! 4.Perspectives –Développement (au dessus de Calico)

29 Merci C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada 3 GREYC, Université Caen Basse-Normandie, CNRS Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.


Télécharger ppt "Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1."

Présentations similaires


Annonces Google