Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1.

Slides:



Advertisements
Présentations similaires
A l’issue des conseils de classe de 3ème,
Advertisements

Présentation du prototype :
Chap. 4 Recherche en Table
FICHE D’INSCRIPTION 1er Grand Prix de la communication en Normandie !
La Gestion de la Configuration
des Structures de Santé
Entre visibilité, e- réputation et enjeux éthiques : analyser les usages professionnels des médias sociaux Jean-Claude Domenget MCF en sciences de l’information.
Assemblée générale AIPT Rapport Moral 15 janvier 2011.
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Unité Mixte de Recherche - Sciences Techniques Education Formation Atelier EIAH2011 Partager des données d'observation pour la recherche en EIAH. Traces.
Reconnaissance de la parole
Stage de découverte en Maçonnerie
Les Prepositions.
Retour dexpérience dun journaliste ayant eu un accès Sitra pour la prépa du supplément été du DL Collecte et transfert de données.
La communication au sein du collectif
Mise en œuvre d’une démarche et d’un outil de gestion de « connaissances métier » basés sur la collaboration. Cyril BEYLIER
Vendredi 21 février 2014vendredi 21 février 2014vendredi 21 février 2014vendredi 21 février 2014vendredi 21 février 2014vendredi 21 février 2014vendredi.
1 ePortfolio Quebec, avril Philippe-Didier Gauthier, doctorant Sherange, Université de Sherbrooke, Québec, Canada, Université Catholique.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Autorisations Utilisation eCATT
1 Je jure quà ma connaissance (qui est trés limitée et peut être révisée dans lavenir), le comptes de ma société sont (plus ou moins) exacts. Jai vérifié
1 Article 1 – Loi du 9 janvier 1978 « Linformatique doit être au service de chaque citoyen « « Elle ne doit porter atteinte ni à lidentité de lhomme, ni.
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Détermination des processus
Déroulement de la rencontre Présentation (5 min) Démystifier Facebook (30 min) Formation de base sur Facebook Sécurité et confidentialité Quelques exemples.
Nom du module Date Lieu de la formation. 2 Genèse du projet Historique, partenaires, publics Pour qui ? Pourquoi ? Qui ? Comment ? Quand ?
EVALUER L’INFORMATION
Maîtrise des données et des métadonnées de l’ODS
Langues et évaluations
C’est décidé, demain, j’ose changer !
La gestion de projet 2.0 Un changement de paradigmes
L’ETUDE DE MARCHE L'étude de marché permet d'évaluer les capacités de votre produit ou de votre service à se développer commercialement.
La mise en place du Règlement sur la diffusion de linformation Un travail déquipe.
Stratégie Médias Sociaux Etudier et comprendre les communautés | Chap. 2 Esprit des Sens 18, rue Bourgelat – Tél. +33 (0)
L’observation réfléchie de la langue au cycle 3
Initiation au système d’information et aux bases de données
Méthodologie de recherche des 5 EHEC Typiques majeurs en méthode de routine Steakexpert, le 22 juin 2011.
Bureau de linformatique scolaire (BIS) Bienvenue 1.
Composition dapplications interactives …et lutilisateur dans tout ça? Benjamin Caramel Laboratoire i3S - équipe Rainbow
Comment éviter le plagiat
La voyage de Jean Pierre
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
Journée Réseau 2006 La réussite de notre audace: dix petits tours École de technologie supérieure Atelier: Innover pour mieux former La réussite à lUQAC:
La compréhension en lecture
Initiation aux bases de données et à la programmation événementielle
Page 1 © Jean Elias Gagner en agilité numérique. Page 2 © Jean Elias Les fournisseurs.
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
La veille numérique : un outil pour s'informer intelligemment &
Chapitre 3 La normalisation du modèle relationnel
RADIO ET MÉDIAS SOCIAUX
Page 1 © Jean Elias Recherche et veille. Page 2 © Jean Elias Les fournisseurs.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Nom:____________ Prénom: ___________
La refonte des sites d’appui Ce qui change pour vous.
Information et choix de carrière Les deux côtés de la médaille
Diaporama réalisé par Damienne PIN, Documentaliste Collège Barbara Hendricks 226 Rue du Limousin Orange LE PROBLEME DE LA QUALITE DE L ’INFORMATION.
LA DEMARCHE DE RECHERCHE
1 Utilisation du serveur FAD de l’ENSG Instruction aux utilisateurs 29 septembre 2012.
Le sujet d’un mail Lingua francese 1.
Colloque JOCAIR 2006, Amiens Les forums de discussion en milieu éducatif, Etat de recherches et des questions France Henri, Bernadette Charlier et Daniel.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Comment transformer les activités des manuels de FLE en réalité
Copyright, 1996 © Dale Carnegie & Associates, Inc. Com7114 Technologies de la communication Objectifs de ce cours ? Sa place dans le programme ? La communication.
Jacques Cartier – Consultant Expert International – espace-formation.eu Enseignant honoraire – Université de Franche-Comtéespace-formation.eu Ma présence.
Initiation aux bases de données et à la programmation événementielle
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Rédiger un mail (3) le sujet d’un mail
1 Chercher et trouver sa documentation sur Internet L1 DC Expression et communication Intervention du Par Sylvie Doyon, documentaliste.
Les bases de données Séance 3 Construction du Modèle Conceptuel de Données.
Transcription de la présentation:

Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada 3 GREYC, Université Caen Basse-Normandie, CNRS Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet2 Le fil conducteur Introduction –Contexte, problématique –Les 2 Corpus traités –Anonymiser : définitions, exemples Le processus danonymisation –Marquage –Fouille –Substitution Bilan de lapplication aux 2 corpus Perspective

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet3 Introduction Partage de données en recherche –Mulce : "Repository" de Corpus multimodaux denseignement et dapprentissage –Calico : "Repository" + Outils danalyse de Forums, Blogs, etc. Données personnelles non partageables Anonymisation nécessaire Corpus dinteraction = Gros volumes Besoin de méthode et doutils

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet4 Anonymiser : pourquoi ? Obligation légale (selon les pays) : –En France : CNIL, –Directives de la Commission Européenne –Canada : comités éthiques Déontologie de la recherche –Protéger les données perso. des participants –Gagner leur confiance –Mieux garantir lindépendance

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet5 Anonymiser : le « quoi » Cacher les données personnelles –Noms (prénoms, patronymes, noms utilisateurs, …) –Identifiants (N°Passeport, N°Etudiant, N°INSEE, …) –Lieux (villes, rues, adresse, coordonnées) –Institution (école, club, entreprise, …) –Références de contacts ( , mobile, MSN, skype, twitter, téléphone/fax, …) –Références explicites (URL page perso, blogs) –Noms dutilisateurs de média sociaux (facebook, MySpace, Hi5, Soundcloud, Badoo, Friendster, …) Et maintenir cohérence et consistance du texte

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet6 2 corpus Nomades (1)Pgm Court (2) Durée 3,5 mois5 mois Outils GalanetKnowledge F. Niveau Format° Langues 1 ère (Lycée) fr, it, es, br Master fr (qc) Participants 2 tuteurs, 101 élèves 1 tuteur 7 étudiants Taille : 915 messages graphies Lexique : messages graphies Lexique : 4 900

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet7 Ex: Données personnelles { T19:24 Gabibr Re: Quelques informations...} Eu amo a língua Francesa! Quem sabe falar francês me adiconem no meu FACEBOOK;) J'aime parler français! Qui peut parler français? M'ajouter dans FACEBOOK;) Nom: GABRIELA MEDEIROS. { T09:25 Miche Re: Les stéréotypes culinaires answers} inviate i vostri documenti alla mia mail grazie!!!;) { T19:52 PBS Re: Por que me chamo assim?! } Yo me llamo Peimikà Bibiana. Como mi madre es tailandesa y mi padre es italiano, mi primer nombre, Peimikà, es tailandés y significa " dueña del amor ", mientras mi según nombre, Bibiana, es italiano y procede del etrusco " vibius " que significa " vida ". Me gusta mucho tener dos nombres (en Italia es más usual tener un nombre) y sobre todo estoy orgullosa de los orígenes diferentes que tienen y que hacen mi nombre aún más particular (además Peimikà no es muy difundido en tampoco en Tailandia y tampoco Bibiana en Italia

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet8 En cherchant sur la toile…

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet9 Peimikà Bibiana… suite

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet10 Anonymisation Contraintes: 1.Toute référence (ex: nom, lieu, etc.) doit être suffisamment imprécise pour englober plusieurs centaines de personnes. 2.Toute graphie identifiée doit être marquée (numériquement) même si elle est inchangée. 3.Conserver le maximum de dépendances sémantiques et culturelle. Dans un corpus anonymisé, aucun participant ne doit être identifiable par une personne externe

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet11 Comment rendre anonyme ? Une info (isolée) => 100+ personnes Faisceau dinfos combinées => 7+ pers. Penser aux sources externes… « Bonjour, je m'appelle Kelly. J'ai 16 ans, je suis une élève en 1ère S dans le lycée Rosa Luxemburg à Canet, pas très loin de Perpignan. »

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet12 Anonymisation Avant : { T08:22 KellyM Re: Qui sommes- nous? } Bonjour, je m'appelle Kellly. J'ai 16 ans, je suis une élève en 1ère S dans le lycée Rosa Luxemburg à Canet, non loin de Perpignan… Après: { T08:22 FLG01 Re: Qui sommes- nous? } Bonjour, je m'appelle Kittty*. J'ai 16 ans, je suis une élève en 1ère S dans le lycée Margherita Duras* à Aigues- Vives*, non loin de Perpignan… Avant Après

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet13 Quelques difficultés Synonymie ou altérations lexicales Exemple : Venise –Erreurs de typo: Verise, Venize… –Multilinguisme : Venizia, Venice, … Homonymie : «Sylvie Paris semble avoir développé une véritable addiction au PMU (Paris Mutuels Urbains). Elle fréquente assidument lhippodrome de Longchamp à côté de Paris. »

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet14 Processus dAnonymisation Corpus à anonymiser Corpus avec entités marquées Table de transformation des entités nommées Liste initiale participants, login, institution… Détection de nouvelles graphies Marquage Corpus Anonymisé Substitution

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet15 Table de transformation : exemple Synonymes : 2 graphies différentes représentent la même entité nommée = Homonymes: La même graphie représente différentes entités

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet16 Marquage : Exemple (Kelly) A - Le concordanceur donne le contexte de chaque occurrence

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet17 Marquage: Exemple (Kelly) + B – Ajouter Gene Kelly comme personne publique dans la table

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet18 Marquage : Exemple (Kelly) C- Associer chaque graphie à lentité correspondante Patronyme, forme normale, inchangée représente la célébrité Gene Kelly Prénom, forme normale, à changer : représente le participant KellyM

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet19 Processus dAnonymisation Corpus à anonymiser Corpus avec entités marquées Table de transformation des entités nommées Liste initiale participants, login, institution… Détection de nouvelles graphies Marquage Corpus Anonymisé Substitution

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet20 Détection de nouvelle graphies : 2 stratégies Règles lexicales : syntaxe proche –Eli -> Elô Ely ELY Seli –Gabriela -> GABRIELA –José -> Jose Règles contextuelles : même contexte –First names: mi chiamo …, accord avec … –Cities: Soy de …, vivo en …, jhabite à …

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet21 1 ère Stratégie : Règles Lexicales adriana Alexia Antonhy baptiste Cleisa Elô Ely ELY Seli Louise MAnuel Federiac fran Fran GABRIELA guillem iñigo Jacqueline jean Jose Kellly Leo léo MariAna mary May Miche michelina moni olalla oleguer Adriana Alèxia Anthony Baptiste Cleissa Eli… Elouise Emmanuel Federica Ferran Gabriela Guillem Iñigo Jaqueline Jean José Kelly Léo Mariana Mary Michela Monica Olalla Oleguer 103 graphies connues 31 nouvelles graphies

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet22 2 ème Stratégie : Règles contextuelles 103 prénoms connus (Adrià, …, Veronica) 145 contextes : Gauches/Droits Total: règles testées 15 nouvelles graphies retenues Antonhy Belle Bet Christine Fede Federiac Kellly Leo Line Maria May Peimikà Regina fran jean léo 47 règles retenues

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet23 Processus dAnonymisation Corpus à anonymiser Corpus avec entités marquées Table de transformation des entités nommées Liste initiale participants, login, institution… Détection de nouvelles graphies Marquage Corpus Anonymisé Substitution

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet24 Substitution : principes & précautions Vérifications avant exécution: –Homonymie (entre participants) maintenue –Pas dintroduction de nouveaux homonymes –Cohérence des graphies de substitution –Codage des acteurs (intra/inter corpus) Exécution en une seule passe pour éviter les remplacements en cascade Vérification par le chercheur par lecture (au moins sur un échantillon)

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet25 Evaluation de lanonymisation Sur le corpus 1 (Nomades) Annuaire des données personnelles : prénoms, patronymes, institutions, villes, courriels : 269 données / 117 trouvées / 279 occurrences Méthode : Relecture exhaustive par lanimatrice 7 graphies oubliées // 117 trouvées 6 sur 7 dues à une application manuelle =>1 seule vraie oubliée par la méthode : Excellent résultat pour lanonymisation

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet26 Evaluation de lanonymisation Sur le corpus 2 (Prog. court) Annuaire des données personnelles : prénoms, patronymes : 9 données / 11 trouvées / 115 occ. marquées Méthode : Expression régulière (Majuscule) : =>792 occ. représentant 328 graphies distinctes 8 graphies : 2 institutions, 1 village, 5 pers. Soit 31 occurrences oubliées Peu dinformation au départ => moins efficace.

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet27 Discussion Expressions régulières (majuscules) : –Corpus 1 (Nomades) : occ. (1509 g) –Corpus 2 (Pgrm court) : 792 occ. (328 g) –Règles inutilisable en Allemand, autres ? Dictionnaires externes –Corpus 1 (Nomades) : 5 langues (avec recouvrements) –Corpus 2 (Pgrm court) : Français du Québec Réutilisation des règles : (1) -> 2 ?

JOCAIR' C Reffay, F-M Blondel, S. Allaire & E Giguet28 Conclusion 1.Une méthode (sans dictionnaire) pour anonymiser 2.Retour aux hypothèses –Automatisation 100% impossible –2 techniques de fouille complémentaires prometteuses –Selon contexte : ajouter expressions régulières 3.Le paradoxe de lanonymisation –Ex: Google facilite la ré-identification => utilisons-le pour déterminer ce quil faut anonymiser ! 4.Perspectives –Développement (au dessus de Calico)

Merci C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada 3 GREYC, Université Caen Basse-Normandie, CNRS Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.