Données issues des interactions en ligne en situation d'apprentissage : Quels sont les moyens du partage ? Christophe Reffay Chercheur de l’IFÉ, STEF, ENS Cachan Séminaire TIC, STEF, ENS-Cachan – 13 juin 2013
Publication = Part visible Analyse Données Iceberg=données (immergées) + publication (émergée) + milieu/contexte MILIEU - CONTEXTE Séminaire TIC, ENS-Cachan, 13/06/2013
Contexte international CODATA: Physique, Géosciences… (Paris,1966) Revue "Data Science Journal" Processus de Berlin : Open Access Science Commons => Creative Commons / Data 10 obstacles au partage (livre blanc J. Rees, 2010) The DataVerse Network (G. King, 2007) Archive, Estampille, Reconnaissance, Partage ou non. NSF : Data Management Plan Datacite : Liste des (647) repositories (juin 2013) PSLC DataShop : une initiative exemplaire 10 Séminaire TIC, ENS-Cachan, 13/06/2013
Initiatives nationales ADONIS (TGE) + IR Corpus => TGIR pour les humanités numériques Le CLEO (Hypothèses, Revues.org, Calenda) beQuali ? Datapublication (lien avec revues) ? Mulce (ANR Corpus) : mulce.org CALICO (données et outils) IPOL : Une initiative exemplaire CLEO : http://cleo.cnrs.fr/ : Centre pour l'édition électronique ouverte. Hypothèses : http://hypotheses.org/ : Carnets de recherche (en cours) Calenda : agenda francophone des évènements scientifiques en SHS Revue.og La lettre Muséum d’Histoire naturelle : Bases de données scientifiques (taxonomie, biodiversité) Minéraux (ors, Collection A. Lacroix), CLEMAM (Mollusques en Europe), FLORA : Biodiversité végétale du bassin parisien VISA : VIdéo de Situations d’enseignement et d’Apprentissage Documentation sur matériel, méthodes Collection de vidéos (également à visée patrimoniale) en relation avec des projets de recherche Séminaire TIC, ENS-Cachan, 13/06/2013
Mulce (ANR 2007-2010) MUltimodal Learning Corpus Exchange Laboratoire d’Informatique de l’UFC Laseldi puis LRL (T. Chanier) Open University (CREEK) http://mulce.org Informatique Ingénierie pédagogique Apprentissage des langues Mulce est un projet soutenu par l’ANR, il a commencé début 2007 et se termine fin 2009. Le travail que je présente ici est celui de plusieurs personnes issues de plusieurs équipes : Les informaticiens du LIFC, les linguistes et ingénieurs pédagogiques du Laseldi et de l’Open University de Grande Bretagne. Projet Mulce soutenu par
Contexte : Analyse des interactions en ligne Hypothèses Questions recherche Dispositif outil Scénario pédagogique Traces Prod. Descrip. Acteurs Analyses Hypothèses Questions recherche Publi. Communauté de recherche t0 t1 Instanciation Séminaire TIC, ENS-Cachan, 13/06/2013
Une autre vision du partage Questions Dispositif Traces Résultat1 Analyses Partage Résultat3 Résultat4 Demain ? =?= Aujourd’hui… Aujourd’hui, si l’on prend des questions de recherches similaires, avec deux contextes différents, on recueille des traces différentes, analysées différemment pour aboutir à des résultats qui sont difficilement comparables. Si l’on pouvait accéder aux données et au contexte de l’expérimentation de l’autre, on pourrait alors appliquer sa propre analyse pour discuter des conclusions. Cette ouverture pourrait donner plus d’objectivité aux analyses et permettrait à un outil d’analyse (ou de représentation de tableaux de bord par exemple) de se frotter à différents ensembles de données pour lesquels des analyses existantes dessinent certaines caractéristiques que l’outil pourrait vérifier ou invalider. En tout état de cause, la discussion scientifique pourrait vraiment avoir lieu et différentes méthodes d’analyse pourraient se comparer objectivement sur le même ensemble de données. Mais ce n’est pas le seul avantage ! Questions Dispositif Traces Résultat2 Analyses Séminaire TIC, ENS-Cachan, 13/06/2013
Ce qui est problématique Pour interpréter les interactions situées : cadre pédagogique, temporel, acteurs, médium, … => Contexte Scénario pédagogique Protocole de recueil des données Questions de recherche Pour automatiser certaines analyses => Format d’échange / Structuration des données Normes et standards Pour protéger les acteurs => Droit et éthique Consentement éclairé et droits d’auteurs, image Données personnelles => anonymisation Licences d’utilisation des données Mais l’égoïsme n’est pas le seul frein au partage, Pour rendre possible l’interprétation des données, il faut expliciter leur contexte Pour rendre certaines analyses automatisables, il faut structurer les données : nous nous appuyons évidemment sur les standards existants pour spécifier ce format. Enfin, puisque nos expérimentations sont écologiques, les vrais acteurs doivent être protégés et les données d’interaction doivent donc être contrôlées avant d’être diffusées Séminaire TIC, ENS-Cachan, 13/06/2013
Schéma simplifié des parties d’un corpus de base - Questions - Objet - Problématique - Observables - Protocole de recueil des donnés Scénario pédagogique - Activités - Rôles - Environnements - Acteurs Outils Traces Interactions Logs produits Contexte Observations du contexte Licence publique - Termes cession des droits - Contrats d’utilisation - Lien propriétaire Instanciation Analyses - Transcriptions - Analyses Licence privée Le contexte est composé du scénario pédagogique et du protocole de recherche. Le noyau du corpus, appelé Instanciation, contient l’ensemble des données d'interaction, les acteurs, les outils, etc.) Une partie licence indique les droits des responsables du corpus et des utilisateurs. L’acceptation des termes de cette licence ouvre la voie à l'utilisation du corpus et à la production d'analyses. Chaque transcription ou Analyse est liée aux objets de la partie Instanciation ou à des données résultant d’autres analyses. Protocole de recherche Séminaire TIC, ENS-Cachan, 13/06/2013
Package (IMS-CP) pour Mulce Méta données générales sur le corpus Scénario Pédagogique Protocole Recherche Instanciation Licence Méta données Méta données Méta données Méta données Approche Pédagogique _______ Activités Rôles Environnements Questions Méthodologie, recueil _______ Activités, rôles & Environnements (recherche) Observations Agenda _______ Acteurs / groupes (codes acteurs) Outils Interactions structurées Licences Utilisation Dépôt _______ Editeurs Droits accès Contrat cession acteurs Anonymisation Licence Privée Contrats Cession Codes, Noms acteurs Description Un corpus peut être transporté entièrement dans un « Content Package » qui englobe les métadonnées générales du corpus, les métadonnées et description de chaque sous-parties du corpus (présentées juste avant) et l’ensemble des fichiers ressources dûment référencées. La partie privée des licences ne voyage pas avec le corpus et n’est détenue que par le responsable du corpus. Index Identification des ressources Données primaires Consignes Aides Ressources Questions Grilles d’entretien Recherche : questionnaires réflexifs, entretiens Pédagogique : Produits, traces Fichier suivi Procédure d’anonymisation Contrat de Cession des droits Tableau anonymisation Contrat de cession des droits Séminaire TIC, ENS-Cachan, 13/06/2013
? Plateforme Mulce * Open Archive Initiative Corpus Scénario pédagogique Protocole de Recherche Instanciation Licence -Description -Index -Description -Index -Description -Index -Description -Index Serveur OAI* Ressources Metadata Outils d’aide à la transcription Outils d’aide à la l’analyse Serveur OLAC** Consulter / Télécharger Serveur La plateforme Mulce est un serveur qui doit permettre à terme à un chercheur identifié, de consulter tous les corpus, d’y déposer ses propres corpus et des analyses en rapport avec tous les corpus. Des outils de fouille, d’aide à la transcription ou à l’analyse viendrons enrichir les ressources disponibles sur Mulce. Cet ensemble pourra être interrogé par des serveurs OLAC et OAI pour recueillir les métadonnées décrivant l’ensemble des objets référencés tels que : les corpus de base, les corpus distinguables, les analyses, les scénarios pédagogiques. 52 corpus sont déjà déclarés dans les répertoires de l’OAI et disponibles au téléchargement via la plateforme. ? Transcrire Analyser Comparer Chercheur authentifié Client * Open Archive Initiative ** Open Language Archive Community Internaute Séminaire TIC, ENS-Cachan, 13/06/2013
La plateforme Mulce actuelle… Séminaire TIC, ENS-Cachan, 13/06/2013
Mulce… 3 ans après 45 corpus déposés (dont 4 globaux) Quelques réutilisations de corpus Toujours pas de dépôt « externe » malgré plusieurs intentions exprimées Quelques leçons : Format sophistiqué => coût d’entrée Métadonnées bien documentées => visibilité Nécessité d’outiller : exploration et analyse Séminaire TIC, ENS-Cachan, 13/06/2013
Difficultés surmontées pour la réutilisation : Bilan du projet Mulce The author must be professionally motivated to publish the data The effort and economic burden of publication must be acceptable The data must become accessible to potential users The data must remain accessible over time The data must be discoverable by potential users The user’s use of the data must be permitted The user must be able to understand what was measured and how (materials and methods) The user must be able to understand all computations that were applied and their inputs The user must be able to apply standard tools to all file formats The user must be able to understand the data in detail (units, symbols) Burden = Fardeau Surmontée Pas observé Non surmontée Séminaire TIC, ENS-Cachan, 13/06/2013
CALICO (ERTÉ 2006-2010) Communautés d'apprentissage en ligne, instrumentation, collaboration STEF, CREAD : Sciences de l’Éducation LIUM, LIFC - GREYC : Informatique - Linguistique CURAPP : Administration et Politique CEDITEC : Communication http://www.stef.ens-cachan.fr/calico/calico.htm Mulce est un projet soutenu par l’ANR, il a commencé début 2007 et se termine fin 2009. Le travail que je présente ici est celui de plusieurs personnes issues de plusieurs équipes : Les informaticiens du LIFC, les linguistes et ingénieurs pédagogiques du Laseldi et de l’Open University de Grande Bretagne. ERTÉ CALICO soutenue par
Plateforme CALICO : Principes Plateforme avec interface multilingue Dépôt & partage de données d’interactions en ligne (Forums, Blogs, mailing lists, etc.) Outils d’exploration et d’analyse Indépendants de la langue Visualisations variées (volumes, périodes…) Extraction du lexique, marquage, repérage Séminaire TIC, ENS-Cachan, 13/06/2013
CALICO : Les documents Séminaire TIC, ENS-Cachan, 13/06/2013
CALICO : Les outils Séminaire TIC, ENS-Cachan, 13/06/2013
CALICO : Les outils Séminaire TIC, ENS-Cachan, 13/06/2013
CALICO : Les outils Séminaire TIC, ENS-Cachan, 13/06/2013
CALICO : Les outils Séminaire TIC, ENS-Cachan, 13/06/2013
CALICO : Bilan des usages Beaucoup d’intérêt Des essais assez nombreux Des dépôts « externes » Assez peu de partage de données Plutôt une réutilisation des outils Séminaire TIC, ENS-Cachan, 13/06/2013
Difficultés surmontées pour la réutilisation : Bilan pour CALICO The author must be professionally motivated to publish the data The effort and economic burden of publication must be acceptable The data must become accessible to potential users The data must remain accessible over time The data must be discoverable by potential users The user’s use of the data must be permitted The user must be able to understand what was measured and how (materials and methods) The user must be able to understand all computations that were applied and their inputs The user must be able to apply standard tools to all file formats The user must be able to understand the data in detail (units, symbols) Burden = Fardeau Surmontée Pas observé Non surmontée Séminaire TIC, ENS-Cachan, 13/06/2013
Data Publication Direction du projet Thierry Chanier, Professor, Director of LRL Eric Bruillard, Professor, Director of STEF Christophe Reffay, Ass. Professor, UMR STEF Directeur de publication Jean-Luc Pinol, Professor, TGE-Adonis Plateforme : conception et developpement Gérald Foliot: IR CNRS, IT Manager of TGE-Adonis http://datapublication.tge-adonis.fr/ Mulce est un projet soutenu par l’ANR, il a commencé début 2007 et se termine fin 2009. Le travail que je présente ici est celui de plusieurs personnes issues de plusieurs équipes : Les informaticiens du LIFC, les linguistes et ingénieurs pédagogiques du Laseldi et de l’Open University de Grande Bretagne.
Data publication : objectifs Pour les revues et conférences: Relecture AVEC accès aux données Pour les lecteurs Accès à la réplication des analyses Pour l’auteur : un double référencement Article Ensemble de données (permalien) Séminaire TIC, ENS-Cachan, 13/06/2013
Data Publication… Plusieurs essais Co-publication des données après article Un essai « complet » : lors de la soumission Plateforme : prototype quasi opérationnel Processus un peu rigide pour l’instant Nécessite d’être documenté Affaire à suivre A voir selon TGIR Humanités numérique Séminaire TIC, ENS-Cachan, 13/06/2013
Améliore Pas concerné Accentue le problème Difficultés surmontées pour la réutilisation : Attendu pour Data Publication The author must be professionally motivated to publish the data The effort and economic burden of publication must be acceptable The data must become accessible to potential users The data must remain accessible over time The data must be discoverable by potential users The user’s use of the data must be permitted The user must be able to understand what was measured and how (materials and methods) The user must be able to understand all computations that were applied and their inputs The user must be able to apply standard tools to all file formats The user must be able to understand the data in detail (units, symbols) Burden = Fardeau Améliore Pas concerné Accentue le problème Séminaire TIC, ENS-Cachan, 13/06/2013
2 initiatives exemplaires PSLC Datashop : Pittsburgh Science of Learning Center Un Modèle pour les ITS Une plateforme de dépôt des traces Un outil de représentation/évaluation IPOL : Image Processing On Line Article + Code source + Demo en ligne Article et code source sont évalués “Open Science and Reproducible Research” Séminaire TIC, ENS-Cachan, 13/06/2013
Quelques points clés retenus Dépôt/Publication = Antériorité Contribution : réputation, citation Valoriser le dépôt : Définition du contexte Organisation/Structuration des données Visibles (Repository, Metadata, OAI) Réutilisables : Accessibles, Inter opérables Réplicables : Outillées, documentées Séminaire TIC, ENS-Cachan, 13/06/2013
Perspectives Le partage de données devient réalité Pour certaines communautés permet : Maturation/Convergence/Comparaison des méthodes Réplication des analyses ou ré-analyse Meilleure évaluation de la recherche Toute donnée n’est cependant pas partageable Séminaire TIC, ENS-Cachan, 13/06/2013
Questions éthiques Protection des participants en SHS (ex: situations d’apprentissage, entretiens): Droits à l’image Droits d’auteur Protection des données personnelles Protection des données sensibles Séminaire TIC, ENS-Cachan, 13/06/2013
Anonymisation (données textuelles) Débat: Données non anonymes => non partageables Anonymisation trop coûteuse Anonymisation automatisable ? Limiter l’accès ? Propositions Outiller le processus d’anonymisation ? Maîtriser la diffusion ? Séminaire TIC, ENS-Cachan, 13/06/2013
Questions ? Réactions ? Témoignages ? MERCI ! Questions ? Réactions ? Témoignages ? Séminaire TIC, ENS-Cachan, 13/06/2013
Déclaration Berlin (Open Access) 5° conférence (Padoue, 2007) Les 19 premiers cosignataires du 22/10/2003 Berlin Process Berlin Process Signataires récents Déclaration Berlin (Open Access) 5° conférence (Padoue, 2007) Workshop on policies and practices of research organisations on open access to research data. Objectifs : to get research organizations in Europe acquainted with on-going and planned initiatives for open access to research data to present and discuss policies and practices on open access to research data of organisations and to identify areas in which research organisations could collaborate on this issue. Séminaire TIC, ENS-Cachan, 13/06/2013
National Science Fondation (depuis janvier 2013) Data Management Plan : Pour une bourse de la NFS, un document supplémentaire de 2 pages intitulé « plan de gestion des données » doit indiquer : Le type de données (extraits, collections, logiciels, contenus, ou produits du projet) Les standards utilisés pour les données et les métadonnées; Politique d’accès et de partage incluant les précautions pour le respect de la vie privée, de la confidentialité, de la sécurité et des propriétés intellectuelles; Politique de réutilisation, redistribution, et produits dérivés Plans pour l’archivage des données, extraits, et autre produits de la recherche, et pour la préservation de leur accès. Séminaire TIC, ENS-Cachan, 13/06/2013
CODATA : Créée à Paris en 1966 ! 1970 1980 1990 2000 2010 1970 1980 1990 2000 2010 Constantes physiques 23 Conf. 30 Nations 20 Sociétés scientifiques 57 Task Groups Codata@45 years (Lide & Wood, 2010) Séminaire TIC, ENS-Cachan, 13/06/2013
Difficultées à surmonter pour la réutilisation (Jonathan Rees, Science Commons, white paper Creative Commons, March 2010) The author must be professionally motivated to publish the data The effort and economic burden of publication must be acceptable The data must become accessible to potential users The data must remain accessible over time The data must be discoverable by potential users The user’s use of the data must be permitted The user must be able to understand what was measured and how (materials and methods) The user must be able to understand all computations that were applied and their inputs The user must be able to apply standard tools to all file formats The user must be able to understand the data in detail (units, symbols) => Data paper genre Séminaire TIC, ENS-Cachan, 13/06/2013
Autres Initiatives/Relais Open Notebook Science (J.-C Bradley) Transparence complète (Drexel University) Séminaire TIC, ENS-Cachan, 13/06/2013