Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parLucie Jarry Modifié depuis plus de 10 années
1
Données issues des interactions en ligne en situation d'apprentissage : Quels sont les moyens du partage ? Christophe Reffay Chercheur de l’IFÉ, STEF, ENS Cachan Séminaire TIC, STEF, ENS-Cachan – 13 juin 2013
2
Publication = Part visible
Analyse Données Iceberg=données (immergées) + publication (émergée) + milieu/contexte MILIEU - CONTEXTE Séminaire TIC, ENS-Cachan, 13/06/2013
3
Contexte international
CODATA: Physique, Géosciences… (Paris,1966) Revue "Data Science Journal" Processus de Berlin : Open Access Science Commons => Creative Commons / Data 10 obstacles au partage (livre blanc J. Rees, 2010) The DataVerse Network (G. King, 2007) Archive, Estampille, Reconnaissance, Partage ou non. NSF : Data Management Plan Datacite : Liste des (647) repositories (juin 2013) PSLC DataShop : une initiative exemplaire 10 Séminaire TIC, ENS-Cachan, 13/06/2013
4
Initiatives nationales
ADONIS (TGE) + IR Corpus => TGIR pour les humanités numériques Le CLEO (Hypothèses, Revues.org, Calenda) beQuali ? Datapublication (lien avec revues) ? Mulce (ANR Corpus) : mulce.org CALICO (données et outils) IPOL : Une initiative exemplaire CLEO : : Centre pour l'édition électronique ouverte. Hypothèses : : Carnets de recherche (en cours) Calenda : agenda francophone des évènements scientifiques en SHS Revue.og La lettre Muséum d’Histoire naturelle : Bases de données scientifiques (taxonomie, biodiversité) Minéraux (ors, Collection A. Lacroix), CLEMAM (Mollusques en Europe), FLORA : Biodiversité végétale du bassin parisien VISA : VIdéo de Situations d’enseignement et d’Apprentissage Documentation sur matériel, méthodes Collection de vidéos (également à visée patrimoniale) en relation avec des projets de recherche Séminaire TIC, ENS-Cachan, 13/06/2013
5
Mulce (ANR 2007-2010) MUltimodal Learning Corpus Exchange
Laboratoire d’Informatique de l’UFC Laseldi puis LRL (T. Chanier) Open University (CREEK) Informatique Ingénierie pédagogique Apprentissage des langues Mulce est un projet soutenu par l’ANR, il a commencé début 2007 et se termine fin 2009. Le travail que je présente ici est celui de plusieurs personnes issues de plusieurs équipes : Les informaticiens du LIFC, les linguistes et ingénieurs pédagogiques du Laseldi et de l’Open University de Grande Bretagne. Projet Mulce soutenu par
6
Contexte : Analyse des interactions en ligne
Hypothèses Questions recherche Dispositif outil Scénario pédagogique Traces Prod. Descrip. Acteurs Analyses Hypothèses Questions recherche Publi. Communauté de recherche t0 t1 Instanciation Séminaire TIC, ENS-Cachan, 13/06/2013
7
Une autre vision du partage
Questions Dispositif Traces Résultat1 Analyses Partage Résultat3 Résultat4 Demain ? =?= Aujourd’hui… Aujourd’hui, si l’on prend des questions de recherches similaires, avec deux contextes différents, on recueille des traces différentes, analysées différemment pour aboutir à des résultats qui sont difficilement comparables. Si l’on pouvait accéder aux données et au contexte de l’expérimentation de l’autre, on pourrait alors appliquer sa propre analyse pour discuter des conclusions. Cette ouverture pourrait donner plus d’objectivité aux analyses et permettrait à un outil d’analyse (ou de représentation de tableaux de bord par exemple) de se frotter à différents ensembles de données pour lesquels des analyses existantes dessinent certaines caractéristiques que l’outil pourrait vérifier ou invalider. En tout état de cause, la discussion scientifique pourrait vraiment avoir lieu et différentes méthodes d’analyse pourraient se comparer objectivement sur le même ensemble de données. Mais ce n’est pas le seul avantage ! Questions Dispositif Traces Résultat2 Analyses Séminaire TIC, ENS-Cachan, 13/06/2013
8
Ce qui est problématique
Pour interpréter les interactions situées : cadre pédagogique, temporel, acteurs, médium, … => Contexte Scénario pédagogique Protocole de recueil des données Questions de recherche Pour automatiser certaines analyses => Format d’échange / Structuration des données Normes et standards Pour protéger les acteurs => Droit et éthique Consentement éclairé et droits d’auteurs, image Données personnelles => anonymisation Licences d’utilisation des données Mais l’égoïsme n’est pas le seul frein au partage, Pour rendre possible l’interprétation des données, il faut expliciter leur contexte Pour rendre certaines analyses automatisables, il faut structurer les données : nous nous appuyons évidemment sur les standards existants pour spécifier ce format. Enfin, puisque nos expérimentations sont écologiques, les vrais acteurs doivent être protégés et les données d’interaction doivent donc être contrôlées avant d’être diffusées Séminaire TIC, ENS-Cachan, 13/06/2013
9
Schéma simplifié des parties d’un corpus de base
- Questions - Objet - Problématique - Observables - Protocole de recueil des donnés Scénario pédagogique - Activités - Rôles - Environnements - Acteurs Outils Traces Interactions Logs produits Contexte Observations du contexte Licence publique - Termes cession des droits - Contrats d’utilisation - Lien propriétaire Instanciation Analyses - Transcriptions - Analyses Licence privée Le contexte est composé du scénario pédagogique et du protocole de recherche. Le noyau du corpus, appelé Instanciation, contient l’ensemble des données d'interaction, les acteurs, les outils, etc.) Une partie licence indique les droits des responsables du corpus et des utilisateurs. L’acceptation des termes de cette licence ouvre la voie à l'utilisation du corpus et à la production d'analyses. Chaque transcription ou Analyse est liée aux objets de la partie Instanciation ou à des données résultant d’autres analyses. Protocole de recherche Séminaire TIC, ENS-Cachan, 13/06/2013
10
Package (IMS-CP) pour Mulce
Méta données générales sur le corpus Scénario Pédagogique Protocole Recherche Instanciation Licence Méta données Méta données Méta données Méta données Approche Pédagogique _______ Activités Rôles Environnements Questions Méthodologie, recueil _______ Activités, rôles & Environnements (recherche) Observations Agenda _______ Acteurs / groupes (codes acteurs) Outils Interactions structurées Licences Utilisation Dépôt _______ Editeurs Droits accès Contrat cession acteurs Anonymisation Licence Privée Contrats Cession Codes, Noms acteurs Description Un corpus peut être transporté entièrement dans un « Content Package » qui englobe les métadonnées générales du corpus, les métadonnées et description de chaque sous-parties du corpus (présentées juste avant) et l’ensemble des fichiers ressources dûment référencées. La partie privée des licences ne voyage pas avec le corpus et n’est détenue que par le responsable du corpus. Index Identification des ressources Données primaires Consignes Aides Ressources Questions Grilles d’entretien Recherche : questionnaires réflexifs, entretiens Pédagogique : Produits, traces Fichier suivi Procédure d’anonymisation Contrat de Cession des droits Tableau anonymisation Contrat de cession des droits Séminaire TIC, ENS-Cachan, 13/06/2013
11
? Plateforme Mulce * Open Archive Initiative
Corpus Scénario pédagogique Protocole de Recherche Instanciation Licence -Description -Index -Description -Index -Description -Index -Description -Index Serveur OAI* Ressources Metadata Outils d’aide à la transcription Outils d’aide à la l’analyse Serveur OLAC** Consulter / Télécharger Serveur La plateforme Mulce est un serveur qui doit permettre à terme à un chercheur identifié, de consulter tous les corpus, d’y déposer ses propres corpus et des analyses en rapport avec tous les corpus. Des outils de fouille, d’aide à la transcription ou à l’analyse viendrons enrichir les ressources disponibles sur Mulce. Cet ensemble pourra être interrogé par des serveurs OLAC et OAI pour recueillir les métadonnées décrivant l’ensemble des objets référencés tels que : les corpus de base, les corpus distinguables, les analyses, les scénarios pédagogiques. 52 corpus sont déjà déclarés dans les répertoires de l’OAI et disponibles au téléchargement via la plateforme. ? Transcrire Analyser Comparer Chercheur authentifié Client * Open Archive Initiative ** Open Language Archive Community Internaute Séminaire TIC, ENS-Cachan, 13/06/2013
12
La plateforme Mulce actuelle…
Séminaire TIC, ENS-Cachan, 13/06/2013
13
Mulce… 3 ans après 45 corpus déposés (dont 4 globaux)
Quelques réutilisations de corpus Toujours pas de dépôt « externe » malgré plusieurs intentions exprimées Quelques leçons : Format sophistiqué => coût d’entrée Métadonnées bien documentées => visibilité Nécessité d’outiller : exploration et analyse Séminaire TIC, ENS-Cachan, 13/06/2013
14
Difficultés surmontées pour la réutilisation : Bilan du projet Mulce
The author must be professionally motivated to publish the data The effort and economic burden of publication must be acceptable The data must become accessible to potential users The data must remain accessible over time The data must be discoverable by potential users The user’s use of the data must be permitted The user must be able to understand what was measured and how (materials and methods) The user must be able to understand all computations that were applied and their inputs The user must be able to apply standard tools to all file formats The user must be able to understand the data in detail (units, symbols) Burden = Fardeau Surmontée Pas observé Non surmontée Séminaire TIC, ENS-Cachan, 13/06/2013
15
CALICO (ERTÉ 2006-2010) Communautés d'apprentissage en ligne, instrumentation, collaboration
STEF, CREAD : Sciences de l’Éducation LIUM, LIFC - GREYC : Informatique - Linguistique CURAPP : Administration et Politique CEDITEC : Communication Mulce est un projet soutenu par l’ANR, il a commencé début 2007 et se termine fin 2009. Le travail que je présente ici est celui de plusieurs personnes issues de plusieurs équipes : Les informaticiens du LIFC, les linguistes et ingénieurs pédagogiques du Laseldi et de l’Open University de Grande Bretagne. ERTÉ CALICO soutenue par
16
Plateforme CALICO : Principes
Plateforme avec interface multilingue Dépôt & partage de données d’interactions en ligne (Forums, Blogs, mailing lists, etc.) Outils d’exploration et d’analyse Indépendants de la langue Visualisations variées (volumes, périodes…) Extraction du lexique, marquage, repérage Séminaire TIC, ENS-Cachan, 13/06/2013
17
CALICO : Les documents Séminaire TIC, ENS-Cachan, 13/06/2013
18
CALICO : Les outils Séminaire TIC, ENS-Cachan, 13/06/2013
19
CALICO : Les outils Séminaire TIC, ENS-Cachan, 13/06/2013
20
CALICO : Les outils Séminaire TIC, ENS-Cachan, 13/06/2013
21
CALICO : Les outils Séminaire TIC, ENS-Cachan, 13/06/2013
22
CALICO : Bilan des usages
Beaucoup d’intérêt Des essais assez nombreux Des dépôts « externes » Assez peu de partage de données Plutôt une réutilisation des outils Séminaire TIC, ENS-Cachan, 13/06/2013
23
Difficultés surmontées pour la réutilisation : Bilan pour CALICO
The author must be professionally motivated to publish the data The effort and economic burden of publication must be acceptable The data must become accessible to potential users The data must remain accessible over time The data must be discoverable by potential users The user’s use of the data must be permitted The user must be able to understand what was measured and how (materials and methods) The user must be able to understand all computations that were applied and their inputs The user must be able to apply standard tools to all file formats The user must be able to understand the data in detail (units, symbols) Burden = Fardeau Surmontée Pas observé Non surmontée Séminaire TIC, ENS-Cachan, 13/06/2013
24
Data Publication Direction du projet
Thierry Chanier, Professor, Director of LRL Eric Bruillard, Professor, Director of STEF Christophe Reffay, Ass. Professor, UMR STEF Directeur de publication Jean-Luc Pinol, Professor, TGE-Adonis Plateforme : conception et developpement Gérald Foliot: IR CNRS, IT Manager of TGE-Adonis Mulce est un projet soutenu par l’ANR, il a commencé début 2007 et se termine fin 2009. Le travail que je présente ici est celui de plusieurs personnes issues de plusieurs équipes : Les informaticiens du LIFC, les linguistes et ingénieurs pédagogiques du Laseldi et de l’Open University de Grande Bretagne.
25
Data publication : objectifs
Pour les revues et conférences: Relecture AVEC accès aux données Pour les lecteurs Accès à la réplication des analyses Pour l’auteur : un double référencement Article Ensemble de données (permalien) Séminaire TIC, ENS-Cachan, 13/06/2013
26
Data Publication… Plusieurs essais
Co-publication des données après article Un essai « complet » : lors de la soumission Plateforme : prototype quasi opérationnel Processus un peu rigide pour l’instant Nécessite d’être documenté Affaire à suivre A voir selon TGIR Humanités numérique Séminaire TIC, ENS-Cachan, 13/06/2013
27
Améliore Pas concerné Accentue le problème
Difficultés surmontées pour la réutilisation : Attendu pour Data Publication The author must be professionally motivated to publish the data The effort and economic burden of publication must be acceptable The data must become accessible to potential users The data must remain accessible over time The data must be discoverable by potential users The user’s use of the data must be permitted The user must be able to understand what was measured and how (materials and methods) The user must be able to understand all computations that were applied and their inputs The user must be able to apply standard tools to all file formats The user must be able to understand the data in detail (units, symbols) Burden = Fardeau Améliore Pas concerné Accentue le problème Séminaire TIC, ENS-Cachan, 13/06/2013
28
2 initiatives exemplaires
PSLC Datashop : Pittsburgh Science of Learning Center Un Modèle pour les ITS Une plateforme de dépôt des traces Un outil de représentation/évaluation IPOL : Image Processing On Line Article + Code source + Demo en ligne Article et code source sont évalués “Open Science and Reproducible Research” Séminaire TIC, ENS-Cachan, 13/06/2013
29
Quelques points clés retenus
Dépôt/Publication = Antériorité Contribution : réputation, citation Valoriser le dépôt : Définition du contexte Organisation/Structuration des données Visibles (Repository, Metadata, OAI) Réutilisables : Accessibles, Inter opérables Réplicables : Outillées, documentées Séminaire TIC, ENS-Cachan, 13/06/2013
30
Perspectives Le partage de données devient réalité
Pour certaines communautés permet : Maturation/Convergence/Comparaison des méthodes Réplication des analyses ou ré-analyse Meilleure évaluation de la recherche Toute donnée n’est cependant pas partageable Séminaire TIC, ENS-Cachan, 13/06/2013
31
Questions éthiques Protection des participants en SHS (ex: situations d’apprentissage, entretiens): Droits à l’image Droits d’auteur Protection des données personnelles Protection des données sensibles Séminaire TIC, ENS-Cachan, 13/06/2013
32
Anonymisation (données textuelles)
Débat: Données non anonymes => non partageables Anonymisation trop coûteuse Anonymisation automatisable ? Limiter l’accès ? Propositions Outiller le processus d’anonymisation ? Maîtriser la diffusion ? Séminaire TIC, ENS-Cachan, 13/06/2013
33
Questions ? Réactions ? Témoignages ?
MERCI ! Questions ? Réactions ? Témoignages ? Séminaire TIC, ENS-Cachan, 13/06/2013
34
Déclaration Berlin (Open Access) 5° conférence (Padoue, 2007)
Les 19 premiers cosignataires du 22/10/2003 Berlin Process Berlin Process Signataires récents Déclaration Berlin (Open Access) 5° conférence (Padoue, 2007) Workshop on policies and practices of research organisations on open access to research data. Objectifs : to get research organizations in Europe acquainted with on-going and planned initiatives for open access to research data to present and discuss policies and practices on open access to research data of organisations and to identify areas in which research organisations could collaborate on this issue. Séminaire TIC, ENS-Cachan, 13/06/2013
35
National Science Fondation (depuis janvier 2013)
Data Management Plan : Pour une bourse de la NFS, un document supplémentaire de 2 pages intitulé « plan de gestion des données » doit indiquer : Le type de données (extraits, collections, logiciels, contenus, ou produits du projet) Les standards utilisés pour les données et les métadonnées; Politique d’accès et de partage incluant les précautions pour le respect de la vie privée, de la confidentialité, de la sécurité et des propriétés intellectuelles; Politique de réutilisation, redistribution, et produits dérivés Plans pour l’archivage des données, extraits, et autre produits de la recherche, et pour la préservation de leur accès. Séminaire TIC, ENS-Cachan, 13/06/2013
36
CODATA : Créée à Paris en 1966 !
1970 1980 1990 2000 2010 1970 1980 1990 2000 2010 Constantes physiques 23 Conf. 30 Nations 20 Sociétés scientifiques 57 Task Groups years (Lide & Wood, 2010) Séminaire TIC, ENS-Cachan, 13/06/2013
37
Difficultées à surmonter pour la réutilisation (Jonathan Rees, Science Commons, white paper Creative Commons, March 2010) The author must be professionally motivated to publish the data The effort and economic burden of publication must be acceptable The data must become accessible to potential users The data must remain accessible over time The data must be discoverable by potential users The user’s use of the data must be permitted The user must be able to understand what was measured and how (materials and methods) The user must be able to understand all computations that were applied and their inputs The user must be able to apply standard tools to all file formats The user must be able to understand the data in detail (units, symbols) => Data paper genre Séminaire TIC, ENS-Cachan, 13/06/2013
38
Autres Initiatives/Relais
Open Notebook Science (J.-C Bradley) Transparence complète (Drexel University) Séminaire TIC, ENS-Cachan, 13/06/2013
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.