La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Unité Mixte de Recherche - Sciences Techniques Education Formation Partage de données en Recherche Christophe Reffay – UMR STEF Rechercher et publier sur.

Présentations similaires


Présentation au sujet: "Unité Mixte de Recherche - Sciences Techniques Education Formation Partage de données en Recherche Christophe Reffay – UMR STEF Rechercher et publier sur."— Transcription de la présentation:

1 Unité Mixte de Recherche - Sciences Techniques Education Formation Partage de données en Recherche Christophe Reffay – UMR STEF Rechercher et publier sur le Web École Doctorale des Sciences Pratiques Cachan, le 1 ier juin 2011

2 2 EDSP 2011, Cachan, le 1 ier juin C. Reffay Plan du cours 1.Accès ouvert aux publications a.Introduction + retour de COASP b.France : HAL, TEL, CEL c.International : OAI, DOAJ, OASPA, SCOAP3 d.Déclaration de Berlin 2.Partage des données a.France : Mulce, Calico, Adonis,… b.International : DataVerse, Gisaid, … 3.XML s’impose pour les métadonnées a.Métadonnées : rôle et structure b.Moissonneurs d’archives : OAI-PMH c.Syndication : XML -> RDF -> RSS / Atom

3 Cachan Intro: Edition - Scientifique Le monde de l’édition Papier vs Electronique Modèle économique Contrôle : Relecture, Typo, Mise en page, Impression, Marketing, Distribution Communication, … Notoriété (revue) Le monde scientifique Contenu Relecture scientifique Contrôle : Contenu +… … Mise en page… Notoriété (individus) Les technologies changent la donne…

4 Cachan Edition scientifique et technologies Traitement de texte permet aux scientifiques de prendre la main sur : –Typo, orthographe, mise en forme –Mise en page,… impression. Les technologies du web modifient : –Communication, –Diffusion,… => Rôles et intérêts des acteurs modifiés

5 Cachan Éditeurs scientifiques en accès libre : OASPA Open Access Scholarly Publishers Association OASPA = Née en 2008, 52 membres, 600 revues ; Organise sa 1° conférence en 2009 (Lund, Suède) ; Objectifs : –Partager les bonnes pratiques, améliorer l’accès à l’information scientifique, aider les communautés scientifiques à publier leurs propres journaux en accès libre ; –Promouvoir le libre accès tout en collaborant avec les éditeurs privés (ex: SPARC et Springer) ; –Peser sur les standards techniques du libre accès, améliorer la transparence des critères de mesure de la qualité et de la notoriété des revues ou des articles.

6 Cachan DOAJ : Directory of Open Access Journals Critères de qualité d’une revue en ligne Accès gratuit en ligne des textes complets (sans période d’embargo) ; Processus permettant d’assurer la qualité des articles publiés (ex : relecture par des pairs) ; Capacité des éditeurs à fournir toutes les métadonnées requises. STICEF : (créée en 2003, indexée + articles complets accessibles DOAJ depuis 11/2006)

7 Cachan Initiatives internationales d’intérêt Public Knowledge Project (PKP) –Open Journal System (OJS) CrossRef : des liens persistants SCOAP3 : un nouveau modèle économique pour l’accès aux articles Nano publications

8 Cachan Public Knowledge Project Dirigé par John Willinsky Financé par un consortium de bibliothèques et départements d’éducation du Canada (3 entités) et des USA (Stanford) Objectif : Améliorer la qualité de la recherche académique et publique.

9 Cachan OJS: Open Journal System Logiciel libre et gratuit (issu de PKP) Gestion des processus: –Soumission –Relectures –Relances –Publication en ligne Utilisé par plus de 2700 revues (au 16/06/2010)

10 Cachan Crossref = Opérateur des références Opérateur pour les éditeurs au sein de la « PILA » (PILA : Publishers International Linking Association) depuis juin er service de liaison des références DOI (Digital Object Identifier) Référence persistante. Crossref met à jour pointeur => adresse physique Nouveaux services : Contributions, paternité, responsabilité scientifique, plagiat, etc.

11 Cachan SCOAP3 = Sponsoring Consortium for Open Access Publishing in Particle Physics (1/3) CERN = C.E. Recherche Nucléaire (Berceau du Web) Depuis 1960 : Tradition de partage des pre-prints En 2009 : 97% des articles du domaine étaient dispo. gratuit. en Pre-prints Les articles avec Pre-print cités 5xplus Pic de citation avant parution !

12 Cachan SCOAP3 = Sponsoring Consortium for Open Access Publishing in Particle Physics (3/3) Coût principal: service de relecture => estimé à 2000€/soumission Changer de modèle des recettes : –Aujourd’hui : lecteur –Demain SCOAP3 (par pays //soumissions) 23 pays ont déjà rejoint le consortium 68,2% du budget déjà acquis…

13 Cachan L’idée des nano-publications Croissance : x100 tous les 100 ans Ex : en médecine : > 1 article/min ! => Déluge d’articles impossible à lire… Essence d’un article = triplets concepts ( ) => à partager (free) plutôt que texte Interprétable par les machines

14 Cachan HALHAL : Hyper Articles en Ligne Thèses En Ligne Education TICE Cours en Ligne Au 19 juin articles en ligne (hal)

15 Cachan Déclaration de Berlin 22/10/ institutions signataires au 21 juin 2010 (Dont 21 françaises : CNRS, INRA, INRIA, INSERM, CPU, 8 Universités, Instituts, 0 ENS…) Définition d’une contribution au libre accès 2 Conditions –Auteurs concèdent droit gratuit, irrévocable et mondial (copier, utiliser, distribuer…) mentionner l’auteur. –Dépôt dans une archive utilisant OAI et archivant à long terme.

16 Cachan Déclaration mondiale … …très Européenne

17 Cachan Origine des signataires

18 Cachan Plan du cours 1.Accès ouvert aux publications a.Introduction + retour de COASP b.France : HAL, TEL, CEL c.International : OAI, DOAJ, OASPA, SCOAP3 d.Déclaration de Berlin 2.Partage des données a.France : Mulce, Calico, Adonis,… b.International : DataVerse, Gisaid, … 3.XML s’impose pour les métadonnées a.Métadonnées : rôle et structure b.Moissonneurs d’archives : OAI-PMH c.Syndication : XML -> RDF -> RSS / Atom

19 Cachan Contexte : Analyse des interactions en ligne Scénario pédagogique Hypothèses Questions recherche Analyses Traces Prod. Descrip. Acteurs Hypothèses Questions recherche t0t0 t1t1 Instanciation Communauté de recherche Publi. Dispositif outil

20 Cachan Enjeux : Validité de nos résultats ? Scientificité, objectivité des résultats : (Rourke et al., 2001) (Henri, 2005) Peut-on discuter des résultats sans accéder aux données et à leur contexte ? Réplicabilité des analyses Peut-on retrouver ces résultats sans accéder aux données ? Mutualisation des outils (Calico/Mulce)

21 Cachan Pour que nos recherches avancent mieux… Partageons (plus) nos outils Définissons (mieux) les limites de nos méthodes Discutons (plus) de la validité de nos résultats Accordons nous sur des formats d’échange de données (ex: forum Calico et Corpus Mulce) => Bénéficier des avancées des autres –Mutualiser des outils (Mulce, Calico) –Mutualiser des données (Mulce, Calico) –Discuter des analyses / résultats / interprétations (Mulce, Calico)

22 Mulce (ANR ) MUltimodal Learning Corpus Exchange LIFC : M.-L. Betbeder, M. Noras, C. Reffay Laseldi : T. Chanier, M. Ciekanski, OU (UK): M.-N. Lamy Projet Mulce soutenu par Informatique Ingénierie pédagogique Apprentissage des langues

23 Cachan Aujourd’hui… Une autre vision du partage Questions Traces Résultat1 Dispositi f Traces Dispositi f Résultat2 =?= Partage Questions Analyses Partage Résultat3 Résultat4 Demain ?

24 Cachan Partager des analyses Dictionnaire Classification des contenus Réseaux de communication Profils apprenants Interventions tuteurs Langue Couverture

25 Cachan Ce qui est problématique Pour interpréter les interactions situées : cadre pédagogique, temporel, acteurs, médium, … => Contexte –Scénario pédagogique –Protocole de recueil des données –Questions de recherche Pour automatiser certaines analyses => Format d’échange / Structuration des données –Normes et standards Pour protéger les acteurs => Droit et éthique –Consentement éclairé et droits d’auteurs, image –Données personnelles => anonymisation –Licences d’utilisation des données

26 Cachan Corpus d’apprentissage : définition, exemples Définition : Ensemble de données et de traces issues d’une expérimentation, enrichies par des informations techniques, humaines, pédagogiques et scientifiques permettant leur analyse en contexte. Exemple : Les ensembles de données de Mulce : –ICOGAD (2001) => Simuligne : FLE, 40 app., 10 semaines –Asynchrone essentiellement textuel –Copéas (2005/2006) => Anglais, 14 app., 8 semaines Synchrone multimodal –Tridem (2005) => FLE/Anglais, 28 app., 10 semaines

27 Cachan - Questions - Objet - Problématique - Observables - Protocole de recueil des donnés Schéma simplifié des parties d’un corpus de base (LETEC) Instanciation Scénario pédagogique Protocole de recherche Licence publique Licence privée Analyses ContexteContexte - Activités - Rôles - Environnements - Acteurs - Outils - Traces -Interactions -Logs -produits Observations du contexte - Termes cession des droits - Contrats d’utilisation - Lien propriétaire - Transcriptions - Analyses

28 Cachan Scénario Pédagogique Protocole Recherche Instanciation Licence Index Données primaires Approche Pédagogique _______ Activités Rôles Environnements Questions Méthodologie, recueil _______ Activités, rôles & Environnements (recherche) Observations Agenda _______ Acteurs / groupes (codes acteurs) Outils Interactions structurées Licences -Utilisation -Dépôt _______ Editeurs Droits accès Contrat cession acteurs Anonymisation Consignes Aides Ressources Questions Grilles d’entretien Recherche : questionnaires réflexifs, entretiens Pédagogique : Produits, traces Fichier suivi Procédure d’anonymisation Contrat de Cession des droits Licence Privée Contrats Cession Codes, Noms acteurs Package (IMS-CP) pour Mulce Identification des ressources Tableau anonymisation Contrat de cession des droits Description Méta données Méta données générales sur le corpus Méta données

29 Cachan Plateforme Mulce Chercheur authentifié Client Outils d’aide à la l’analyse Serveur Internaute ComparerAnalyser Consulter / Télécharger Transcrire Outils d’aide à la transcription Corpus Scénario pédagogique Protocole de Recherche LicenceInstanciation -Description -Index Ressources -Description -Index -Description -Index -Description -Index Serveur OLAC** Serveur OAI* Metadata * Open Archive Initiative ** Open Language Archive Community

30 Cachan Concepts à retenir Dépôt/Publication = Antériorité Contribution : réputation, citation Valoriser la plus-value : –Définition du contexte –Organisation/Structuration des données Visibles (Repository, Metadata) Réutilisables : Accessibles, Inter opérables Réplicables : Outillées, documentées

31 Cachan Initiatives internationales The DataVerse Network (G. King) –http://thedata.org/http://thedata.org/ –Archive, Estampille, Reconnaissance, Partage ou non. Electronic Laboratory Notebook (J.-Claude Bradley) –Drexel University (Philadelphie, USA) –Transparence de la recherche en cours Science Common –Données de recherche réutilisables –Améliorer l’accès aux données de recherche –(Bio : UBMTA) : 250 institutions depuis 1995 CODATA (SVN, SVT, Géosciences) depuis 1966 –Revue "Data Science Journal" OASPA: Open Access Scholarly Publishing Association PSCL DataShop : Données spécifiques + reporting + Outils évaluation (courbe d’apprentissage)

32 Cachan Initiatives françaises ADONIS (TGE) : nombreux projets –Le CLEO (Hypothèses, Revues.org, Calenda) Muséum d’histoire naturel : BD scientifiques (minéraux, CLEMAM, FLORA,…) VISA (Vidéo Sit. App.) : méthodes, collection. CLAPI (Interaction audio) : ICAR Mulce (ANR Corpus) : mulce.org Lien avec les revues : STICEF, ALSIC

33 Cachan Plan du cours 1.Accès ouvert aux publications a.Introduction + retour de COASP b.France : HAL, TEL, CEL c.International : OAI, DOAJ, OASPA, SCOAP3 d.Déclaration de Berlin 2.Partage des données a.France : Mulce, Calico, Adonis,… b.International : DataVerse, Gisaid, … 3.XML s’impose pour les métadonnées a.Métadonnées : rôle et structure b.Moissonneurs d’archives : OAI-PMH c.Syndication : XML -> RDF -> RSS / Atom

34 Cachan Métadonnées : rôle et structure Métadata = Données décrivant les données Utilisées pour cataloguer/répertorier => aider à rendre visible, retrouver… Sur le web (le plus ouvert) : Structure XML Dans OAI-PMH : XML (Dublin Core) NB : On peut ajouter d’autres formats (XML)

35 Cachan Dublin Core norme internationale ISO 15836,ISO Contenu Propriété intellectuelle Instanciation Couverture Collaborateur Date Description Créateur Format Type Editeur Identifiant Relation Droits Langue Source Sujet Titre

36 Cachan Exemple (XML DC) […] thompson.com/junkforcode/archives/Kertesz1.jpg Distortion #88 Kertesz, Andre Created:1933 image image/gif […]

37 Cachan OAI-PMH : Open Arχive Initiative Protocole for Metadata Harvesting URL: Objets Méta Objets Méta Objets Méta Moissonneur Méta Serveur Méta Serveur Data Providers Service Providers

38 Cachan OAI-PMH : Le protocole Pour être intégré dans l’OAI, un répertoire doit être capable de répondre aux requêtes des moissonneurs de l’OAI dans le format spécifié par l’OAI. 2 possibilités –Static repository : un simple fichier XML utilisé par un serveur distant ; –Dynamic repository : un serveur propre

39 Cachan OAI-PMH : Les requêtes Les 6 « verbs » utilisés GetRecord => 1 fiche de métadonnée Identify => Identification du Dépôt ListIdentifiers => Les « id » du catalogue ListMetadataFormats : => Schémas ListRecords => Liste des Records ListSets => Pour une sélection de Records

40 Cachan Moteur OAI

41 Cachan Exemples pour tester les commandes du protocole OAI-PMH en direct… Identify –http://ktisis.cut.ac.cy/oai/request?verb=Identify MetadataFormats –http://ktisis.cut.ac.cy/oai/request?verb=ListMetadataFormats oai_dc - rdf - mets ListSets –http://ktisis.cut.ac.cy/oai/request?verb=ListSets ListIdentifiers –http://ktisis.cut.ac.cy/oai/request?verb=ListIdentifiers&metadataPrefix=oai_dc => (Exemple d’identifiant) oai:ktisis.cut.ac.cy:10488/3599 ListRecords –http://ktisis.cut.ac.cy/oai/request?verb=ListRecords&metadataPrefix=oai_dc GetRecord –http://ktisis.cut.ac.cy/oai/request?verb=GetRecord&identifier=oai:ktisis.cut.ac.cy:10488 /3599&metadataPrefix=oai_dc

42 Cachan L’objet archivé…

43 Cachan XML est eXtensible ! Un document XML peut utiliser plusieurs schémas (qui valident la structure) ! Certains éléments d’un schéma peuvent être décrits par un autre schéma Schémas Liste des records

44 Cachan Les atouts de XML Basé sur du texte uniquement (échangeable) Structuré (compréhensible) Extensible (adaptable) Validation automatique par les schémas Tout fragment est auto-documenté  Nombreux outils (Requêtes Xpath…) Font de ce langage le leader pour les métadonnées

45 Cachan Un document XML… Peut préciser dans la balise la plus englobante : le(s) schéma(s) qui valide(nt) sa structure –Attributs xmlns:truc="clef", –xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" –xsi:schemaLocation="clef Élément => attributs / éléments contenu Corpus Simuligne Simuligne Corpus

46 Cachan DTD ou schéma (XSD) DTD = « Document Type Definition » Schéma XSD = « XML Schema Definition » Sont 2 syntaxes possibles pour Définir la structure de documents XML Expliciter les éléments et attributs, les types de données qu’ils peuvent contenir…

47 Cachan Exemple de XML / DTD Tove Jani Reminder Don't forget me this weekend! Document XML DTD utilisée : note.dtd Source :

48 Cachan Exemple de XML / XSD Tove Jani Reminder Don't forget me this weekend! Document XMLSchéma : note.xsd Source :

49 Cachan Syntaxe et structure vérifiables Tous les documents XML utilisent la même syntaxe pour le balisage Si le document précise la localisation du schéma => le lecteur/éditeur peut vérifier la structure du document XML // schéma  Assure une meilleure qualité d’édition  Permet des traitements systématiques

50 Cachan Moisson vs Syndication Moisson (OAI-PMH) Type: Métadonnées Acteurs: Serveurs Objets: Documents en archive Serveur consulte les catalogues OAI-PMH (à la demande) Syndication (RSS) Type: Métadonnées Act.: Serveurs/Clients Objets: Ressources web Lecteur collecte ses abonnements

51 Cachan Syndication : Principes Certains Sites (web) proposent un flux RSS en général identifiables par le logo L’utilisateur indique l’adresse du flux à son lecteur de flux RSS Chaque fois que le lecteur est ouvert, l’utilisateur peut rafraîchir les flux RSS des sites auxquels il s’est abonné. Langages (XML) : RDF  RSS / Atom

52 Cachan RDF = Resource Description Framework RDF = language de métadonnées du web RDF est un langage XML -> machines Bob Dylan USA Columbia Bonnie Tyler UK CBS Records

53 Cachan Parser l’exemple précédent sur :

54 Cachan De RDF à RSS / Atom RSS 0.90: RDF Site Summary (Mars 1999) RSS 0.91: Rich Site Summary (Juillet 1999) RSS 2.0 : Really Simple Syndication (2002) Atom : Standard RFC 4287RFC 4287 Podcast, Screencast…

55 Cachan Exemple de flux RSS: Biomax Informatics AG - News Biomax provides computational solutions for better decision making and knowledge management in the life science industry. en-us … New BioRS release from Biomax Informatics AG combines database … Biomax releases today a new module for the BioRS™ Integration and Retrieval System, an application providing simultaneous searches in... Biomax Informatics AG

56 Cachan Lecteurs/Agrégateurs RSS Lecteur en local : IE, Mozilla Firefox, Outlook, Feed reader, iTunes, … Agrégateur en ligne (Personnel/Site) : netvibes, Google, Eskobo Beta, Goowy, Windows Live…, Newser, Gregarius Annuaires de fils RSS : pretty-rss.snyke.com/

57 Cachan Webographie Rubrique STICEF COASPA par C. ReffayRubrique STICEF COASPA Hyper Articles en Ligne – Thèses en LigneHyper Articles en LigneThèses en Ligne Conf. archives ouvertes : Franck Laloë 2006Conf. archives ouvertes : Franck Laloë OAI : Dublin Core : Déclaration de Berlin 22/10/2003Déclaration de Berlin Génome BD connectéesBD connectées Linked Data par Tim Berners Lee sur TEDLinked Data par Tim Berners Lee Format RSS sur Wikipedia – RSS TutorialFormat RSS sur Wikipedia RSS Tutorial


Télécharger ppt "Unité Mixte de Recherche - Sciences Techniques Education Formation Partage de données en Recherche Christophe Reffay – UMR STEF Rechercher et publier sur."

Présentations similaires


Annonces Google