La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Unité Mixte de Recherche - Sciences Techniques Education Formation Partage de données en Recherche Christophe Reffay – UMR STEF Rechercher et publier sur.

Présentations similaires


Présentation au sujet: "Unité Mixte de Recherche - Sciences Techniques Education Formation Partage de données en Recherche Christophe Reffay – UMR STEF Rechercher et publier sur."— Transcription de la présentation:

1 Unité Mixte de Recherche - Sciences Techniques Education Formation Partage de données en Recherche Christophe Reffay – UMR STEF Rechercher et publier sur le Web École Doctorale des Sciences Pratiques Cachan, le 1 ier juin 2011

2 2 EDSP 2011, Cachan, le 1 ier juin 2011- C. Reffay Plan du cours 1.Accès ouvert aux publications a.Introduction + retour de COASP b.France : HAL, TEL, CEL c.International : OAI, DOAJ, OASPA, SCOAP3 d.Déclaration de Berlin 2.Partage des données a.France : Mulce, Calico, Adonis,… b.International : DataVerse, Gisaid, … 3.XML s’impose pour les métadonnées a.Métadonnées : rôle et structure b.Moissonneurs d’archives : OAI-PMH c.Syndication : XML -> RDF -> RSS / Atom

3 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr3 Intro: Edition - Scientifique Le monde de l’édition Papier vs Electronique Modèle économique Contrôle : Relecture, Typo, Mise en page, Impression, Marketing, Distribution Communication, … Notoriété (revue) Le monde scientifique Contenu Relecture scientifique Contrôle : Contenu +… … Mise en page… Notoriété (individus) Les technologies changent la donne…

4 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr4 Edition scientifique et technologies Traitement de texte permet aux scientifiques de prendre la main sur : –Typo, orthographe, mise en forme –Mise en page,… impression. Les technologies du web modifient : –Communication, –Diffusion,… => Rôles et intérêts des acteurs modifiés

5 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr5 Éditeurs scientifiques en accès libre : OASPA Open Access Scholarly Publishers Association OASPA = Née en 2008, 52 membres, 600 revues ; Organise sa 1° conférence en 2009 (Lund, Suède) ; Objectifs : –Partager les bonnes pratiques, améliorer l’accès à l’information scientifique, aider les communautés scientifiques à publier leurs propres journaux en accès libre ; –Promouvoir le libre accès tout en collaborant avec les éditeurs privés (ex: SPARC et Springer) ; –Peser sur les standards techniques du libre accès, améliorer la transparence des critères de mesure de la qualité et de la notoriété des revues ou des articles.

6 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr6 DOAJ : Directory of Open Access Journals Critères de qualité d’une revue en ligne Accès gratuit en ligne des textes complets (sans période d’embargo) ; Processus permettant d’assurer la qualité des articles publiés (ex : relecture par des pairs) ; Capacité des éditeurs à fournir toutes les métadonnées requises. STICEF : http://www.doaj.org/doaj?func=findJournals&hybrid=&query=STICEFhttp://www.doaj.org/doaj?func=findJournals&hybrid=&query=STICEF (créée en 2003, indexée + articles complets accessibles DOAJ depuis 11/2006)

7 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr7 Initiatives internationales d’intérêt Public Knowledge Project (PKP) –Open Journal System (OJS) CrossRef : des liens persistants SCOAP3 : un nouveau modèle économique pour l’accès aux articles Nano publications

8 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr8 Public Knowledge Project Dirigé par John Willinsky Financé par un consortium de bibliothèques et départements d’éducation du Canada (3 entités) et des USA (Stanford) Objectif : Améliorer la qualité de la recherche académique et publique.

9 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr9 OJS: Open Journal System Logiciel libre et gratuit (issu de PKP) Gestion des processus: –Soumission –Relectures –Relances –Publication en ligne Utilisé par plus de 2700 revues (au 16/06/2010)

10 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr10 Crossref = Opérateur des références Opérateur pour les éditeurs au sein de la « PILA » (PILA : Publishers International Linking Association) depuis juin 2000. 1 er service de liaison des références DOI (Digital Object Identifier) Référence persistante. Crossref met à jour pointeur => adresse physique Nouveaux services : Contributions, paternité, responsabilité scientifique, plagiat, etc.

11 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr11 SCOAP3 = Sponsoring Consortium for Open Access Publishing in Particle Physics (1/3) CERN = C.E. Recherche Nucléaire (Berceau du Web) Depuis 1960 : Tradition de partage des pre-prints En 2009 : 97% des articles du domaine étaient dispo. gratuit. en Pre-prints Les articles avec Pre-print cités 5xplus Pic de citation avant parution !

12 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr12 SCOAP3 = Sponsoring Consortium for Open Access Publishing in Particle Physics (3/3) Coût principal: service de relecture => estimé à 2000€/soumission Changer de modèle des recettes : –Aujourd’hui : lecteur –Demain SCOAP3 (par pays //soumissions) 23 pays ont déjà rejoint le consortium 68,2% du budget déjà acquis…

13 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr13 L’idée des nano-publications Croissance : x100 tous les 100 ans Ex : en médecine : > 1 article/min ! => Déluge d’articles impossible à lire… Essence d’un article = triplets concepts ( ) => à partager (free) plutôt que texte Interprétable par les machines

14 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr14 HALHAL : Hyper Articles en Ligne + 17422 Thèses En Ligne Education TICE + 279 Cours en Ligne Au 19 juin 2010 143 618 articles en ligne (hal)

15 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr15 Déclaration de Berlin 22/10/2003 281 institutions signataires au 21 juin 2010 (Dont 21 françaises : CNRS, INRA, INRIA, INSERM, CPU, 8 Universités, Instituts, 0 ENS…) Définition d’une contribution au libre accès 2 Conditions –Auteurs concèdent droit gratuit, irrévocable et mondial (copier, utiliser, distribuer…) mentionner l’auteur. –Dépôt dans une archive utilisant OAI et archivant à long terme.

16 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr16 Déclaration mondiale … …très Européenne

17 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr17 Origine des signataires

18 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr18 Plan du cours 1.Accès ouvert aux publications a.Introduction + retour de COASP b.France : HAL, TEL, CEL c.International : OAI, DOAJ, OASPA, SCOAP3 d.Déclaration de Berlin 2.Partage des données a.France : Mulce, Calico, Adonis,… b.International : DataVerse, Gisaid, … 3.XML s’impose pour les métadonnées a.Métadonnées : rôle et structure b.Moissonneurs d’archives : OAI-PMH c.Syndication : XML -> RDF -> RSS / Atom

19 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr19 Contexte : Analyse des interactions en ligne Scénario pédagogique Hypothèses Questions recherche Analyses Traces Prod. Descrip. Acteurs Hypothèses Questions recherche t0t0 t1t1 Instanciation Communauté de recherche Publi. Dispositif outil

20 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr20 Enjeux : Validité de nos résultats ? Scientificité, objectivité des résultats : (Rourke et al., 2001) (Henri, 2005) Peut-on discuter des résultats sans accéder aux données et à leur contexte ? Réplicabilité des analyses Peut-on retrouver ces résultats sans accéder aux données ? Mutualisation des outils (Calico/Mulce)

21 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr21 Pour que nos recherches avancent mieux… Partageons (plus) nos outils Définissons (mieux) les limites de nos méthodes Discutons (plus) de la validité de nos résultats Accordons nous sur des formats d’échange de données (ex: forum Calico et Corpus Mulce) => Bénéficier des avancées des autres –Mutualiser des outils (Mulce, Calico) –Mutualiser des données (Mulce, Calico) –Discuter des analyses / résultats / interprétations (Mulce, Calico)

22 Mulce (ANR 2007-2010) MUltimodal Learning Corpus Exchange LIFC : M.-L. Betbeder, M. Noras, C. Reffay Laseldi : T. Chanier, M. Ciekanski, OU (UK): M.-N. Lamy http://mulce.org Projet Mulce soutenu par Informatique Ingénierie pédagogique Apprentissage des langues

23 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr23 Aujourd’hui… Une autre vision du partage Questions Traces Résultat1 Dispositi f Traces Dispositi f Résultat2 =?= Partage Questions Analyses Partage Résultat3 Résultat4 Demain ?

24 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr24 Partager des analyses Dictionnaire Classification des contenus Réseaux de communication Profils apprenants Interventions tuteurs Langue Couverture

25 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr25 Ce qui est problématique Pour interpréter les interactions situées : cadre pédagogique, temporel, acteurs, médium, … => Contexte –Scénario pédagogique –Protocole de recueil des données –Questions de recherche Pour automatiser certaines analyses => Format d’échange / Structuration des données –Normes et standards Pour protéger les acteurs => Droit et éthique –Consentement éclairé et droits d’auteurs, image –Données personnelles => anonymisation –Licences d’utilisation des données

26 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr26 Corpus d’apprentissage : définition, exemples Définition : Ensemble de données et de traces issues d’une expérimentation, enrichies par des informations techniques, humaines, pédagogiques et scientifiques permettant leur analyse en contexte. Exemple : Les ensembles de données de Mulce : –ICOGAD (2001) => Simuligne : FLE, 40 app., 10 semaines –Asynchrone essentiellement textuel –Copéas (2005/2006) => Anglais, 14 app., 8 semaines Synchrone multimodal –Tridem (2005) => FLE/Anglais, 28 app., 10 semaines

27 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr27 - Questions - Objet - Problématique - Observables - Protocole de recueil des donnés Schéma simplifié des parties d’un corpus de base (LETEC) Instanciation Scénario pédagogique Protocole de recherche Licence publique Licence privée Analyses ContexteContexte - Activités - Rôles - Environnements - Acteurs - Outils - Traces -Interactions -Logs -produits Observations du contexte - Termes cession des droits - Contrats d’utilisation - Lien propriétaire - Transcriptions - Analyses

28 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr28 Scénario Pédagogique Protocole Recherche Instanciation Licence Index Données primaires Approche Pédagogique _______ Activités Rôles Environnements Questions Méthodologie, recueil _______ Activités, rôles & Environnements (recherche) Observations Agenda _______ Acteurs / groupes (codes acteurs) Outils Interactions structurées Licences -Utilisation -Dépôt _______ Editeurs Droits accès Contrat cession acteurs Anonymisation Consignes Aides Ressources Questions Grilles d’entretien Recherche : questionnaires réflexifs, entretiens Pédagogique : Produits, traces Fichier suivi Procédure d’anonymisation Contrat de Cession des droits Licence Privée Contrats Cession Codes, Noms acteurs Package (IMS-CP) pour Mulce Identification des ressources Tableau anonymisation Contrat de cession des droits Description Méta données Méta données générales sur le corpus Méta données

29 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr29 Plateforme Mulce Chercheur authentifié Client Outils d’aide à la l’analyse Serveur Internaute ComparerAnalyser Consulter / Télécharger Transcrire Outils d’aide à la transcription Corpus Scénario pédagogique Protocole de Recherche LicenceInstanciation -Description -Index Ressources -Description -Index -Description -Index -Description -Index Serveur OLAC** Serveur OAI* Metadata * Open Archive Initiative ** Open Language Archive Community

30 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr30 Concepts à retenir Dépôt/Publication = Antériorité Contribution : réputation, citation Valoriser la plus-value : –Définition du contexte –Organisation/Structuration des données Visibles (Repository, Metadata) Réutilisables : Accessibles, Inter opérables Réplicables : Outillées, documentées

31 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr31 Initiatives internationales The DataVerse Network (G. King) –http://thedata.org/http://thedata.org/ –Archive, Estampille, Reconnaissance, Partage ou non. Electronic Laboratory Notebook (J.-Claude Bradley) –Drexel University (Philadelphie, USA) –Transparence de la recherche en cours Science Common –Données de recherche réutilisables –Améliorer l’accès aux données de recherche –(Bio : UBMTA) : 250 institutions depuis 1995 CODATA (SVN, SVT, Géosciences) depuis 1966 –Revue "Data Science Journal" OASPA: Open Access Scholarly Publishing Association PSCL DataShop : Données spécifiques + reporting + Outils évaluation (courbe d’apprentissage)

32 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr32 Initiatives françaises ADONIS (TGE) : nombreux projets –Le CLEO (Hypothèses, Revues.org, Calenda) Muséum d’histoire naturel : BD scientifiques (minéraux, CLEMAM, FLORA,…) VISA (Vidéo Sit. App.) : méthodes, collection. CLAPI (Interaction audio) : ICAR Mulce (ANR Corpus) : mulce.org Lien avec les revues : STICEF, ALSIC

33 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr33 Plan du cours 1.Accès ouvert aux publications a.Introduction + retour de COASP b.France : HAL, TEL, CEL c.International : OAI, DOAJ, OASPA, SCOAP3 d.Déclaration de Berlin 2.Partage des données a.France : Mulce, Calico, Adonis,… b.International : DataVerse, Gisaid, … 3.XML s’impose pour les métadonnées a.Métadonnées : rôle et structure b.Moissonneurs d’archives : OAI-PMH c.Syndication : XML -> RDF -> RSS / Atom

34 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr34 Métadonnées : rôle et structure Métadata = Données décrivant les données Utilisées pour cataloguer/répertorier => aider à rendre visible, retrouver… Sur le web (le plus ouvert) : Structure XML Dans OAI-PMH : XML (Dublin Core) NB : On peut ajouter d’autres formats (XML)

35 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr35 Dublin Core norme internationale ISO 15836,ISO 15836 Contenu Propriété intellectuelle Instanciation Couverture Collaborateur Date Description Créateur Format Type Editeur Identifiant Relation Droits Langue Source Sujet Titre

36 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr36 Exemple (XML DC) […] http://www.sauer- thompson.com/junkforcode/archives/Kertesz1.jpg Distortion #88 Kertesz, Andre Created:1933 image image/gif […]

37 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr37 OAI-PMH : Open Arχive Initiative Protocole for Metadata Harvesting URL: http://www.openarchives.org/pmh/http://www.openarchives.org/pmh/ Objets Méta Objets Méta Objets Méta Moissonneur Méta Serveur Méta Serveur Data Providers Service Providers

38 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr38 OAI-PMH : Le protocole Pour être intégré dans l’OAI, un répertoire doit être capable de répondre aux requêtes des moissonneurs de l’OAI dans le format spécifié par l’OAI. 2 possibilités –Static repository : un simple fichier XML utilisé par un serveur distant ; –Dynamic repository : un serveur propre

39 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr39 OAI-PMH : Les requêtes Les 6 « verbs » utilisés GetRecord => 1 fiche de métadonnée Identify => Identification du Dépôt ListIdentifiers => Les « id » du catalogue ListMetadataFormats : => Schémas ListRecords => Liste des Records ListSets => Pour une sélection de Records

40 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr40 Moteur OAI http://oaister.worldcat.org/

41 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr41 Exemples pour tester les commandes du protocole OAI-PMH en direct… Identify –http://ktisis.cut.ac.cy/oai/request?verb=Identify MetadataFormats –http://ktisis.cut.ac.cy/oai/request?verb=ListMetadataFormats oai_dc - rdf - mets ListSets –http://ktisis.cut.ac.cy/oai/request?verb=ListSets ListIdentifiers –http://ktisis.cut.ac.cy/oai/request?verb=ListIdentifiers&metadataPrefix=oai_dc => (Exemple d’identifiant) oai:ktisis.cut.ac.cy:10488/3599 ListRecords –http://ktisis.cut.ac.cy/oai/request?verb=ListRecords&metadataPrefix=oai_dc GetRecord –http://ktisis.cut.ac.cy/oai/request?verb=GetRecord&identifier=oai:ktisis.cut.ac.cy:10488 /3599&metadataPrefix=oai_dc

42 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr42 L’objet archivé…

43 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr43 XML est eXtensible ! Un document XML peut utiliser plusieurs schémas (qui valident la structure) ! Certains éléments d’un schéma peuvent être décrits par un autre schéma Schémas Liste des records

44 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr44 Les atouts de XML Basé sur du texte uniquement (échangeable) Structuré (compréhensible) Extensible (adaptable) Validation automatique par les schémas Tout fragment est auto-documenté  Nombreux outils (Requêtes Xpath…) Font de ce langage le leader pour les métadonnées

45 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr45 Un document XML… Peut préciser dans la balise la plus englobante : le(s) schéma(s) qui valide(nt) sa structure –Attributs xmlns:truc="clef", –xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" –xsi:schemaLocation="clef http://url.schema/structure.xsd"http://url.schema/structure.xsd Élément => attributs / éléments contenu Corpus Simuligne Simuligne Corpus

46 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr46 DTD ou schéma (XSD) DTD = « Document Type Definition » Schéma XSD = « XML Schema Definition » Sont 2 syntaxes possibles pour Définir la structure de documents XML Expliciter les éléments et attributs, les types de données qu’ils peuvent contenir…

47 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr47 Exemple de XML / DTD <!DOCTYPE note SYSTEM "http://www.w3schools.com/dtd/note.dtd"> Tove Jani Reminder Don't forget me this weekend! Document XML DTD utilisée : note.dtd Source : http://www.w3schools.com/schema/schema_howto.asphttp://www.w3schools.com/schema/schema_howto.asp

48 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr48 Exemple de XML / XSD <note xmlns="http://www.w3schools.com" xmlns:xsi="http://www.w3.org/2001/XMLSche ma-instance" xsi:schemaLocation="http://www.w3schools.c om note.xsd"> Tove Jani Reminder Don't forget me this weekend! <xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema" targetNamespace="http://www.w3schools.com" xmlns="http://www.w3schools.com" elementFormDefault="qualified"> Document XMLSchéma : note.xsd Source : http://www.w3schools.com/schema/schema_howto.asphttp://www.w3schools.com/schema/schema_howto.asp

49 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr49 Syntaxe et structure vérifiables Tous les documents XML utilisent la même syntaxe pour le balisage Si le document précise la localisation du schéma => le lecteur/éditeur peut vérifier la structure du document XML // schéma  Assure une meilleure qualité d’édition  Permet des traitements systématiques

50 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr50 Moisson vs Syndication Moisson (OAI-PMH) Type: Métadonnées Acteurs: Serveurs Objets: Documents en archive Serveur consulte les catalogues OAI-PMH (à la demande) Syndication (RSS) Type: Métadonnées Act.: Serveurs/Clients Objets: Ressources web Lecteur collecte ses abonnements

51 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr51 Syndication : Principes Certains Sites (web) proposent un flux RSS en général identifiables par le logo L’utilisateur indique l’adresse du flux à son lecteur de flux RSS Chaque fois que le lecteur est ouvert, l’utilisateur peut rafraîchir les flux RSS des sites auxquels il s’est abonné. Langages (XML) : RDF  RSS / Atom

52 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr52 RDF = Resource Description Framework RDF = language de métadonnées du web RDF est un langage XML -> machines Bob Dylan USA Columbia 10.90 1985 Bonnie Tyler UK CBS Records 9.90 1988

53 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr53 Parser l’exemple précédent sur : http://www.w3.org/RDF/Validator/

54 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr54 De RDF à RSS / Atom RSS 0.90: RDF Site Summary (Mars 1999) RSS 0.91: Rich Site Summary (Juillet 1999) RSS 2.0 : Really Simple Syndication (2002) Atom : Standard RFC 4287RFC 4287 Podcast, Screencast…

55 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr55 Exemple de flux RSS: Biomax Informatics AG - News http://www.biomax.com/company/news.php Biomax provides computational solutions for better decision making and knowledge management in the life science industry. en-us … New BioRS release from Biomax Informatics AG combines database … http://www.biomax.com/company/pressrel/2007_biors_seqsear_e.pdf Biomax releases today a new module for the BioRS™ Integration and Retrieval System, an application providing simultaneous searches in... Biomax Informatics AG 2007-10-02

56 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr56 Lecteurs/Agrégateurs RSS Lecteur en local : IE, Mozilla Firefox, Outlook, Feed reader, iTunes, … Agrégateur en ligne (Personnel/Site) : netvibes, Google, Eskobo Beta, Goowy, Windows Live…, Newser, Gregarius Annuaires de fils RSS : www.newser.fr, pretty-rss.snyke.com/ www.newser.frpretty-rss.snyke.com/

57 Cachan 01/06/2011Christophe.reffay@ens-cachan.fr57 Webographie Rubrique STICEF COASPA par C. ReffayRubrique STICEF COASPA Hyper Articles en Ligne – Thèses en LigneHyper Articles en LigneThèses en Ligne Conf. archives ouvertes : Franck Laloë 2006Conf. archives ouvertes : Franck Laloë OAI : http://www.openarchives.org/pmh/http://www.openarchives.org/pmh/ Dublin Core : http://dublincore.org/http://dublincore.org/ Déclaration de Berlin 22/10/2003Déclaration de Berlin Génome BD connectéesBD connectées Linked Data par Tim Berners Lee sur TEDLinked Data par Tim Berners Lee Format RSS sur Wikipedia – RSS TutorialFormat RSS sur Wikipedia RSS Tutorial


Télécharger ppt "Unité Mixte de Recherche - Sciences Techniques Education Formation Partage de données en Recherche Christophe Reffay – UMR STEF Rechercher et publier sur."

Présentations similaires


Annonces Google