La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Common Language Resources and Technology Infrastructure (CLARIN) Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,

Présentations similaires


Présentation au sujet: "Common Language Resources and Technology Infrastructure (CLARIN) Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,"— Transcription de la présentation:

1 Common Language Resources and Technology Infrastructure (CLARIN) Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux, TGIR CORPUS, Paris Rédaction : Bernard Bel Laboratoire Parole et langage (LPL, Speech & Language Data Repository (SLDR,

2 E-Science (ou eScience) désigne une pratique scientifique intensivement computationnelle qui sappuie sur des environnements de réseaux largement distribués, et/ou qui utilise de très grandes quantités de données en se servant de grilles informatiques (grid computing) : un ensemble de ressources informatiques potentiellement partagées, distribuées, hétérogènes, délocalisées et autonomes. Selon J. Taylor, il sagit à la fois de collaborer globalement dans les domaines clés de la science, et de mettre en place une nouvelle génération dinfrastructures qui rendra possible cette collaboration. Pour cela, on a besoin de plateformes pérennes dun nouveau genre : – qui permettent aux chercheurs de combiner des ressources et des outils afin de résoudre les grands défis actuels (migrations, crises des cultures et des mentalités) ; – qui augmentent lefficacité des chercheurs dans leurs multiples petits travaux : 40% du temps des « travailleurs de la connaissance » est occupé à la recherche de matériaux utiles (daprès Forrester Research). E-Science Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/

3 Les objectifs de CLARIN Que faire ? – Proposer une infrastructure de recherche distribuée de ressources et outils linguistiques intégrés et interopérables, au service des chercheurs et étudiants en sciences humaines et sociales. Comment ? – En permettant la combinaison de centres de ressources numériques existants et accessibles sur internet dans une fédération partagée ; – En installant des services et des outils linguistiques comme des services distribués sur une interface web commune. Utilisation typique : – Un chercheur sauthentifie avec son affiliation professionnelle, puis crée une collection virtuelle de ressources issues de diverses bases de données (repositories) et effectue une série virtuelle (virtual pipeline) de traitements sur ces données. Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/

4 36 consortium partners 193 member institutions 211 members sites (working units) 33 countries Implémentation de CLARIN Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/

5 Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/

6 6

7 Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/2010 7

8 Création de CLARIN-ERIC (1) ERIC = European Research Infrastructure Consortium En octobre 2010, 14 pays et un organisme international ont signé le Memorandum of Understanding pour la création de CLARIN-ERIC : lAutriche, la Croatie, la République tchèque, le Danemark, lUnion de la langue néerlandaise (Pays-Bas, Flandre belge, Suriname), lEstonie, la Finlande, la France, lAllemagne, la Grèce, la Lettonie, la Lituanie, les Pays-Bas, la Norvège et la Pologne. Source : CLARIN Newsletter 13 (janvier-juin 2011) 8

9 Création de CLARIN-ERIC (2) Le mars 2011 sest tenue une première réunion du Comité de pilotage. Sy étaient joints le Bureau de coordination stratégique et les experts nationaux. Une deuxième réunion a eu lieu le 15 avril avec pour objectifs de déterminer les conditions de la participation financière des infrastructures de recherche, et darriver à un consensus sur laccord qui sera signé par les représentants des ministres. Le 1 er mai, la Commission européenne a validé le projet avec ce commentaire : « Lopinion des experts indique que CLARIN ERIC a le potentiel de promouvoir une recherche de premier plan (cutting edge) dans un domaine où les données et les travaux sont actuellement dispersés. » Le ministère des Pays-Bas a finalisé les documents et envoyé aux collègues des pays membres une demande de lettre de soutien ainsi que dun engagement sur le projet définitif qui a été soumis à Bruxelles fin juillet Sources : CLARIN Newsletter 13 (janvier-juin 2011), CLARIN Newsflash juillet

10 ESFRI = European Strategy Forum on Research InfrastructuresEuropean Strategy Forum on Research Infrastructures Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/

11 Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/

12 Prochain événement CLARIN SDH 2011 Supporting Digital Humanities: Answering the unaskable SDH 2011 Conférence november 2011, Copenhagen en coopération avec DARIAH (Digital Research Infrastructure for the Arts and Humanities)Digital Research Infrastructure for the Arts and Humanities Dans quelle mesure les Digital Humanities peuvent-elles nous aider, non seulement à obtenir plus vite et plus facilement des réponses à nos problématiques de recherche, mais aussi à formuler des questions que nous n'aurions jamais été capables de poser si nous n'avions pas eu accès à de grandes quantités de données numériques et à des outils sophistiqués permettant de les analyser ? 12

13 DARIAH The mission of DARIAH is to enhance and support digitally-enabled research across the humanities and arts. DARIAH aims to develop and maintain an infrastructure in support of ICT-based research practices.DARIAH DARIAH is working with communities of practice to: – Explore and apply ICT-based methods and tools to enable new research questions to be asked and old questions to be posed in new ways – Improve research opportunities and outcomes through linking distributed digital source materials of many kinds – Exchange knowledge, expertise, methodologies and practices across domains and disciplines 13

14 Annexes VLO ISOcat Projet dEquipex ORTOLANGORTOLANG Archivage pérenne, liens pérennes Gestion des droits daccès Suivi et valorisation Métadonnées RDF 14 En rouge, les développements du SLDR qui intéressent le plus nos collègues du réseau CLARIN

15 Virtual Language Observatory (VLO, Cest un portail qui moissonne les métadonnées de diverses banques de données (repositories) dans de nombreux formats : – IMDI (ISLE Meta Data Initiative)ISLE Meta Data Initiative – OLAC (Open Language Archives Community)Open Language Archives Community – ELRA (European Language Resources Association)European Language Resources Association – CMDI (Component MetaData Infrastructure)Component MetaData Infrastructure Il permet de lancer des requêtes par localisation géographique (geographical browsing) via GoogleEarth, par les catalogues, ou par les facettes: sujet, genre, type de ressource etc. 15

16 VLO utilise les catégories de données standardisées par ISOcat Data Category Registry. ISO According to this model, each data category is assigned a unique administrative identifier, together with information on the status or decision-making process associated with the data category. In addition, data category specifications in the DCR contain linguistic descriptions, such as data category definitions, statements of associated value domains, and examples. Data category specifications can be associated with a variety of data element names and with language-specific versions of definitions, names, value domains and other attributes. 16

17 Projet ORTOLANG Projet EQUIPEX Soumis en septembre 2011 par ATILF, LPL, LORIA, MoDyCo, LLL et INIST. ORTOLANG (Open Resources and Tools for Language) a pour but de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et doutils sur la langue et son traitement clairement disponibles et documentés qui : – permettent, au travers dune véritable mutualisation, à la recherche sur lanalyse, la modélisation et le traitement automatique de notre langue de se hisser au meilleur niveau international ; – facilitent lusage et le transfert des ressources et outils mis en place au sein des laboratoires publics vers les partenaires industriels, en particulier vers les PME qui souvent ne peuvent pas se permettre de développer de telles ressources et outils de traitement de la langue compte tenu de leurs coûts de réalisation ; – valorisent le français et les langues de France à travers un partage des connaissances sur notre langue accumulées par les laboratoires publics. A pour objectif de généraliser et dassurer la pérennisation des efforts entrepris à travers les centres de ressources numériques sur la langue : CNRTL (Centre de Ressources Textuelles et Lexicales) et SLDR (Speech and Language Data Repository, anciennement CRDO-Aix) mis en place par le CNRS.CNRTLSLDRCNRS Nœud français et support à lengagement de la France au sein de linfrastructure CLARIN (Common Language Resources and Technology Infrastructure).CLARIN Il servira de plateforme technique sur la langue, écrite et orale, support des actions de coordination menées par le TGE ADONIS et la TGIR CORPUS.TGE ADONISTGIR CORPUS 17

18 Archiver : pourquoi et comment ? Larchivage numérique nest pas une simple sauvegarde. Motivation première : préserver des données Motivation seconde : donner la possibilité de les localiser et de les réutiliser dans un avenir indéterminé. Cest lobjet de larchivage pérenne (long-term preservation). Larchivage numérique pérenne nest pas lultime étape du stockage des données avant loubli ou la perte définitive ! Trois objectifs principaux : 1)conserver le document, 2)le rendre accessible, 3)en préserver lintelligibilité => migration des fomats Pourquoi archiver ? 18 (Source : CINES)CINES Comment archiver ? Ces objectifs sont inscrits sur le très long terme, cest-à-dire plus de 30 ans. Pour ces raisons il faut confier les données à une archive institutionnelle plutôt quà un consortium de centres informatiques. Ceci implique des contraintes techniques et juridiques.

19 19 1.Accès centralisé aux données : le service de diffusion est aussi le service de versement. 2.Pas de versionnage systématique. 3.Pérennité de 50 (?) ans garantie par le consortium de centres informatiques, mais que se passera-t-il ensuite ? 4.La migration des formats doit être assurée par les déposants : suivi à long terme ? Solution « classique » : sauvegardes multiples Quelques problèmes :

20 Le modèle OAIS implémenté au SLDRSLDR 20 SLDR (Service versant) SLDR (Service versant) Service darchivage Service de diffusion Laboratoire producteur Producteur individuel Transfert Dépôt Architecture multi-tier CINES (Montpellier) Grille TGE-Adonis au CC-IN2P3 (Lyon) Dépôt version 2 version 1 version 2 version 1 OAIS = Open Archival Information System Source : Présentation du SLDR

21 CRDO Organisation collecte Formats et métadonnées Création des SIP CINES Gestion des transferts/validation SIP Création AIP/archivage des AIP Transfert AIP à IN2P3 Paquets à verser (SIP) Accusés de réception Retours sur anomalie Certificats darchivage IN2P3 Validation des transferts Organisation des objets en vue de laccès Récupération des métadonnées Dublin Core/organisation catalogue général Producteurs Paquets archivés (AIP) CRDO Application métier : Interface graphique Gestion des métadonnées OLAC Outils de recherche… Utilisateurs scientifiques Objets pour diffusion Schéma du processus densemble Modèle OAIS Infrastructure générique Utilisateurs Grand public TGE ADONIS : gestion ; financement 21 Source : Projet pilote pour la mutualisation de larchivage pérenne des données orales (présentation à la DAF, p.13)Projet pilote pour la mutualisation de larchivage pérenne des données orales

22 La vie dun objet – modèle OAIS sur SLDR/CINES/CC-IN2P3SLDRCINESCC-IN2P3 1.Les objets déposés sur le SLDR sont protégés par des procédures ordinaires de sauvegarde ; ce sont des données courantes auxquelles ont accès le déposant et les personnes spécialement autorisées ;SLDR 2.Par la suite, tout objet peut être déposé sur la plateforme de test du service d'archivage (CINES) ;CINES 3.Après validation du paquet à verser (SIP), le CINES transmet un paquet à diffuser (DIP) à la grille TGE-Adonis au CC-IN2P3 ;CINESCC-IN2P3 4.Plusieurs versions dun objet peuvent être déposées afin de prendre en compte ses modifications pendant cette période de diffusion ; 5.Une fois que lobjet est devenu stable, il est déposé sur la plateforme de production du service d'archivage et reçoit un identifiant permanent d'archivage (ARK, Archival Resource Key). Il est de nouveau transmis par le CINES au CC-IN2P3 pour assurer sa diffusion ;ARK CINESCC-IN2P3 6.Le versionnage reste possible mais doit être motivé puisque toutes les versions sont préservées dans larchive pérenne ; 7.On peut toutefois modifier les métadonnées, les fichiers descriptifs et les droits daccès sans déposer une nouvelle version. 22 Source : Présentation du SLDR

23 Des URIs et URLs pérennes (SLDR)SLDR 23 LURL est indépendante du service de diffusion, de la version de lobjet, et de son stockage dans une archive intermédiaire ou pérenne. Toutefois, le SLDR na pas lautorité pour garantir une redirection pérenne. Doù la nécessité prochaine de recourir aux PIDs (identifiants pérennes) gérés par EPIC (European Persistent Identifier Consortium).European Persistent Identifier Consortium Source : Présentation du SLDR

24 24 Gestion des droits daccès Les données du SLDR sont versées pour leur archivage pérenne dans une archive institutionnelle (le CINES). Les conditions daccès doivent donc respecter les récentes dispositions (juillet 2008) du Code du patrimoine (français) pour ce qui concerne les archives publiques.CINESCode du patrimoine Parmi les résistances des chercheurs à archiver/mutualiser leurs ressources orales/linguistiques, on rencontre presque toujours lexigence de maîtrise des droits daccès : dun côté une injonction de « tout rendre public » le Code du patrimoine décrète quune archive publique devrait être immédiatement accessible, et de lautre les questions de droit de limage, de propriété intellectuelle, secret médical etc. Or ce nest pas la législation qui est compliquée, mais les solutions techniques inadaptées qui imposent aux producteurs de données des simplifications incompatibles avec la réalité du terrain. Speech & Language Data Repository (SLDR)SLDR Source : Présentation du SLDR

25 25 Gestion des droits daccès au SLDRSLDR Les objets préservés à long terme au CINES constituent une archive publique. Par défaut, une archive publique doit être immédiatement en libre accès (article L213-1). Toutefois, des dérogations à ce principe sont prévues selon larticle L Le refus daccès (dérogation au principe de libre-communicabilité) doit être explicitement motivé (art. L213-5) (1). En cas de dérogation, les ayant-droit peuvent signer des autorisations qui rendent possible laccès aux documents avant lexpiration de leur période stipulée par la dérogation (2). Ces autorisations peuvent être accordées pour une durée limitée (3) et/ou selon des conditions particulières (4). Les droits daccès peuvent être réglés de manière distincte pour chaque document appartenant au même objet. Les droits daccès peuvent être modifiés par une simple mise à jour de métadonnées (sans versionnage de lobjet). Source : Présentation du SLDR

26 Les conditions daccès aux données doivent être rendues explicites dans les métadonnées dun système interopérable. 26

27 Suivi et valorisation (SLDR)SLDR 27 Téléchargements dun objet et profils des utilisateurs Cette liste nest accessible quaux utilisateurs ayant eux-mêmes déposé des objets et/ou téléchargé cet objet. 1) Les utilisateurs Source : Présentation du SLDR

28 28 2) Les publications Suivi et valorisation (SLDR)SLDR Source : Présentation du SLDR

29 29 faciliter lagrégation de projets au delà des frontières institutionnelles (programmes internationaux etc.) souligner limportance des données orales pour le monde de la recherche, la diversité de leurs utilisations, et par conséquent le bénéfice de la mutualisation de leur accès. Les dispositifs de suivi des personnes, productions, équipes et programmes de recherche associés aux ressources orales ont pour objet de : Suivi et valorisation (SLDR)SLDR Source : Présentation du SLDR

30 RDF - Ressource Description Framework Sur le Web, on utilise le mécanisme des URI (Uniform Ressource Identifier) pour identifier les ressources. RDF (Ressource Description Framework) est un modèle de description des données dans lequel toute ressource est identifiée par une URI, et où l'on peut faire des assertions ou déclarations sur ces ressources sous la forme d'un triplet sujet/prédicat/objet. RDF (Ressource Description Framework) Dans ce triplet, le sujet et le prédicat sont toujours exprimés par des URI. L'objet peut être exprimé sous la forme d'une URI ou d'une chaîne de caractères (littéral). Un ensemble de triplets RDF qui décrivent une ressource ou un ensemble de ressources composent un graphe. Les données en RDF peuvent être sérialisées en utilisant différentes syntaxes : – la syntaxe RDF/XML, qui correspond à l'expression en XML de données en RDF (cette syntaxe est la plus fréquente pour les échanges de données et les conversions) ; – les syntaxes spécifiques de type N3, N-Triple et Turtle ; – la syntaxe RDFa qui permet d'encapsuler des données en RDF dans une page HTML. Source : Principaux standards du Web Sémantique : les URI et RDF (BnF)Principaux standards du Web Sémantique : les URI et RDF 30

31 Source : 31

32 Voir aussi : 32


Télécharger ppt "Common Language Resources and Technology Infrastructure (CLARIN) Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux,"

Présentations similaires


Annonces Google