La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Common Language Resources and Technology Infrastructure (CLARIN)

Présentations similaires


Présentation au sujet: "Common Language Resources and Technology Infrastructure (CLARIN)"— Transcription de la présentation:

1 Common Language Resources and Technology Infrastructure (CLARIN)
Présentation le 5 octobre 2011 au Consortium Corpus oraux et multimodaux, TGIR CORPUS, Paris Rédaction : Bernard Bel Laboratoire Parole et langage (LPL, Speech & Language Data Repository (SLDR,

2 E-Science E-Science (ou eScience) désigne une pratique scientifique intensivement computationnelle qui s’appuie sur des environnements de réseaux largement distribués, et/ou qui utilise de très grandes quantités de données en se servant de grilles informatiques (grid computing) : un ensemble de ressources informatiques potentiellement partagées, distribuées, hétérogènes, délocalisées et autonomes. Selon J. Taylor, il s’agit à la fois de collaborer globalement dans les domaines clés de la science, et de mettre en place une nouvelle génération d’infrastructures qui rendra possible cette collaboration. Pour cela, on a besoin de plateformes pérennes d’un nouveau genre : qui permettent aux chercheurs de combiner des ressources et des outils afin de résoudre les grands défis actuels (migrations, crises des cultures et des mentalités) ; qui augmentent l’efficacité des chercheurs dans leurs multiples petits travaux : 40% du temps des « travailleurs de la connaissance » est occupé à la recherche de matériaux utiles (d’après Forrester Research). Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/2010 2

3 Les objectifs de CLARIN
Que faire ? Proposer une infrastructure de recherche distribuée de ressources et outils linguistiques intégrés et interopérables, au service des chercheurs et étudiants en sciences humaines et sociales. Comment ? En permettant la combinaison de centres de ressources numériques existants et accessibles sur internet dans une fédération partagée ; En installant des services et des outils linguistiques comme des services distribués sur une interface web commune. Utilisation typique : Un chercheur s’authentifie avec son affiliation professionnelle, puis crée une collection virtuelle de ressources issues de diverses bases de données (repositories) et effectue une série virtuelle (virtual pipeline) de traitements sur ces données. Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/2010 3

4 Implémentation de CLARIN
36 consortium partners 193 member institutions 211 members sites (working units) 33 countries Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/2010 4

5 Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/2010
5

6 6

7 7 Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/2010

8 Création de CLARIN-ERIC (1)
ERIC = European Research Infrastructure Consortium En octobre 2010, 14 pays et un organisme international ont signé le Memorandum of Understanding pour la création de CLARIN-ERIC : l’Autriche, la Croatie, la République tchèque, le Danemark, l’Union de la langue néerlandaise (Pays-Bas, Flandre belge, Suriname), l’Estonie, la Finlande, la France, l’Allemagne, la Grèce, la Lettonie, la Lituanie, les Pays-Bas, la Norvège et la Pologne. 8 Source : CLARIN Newsletter 13 (janvier-juin 2011)

9 Création de CLARIN-ERIC (2)
Le mars 2011 s’est tenue une première réunion du Comité de pilotage. S’y étaient joints le Bureau de coordination stratégique et les experts nationaux. Une deuxième réunion a eu lieu le 15 avril avec pour objectifs de déterminer les conditions de la participation financière des infrastructures de recherche, et d’arriver à un consensus sur l’accord qui sera signé par les représentants des ministres. Le 1er mai, la Commission européenne a validé le projet avec ce commentaire : « L’opinion des experts indique que CLARIN ERIC a le potentiel de promouvoir une recherche de premier plan (cutting edge) dans un domaine où les données et les travaux sont actuellement dispersés. » Le ministère des Pays-Bas a finalisé les documents et envoyé aux collègues des pays membres une demande de lettre de soutien ainsi que d’un engagement sur le projet définitif qui a été soumis à Bruxelles fin juillet 2011. 9 Sources : CLARIN Newsletter 13 (janvier-juin 2011), CLARIN Newsflash juillet 2011

10 ESFRI = European Strategy Forum on Research Infrastructures
Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/2010 10

11 Source : présentation de CLARIN par Peter Wittenburg, Athènes, 16/9/2010
11

12 Prochain événement CLARIN
SDH 2011 Supporting Digital Humanities: Answering the unaskable Conférence november 2011, Copenhagen en coopération avec DARIAH (Digital Research Infrastructure for the Arts and Humanities) Dans quelle mesure les Digital Humanities peuvent-elles nous aider, non seulement à obtenir plus vite et plus facilement des réponses à nos problématiques de recherche, mais aussi à formuler des questions que nous n'aurions jamais été capables de poser si nous n'avions pas eu accès à de grandes quantités de données numériques et à des outils sophistiqués permettant de les analyser ? 12

13 DARIAH The mission of DARIAH is to enhance and support digitally-enabled research across the humanities and arts. DARIAH aims to develop and maintain an infrastructure in support of ICT-based research practices. DARIAH is working with communities of practice to: Explore and apply ICT-based methods and tools to enable new research questions to be asked and old questions to be posed in new ways Improve research opportunities and outcomes through linking distributed digital source materials of many kinds Exchange knowledge, expertise, methodologies and practices across domains and disciplines 13

14 Annexes VLO ISOcat Projet d’Equipex ORTOLANG
Archivage pérenne, liens pérennes Gestion des droits d’accès Suivi et valorisation Métadonnées RDF En rouge, les développements du SLDR qui intéressent le plus nos collègues du réseau CLARIN 14

15 Virtual Language Observatory (VLO, http://www.clarin.eu/vlo/)
C’est un portail qui moissonne les métadonnées de diverses banques de données (repositories) dans de nombreux formats : IMDI (ISLE Meta Data Initiative) OLAC (Open Language Archives Community) ELRA (European Language Resources Association) CMDI (Component MetaData Infrastructure) Il permet de lancer des requêtes par localisation géographique (geographical browsing) via GoogleEarth, par les catalogues, ou par les facettes: sujet, genre, type de ressource etc. 15

16 VLO utilise les catégories de données standardisées par ISOcat Data Category Registry. ISO 12620 According to this model, each data category is assigned a unique administrative identifier, together with information on the status or decision-making process associated with the data category. In addition, data category specifications in the DCR contain linguistic descriptions, such as data category definitions, statements of associated value domains, and examples. Data category specifications can be associated with a variety of data element names and with language-specific versions of definitions, names, value domains and other attributes. 16

17 Projet ORTOLANG Projet EQUIPEX http://sldr.org/wiki/ORTOLANG
Soumis en septembre 2011 par ATILF, LPL, LORIA, MoDyCo, LLL et INIST. ORTOLANG (Open Resources and Tools for Language) a pour but de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés qui : permettent, au travers d’une véritable mutualisation, à la recherche sur l’analyse, la modélisation et le traitement automatique de notre langue de se hisser au meilleur niveau international ; facilitent l’usage et le transfert des ressources et outils mis en place au sein des laboratoires publics vers les partenaires industriels, en particulier vers les PME qui souvent ne peuvent pas se permettre de développer de telles ressources et outils de traitement de la langue compte tenu de leurs coûts de réalisation ; valorisent le français et les langues de France à travers un partage des connaissances sur notre langue accumulées par les laboratoires publics. A pour objectif de généraliser et d’assurer la pérennisation des efforts entrepris à travers les centres de ressources numériques sur la langue : CNRTL (Centre de Ressources Textuelles et Lexicales) et SLDR (Speech and Language Data Repository, anciennement CRDO-Aix) mis en place par le CNRS. Nœud français et support à l’engagement de la France au sein de l’infrastructure CLARIN (Common Language Resources and Technology Infrastructure). Il servira de plateforme technique sur la langue, écrite et orale, support des actions de coordination menées par le TGE ADONIS et la TGIR CORPUS. 17

18 Archiver : pourquoi et comment ?
Pourquoi archiver ? (Source : CINES) L’archivage numérique n’est pas une simple sauvegarde. Motivation première : préserver des données Motivation seconde : donner la possibilité de les localiser et de les réutiliser dans un avenir indéterminé. C’est l’objet de l’archivage pérenne (long-term preservation). L’archivage numérique pérenne n’est pas l’ultime étape du stockage des données avant l’oubli ou la perte définitive ! Trois objectifs principaux : conserver le document, le rendre accessible, en préserver l’intelligibilité => migration des fomats Comment archiver ? Ces objectifs sont inscrits sur le très long terme, c’est-à-dire plus de 30 ans. Pour ces raisons il faut confier les données à une archive institutionnelle plutôt qu’à un consortium de centres informatiques. Ceci implique des contraintes techniques et juridiques. 18

19 Solution « classique » : sauvegardes multiples
Quelques problèmes : Accès centralisé aux données : le service de diffusion est aussi le service de versement. Pas de versionnage systématique. Pérennité de 50 (?) ans garantie par le consortium de centres informatiques, mais que se passera-t-il ensuite ? La migration des formats doit être assurée par les déposants : suivi à long terme ? 19

20 Le modèle OAIS implémenté au SLDR
Producteur individuel OAIS = Open Archival Information System Dépôt Laboratoire producteur Architecture ‘multi-tier’ Dépôt Dépôt version 1 version 1 SLDR (Service versant) version 2 version 2 Dépôt Transfert Service d’archivage Service de diffusion CINES (Montpellier) Grille TGE-Adonis au CC-IN2P3 (Lyon) Source : Présentation du SLDR 20

21 Schéma du processus d’ensemble Modèle OAIS
Producteurs Paquets à verser (SIP) CRDO Organisation collecte Formats et métadonnées Création des SIP CINES Gestion des transferts/validation SIP Création AIP/archivage des AIP Transfert AIP à IN2P3 Utilisateurs scientifiques Paquets archivés (AIP) CRDO Application métier : Interface graphique Gestion des métadonnées OLAC Outils de recherche… Accusés de réception Retours sur anomalie Certificats d’archivage IN2P3 Validation des transferts Organisation des objets en vue de l’accès Récupération des métadonnées Dublin Core/organisation catalogue général Objets pour diffusion Source : Projet pilote pour la mutualisation de l’archivage pérenne des données orales (présentation à la DAF, p.13) Infrastructure générique Utilisateurs Grand public TGE ADONIS : gestion ; financement 21

22 La vie d’un objet – modèle OAIS sur SLDR/CINES/CC-IN2P3
Les objets déposés sur le SLDR sont protégés par des procédures ordinaires de sauvegarde ; ce sont des données courantes auxquelles ont accès le déposant et les personnes spécialement autorisées ; Par la suite, tout objet peut être déposé sur la plateforme de test du service d'archivage (CINES) ; Après validation du paquet à verser (SIP), le CINES transmet un paquet à diffuser (DIP) à la grille TGE-Adonis au CC-IN2P3 ; Plusieurs versions d’un objet peuvent être déposées afin de prendre en compte ses modifications pendant cette période de diffusion ; Une fois que l’objet est devenu stable, il est déposé sur la plateforme de production du service d'archivage et reçoit un identifiant permanent d'archivage (ARK, Archival Resource Key). Il est de nouveau transmis par le CINES au CC-IN2P3 pour assurer sa diffusion ; Le versionnage reste possible mais doit être motivé puisque toutes les versions sont préservées dans l’archive pérenne ; On peut toutefois modifier les métadonnées, les fichiers descriptifs et les droits d’accès sans déposer une nouvelle version. Source : Présentation du SLDR 22

23 Des URIs et URLs pérennes (SLDR)
L’URL est indépendante du service de diffusion, de la version de l’objet, et de son stockage dans une archive intermédiaire ou pérenne. Toutefois, le SLDR n’a pas l’autorité pour garantir une redirection pérenne. D’où la nécessité prochaine de recourir aux PIDs (identifiants pérennes) gérés par EPIC (European Persistent Identifier Consortium). Source : Présentation du SLDR 23

24 Gestion des droits d’accès
Speech & Language Data Repository (SLDR) Gestion des droits d’accès Les données du SLDR sont versées pour leur archivage pérenne dans une archive institutionnelle (le CINES). Les conditions d’accès doivent donc respecter les récentes dispositions (juillet 2008) du Code du patrimoine (français) pour ce qui concerne les archives publiques. Parmi les résistances des chercheurs à archiver/mutualiser leurs ressources orales/linguistiques, on rencontre presque toujours l’exigence de maîtrise des droits d’accès : d’un côté une injonction de « tout rendre public » — le Code du patrimoine décrète qu’une archive publique devrait être immédiatement accessible —, et de l’autre les questions de droit de l’image, de propriété intellectuelle, secret médical etc. Or ce n’est pas la législation qui est compliquée, mais les solutions techniques inadaptées qui imposent aux producteurs de données des simplifications incompatibles avec la réalité du terrain. Source : Présentation du SLDR 24

25 Gestion des droits d’accès au SLDR
1 2 3 4 Les objets préservés à long terme au CINES constituent une archive publique. Par défaut, une archive publique doit être immédiatement en libre accès (article L213-1). Toutefois, des dérogations à ce principe sont prévues selon l’article L213-2. Le refus d’accès (dérogation au principe de libre-communicabilité) doit être explicitement motivé (art. L213-5) (1). En cas de dérogation, les ayant-droit peuvent signer des autorisations qui rendent possible l’accès aux documents avant l’expiration de leur période stipulée par la dérogation (2). Ces autorisations peuvent être accordées pour une durée limitée (3) et/ou selon des conditions particulières (4). Les droits d’accès peuvent être réglés de manière distincte pour chaque document appartenant au même objet. Les droits d’accès peuvent être modifiés par une simple mise à jour de métadonnées (sans versionnage de l’objet). Source : Présentation du SLDR 25

26 Les conditions d’accès aux données doivent être rendues explicites dans les métadonnées d’un système interopérable. 26

27 Suivi et valorisation (SLDR)
CRDO - Comité de visite AERES 15/12/2010 Suivi et valorisation (SLDR) 1) Les utilisateurs Téléchargements d’un objet et profils des utilisateurs Cette liste n’est accessible qu’aux utilisateurs ayant eux-mêmes déposé des objets et/ou téléchargé cet objet. Source : Présentation du SLDR 27

28 Suivi et valorisation (SLDR)
2) Les publications Source : Présentation du SLDR 28

29 Suivi et valorisation (SLDR)
Les dispositifs de suivi des personnes, productions, équipes et programmes de recherche associés aux ressources orales ont pour objet de : faciliter l’agrégation de projets au delà des frontières institutionnelles (programmes internationaux etc.) souligner l’importance des données orales pour le monde de la recherche, la diversité de leurs utilisations, et par conséquent le bénéfice de la mutualisation de leur accès. Source : Présentation du SLDR 29

30 RDF - Ressource Description Framework
Sur le Web, on utilise le mécanisme des URI (Uniform Ressource Identifier) pour identifier les ressources. RDF (Ressource Description Framework) est un modèle de description des données dans lequel toute ressource est identifiée par une URI, et où l'on peut faire des assertions ou déclarations sur ces ressources sous la forme d'un triplet sujet/prédicat/objet. Dans ce triplet, le sujet et le prédicat sont toujours exprimés par des URI. L'objet peut être exprimé sous la forme d'une URI ou d'une chaîne de caractères (littéral). Un ensemble de triplets RDF qui décrivent une ressource ou un ensemble de ressources composent un graphe. Les données en RDF peuvent être sérialisées en utilisant différentes syntaxes : la syntaxe RDF/XML, qui correspond à l'expression en XML de données en RDF (cette syntaxe est la plus fréquente pour les échanges de données et les conversions) ; les syntaxes spécifiques de type N3, N-Triple et Turtle ; la syntaxe RDFa qui permet d'encapsuler des données en RDF dans une page HTML. Source : Principaux standards du Web Sémantique : les URI et RDF (BnF) 30

31 Source : http://www. slideshare
31

32 Voir aussi : http://www. bnf. fr/fr/professionnels/anx_web_s/a
32


Télécharger ppt "Common Language Resources and Technology Infrastructure (CLARIN)"

Présentations similaires


Annonces Google