La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Méta-données et ressources linguistiques

Présentations similaires


Présentation au sujet: "Méta-données et ressources linguistiques"— Transcription de la présentation:

1 Méta-données et ressources linguistiques
Laurent Romary Laboratoire Loria - CNRS

2 Contexte général Uniformisation des formats d’échanges
XML est un acquis (cadre: W3C; Intégration des données et des méta-données associées Expérience pionnière de la TEI (Text Encoding Initiative; Vision ouverte du W3C avec RDF/RDFS/OWL Évolution des pratiques documentaires E.g. littérature grise en ligne (idem thèses, publications) Normalisation des formats (TEI?) Évolution des besoins en méta-données (e.g. versions)

3 Pistes de réflexion Réfléchir à une vision large de la notion de méta-donnée Montrer les moyens (normatifs, techniques) pour donner du sens aux méta-données Approfondir l’utilisation de méta-données pour la documentation de structures de données Prendre de la distance vis-à-vis d’XML Multilinguisme et méta-données Terminologies Méta-données et ressources linguistiques Lexiques et corpus

4 Définition Méta-donnée : toute donnée décrivant une autre donnée
Identification (titre, auteur etc.) Administration (droits) Localisation (objet physique, URL) Utilisation (caractéristiques physique ; format de fichier)

5 Vision historique Les méta-données : à la base des pratiques documentaires traditionnelles Unimarc Extension de ces pratiques au web Dublin Core Mise en place de mécanismes spécifiques d’accès à ces méta-données Indexation en aveugle (moteurs de recherche) Mécanismes de moissonnage (e.g. OAI => OLAC)

6 Un jeu réduit de méta-données
Le Dublin Core (DCMS: Dublin Core Metadata Set)

7 Utilisation simplifiée: moissonnage automatique de sites
Un jeu simplifié de 15 éléments de donnée pouvant être attachés à tout document présent sur le web Usage typique: balises HTML META Exemples <META NAME = “Keywords” CONTENT = “metadata, Dublin Core, TEI”> <META NAME = “Description” CONTENT = “Discussion du concept de méta-donnée, des différents formats, et des utilisation pour les ressources linguistiques.”> Why is it so difficult to find relevant information on the Web? To understand at least part of the answer, you need to know a little about HTML META tags. A HTML META tag resides within the header and can have the attributes as shown on the screen. The META tag is intended to provide “a place to put meta-information that is not defined by the other HTML HEAD elements. This allows an author to more richly describe the document content for indexing and abstracting purposes. Although the NAME attribute can take the values of author, document type, distribution, keywords, and description among other values, most of the Internet search engines that currently support the META tag recognize only those NAME attributes defined as “Keywords” or “Description.” This situation could change and may be a way to incorporate Dublin Core elements (which I will be talking about in just a few minutes.) Search engines generally construct indexes by means of robots or spiders which “crawl” through the Web, collecting indexing information. This is less than a perfect solution as Web sites typically do not contain all the relevant information for automated indexing, and, if they do, it is unlikely to be in a form identifiable to most robots.

8 Elements du Dublin Core
Title Author Subject Description Publisher Contributor Date Type Format Identifier Source Language Relation Coverage Rights The Dublin Core metadata standard originated in an invitational workshop held in Dublin, Ohio (hence the name) in The invited group of librarians, computer scientists, archivists, and online service providers was able to come up with a set of 13 descriptive elements, a kind of lowest common denominator to be used in describing document-like objects (DOLs) on the Web. The original 13 elements were increased to 15 during the course of 4 additional workshops. 1. TITLE: The name given to the resource by the AUTHOR or PUBLISHER. 2. AUTHOR: The person(s) or organization(s) primarily responsible for creating the intellectual content of the resource. 3. SUBJECT: The topic of the resource: keywords or phrases that describe the subject or the content of the resource, including controlled vocabularies or classification schemes. 4. DESCRIPTIONS: A textual description of the content of the resource, including abstracts in the case of document-like objects or content descriptions in the case of visual resources.

9 Exemple d’utilisation
<meta NAME=“DC:identifier” CONTENT = “ NAME=“DC:author” CONTENT=“Vicki L. Gregory”> NAME=“DC:subject” CONTENT=“collection development, selection, weeding, preservation, intellectual freedom”>

10 Exemple (suite) <meta NAME=“DC:description”
CONTENT = A survey course dealing with all aspects of collection development and collection maintenance issues.”> NAME=“DC:date” Content=“January 5, 1999”> NAME=“DC:language” CONTENT=“English”> NAME=“DC.:format” CONTENT=“HTML”>

11 Une infrastructure spécifique
OLAC - Open Language Archive Community

12 Objectifs d’OLAC Contribuer aux recensements des ressources linguistiques sur le web Définition d’un jeu de méta-données adapté du Dublin Core Vocabulaires OLAC Un portail de dépôt et d’accès Un fonctionnement en réseau pour le moissonnage des méta-données

13 Un exemple d’entrée OLAC
Title: Huánuco Dictionary Creator: David Weber Date: Identifier: ftp://ftp.sil.org/pub/corpus/ Identifier.ISBN: Publisher: SIL Subject.language: x-sil-QEM Rights.openness: published Type.data: lexicon Type.data: annotated text Format.openness: open Format.markup: sil-sf Description: A bilingual Huánuco/Spanish dictionary, including example sentences and grammatical notes.

14 L’infrastructure de moissonnage

15 Les vocabulaires OLAC Types de discours: Langues: Champs linguistiques
drama, formulaic_discourse, interactive_discourse, … report, singing, unintelligible_speech Langues: ISO-639, SIL-Ethnologue, Linguist List Champs linguistiques anthropological_linguistics, applied_linguistics, cognitive_science, … Types de données Lexicon, primary_text, language_description Rôle des participants Cf. FreeBank…

16 Exemple d’entrée OLAC-XML
<olac:olac xmlns:olac=" xmlns=" <creator>Bloomfield, Leonard</creator> <date>1933</date> <title>Language</title> <publisher>New York: Holt</publisher> </olac:olac>

17 Mise en œuvre d’un serveur OLAC
Fournisseur Site web LINGUIST HTTP: getRecord Cumul des méta-données SQL Fournisseur de données OLAC MoissonneurOLAC Base de données existante SQL XML document

18 Références Portail (LINGUIST List) Site OLAC (documentations)
Site OLAC (documentations)

19 Intégration méta-données + texte
La Text Encoding Initiative (TEI)

20 TEI - Structure générale
Vision historique: Recommandations norme SGML (Standard Generalized Markup Language) modularité de la DTD TEI un jeu de balises "noyau" (core tag set) : en-tête, divisions, paragraphes etc. des ensembles de balises de base (base tag sets) : prose, poésie en vers, dictionnaires, etc. des jeux de balises additionnelles (additional tag sets) : liens hypertextuels etc. Conséquence : une famille de DTD TEI

21 La TEI en 2005 Un consortium gérant les évolutions des directives
Un passage à XML réussi TEI P4 Pizza Chef Une refonte en profondeur pour plus de modularité Préparation de la TEI P5 Roma

22 Structure d’un document TEI
<teiHeader> <! > </teiHeader> <text> <front> <!-- front matter of copy text goes here. --> </front> <body> <!-- body of text goes here. --> </body> <back> <!-- back matter of text, if any, here. --> </back> </text> </TEI.2>

23 Structure d’un document TEI

24 TEI - Documentation des textes
Fondamental : documenter les textes électroniques identification et suivi cf. catalogage des documents électroniques (ex. Silfide) cf. échange des documents électroniques Comment : entête TEI (TeiHeader) aspects bibliographiques du document source (auteur, éditeur, édition, etc.) aspects propres au document électronique (aspects bibliographiques, codage, historique des révisions etc.)

25 L’en-tête TEI description bibliographique normalisée
du document electronique (titre, responsables, maison d’édition, source....) de son encodage (éléments presents, codes internes...) de sa classification (sujets, genres...) de son état de revision facilite la découverte des ressources sur réseau et dans les bases de données

26 En-tête TEI: structure générale
<teiHeader> <fileDesc> <titleStmt> <title>…</title> </titleStmt> <sourceDesc> </sourceDesc> </fileDesc> <encodingDesc> </encodingDesc> <profileDesc> </profileDesc> <revisionDesc> </revisionDesc> </teiHeader>

27 Exemple d'un entete TEI <teiHeader> <fileDesc>
<titleStmt> <title>Thomas Paine: Common sense, a machine-readable transcript</title> <respStmt> <resp>compiled by</resp> <name>Jon K Adams</name> </respStmt> </titleStmt> <publicationStmt> <distributor>Oxford Text Archive</distributor> </publicationStmt> <sourceDesc> <bibl>The complete writings of Thomas Paine,collected and edited by Phillip S. Foner (New York, Citadel Press, 1945) </bibl> </sourceDesc> </fileDesc>

28 D’une initiative à l’autre…
<title type=“main”> DC.title.main <author> DC.creator.name <publicationStmt> DC.publisher.name <sourceDesc> DC.source <classDecl> DC.subject.schema …en attendant les répertoires de méta-données.

29 En-tête TEI: structure générale
<teiHeader> <fileDesc> <titleStmt> <title>…</title> </titleStmt> <sourceDesc> </sourceDesc> </fileDesc> <encodingDesc> </encodingDesc> <profileDesc> </profileDesc> <revisionDesc> </revisionDesc> </teiHeader>

30 En-tête TEI : description des contenus
Déclaration de balisage dans <encodingDesc> <tagsDecl> <tagUsage gi=“div” occurs=“26”> Utilisé pour marquer les séparations alphabétiques du dictionnaire. </tagUsage> <tagUsage gi=“entry” occurs=“14526”/> <tagUsage gi=“orth” occurs=“22638”/> <tagUsage gi=“sense” occurs=“8304”/> </tagsDecl>

31 En-tête TEI : description des contenus (suite)
Bilan Positif Vision pionnière : permet de connaître la précision du codage d’un document Négatif Pas de vrai typage des données : la description est déconnectée de la spécification de la DTD Mon document est-il un « dictionnaire »? A l’inverse : description trop liée au format XML Pas de mécanisme d’accès à des bases de textes par le biais des entêtes (cf. mise en œuvre d’outils spécialisés)

32 Élargir la perspective
Des méta-données pour les structures

33 Des méta-données pour se comprendre - 1
Author=/auteur/ Author: ‘Salinas’ "¿Tú sabes lo que eres de mí? ¿Sabes tú el nombre? No es el que todos te llaman, esa palabra usada que se dicen las gentes, Auteur: ‘Salinas’ "¿Tú sabes lo que eres de mí? ¿Sabes tú el nombre? No es el que todos te llaman, esa palabra usada que se dicen las gentes, /auteur/ Metadata registry/répertoire de méta-données

34 Des méta-données pour se comprendre - 2
<p>=/paragraphe/ Author: ‘Salinas’ <p> "¿Tú sabes lo que eres de mí? ¿Sabes tú el nombre? No es el que todos te llaman, esa palabra usada que se dicen las gentes, </p> Auteur: ‘Salinas’ <para> "¿Tú sabes lo que eres de mí? ¿Sabes tú el nombre? No es el que todos te llaman, esa palabra usada que se dicen las gentes, </para> /paragraphe/ Metadata registry/répertoire de méta-données

35 Rôle des méta-données Un langage commun Deux niveaux complémentaires
Pour décrire des contenus E.g. Dublin Core Pour décrire des structures (et donc des contenus…) E.g. TMF (Terminological Markup Framework) Deux niveaux complémentaires Répertoire de référence des unités descriptives (catégories de données, vocabulaire) Réalisation de ces unités descriptives (e.g. en XML)

36 Description des méta-données
Vues comme des « unités techniques » de gestion de l’information Cf. meta-data registries (ISO 11179) Application: ISO — TMF Vues comme des ontologies Topic maps, OIL-DAML (=> OWL), etc. Accent mis sur les connaissances associées Vers une convergence de ces deux vues Et couplage avec des terminologies multilingues

37 Spécification et Normalisation des éléments de donnée
ISO/IEC 11179 Spécification et Normalisation des éléments de donnée

38 Rapide parcours Objectifs de l’ISO/IEC 11179 Concepts fondamentaux
ISO/IEC les 6 parties Exemples de répertoire ISO - International Organisation for Standardisation IEC - International Electrotechnical Commission

39 Objectifs de l’ISO/IEC 11179
Présentation : Une famille de normes relatives à la structure informationnelle et organisationnelle des répertoires de catégories de données Objectif : exprimer la sémantique des éléments de données d’une façon consistante Améliorer l’interopérabilité entre systèmes

40 Survol de l’ISO/IEC 11179 L’ISO/IEC 11179 est composée de 6 parties:
Part 1 -Framework Part 2 -Classification for Data Elements Part 3 -Basic Attributes of Data Elements Part 4 -Rules and Guidelines for the formulation of Data Definitions Part 5 -Naming and Identification principles for Data Elements Part 6 -Registration of Data Elements Les parties 4 à 6 sont déjà publiés comme normes internationales La partie 3 est en cours de révision Les parties 1 et 2 sont au stade FDIS (Final Draft of International Standard)

41 ISO/IEC 11179-3 Attributs de base associés aux éléments de données
Name - Label assigned to the DE Identifier - Unique id assigned to the DE Version - Version of the DE Registration Authority - An organization authorized to register the DE Language - Language in which the DE is specified Definition - A statement that clearly represents the concept and essential nature of the DE Obligation - Indicates whether the DE is required to always or sometimes be present (mandatory, conditional, optional) Datatype - Indicates the type of data that can be represented in the value of the DE Maximum Occurrence - Indicates any limit to repeatability of the DE Comment - A remark concerning the application of the DE

42 Exemples Répertoires conformes à l’ISO/IEC 11179
Environmental Data Registry: Australian National Health Information Knowledge base:

43 L’ISO/IEC 11179 et le Dublin Core
Application L’ISO/IEC et le Dublin Core

44 Descripteurs du Dublin Core
Chaque champ du Dublin Core est décrit comme un élément de donnée Certains attributs sont partagés par tous les champs (caractéristiques du DC) D’autres permettent de spécifier précisément chaque champ

45 Attributs commun à tous les champs
Version: 1.1 Registration Authority: Dublin Core Metadata Initiative Language: en Obligation: Optional Datatype: Character String Maximum Occurrence: Unlimited

46 Elément: Title Name: Identifier: Definition: Comment: Title
A name given to the resource. Comment: Typically, a Title will be a name by which the resource is formally known.


Télécharger ppt "Méta-données et ressources linguistiques"

Présentations similaires


Annonces Google