Les Métadonnées S. Garlatti
PLAN Introduction Méta-data before SW Examples of Metadata Schema Purpose of Metadata? Why is metadata important? Metadata Categories Metadata Features Examples of Metadata Schema Enhancement of Metadata Approach L’ordre de la partie semantique est a preciser apres lecture et a modifier sans doute.
Problématique Recherche d’information sur Internet Internet est une immense source d’information en constante évolution. Il est très difficile, voire même impossible de trouver l’information pertinente, à l’aide des moteurs de recherche classique – type Google. Contexte: recherche d’information par des utilisateurs, non par des machines C’est l’utilisateur qui interprète les résultas et reconnaît les documents pertinents. C’est lui qui leur associe un SENS !
Problématique Mesures en recherche d’information Précision = |R P| |R| Rappel = |R P| |P| Documents retrouvés notés R Documents pertinents notés P
Problématique Si l’on manque de nombreuses informations pertinentes, on obtient un rappel faible. Rappel = |R P| |P| Si l’on est submergé par de très nombreuses information, on obtient une faible précision. Précision = |R P| |R| R P R P
Problématique Dans certains cas, il est nécessaire d’avoir un très bon critère de rappel : recherche de brevets par exemple. Dans d’autres cas, l’utilisateur désire obtenir un faible nombre de documents pertinents. Il est prêt à parcourir une douzaine de résultats pour les identifier. Des facteurs de 10-20% pour le rappel et la précision sont acceptables dans de nombreux cas
Problématique Moteur de recherche sur Internet Le facteur précision est bien souvent inférieur à 1% Moteur de recherche ANZWERS sur l’acronyme "IETF" (Internet Engineering Task Force) retrouvait 896,354 résultats au début Août 1997. Toutes les pages qui contenaient « IETF » de manière accidentelle étaient inclues dans les résultats. Moteur Google : « Course » & « metadata » produits toutes les pages qui contiennent « of course » avec ou sans « metadata » Aucun moyen de faire la différence entre les mots importants et les autres qui ne sont pas représentatif de la ressource pour l’objectif courant de l’utilisateur.
Rôles des métadonnées Recherche d’information Dans un contexte traditionnel ou sur Internet, un point clé des métadonnées est de faciliter et d’améliorer la recherche d’information. Les métadonnées sont un moyen pour rendre la recherche d’information plus efficace et plus ciblée. Elles permettent un contrôle plus précis des outils de recherche d‘information. Les métadonnées fournissent aux moteurs de recherche des informations spécialisées et structurées sur les sites.
Rôles des métadonnées Réutilisation, partage et échange Les métadonnées doivent fournir les informations nécessaires à la réutilisation des informations Elles déterminent les conditions et les contextes pour cette réutilisation Par des utilisateurs, c’est eux qui assurent l’interprétation de ces données Par des machines, c’est elles qui assurent l’interprétation et qui automatisent partiellement ou totalement cette réutilisation Par les deux, certains champs de méta données seront dédiés à l’utilisateur ou à la machine.
Rôles des métadonnées Faciliter la gestion et l’archivage Informer sur le cycle de vie des documents Gérer des collections de ressources Gérer des archivages électroniques Gérer et protéger les droits Les droits de propriété intellectuelle Les droits d’accès à des pages web (restriction de consultation) Authentifier un document : signature électronique
Rôles des métadonnées En effet, c'est en 1841 que Sir Anthony Panizzi (Antonio pour ses intimes) publia ses fameuses 91 règles pour les besoins du catalogue du British Museum. Cette publication marque l'acte de naissance du catalogage moderne.
Définition Définition « Données sur des Données » Ambiguë: compris de manière différente par différentes communautés qui conçoivent, créent, décrivent, préservent et utilisent des systèmes d’information et des ressources Jusqu’en 1995, métadonnées était un terme surtout utilisé par des communautés impliquées dans la gestion et l’interopérabilité de données géo spatiales et dans la gestion de données et la conception et la maintenance de systèmes
Définition « Tout ce qui peut être dit sur un objet d’information quelque soit le niveau d’agrégation. » Un objet d’information est toute entité qui peut être adressée et manipulée par un système ou une personne comme un objet discret. Objet simple ou atomique ou un agrégat d’entités « Métadonnées » peut aussi être compris comme une extension des pratiques de catalogage bibliographique traditionnel.
Définition Projet britannique DESIRE, « Ce sont des données associées à des objets qui libèrent les usagers potentiels de la nécessité de connaître à l'avance leur existence et leurs caractéristiques » En bref, les métadonnées sont des informations bibliographiques, des résumés, des termes d'indexation, des abstracts, des propriétés spécifiques, tout ce qui peut être un substitut au document original
Définition Associer une information exploitable à une ressource signifie deux choses essentielles. Information structurée – utilisable – et descriptive – de la ressource, de son utilisation – afin de faciliter et d’en améliorer l’accès La ressource existe et peut être exploitée sur le Web indépendamment des informations qui lui sont associées dans le cadre du Web sémantique : celles-ci sont utiles, mais non nécessaires pour accéder et utiliser la ressource, la page Web ou le service
Définition Indexation : métadonnées et annotations. Une métadonnée est « une donnée sur une donnée ». Cette définition est un peu vague voire même ambiguë, et elle est comprise de manière différente par différentes communautés qui conçoivent, créent, décrivent, préservent et utilisent des systèmes d’information et des ressources. Une annotation est à la base une note critique ou explicative accompagnant un texte, et par extension, une quelconque marque de lecture portée sur un document, que celui-ci soit textuel ou image.
Définition Nous proposons ce distinguo : Une métadonnée sera plutôt attachée à une ressource identifiée en tant que telle sur le web – aura plutôt une pertinence a priori et sera plutôt saisie suivant un schéma. Par exemple, la description normalisée d’un service web, l’auteur d’un document, qui permettront de mettre en place des inférences. Une annotation sera plus située au sein de cette ressource et écrite au cours d’un processus d’annotation/lecture. Par exemple, un commentaire libre associé à un fragment d’une page web – quelques mots, un paragraphe – déterminé au besoin.
Définition Considérer les différents types de métadonnées (annotations) en fonction : Des types de ressources qu’elles concernent, plus ou moins fragmentées, De la structuration plus ou moins forte de leur « schéma », Des tâches qu’elles soutiennent (ou sous-tendent), De l’automatisation plus ou moins marquée de leur mise en place, De l’utilisation qui en est faite par les agents logiciels, plus ou moins « intelligente » ou par des utilisateurs.
Définition Ressources Tâches utilisateurs Métadonnées
Définition Composition de résumés vidéo à la demande Résumé vidéo de . . . Résumé vidéo de 20 mn Composition Films originaux
Définition Principes fondamentaux Contraintes utilisateur : durée du résumé Moteur de composition Espace d’information : un seul évènement, plusieurs , Segmentation des films : choix, taille, etc. Indexation des fragments : choix et rôle des indexes Principes de sélection des fragments, Principes d’organisation des fragments Principes d’assemblage des fragments Comment maintenir la cohérence de l’ensemble produit ? Il faudrait arriver ici à exprimer les principes fondamentaux sur lesquels est fondé le moteur de composition et leurs conséquences: 1) L’espace d’information sa caractérisation et ses propriétés Espace d’information: un concert, un film, un spectacle, un match de foot, de criquet, ou tous les reportages sur Kennedy, ou sur l’Irak, 2) Segmentation des informations, leurs propriétés : taille unique ou variable, sens de cette taille, contenu, niveau de granularité, fragments atomiques et/ou complexes 3) Indexation des fragments : choix des indexes, rôles de ceux-ci 4) Règles de sélection, principes, critères pertinents, résultats de petite taille ou de grande taille, cohérences des résultats 5) Règles d’organisation des résultats : chronologique si un seul évènements ou plusieurs ordonnés totalement, si plusieurs non ordonnés totalement dans le temps critères qualitatifs, 6) Règle d’assemblage des fragments
Définition Principes fondamentaux Espace d’information : un spectacle, fragments de taille fixes : 2 mn. Sélection : les fragments les plus importants, critère qualitatif, un index « importance » muni de trois valeurs (faible, moyenne, forte) Filtrage : utilisation d’un autre critère pour éliminer certains fragments afin de respecter la contrainte de temps Organisation: ordre chronologique des fragments Règle d’assemblage pour obtenir une vidéo fluide de tous les fragments Si la taille des fragments est variable, peut-on réutiliser ? Donc changer les index et donc la composition et ces principes Si les fragments proviennent d’évènements différents ? Si l’on désire un ordre différent ? Que doit-on faire ? Introduire ici l’idée du savoir-faire des experts, spécialiste du domaine, journalistes, monteurs, etc.
Définition Choix des métadonnées ou annotations : Fonctionnalités et Objectifs utilisateur Type des ressources Remarquons que pour le Web sémantique, on parlera le plus souvent de Métadonnées ou annotations sémantiques. Deux possibilités d’interprétation sont ici disponibles : « sémantique » au sens de « sémantique formelle », et puis au sens plus vague de « faisant sens dans le cadre d’une tâche pour un utilisateur ».
Métadonnées et recherche d’information Amélioration de la qualité de la recherche Une métadonnée contient un ensemble d’indexes structurés Un rôle et une fonction sont associés à chaque index Elle ne permet donc que l’accès aux critères importants pour la ou les tâches de l’utilisateur (recherche, réutilisation, protection, etc.) Auteur = Jules Ferry, date = 02/08/1880, format = pdf, taille = 1M0, sujet = république, laïque,
Métadonnées et recherche d’information Amélioration de la qualité de la recherche Les ressources hétérogènes peuvent être recherchées et traitées Les ressources complexes peuvent aussi être recherchées et traitées, dès qu’on leur associe des métadonnées Les ressources non « visibles » peuvent être accessibles dès que leurs métadonnées sont accessibles Protégées par des mots de passe, contenu dans des ressources complexes, etc.
Quelques catégories de métadonnées Donner des exemples LOM ICCARS
Quelques catégories de métadonnées Trois vues principales pour tout objet (A.J. Gilliland) Contenu : lié à ce que l’objet contient, intrinsèque à l’objet Contexte : indique qui, quoi, pourquoi, où, comment; aspects liés à la création de l’objet, extrinsèque à un objet Structure : liées aux associations à l’intérieur où parmi les objets individuels, peut être intrinsèque ou extrinsèque à l’objet Musés, librairie, etc. ont utilisés intensivement des métadonnées pour améliorer l’accès aux informations Musés: beaucoup travaillés sur le contexte
Quelques catégories de métadonnées Trois catégories fonctionnelles (Wendler 99) Descriptive: facilitant la découverte de ressources et l’identification Administrative: supportant la gestion de ressources dans une collection Structurelle: liant ensemble des composants complexes d’objets d’information D’autres catégorisations existent ou peuvent exister Dublin Core Metadata : descriptive
Quelques catégories de métadonnées Administrative : utilisées pour la gestion et l’administration des ressources Acquisition de l’information Droits et reproduction Documentation des conditions d’accès légaux Localisation de l’information Etc.
Quelques catégories de métadonnées Descriptive : utilisée pour décrire ou identifier les ressources d’information Enregistrement des entrées de « catalogage » Aides à la recherche Indexes spécialisés Hyperliens et relations entre les ressources Annotations (commentaires) par les utilisateurs Etc.
Quelques catégories de métadonnées Technique : description du comportement du système et/ou des métadonnées Documentation sur le matériel et le logiciel Information de numérisation : formats, taux de compression, etc. Suivi des temps de réponse du système Données d’authentification et de sécurité : clés de cryptage, mots de passe.
Quelques propriétés des métadonnées Les métadonnées peuvent être aussi des ressources d’information. Une métadonnées peut être à la fois une description et une donnée : dépend de l’usage qui en est fait Une critique de film: à un niveau, c’est une métadonnée sur le film, elle se substitue à celui-ci ; à une autre niveau, c’est une travail de littérature avec son auteur et ses propriétés intellectuelle. Une métadonnée n’est pas nécessairement numérique.
Quelques propriétés des métadonnées Niveau de granularité Métadonnée pour un objet atomique Une image, un texte, une vidéo Métadonnée pour un objet complexe Un site web, un livre électronique Métadonnée pour une partie d’une ressource Un hyperlien, un paragraphe, une expression, une partie d’image, etc.
Quelques propriétés des métadonnées Structure Standardisée MARC TEI et EAD LOOM, ARIADNE, Dublin Core, Local database formats Non standardisée Champs de textes libres
Quelques propriétés des métadonnées Création Un humain (a créateur, professionnel de l’information, un utilisateur, etc.), en général l’auteur de la ressource Un expert d’un domaine ou un spécialiste de l’information, généralement pas le créateur de la ressource L’ordinateur, peut remplir automatiquement certaines métadonnées Mots clés, version, date, droits, etc. Ou les trois, ou encore deux d’entre eux
Quelques propriétés des métadonnées Cycle de vie des métadonnées Elles continues à s’accumuler tout au long de la vie d’une ressource ou d’un système. Elles peuvent être crées, modifiées et même détruites pendant le vie d’une ressource. Certaines ne changent jamais pendant toute la vie de la ressource Titre, provenance, date de création, Métadonnées dynamiques qui changent avec l’usage ou la manipulation de la ressource Log de transaction des utilisateurs; résolution des images
Quelques propriétés des métadonnées Cycle de vie des métadonnées Métadonnées à long terme, nécessaires assurer et guarantir l’accès à la ressource Format technique et de traitement des informations, Droites d’accès Métadonnées à cours termes, principalement de nature transactionnelle
Quelques propriétés des métadonnées Sémantique Métadonnées conformes à un vocabulaire standardisé ou une autorité de contrôle AAT; ULAN; AACR2 Classifications Ontologies Métadonnées libres Notes de texte libre Balise « méta » d’HTML
Quelques propriétés des métadonnées Stockage L’association entre des métadonnées et la ressource qu’elles décrivent est inhérent au concept de métadonnées. Dans la ressource A l’extérieur de la ressource Les deux
Quelques propriétés des métadonnées Les Normes Définition officielle ISO : "Document établi par un consensus et approuvé par un organisme reconnu, qui fournit, pour des usages communs et repérés, des règles, des lignes directrices ou des caractéristiques, pour des activités ou leurs résultats, garantissant un niveau d'ordre optimal dans un contexte donné." Les Standards Ensemble de recommandations développées et préconisées par un groupe représentatif d’utilisateurs.
Quelques propriétés des métadonnées Les normes et standards : enjeux Accessibilité : permettre la recherche, l'identification, l'accès et la livraison de ressources (contenus et composantes) en ligne de façon distribuée. Interopérabilité : permettre l'utilisation de contenus et composantes développés par une organisation sur une plate-forme donnée par d'autres organisations sur d'autres plateformes. Réutilisabilité : permettre aux contenus et composantes à différentes fins, dans différents produits, dans différents contextes et par différents modes d'accès.
Quelques propriétés des métadonnées Les normes et standards : enjeux Durabilité : permettre aux contenus et composantes d'affronter les changements technologiques sans la nécessité d'une réingénierie ou d'un redéveloppement. Adaptabilité : permettre la modulation sur mesure des contenus et des composantes.
Quelques propriétés des métadonnées La qualité des métadonnées Définition officielle : "L'ensemble des caractéristiques d'une entité qui lui confèrent l'aptitude à satisfaire des besoins explicites et implicites" Nécessite de mettre en place des procédures de validation des métadonnées saisies Nécessite de mettre en place des procédures de validation des modifications des schéma de métadonnées, donc de l’évolution des métadonnées Dossier métadonnées, normes et standards http://www.educnet.education.fr/dossier/metadata/default.htm
Les métadonnées http://www.w3.org/Metadata/ http://metadata.net/ http://www.ifla.org/II/metadata.htm http://www.ukoln.ac.uk/metadata/ http://www.rcip.gc.ca/Francais/Normes/metadonnees_multimedia.html http://www.xmlnews.org/
Exemples de métadonnées Dublin Core : http://dublincore.org/index.shtml LOM in Education IMS Project http://www.imsglobal.org/ Version 1.2.1 final specification IMS Learning resource Meta-data XML Binding IMS Learning resource Meta-data Information Model IMS Learning resource Meta-data Best practice and Implementation guide Etc.
Learning Object Model, IMS Project Elements <general> <lifecycle> <metametadata> <technical> <educational> <rights> <relation> <annotation> <classification>
Problèmes non traités Il n’y a bien souvent pas de sémantique formelle associée aux métadonnées, donc pas d’interprétation possible par les machines Aller plus loin : Le « Semantic Web » Ontologies + mécanismes d’inférence XML + RDF + RDFS Etc.