Introduction générale Métadonnées Soufiane ROUISSI srouissi@u-bordeaux3.fr Introduction générale
Indexation et recherche sur le Web En guise de préambule... Indexation et recherche sur le Web
Composants d’un moteur de recherche Robot d’indexation Index Interface d’interrogation Index
Le « logiciel » de recherche Interface d’interrogation Simple, mode avancé (expert) ou en mode spécialisé (types de fichiers) Visualisation des résultats Classement et affichage des résultats Préparation de la requête Interrogation de la base Affichage des réponses Géographie (mondial, francophone) Langue (français, anglais, espagnol…) Type (texte, images, son, vidéo) Format (HTML, DOC, DOC, PPT, RTF…) ... Recherche « filtrée »
Métadescription de documents Les techniques de base 2 modes d’indexation de documents Métadescription de documents Balises META pour un document HTML description, keywords, author … Indexation en mode plein texte Le contenu de la page est indexé intégralement Images ? Sons ? Vidéos ? … Mise à jour de l’index automatisée (robot logiciel : spider ou crawler) par repérage et visite manuelle (par l’auteur du site ou la personne chargée du référencement) par des professionnels (bases de données professionnelles)
Introduction aux métadonnées Présentation générale de la notion de métadonnées, leur intérêt, les domaines d’application ...
Un problème ancien Un ouvrage mal catalogué dans une bibliothèque est un ouvrage perdu ... Le passage au numérique a fait (ré)apparaître le problème d’identification, de localisation des ressources documentaires (entre autres) en 1993 à peine une centaine de sites web Sept 2005 - Google annonce 8 168 684 336 pages
Explosion documentaire Constat de départ Prolifération de documents numériques (types, formats, tailles...) publiés sur le Web il devient difficile de trouver des documents au milieu des autres ... nécessité d’améliorer les procédés de localisation / d’identification
métadonnées metadata Définition Des données sur des données (data about data) Titre : …. Auteur : … Format … ensemble structuré d’informations (propriétés, caractéristiques) permettant de décrire un objet (une ressource) pas obligatoirement numérique
Les fiches cartonnées des bibliothèques GOV Contribution xxx xxx xxx DOC EC52 Titre de l’ouvrage ... -- Ville : yyyyy, 9999. 999 p. (XXXXXX) (Séries emplois ; no. 9) 73A36 RESERVE Contenu Droits Localisation MICROFICHE 39732662 15.12.84 zf Relation Type Identifiant
Les métadonnées (format papier) Les étiquettes sur les bouteilles des médicaments, Les données des correspondances, Les éléments d’identification d’une facture … Des éléments qui renseignent sur le contenu d’un objet
Les métadonnées (format électronique) les applications bureautiques comportent des métadonnées pouvant être gérées par l’auteur du document
Intérêt des métadonnées Faciliter la recherche d'information (décrire de manière fine le contenu) Faciliter l'interopérabilité (partage, échange) Faciliter la gestion et l'archivage (gestion des collections, des archives électroniques) Gérer et protéger les droits (propriété intellectuelle, gestion des accès)
Les différents types de métadonnées Comment classer les métadonnées ?
en fonction de leur localisation Métadonnées internes dans le cas numérique les métadonnées font partie intégrante de la ressource : page web, image, document texte ... exemple : les balises meta Métadonnées externes sur une notice, une étiquette attachée mais aussi dans une base de données par exemple (utilisation pour la recherche)
anglais : meta tag // français : balise meta Les balises META anglais : meta tag // français : balise meta "Balise HTML insérée dans l'en-tête d'une page Web, après le titre, qui permet de décrire le contenu de la page afin de la référencer correctement et plus facilement dans les moteurs de recherche." (Office québécois de la langue française) http://www.granddictionnaire.com/ description, keywords ... Utilisées par les moteurs de recherche
en fonction de leur utilisation Métadonnées « métiers » tout peut être décrit mais le contexte d’échange et de partage nécessite le recours à des standards ... Métadonnées « techniques / informatiques » propriétés des fichiers informatiques (auteur, titre, dates de création, de modification) ...
Les métadonnées métiers Dans le contexte « traditionnel » documentaire MARC (Machine-readable cataloging), ouvrages http://www.loc.gov/marc/ ISBD(S) (International Standard Bibliographic Description for Serials), publications en série http://www.ifla.org/VI/3/nd1/isbdlist.htm Dewey Decimal Classification system, classification décimale des ouvrages http://www.oclc.org/dewey/ Dans le contexte numérique DCMI (Dublin Core Metadata Initiative) description des documents numériques http://dublincore.org/ ...
Les métadonnées métiers Des métadonnées pour décrire d’autres types d’objets ... EAD (Encoded Archival Description), archives http://www.loc.gov/ead/ CIMI consortium (Computer Interchange of Museum Information), ressources muséographiques http://www.cimi.org/ RKMS (Recordkeeping Metadata Schema), ressources audio http://www.naa.gov.au/recordkeeping/control/rkms/features.html MPEG-7 (Multimedia Content Description Interface), objets multimédia http://www.mpeg-industry.com/ LOM (IEEE - Learning Object Metadata), ressources liées à l'éducation http://ltsc.ieee.org/wg12/ ...
Les métadonnées « informatiques » Des métadonnées destinées à être utilisées par des outils logiciels... Propriétés des documents MS Office (Word, Excel, PowerPoint, etc.) IPTC/IIM - Information Interchange Model (images JPEG/TIFF) date de création, auteur, description, copyright ... http://www.iptc.org/IIM/ EXIF EXchangeable Image File (images JPEG) fournies automatiquement par l’appareil photo numérique http://www.exif.org/ ID3 pour les fichiers MP3 Titre, Compositeur, Durée, Copyright ... http://www.id3.org/ ...