La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

© M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

Présentations similaires


Présentation au sujet: "© M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe."— Transcription de la présentation:

1 © M. Hudon De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe Université de Montréal

2 © M. Hudon Présenter divers modes dorganisation documentaire qui permettent et même facilitent le repérage dinformation pertinente Objectif …

3 © M. Hudon Mots-clés Utilisateur / Demandeur Information Document Organisation Contrôle Recherche et repérage Système de transfert dinformation

4 © M. Hudon À distinguer Information « récréative » Information « requise » Information factuelle Information discursive / textuelle

5 © M. Hudon À distinguer aussi … Lutilisateur qui connaît déjà la source qui lui procurera linformation requise Lutilisateur qui sait ce quil cherche mais ne connaît pas la ou les sources qui lui procureront linformation requise Lutilisateur qui ne sait pas ce dont il a besoin

6 © M. Hudon Description des documents Contenant Titre Créateur de la ressource Date de publication / mise à jour Nombre de pages / de méga-octets Contenu Sujet(s)

7 © M. Hudon Accès sujet Permet le repérage de sources dinformation pertinentes dont on ne connaît pas encore lexistence par la voie de leur contenu plutôt que par lutilisation déléments descriptifs externes caractérisant lobjet document

8 © M. Hudon Description du contenu Titres, Sous-titres, Titres alternatifs, etc. Classement dans une catégorie particulière Mots-clés Résumé Texte dans son entier

9 © M. Hudon Contexte quand on cherche de linformation sur un sujet, on ne peut examiner tout ce qui se trouve dans une collection un document est souvent trop volumineux pour être utilisé dans son entier, na pas besoin dêtre utilisé dans son entier le créateur et lutilisateur dun document nemploient pas forcément le même vocabulaire pour représenter les mêmes concepts la coïncidence entre la formulation des questions et la représentation du contenu est indispensable pour quun système de transfert dinformation fonctionne correctement

10 © M. Hudon Multiplicité des langues naturelles Variations nationales et régionales Niveaux de langue Code / Signe Problèmes liés à lutilisation de la langue naturelle

11 © M. Hudon Plus précisément Synonymie : SILENCE – Mots de même sens ou de sens assez voisins pour être interchangeables (Ex. société multinationale, société transnationale, entreprise internationale, multinationale) Polysémie :BRUIT – Un mot, plusieurs sens (Ex. Architecture, Kiwi)

12 © M. Hudon Une solution possible : normaliser purifier contrôler « artificialiser » la langue naturelle

13 © M. Hudon Le langage documentaire Tout système de signes qui permet de représenter le contenu de documents dans le but den faciliter le repérage. Le langage documentaire se compose au minimum – d'un lexique : ensemble des mots et des expressions utilisables pour la représentation et pour la recherche dinformation – d'une syntaxe : règles d'utilisation et de combinaison de ces mots et expressions.

14 © M. Hudon Contrôle lexical contrôle morphologique et flexionnel : nature et forme du terme contrôle syntaxique : ordre des mots qui composent un terme

15 © M. Hudon Contrôle sémantique contrôle sémantique : signification du terme – un terme ne doit représenter qu'un seul concept et donc n'avoir qu'un seul sens (bi-univocité) et chaque concept ne doit être représenté que par un seul terme

16 © M. Hudon Étapes du contrôle sémantique réduction du langage naturel par identification des synonymes et quasi-synonymes et établissement de relations d'équivalence clarification du sens d'un terme par son intégration dans une structure hiérarchique ou création de définitions construction d'un réseau d'associations formant contexte et précisant encore davantage la signification d'un terme

17 © M. Hudon Instruments de contrôle de la langue naturelle Cadres ou Schémas de classification Répertoires de vedettes-matières Thésaurus Liste de mots-clés Taxonomies et ontologies

18 © M. Hudon Schéma de classification Langage documentaire fondé sur la structuration en classes des sujets dun ou plusieurs domaines de la connaissance et dans lequel les classes et leurs relations peuvent être représentées par les indices dune notation

19 © M. Hudon Structure hiérarchique Technologie (Sciences appliquées) Sciences médicales. Médecine Physiologie humaine Système sanguin Globules blancs

20 © M. Hudon

21 © M. Hudon

22 © M. Hudon

23 © M. Hudon

24 © M. Hudon Vedettes-matière et Répertoire de vedettes-matière Terme (mot ou expression) résultant de la pré- coordination de plusieurs concepts distincts, exprimant un sujet de façon normalisée Outil lexical qui présente lensemble des vedettes-matières développées et qui montre les relations d'équivalence, de hiérarchie et dassociations qui existent entre elles.

25 © M. Hudon Exemple Documentalistes – Formation – France – – Bibliographie Musique country – Histoire – 1970 Québec (Province). Ministère de lÉducation – Rapport annuel – 2001

26 © M. Hudon Descripteurs et Thésaurus Descripteur = Terme (ou symbole) choisi pour représenter sans ambiguïté un concept particulier et dont lénoncé et la forme ont fait lobjet dun processus de normalisation Thésaurus = Langage documentaire fondé sur une structuration hiérarchisée dun ou plusieurs domaines de la connaissance et dans lequel les concepts sont représentés par des termes dune ou plusieurs langues naturelles et les relations entre concepts par des signes conventionnels

27 © M. Hudon

28 © M. Hudon

29 © M. Hudon

30 © M. Hudon

31 © M. Hudon

32 © M. Hudon

33 © M. Hudon Mots clés et Listes de mots-clés Mot choisi dans le titre ou le texte dun document. On parle de mot-clé libre si on ne fait aucune consultation dun outil lexical. On parle dun mot-clé contrôlé sil y a consultation dun outil lexical (un thésaurus, par exemple) Liste de mots-clés présentés en ordre alphabétique, sans structure logique et sans relations entre eux

34 © M. Hudon Taxonomie et Ontologie À mi-chemin entre les schémas de classification et les thésaurus, taxonomies et ontologies en contexte réseau sont des outils qui se cherchent encore une personnalité propre Souvent créés plus ou moins automatiquement par manipulation de la langue naturelle

35 © M. Hudon

36 © M. Hudon

37 © M. Hudon

38 © M. Hudon Libre versus contrôlé 1 Peu prévisible Dispersion des différentes représentations verbales d'un même concept Stratégie de recherche complexe et coûteuse pour le chercheur Bruit au repérage Très prévisible Regroupement des différentes représentations verbales d'un même concept Stratégie de recherche compacte et efficace Peu de bruit au repérage

39 © M. Hudon Libre versus contrôlé 2 Très grande spécificité Plus dynamique Investissement minimal (formation des indexeurs, préparation des outils, etc.) Grande flexibilité au niveau de la traduction des concepts Plus général Moins dynamique Investissement important (formation des indexeurs, préparation des outils, contrôle de qualité, etc.) Limites imposées au niveau de la traduction des concepts

40 © M. Hudon Pourquoi organiser et contrôler ? Some users come to a search for information knowing exactly what they want. But other users do not quite know or are unable to articulate the object of their search, and yet they are able to recognize it immediately when they find it. Such users expect guidance. An example is the guidance provided by a classification used to order books that are stored on the shelves of a library. Walking through library stacks and browsing, a user may suddenly come across just the right book and credit his luck with serendipity. But such a finding would be serendipitous only if the books were shelved in random order, whereas in fact they are ordered according to a rigorous system of semantic relationships, which like an invisible hand guides the seeker to his lucky find (Svenonius 2000, 19).


Télécharger ppt "© M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe."

Présentations similaires


Annonces Google