La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

© M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

Présentations similaires


Présentation au sujet: "© M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe."— Transcription de la présentation:

1 © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe Université de Montréal

2 © M. Hudon 2002 2 Présenter divers modes dorganisation documentaire qui permettent et même facilitent le repérage dinformation pertinente Objectif …

3 © M. Hudon 2002 3 Mots-clés Utilisateur / Demandeur Information Document Organisation Contrôle Recherche et repérage Système de transfert dinformation

4 © M. Hudon 2002 4 À distinguer Information « récréative » Information « requise » Information factuelle Information discursive / textuelle

5 © M. Hudon 2002 5 À distinguer aussi … Lutilisateur qui connaît déjà la source qui lui procurera linformation requise Lutilisateur qui sait ce quil cherche mais ne connaît pas la ou les sources qui lui procureront linformation requise Lutilisateur qui ne sait pas ce dont il a besoin

6 © M. Hudon 2002 6 Description des documents Contenant Titre Créateur de la ressource Date de publication / mise à jour Nombre de pages / de méga-octets Contenu Sujet(s)

7 © M. Hudon 2002 7 Accès sujet Permet le repérage de sources dinformation pertinentes dont on ne connaît pas encore lexistence par la voie de leur contenu plutôt que par lutilisation déléments descriptifs externes caractérisant lobjet document

8 © M. Hudon 2002 8 Description du contenu Titres, Sous-titres, Titres alternatifs, etc. Classement dans une catégorie particulière Mots-clés Résumé Texte dans son entier

9 © M. Hudon 2002 9 Contexte quand on cherche de linformation sur un sujet, on ne peut examiner tout ce qui se trouve dans une collection un document est souvent trop volumineux pour être utilisé dans son entier, na pas besoin dêtre utilisé dans son entier le créateur et lutilisateur dun document nemploient pas forcément le même vocabulaire pour représenter les mêmes concepts la coïncidence entre la formulation des questions et la représentation du contenu est indispensable pour quun système de transfert dinformation fonctionne correctement

10 © M. Hudon 2002 10 Multiplicité des langues naturelles Variations nationales et régionales Niveaux de langue Code / Signe Problèmes liés à lutilisation de la langue naturelle

11 © M. Hudon 2002 11 Plus précisément Synonymie : SILENCE – Mots de même sens ou de sens assez voisins pour être interchangeables (Ex. société multinationale, société transnationale, entreprise internationale, multinationale) Polysémie :BRUIT – Un mot, plusieurs sens (Ex. Architecture, Kiwi)

12 © M. Hudon 2002 12 Une solution possible : normaliser purifier contrôler « artificialiser » la langue naturelle

13 © M. Hudon 2002 13 Le langage documentaire Tout système de signes qui permet de représenter le contenu de documents dans le but den faciliter le repérage. Le langage documentaire se compose au minimum – d'un lexique : ensemble des mots et des expressions utilisables pour la représentation et pour la recherche dinformation – d'une syntaxe : règles d'utilisation et de combinaison de ces mots et expressions.

14 © M. Hudon 2002 14 Contrôle lexical contrôle morphologique et flexionnel : nature et forme du terme contrôle syntaxique : ordre des mots qui composent un terme

15 © M. Hudon 2002 15 Contrôle sémantique contrôle sémantique : signification du terme – un terme ne doit représenter qu'un seul concept et donc n'avoir qu'un seul sens (bi-univocité) et chaque concept ne doit être représenté que par un seul terme

16 © M. Hudon 2002 16 Étapes du contrôle sémantique réduction du langage naturel par identification des synonymes et quasi-synonymes et établissement de relations d'équivalence clarification du sens d'un terme par son intégration dans une structure hiérarchique ou création de définitions construction d'un réseau d'associations formant contexte et précisant encore davantage la signification d'un terme

17 © M. Hudon 2002 17 Instruments de contrôle de la langue naturelle Cadres ou Schémas de classification Répertoires de vedettes-matières Thésaurus Liste de mots-clés Taxonomies et ontologies

18 © M. Hudon 2002 18 Schéma de classification Langage documentaire fondé sur la structuration en classes des sujets dun ou plusieurs domaines de la connaissance et dans lequel les classes et leurs relations peuvent être représentées par les indices dune notation

19 © M. Hudon 2002 19 Structure hiérarchique Technologie (Sciences appliquées) Sciences médicales. Médecine Physiologie humaine Système sanguin Globules blancs

20 © M. Hudon 2002 20

21 © M. Hudon 2002 21

22 © M. Hudon 2002 22

23 © M. Hudon 2002 23

24 © M. Hudon 2002 24 Vedettes-matière et Répertoire de vedettes-matière Terme (mot ou expression) résultant de la pré- coordination de plusieurs concepts distincts, exprimant un sujet de façon normalisée Outil lexical qui présente lensemble des vedettes-matières développées et qui montre les relations d'équivalence, de hiérarchie et dassociations qui existent entre elles.

25 © M. Hudon 2002 25 Exemple Documentalistes – Formation – France – 1990- 2000 – Bibliographie Musique country – Histoire – 1970 Québec (Province). Ministère de lÉducation – Rapport annuel – 2001

26 © M. Hudon 2002 26 Descripteurs et Thésaurus Descripteur = Terme (ou symbole) choisi pour représenter sans ambiguïté un concept particulier et dont lénoncé et la forme ont fait lobjet dun processus de normalisation Thésaurus = Langage documentaire fondé sur une structuration hiérarchisée dun ou plusieurs domaines de la connaissance et dans lequel les concepts sont représentés par des termes dune ou plusieurs langues naturelles et les relations entre concepts par des signes conventionnels

27 © M. Hudon 2002 27

28 © M. Hudon 2002 28

29 © M. Hudon 2002 29

30 © M. Hudon 2002 30

31 © M. Hudon 2002 31

32 © M. Hudon 2002 32

33 © M. Hudon 2002 33 Mots clés et Listes de mots-clés Mot choisi dans le titre ou le texte dun document. On parle de mot-clé libre si on ne fait aucune consultation dun outil lexical. On parle dun mot-clé contrôlé sil y a consultation dun outil lexical (un thésaurus, par exemple) Liste de mots-clés présentés en ordre alphabétique, sans structure logique et sans relations entre eux

34 © M. Hudon 2002 34 Taxonomie et Ontologie À mi-chemin entre les schémas de classification et les thésaurus, taxonomies et ontologies en contexte réseau sont des outils qui se cherchent encore une personnalité propre Souvent créés plus ou moins automatiquement par manipulation de la langue naturelle

35 © M. Hudon 2002 35

36 © M. Hudon 2002 36

37 © M. Hudon 2002 37

38 © M. Hudon 2002 38 Libre versus contrôlé 1 Peu prévisible Dispersion des différentes représentations verbales d'un même concept Stratégie de recherche complexe et coûteuse pour le chercheur Bruit au repérage Très prévisible Regroupement des différentes représentations verbales d'un même concept Stratégie de recherche compacte et efficace Peu de bruit au repérage

39 © M. Hudon 2002 39 Libre versus contrôlé 2 Très grande spécificité Plus dynamique Investissement minimal (formation des indexeurs, préparation des outils, etc.) Grande flexibilité au niveau de la traduction des concepts Plus général Moins dynamique Investissement important (formation des indexeurs, préparation des outils, contrôle de qualité, etc.) Limites imposées au niveau de la traduction des concepts

40 © M. Hudon 2002 40 Pourquoi organiser et contrôler ? Some users come to a search for information knowing exactly what they want. But other users do not quite know or are unable to articulate the object of their search, and yet they are able to recognize it immediately when they find it. Such users expect guidance. An example is the guidance provided by a classification used to order books that are stored on the shelves of a library. Walking through library stacks and browsing, a user may suddenly come across just the right book and credit his luck with serendipity. But such a finding would be serendipitous only if the books were shelved in random order, whereas in fact they are ordered according to a rigorous system of semantic relationships, which like an invisible hand guides the seeker to his lucky find (Svenonius 2000, 19).


Télécharger ppt "© M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe."

Présentations similaires


Annonces Google