La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

BLT6052 Informatique documentaire

Présentations similaires


Présentation au sujet: "BLT6052 Informatique documentaire"— Transcription de la présentation:

1 BLT6052 Informatique documentaire
NatQuest Pro: un logiciel de recherche en texte intégral (LRTI) Copyright © Yves Marcoux - Reproduction interdite

2 NatQuest versus recherche textuelle de Windows et Office
NatQuest appelle document l’unité documentaire indexée et repérée Parfois, 1 document = 1 fichier: dans les cas où on ne spécifie pas de séparateur de documents Si on spécifie un séparateur de documents, alors 1 fichier contient plusieurs documents Copyright © Yves Marcoux - Reproduction interdite

3 Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
(suite) La recherche est toujours indexée (donc, rapide), jamais séquentielle L'antidictionnaire est modifiable séparément pour chaque base Copyright © Yves Marcoux - Reproduction interdite

4 Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
(suite) Fait un meilleur travail pour extraire les contenus textuels (filtres) La recherche ignore les signes diacritiques (accents, cédilles, etc.) On peut visualiser l'index au moment de composer les requêtes de recherche, on voit donc quels mots se trouvent vraiment dans les documents indexés Copyright © Yves Marcoux - Reproduction interdite

5 Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
(suite) Par défaut, les résultats d'une recherche sont triés par « ordre de pertinence estimée », ordre basé sur le nombre de termes de recherche présents dans le document et leur proximité Si on demande explicitement un autre ordre de tri ou s'il y a un opérateur explicite (autre chose qu'un OU), l'ordre de pertinence estimé n'est pas utilisé Copyright © Yves Marcoux - Reproduction interdite

6 Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
(suite) À partir de l'affichage des résultats d'une recherche, on peut « entrer à l'intérieur » des documents repérés: Les termes recherchés sont mis en évidence On peut naviguer d'un document repéré à l'autre, et d'une occurrence à l'autre des termes recherchés Copyright © Yves Marcoux - Reproduction interdite

7 Création d'index par NatQuest Pro
Références: Protocole TP2 (§1.1 et p.33 « Processus d’indexation, antidictionnaire ») Appendice B du cahier de protocoles (Construction d’index par NatQuest Pro) Les deux fichiers indexés sont les fichiers texte suivants: commu1.xml.txt commu2.xml.txt Copyright © Yves Marcoux - Reproduction interdite

8 Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
(suite) Dans le second index: Le mot "communique" n'apparaît plus car la chaîne "<Communiqué>" sert maintenant de séparateur de documents (et que le mot "communique" n'apparaît pas ailleurs dans les fichiers) Certains nombres de documents sont plus élevés que dans le premier index Copyright © Yves Marcoux - Reproduction interdite

9 Opérateurs de recherche de NatQuest
Pluriels simples automatiques Cette fonction est active par défaut, mais peut être désactivée Dans les deux directions: chat recherche aussi chats, et chats recherche aussi chat Limité au pluriels réguliers: cheval recherchera aussi chevals Insensible au sens des mots: tracas (ennui) recherchera aussi traça (du verbe tracer) Copyright © Yves Marcoux - Reproduction interdite

10 Caractères génériques
* troncature représente 0 caractères ou plus peut être utilisé à droite et/ou à gauche et/ou à l'intérieur d'un terme de recherche ? masque représente exactement 1 caractère peut être utilisé n'importe où dans un terme de recherche Copyright © Yves Marcoux - Reproduction interdite

11 Autres opérateurs de recherche
Voir protocole du TP 2 Opérateurs booléens OU, ET, SAUF: «  », « & », « - » (le OU est implicite: un simple espace) Intervalle: Distance: nw Recherche d’expression: guillemets ou adjacence (adj) adj est exactement équivalent à 0w Copyright © Yves Marcoux - Reproduction interdite

12 Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Divers L’opérateur de distance (nw) tient compte de l’ordre des mots L’adjacence (adj) aussi Antidictionnaire Fichier <nom-de-la-base>.NQS Il s'agit d'un fichier texte ISO (ANSI) Donc, modifiable dans le Bloc-notes Copyright © Yves Marcoux - Reproduction interdite

13 Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Bruit et silence Définitions: dans toute démarche de recherche d'information* bruit = repérage d'information non pertinente silence = non repérage d'information pertinente peu de bruit = bonne précision peu de silence = bon rappel N.B.: Seule la personne éprouvant le besoin d’information à l’origine de la démarche peut évaluer la pertinence * Pas seulement avec un LRTI Copyright © Yves Marcoux - Reproduction interdite

14 Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
(suite) Théoriquement, il est possible qu'une modification à une démarche de recherche (ex.: modifier une requête de recherche) augmente à la fois le rappel et la précision En pratique, toutefois, une mesure prise pour augmenter le rappel (ex.: changer un "ET" booléen par un "OU" booléen) diminue souvent la précision, et vice-versa Copyright © Yves Marcoux - Reproduction interdite

15 Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Délimiteurs de champs Si les documents contiennent des délimiteurs de champs, on peut les "déclarer" à NatQuest avant l'indexation En plus de noter dans l'index la position de chaque occurrence de mot, NatQuest notera aussi le nom du champ dans lequel cette occurrence survient Copyright © Yves Marcoux - Reproduction interdite

16 Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
(suite) Il est alors possible (mais non obligatoire) de limiter la recherche de certains termes à un champ précis (voir protocole TP2 pour détails) Copyright © Yves Marcoux - Reproduction interdite

17 Recherche en langue naturelle?
Comment NatQuest arrive-t-il à donner l'impression de "comprendre" les requêtes en langue naturelle? pluriels simples automatiques élimination des mots vides de la requête OU booléen implicite entre les termes de recherche tri des résultats par ordre de pertinence estimée Copyright © Yves Marcoux - Reproduction interdite

18 Notes sur les opérateurs booléens
"ET" et "OU" dans la langue courante n'ont pas toujours la même signification qu'en logique booléenne: Pour avoir "tout ce qui s'est publié au Québec et en France" il faut utiliser un "OU" booléen sur le lieu de publication En logique booléenne, le "OU" est toujours inclusif (et non exclusif): "chien OU chat" veut dire "chien" ou "chat" ou les deux! Copyright © Yves Marcoux - Reproduction interdite

19 Notes sur l’antidictionnaire
S'il est trop vide: L'index est encombré de mots inutiles Avec NatQuest: ces mots inutiles vont causer du bruit dans les requêtes en langue naturelle S'il est trop plein, risque de silence, dû à: Problèmes d'homographie Problèmes de polysémie Problèmes aggravés par l'élimination des signes diacritiques Copyright © Yves Marcoux - Reproduction interdite

20 Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
(suite) Problèmes d'homographie Deux mots différents s'écrivent de la même façon, mais un seul nous intéresse thé (breuvage) vs the (article anglais) lis (verbe lire) vs lis (fleur) vs LIS (Library & Information Studies) mille (nombre) vs mille (distance) enceinte (acoustique) vs (femme) enceinte Copyright © Yves Marcoux - Reproduction interdite

21 Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
(suite) Problèmes de polysémie Un même mot a plusieurs sens, dont un seul nous intéresse table (de logarithmes) vs table (d'opération) travail (en relations industrielles) vs travail (en obstétrique) laser (appareil optique) et laser (marque de voilier) Homographie et polysémie affectent la recherche en général, pas seulement les choix de mots vides Copyright © Yves Marcoux - Reproduction interdite


Télécharger ppt "BLT6052 Informatique documentaire"

Présentations similaires


Annonces Google