BLT6052 Informatique documentaire NatQuest Pro: un logiciel de recherche en texte intégral (LRTI) Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
NatQuest versus recherche textuelle de Windows et Office NatQuest appelle document l’unité documentaire indexée et repérée Parfois, 1 document = 1 fichier: dans les cas où on ne spécifie pas de séparateur de documents Si on spécifie un séparateur de documents, alors 1 fichier contient plusieurs documents Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) La recherche est toujours indexée (donc, rapide), jamais séquentielle L'antidictionnaire est modifiable séparément pour chaque base Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) Fait un meilleur travail pour extraire les contenus textuels (filtres) La recherche ignore les signes diacritiques (accents, cédilles, etc.) On peut visualiser l'index au moment de composer les requêtes de recherche, on voit donc quels mots se trouvent vraiment dans les documents indexés Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) Par défaut, les résultats d'une recherche sont triés par « ordre de pertinence estimée », ordre basé sur le nombre de termes de recherche présents dans le document et leur proximité Si on demande explicitement un autre ordre de tri ou s'il y a un opérateur explicite (autre chose qu'un OU), l'ordre de pertinence estimé n'est pas utilisé Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) À partir de l'affichage des résultats d'une recherche, on peut « entrer à l'intérieur » des documents repérés: Les termes recherchés sont mis en évidence On peut naviguer d'un document repéré à l'autre, et d'une occurrence à l'autre des termes recherchés Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Création d'index par NatQuest Pro Références: Protocole TP2 (§1.1 et p.33 « Processus d’indexation, antidictionnaire ») Appendice B du cahier de protocoles (Construction d’index par NatQuest Pro) Les deux fichiers indexés sont les fichiers texte suivants: commu1.xml.txt commu2.xml.txt Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) Dans le second index: Le mot "communique" n'apparaît plus car la chaîne "<Communiqué>" sert maintenant de séparateur de documents (et que le mot "communique" n'apparaît pas ailleurs dans les fichiers) Certains nombres de documents sont plus élevés que dans le premier index Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Opérateurs de recherche de NatQuest Pluriels simples automatiques Cette fonction est active par défaut, mais peut être désactivée Dans les deux directions: chat recherche aussi chats, et chats recherche aussi chat Limité au pluriels réguliers: cheval recherchera aussi chevals Insensible au sens des mots: tracas (ennui) recherchera aussi traça (du verbe tracer) Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Caractères génériques * troncature représente 0 caractères ou plus peut être utilisé à droite et/ou à gauche et/ou à l'intérieur d'un terme de recherche ? masque représente exactement 1 caractère peut être utilisé n'importe où dans un terme de recherche Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Autres opérateurs de recherche Voir protocole du TP 2 Opérateurs booléens OU, ET, SAUF: « », « & », « - » (le OU est implicite: un simple espace) Intervalle: 1985@2025 Distance: nw Recherche d’expression: guillemets ou adjacence (adj) adj est exactement équivalent à 0w Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite Divers L’opérateur de distance (nw) tient compte de l’ordre des mots L’adjacence (adj) aussi Antidictionnaire Fichier <nom-de-la-base>.NQS Il s'agit d'un fichier texte ISO-8859-1 (ANSI) Donc, modifiable dans le Bloc-notes Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite Bruit et silence Définitions: dans toute démarche de recherche d'information* bruit = repérage d'information non pertinente silence = non repérage d'information pertinente peu de bruit = bonne précision peu de silence = bon rappel N.B.: Seule la personne éprouvant le besoin d’information à l’origine de la démarche peut évaluer la pertinence * Pas seulement avec un LRTI Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) Théoriquement, il est possible qu'une modification à une démarche de recherche (ex.: modifier une requête de recherche) augmente à la fois le rappel et la précision En pratique, toutefois, une mesure prise pour augmenter le rappel (ex.: changer un "ET" booléen par un "OU" booléen) diminue souvent la précision, et vice-versa Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite Délimiteurs de champs Si les documents contiennent des délimiteurs de champs, on peut les "déclarer" à NatQuest avant l'indexation En plus de noter dans l'index la position de chaque occurrence de mot, NatQuest notera aussi le nom du champ dans lequel cette occurrence survient Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) Il est alors possible (mais non obligatoire) de limiter la recherche de certains termes à un champ précis (voir protocole TP2 pour détails) Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Recherche en langue naturelle? Comment NatQuest arrive-t-il à donner l'impression de "comprendre" les requêtes en langue naturelle? pluriels simples automatiques élimination des mots vides de la requête OU booléen implicite entre les termes de recherche tri des résultats par ordre de pertinence estimée Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Notes sur les opérateurs booléens "ET" et "OU" dans la langue courante n'ont pas toujours la même signification qu'en logique booléenne: Pour avoir "tout ce qui s'est publié au Québec et en France" il faut utiliser un "OU" booléen sur le lieu de publication En logique booléenne, le "OU" est toujours inclusif (et non exclusif): "chien OU chat" veut dire "chien" ou "chat" ou les deux! Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Notes sur l’antidictionnaire S'il est trop vide: L'index est encombré de mots inutiles Avec NatQuest: ces mots inutiles vont causer du bruit dans les requêtes en langue naturelle S'il est trop plein, risque de silence, dû à: Problèmes d'homographie Problèmes de polysémie Problèmes aggravés par l'élimination des signes diacritiques Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) Problèmes d'homographie Deux mots différents s'écrivent de la même façon, mais un seul nous intéresse thé (breuvage) vs the (article anglais) lis (verbe lire) vs lis (fleur) vs LIS (Library & Information Studies) mille (nombre) vs mille (distance) enceinte (acoustique) vs (femme) enceinte Copyright © 2004-2007 Yves Marcoux - Reproduction interdite
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) Problèmes de polysémie Un même mot a plusieurs sens, dont un seul nous intéresse table (de logarithmes) vs table (d'opération) travail (en relations industrielles) vs travail (en obstétrique) laser (appareil optique) et laser (marque de voilier) Homographie et polysémie affectent la recherche en général, pas seulement les choix de mots vides Copyright © 2004-2007 Yves Marcoux - Reproduction interdite