La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire NatQuest Pro: un logiciel de recherche en texte intégral.

Présentations similaires


Présentation au sujet: "Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire NatQuest Pro: un logiciel de recherche en texte intégral."— Transcription de la présentation:

1 Copyright © Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire NatQuest Pro: un logiciel de recherche en texte intégral (LRTI)

2 Copyright © Yves Marcoux - Reproduction interdite2 NatQuest versus recherche textuelle de Windows et Office NatQuest appelle document lunité documentaire indexée et repérée Parfois, 1 document = 1 fichier: dans les cas où on ne spécifie pas de séparateur de documents Si on spécifie un séparateur de documents, alors 1 fichier contient plusieurs documents

3 Copyright © Yves Marcoux - Reproduction interdite3 (suite) La recherche est toujours indexée (donc, rapide), jamais séquentielle L'antidictionnaire est modifiable séparément pour chaque base

4 Copyright © Yves Marcoux - Reproduction interdite4 (suite) Fait un meilleur travail pour extraire les contenus textuels (filtres) La recherche ignore les signes diacritiques (accents, cédilles, etc.) On peut visualiser l'index au moment de composer les requêtes de recherche, on voit donc quels mots se trouvent vraiment dans les documents indexés

5 Copyright © Yves Marcoux - Reproduction interdite5 (suite) Par défaut, les résultats d'une recherche sont triés par « ordre de pertinence estimée », ordre basé sur le nombre de termes de recherche présents dans le document et leur proximité Si on demande explicitement un autre ordre de tri ou s'il y a un opérateur explicite (autre chose qu'un OU), l'ordre de pertinence estimé n'est pas utilisé

6 Copyright © Yves Marcoux - Reproduction interdite6 (suite) À partir de l'affichage des résultats d'une recherche, on peut « entrer à l'intérieur » des documents repérés: –Les termes recherchés sont mis en évidence –On peut naviguer d'un document repéré à l'autre, et d'une occurrence à l'autre des termes recherchés

7 Copyright © Yves Marcoux - Reproduction interdite7 Création d'index par NatQuest Pro Références: –Protocole TP2 (§1.1 et p.33 « Processus dindexation, antidictionnaire ») –Appendice B du cahier de protocoles (Construction dindex par NatQuest Pro) Les deux fichiers indexés sont les fichiers texte suivants: –commu1.xml.txtcommu1.xml.txt –commu2.xml.txtcommu2.xml.txt

8 Copyright © Yves Marcoux - Reproduction interdite8 (suite) Dans le second index: –Le mot "communique" n'apparaît plus car la chaîne " " sert maintenant de séparateur de documents (et que le mot "communique" n'apparaît pas ailleurs dans les fichiers) –Certains nombres de documents sont plus élevés que dans le premier index

9 Copyright © Yves Marcoux - Reproduction interdite9 Opérateurs de recherche de NatQuest Pluriels simples automatiques –Cette fonction est active par défaut, mais peut être désactivée –Dans les deux directions: chat recherche aussi chats, et chats recherche aussi chat –Limité au pluriels réguliers: cheval recherchera aussi chevals –Insensible au sens des mots: tracas (ennui) recherchera aussi traça (du verbe tracer)

10 Copyright © Yves Marcoux - Reproduction interdite10 Caractères génériques * troncature –représente 0 caractères ou plus –peut être utilisé à droite et/ou à gauche et/ou à l'intérieur d'un terme de recherche ? masque –représente exactement 1 caractère –peut être utilisé n'importe où dans un terme de recherche

11 Copyright © Yves Marcoux - Reproduction interdite11 Autres opérateurs de recherche Voir protocole du TP 2 –Opérateurs booléens OU, ET, SAUF: « », « & », « - » (le OU est implicite: un simple espace) –Intervalle: –Distance: nw –Recherche dexpression: guillemets ou adjacence (adj) adj est exactement équivalent à 0w

12 Copyright © Yves Marcoux - Reproduction interdite12 Divers Lopérateur de distance (nw) tient compte de lordre des mots –Ladjacence (adj) aussi Antidictionnaire –Fichier.NQS –Il s'agit d'un fichier texte ISO (ANSI) –Donc, modifiable dans le Bloc-notes

13 Copyright © Yves Marcoux - Reproduction interdite13 Bruit et silence Définitions: dans toute démarche de recherche d'information* –bruit = repérage d'information non pertinente –silence = non repérage d'information pertinente –peu de bruit = bonne précision –peu de silence = bon rappel N.B.: Seule la personne éprouvant le besoin dinformation à lorigine de la démarche peut évaluer la pertinence * Pas seulement avec un LRTI

14 Copyright © Yves Marcoux - Reproduction interdite14 (suite) Théoriquement, il est possible qu'une modification à une démarche de recherche (ex.: modifier une requête de recherche) augmente à la fois le rappel et la précision En pratique, toutefois, une mesure prise pour augmenter le rappel (ex.: changer un "ET" booléen par un "OU" booléen) diminue souvent la précision, et vice-versa

15 Copyright © Yves Marcoux - Reproduction interdite15 Délimiteurs de champs Si les documents contiennent des délimiteurs de champs, on peut les "déclarer" à NatQuest avant l'indexation En plus de noter dans l'index la position de chaque occurrence de mot, NatQuest notera aussi le nom du champ dans lequel cette occurrence survient

16 Copyright © Yves Marcoux - Reproduction interdite16 (suite) Il est alors possible (mais non obligatoire) de limiter la recherche de certains termes à un champ précis (voir protocole TP2 pour détails)

17 Copyright © Yves Marcoux - Reproduction interdite17 Recherche en langue naturelle? Comment NatQuest arrive-t-il à donner l'impression de "comprendre" les requêtes en langue naturelle? –pluriels simples automatiques –élimination des mots vides de la requête –OU booléen implicite entre les termes de recherche –tri des résultats par ordre de pertinence estimée

18 Copyright © Yves Marcoux - Reproduction interdite18 Notes sur les opérateurs booléens "ET" et "OU" dans la langue courante n'ont pas toujours la même signification qu'en logique booléenne: –Pour avoir "tout ce qui s'est publié au Québec et en France" il faut utiliser un "OU" booléen sur le lieu de publication –En logique booléenne, le "OU" est toujours inclusif (et non exclusif): "chien OU chat" veut dire "chien" ou "chat" ou les deux!

19 Copyright © Yves Marcoux - Reproduction interdite19 Notes sur lantidictionnaire S'il est trop vide: –L'index est encombré de mots inutiles –Avec NatQuest: ces mots inutiles vont causer du bruit dans les requêtes en langue naturelle S'il est trop plein, risque de silence, dû à: –Problèmes d'homographie –Problèmes de polysémie –Problèmes aggravés par l'élimination des signes diacritiques

20 Copyright © Yves Marcoux - Reproduction interdite20 (suite) Problèmes d'homographie –Deux mots différents s'écrivent de la même façon, mais un seul nous intéresse thé (breuvage) vs the (article anglais) lis (verbe lire) vs lis (fleur) vs LIS (Library & Information Studies) mille (nombre) vs mille (distance) enceinte (acoustique) vs (femme) enceinte

21 Copyright © Yves Marcoux - Reproduction interdite21 (suite) Problèmes de polysémie –Un même mot a plusieurs sens, dont un seul nous intéresse table (de logarithmes) vs table (d'opération) travail (en relations industrielles) vs travail (en obstétrique) laser (appareil optique) et laser (marque de voilier) Homographie et polysémie affectent la recherche en général, pas seulement les choix de mots vides


Télécharger ppt "Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire NatQuest Pro: un logiciel de recherche en texte intégral."

Présentations similaires


Annonces Google