BLT6052 Informatique documentaire

Slides:



Advertisements
Présentations similaires
La recherche documentaire
Advertisements

Blog-notes Question n° 1
Clément Massé – Université Charles de Gaulle Lille3.
Je lis, j’écris Objectif du logiciel S'entraîner à saisir précisément un mot, une expression, une phrase, un texte,
DTD Sylvain Salvati
Les espaces de nommage XML par Philippe Poulard 1
Vocabulaire pour la passage du modèle conceptuel des données au modèle relationnel des données. MCDMRD EntitéTable PropriétésChamps, attribut IdentifiantClé
Mettre en place une démarche de recherche documentaire
Base de Données "Titres" Projet "Visu" Réalisée dans le cadre de la maîtrise IL.
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Comment utiliser BCDI 2.07 Pour accéder aux différents modes de recherche, il suffit de cliquer sur le bouton OK.
Cours 7 - Les pointeurs, l'allocation dynamique, les listes chaînées
SECURITE DU SYSTEME D’INFORMATION (SSI)
Structures de données linéaires
Vue générale de Sharpdesk
Créer un index.
Comment trouver sur Internet?
Résolution des Équations Différentielles
Vers un cadre unificateur pour l'enseignement des outils et méthodes de gestion de l'information numérique Yves MARCOUX GRDS - EBSI Université de Montréal.
Ordre du jour Copernic, portrait de lentreprise Copernic Enterprise Search Description du produit Fonctionnement Spécificités techniques Options offertes.
Présentation des outils de recherche dinformations scientifiques.
Initiation aux outils de recherche bibliographique dans le cadre de la réalisation dune séquence de formation à la recherche documentaire Luc Verdebout.
Les fichiers indexés (Les B-arbres)
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 3: les moteurs académiques: Google.
Activité 6 : Les étapes d’une démarche de recherche efficace
La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 3: les moteurs académiques: Google.
1.Définition sémantique du thème 2.Lenvironnement Internet 3.Quest ce que Google? 4.Les 10 astuces dor pour optimiser une recherche sur Google 5.Linterêt.
CUME 330: Didactique des études sociales à lélémentaire Les ressources dapprentissage et la recherche dans les outils de Présenté par David Martin Préparé.
VOUS ALLEZ ASSISTER A UNE DEMONSTRATION DU FONCTIONNEMENT DE LA BASE DE DONNEES DIPOUEST OUBLIEZ SOURIS ET CLAVIER ET LAISSEZ-VOUS GUIDER.
+ Modifier sa page personnelle. + Connectez-vous Avec votre navigateur, rendez-vous surhttp://gramata.univ-paris1.fr et cliquez sur le lien : « Se connecter.
Copyright © Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Les SGBD textuels.
SUDOC (le catalogue des ouvrages, des thèses et des périodiques des bibliothèques françaises) Contenu Le catalogue du Système Universitaire de DOCumentation.
La veille numérique : un outil pour s'informer intelligemment &
Copyright © 2004 Yves Marcoux - Tous droits réservés - Reproduction interdite1 Exemples de recherche par bordereau dans DB/TextWorks BLT6052 Informatique.
Copyright © Yves Marcoux - Reproduction interdite1 Recherche dans DB/TextWorks: notions avancées BLT6052 Informatique documentaire Université.
Réaliser et diffuser un projet intégrant les TIC
Copyright © Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows.
XML-schema. Pourquoi XML-schema Les DTD : Pas de typage, peu de contraintes sur les contenus nombre d'apparitions d'un élément à choisir entre 0 et 1.
Vocabulaire La polysémie
Copyright © Yves Marcoux - Reproduction interdite1 Introduction à la recherche par bordereau dans DB/TextWorks BLT6052 Informatique documentaire.
Rappel de quelques notions de base de la recherche documentaire
PROGRAMMATION INFORMATIQUE D’INGÉNIERIE II
La recherche documentaire
LES INFOS de Philippe et Patrick Journal d'informations en ligne Infospp.free.fr Mai 2006.
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
SGBD Système de gestion de Base documentaire (Logiciel documentaire)
Copyright © 2005 Yves MARCOUX1 Concepts XML de base Yves MARCOUX EBSI - Université de Montréal.
Copyright © Yves Marcoux1 BLT6052 Informatique documentaire Typologie de logiciels documentaires.
Portail des PGDE Meilleures pratiques pour recherches efficaces 9 septembre 2014 Valerie Footz Alberta Legislature Library.
Format des fichiers TIFF Mastère photogrammétrie, positionnement, mesures de déformation Yves EGELS.
LA RECHERCHE DOCUMENTAIRE
La recherche.
Modélisation des documents: DTD et Schéma
Création JJ Pellé novembre 2014Musique : David Schombert.
Structures de données avancées : Principales structures de fichiers
Comprendre le SGBDR Microsoft Access – partie 2
Présentation des outils de recherche d’informations scientifiques.
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
CDI du lycée Jean Jaurès / La recherche dans BCDI.
STRATÉGIE DE RECHERCHE DOCUMENTAIRE Trouver des articles de périodiques Adèle Flannery, Cynthia Lisée et Christine Médaille, bibliothécaires.
Générateur d’applications WEB de gestion de données Module List.
Comment construire une bonne stratégie de recherche? Psychosociologie Bibliothèque de l’UQAR- Sandrine Vachon.
A la découverte d’Excel Certificat Informatique et Internet.
© 2010 Sage - Tous droits réservés 1 SIGMA Atelier Découvertes Ergonomie et Prise en Main SAGE ERP X3 Version 6.
Comment construire une stratégie de recherche? Maîtrise en lettres Bibliothèque de l’UQAR- Sandrine Vachon.
STRATÉGIE DE RECHERCHE DOCUMENTAIRE Trouver des articles de périodiques Adèle Flannery, Cynthia Lisée et Christine Médaille, bibliothécaires.
Contribution. Accueil Vous êtes actuellement connecté à votre espace de contribution de la médiathèque de l'Université Paris Descartes. Dans cette espace.
Internet et la recherche documentaire Comment utiliser Internet de façon pertinente ?
Transcription de la présentation:

BLT6052 Informatique documentaire NatQuest Pro: un logiciel de recherche en texte intégral (LRTI) Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

NatQuest versus recherche textuelle de Windows et Office NatQuest appelle document l’unité documentaire indexée et repérée Parfois, 1 document = 1 fichier: dans les cas où on ne spécifie pas de séparateur de documents Si on spécifie un séparateur de documents, alors 1 fichier contient plusieurs documents Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) La recherche est toujours indexée (donc, rapide), jamais séquentielle L'antidictionnaire est modifiable séparément pour chaque base Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) Fait un meilleur travail pour extraire les contenus textuels (filtres) La recherche ignore les signes diacritiques (accents, cédilles, etc.) On peut visualiser l'index au moment de composer les requêtes de recherche, on voit donc quels mots se trouvent vraiment dans les documents indexés Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) Par défaut, les résultats d'une recherche sont triés par « ordre de pertinence estimée », ordre basé sur le nombre de termes de recherche présents dans le document et leur proximité Si on demande explicitement un autre ordre de tri ou s'il y a un opérateur explicite (autre chose qu'un OU), l'ordre de pertinence estimé n'est pas utilisé Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) À partir de l'affichage des résultats d'une recherche, on peut « entrer à l'intérieur » des documents repérés: Les termes recherchés sont mis en évidence On peut naviguer d'un document repéré à l'autre, et d'une occurrence à l'autre des termes recherchés Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Création d'index par NatQuest Pro Références: Protocole TP2 (§1.1 et p.33 « Processus d’indexation, antidictionnaire ») Appendice B du cahier de protocoles (Construction d’index par NatQuest Pro) Les deux fichiers indexés sont les fichiers texte suivants: commu1.xml.txt commu2.xml.txt Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) Dans le second index: Le mot "communique" n'apparaît plus car la chaîne "<Communiqué>" sert maintenant de séparateur de documents (et que le mot "communique" n'apparaît pas ailleurs dans les fichiers) Certains nombres de documents sont plus élevés que dans le premier index Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Opérateurs de recherche de NatQuest Pluriels simples automatiques Cette fonction est active par défaut, mais peut être désactivée Dans les deux directions: chat recherche aussi chats, et chats recherche aussi chat Limité au pluriels réguliers: cheval recherchera aussi chevals Insensible au sens des mots: tracas (ennui) recherchera aussi traça (du verbe tracer) Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Caractères génériques * troncature représente 0 caractères ou plus peut être utilisé à droite et/ou à gauche et/ou à l'intérieur d'un terme de recherche ? masque représente exactement 1 caractère peut être utilisé n'importe où dans un terme de recherche Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Autres opérateurs de recherche Voir protocole du TP 2 Opérateurs booléens OU, ET, SAUF: «  », « & », « - » (le OU est implicite: un simple espace) Intervalle: 1985@2025 Distance: nw Recherche d’expression: guillemets ou adjacence (adj) adj est exactement équivalent à 0w Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite Divers L’opérateur de distance (nw) tient compte de l’ordre des mots L’adjacence (adj) aussi Antidictionnaire Fichier <nom-de-la-base>.NQS Il s'agit d'un fichier texte ISO-8859-1 (ANSI) Donc, modifiable dans le Bloc-notes Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite Bruit et silence Définitions: dans toute démarche de recherche d'information* bruit = repérage d'information non pertinente silence = non repérage d'information pertinente peu de bruit = bonne précision peu de silence = bon rappel N.B.: Seule la personne éprouvant le besoin d’information à l’origine de la démarche peut évaluer la pertinence * Pas seulement avec un LRTI Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) Théoriquement, il est possible qu'une modification à une démarche de recherche (ex.: modifier une requête de recherche) augmente à la fois le rappel et la précision En pratique, toutefois, une mesure prise pour augmenter le rappel (ex.: changer un "ET" booléen par un "OU" booléen) diminue souvent la précision, et vice-versa Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite Délimiteurs de champs Si les documents contiennent des délimiteurs de champs, on peut les "déclarer" à NatQuest avant l'indexation En plus de noter dans l'index la position de chaque occurrence de mot, NatQuest notera aussi le nom du champ dans lequel cette occurrence survient Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) Il est alors possible (mais non obligatoire) de limiter la recherche de certains termes à un champ précis (voir protocole TP2 pour détails) Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Recherche en langue naturelle? Comment NatQuest arrive-t-il à donner l'impression de "comprendre" les requêtes en langue naturelle? pluriels simples automatiques élimination des mots vides de la requête OU booléen implicite entre les termes de recherche tri des résultats par ordre de pertinence estimée Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Notes sur les opérateurs booléens "ET" et "OU" dans la langue courante n'ont pas toujours la même signification qu'en logique booléenne: Pour avoir "tout ce qui s'est publié au Québec et en France" il faut utiliser un "OU" booléen sur le lieu de publication En logique booléenne, le "OU" est toujours inclusif (et non exclusif): "chien OU chat" veut dire "chien" ou "chat" ou les deux! Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Notes sur l’antidictionnaire S'il est trop vide: L'index est encombré de mots inutiles Avec NatQuest: ces mots inutiles vont causer du bruit dans les requêtes en langue naturelle S'il est trop plein, risque de silence, dû à: Problèmes d'homographie Problèmes de polysémie Problèmes aggravés par l'élimination des signes diacritiques Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) Problèmes d'homographie Deux mots différents s'écrivent de la même façon, mais un seul nous intéresse thé (breuvage) vs the (article anglais) lis (verbe lire) vs lis (fleur) vs LIS (Library & Information Studies) mille (nombre) vs mille (distance) enceinte (acoustique) vs (femme) enceinte Copyright © 2004-2007 Yves Marcoux - Reproduction interdite

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite (suite) Problèmes de polysémie Un même mot a plusieurs sens, dont un seul nous intéresse table (de logarithmes) vs table (d'opération) travail (en relations industrielles) vs travail (en obstétrique) laser (appareil optique) et laser (marque de voilier) Homographie et polysémie affectent la recherche en général, pas seulement les choix de mots vides Copyright © 2004-2007 Yves Marcoux - Reproduction interdite