Recherche d’information
Plan Recherche d’information Modélisation de l’information/du document Les SRI Evaluation
Recherche d’information Chercher De l’information dans un document Un document (img, son, txt…) Dans une base de données Relationnelle, externe Mise en réseau
Recherche d’information Action de recherche : Procédures, techniques, méthodes En fonction de critères propres à l’usager (besoin) Pré-requis à la recherche : Modélisation du doc et de son contenu Interrogation du fonds Faire un point sur le besoin de l’usager !
Tâches associées Interactions avec l’utilisateur : expansion de requête Classification des documents par thématique Extraction d’information en vue d’une réponse à une question
Modélisation du document 1. Avant l’informatique Le « document » Pictural : sur des murs, des pierres Ecriture Tablettes, Papyrus (V), parchemin (A), papier (V) Palimpsestes, Livres Imprimerie (La Bible de Gutemberg : 1500) Journaux, magazines, microfilms Conservation Monastères, couvents, bibliothèques
Modélisation du document 1. Avant l’informatique Techniques documentaires Traiter le document : catalogage = méta-données Traiter son contenu : indexation = mot-clés Besoin de ressources adéquates Accès « Systèmes à aiguille » Ouvrages de référence : bibliographies, catalogues, dictionnaires, cartes, chronologies, encyclopédies Techniques : ne pas oublier les ressources qui permettait de faire ce travail à la main : Thésaurus, index, classification. D dans objectif de rationalisation (et efficacité, Taylor et les années 1850 !), les langages contrôlés, SYSTÈMES POUR CODER LE SAVOIR. Avec CC, documentaliste (donc spécialiste) lit le doc, et va choisir qq mots d’un vocabulaire contrôlé pour décrire son contenu. Lorsque utilisateur cherche document : 1) il connaît le document, ses références | 2) il a une idée du thème > va devoir utiliser le vocabulaire de la classfct doc pour accéder au document. Ouvrages de références: produits documentaires (ressources) pour s’instruire sur un domaine et conseiller accès vers autres documents
Modélisation du document 2. Avec l’informatique Un nouveau document : le document numérique Avec le Web 1.0 Hypertexte : Liens entre documents et document « interactif » Avec le Web 2.0 Document « collaboratif » : multiples sources, multiples auteurs Avec le Web 3.0 ? Document numérique, contenu peut être composite, et bornes ne sont pas physiques (ex la feuille de papier). Lié à la dématérialisation (passage du papier au numérique). Pose la question de la définition et homogénéité de son contenu, de ses limites, et du même coup des utilisations qu’il est possible d’en faire. 2.0 : Web collaboratif. Outils de com et d’apprentissage médiés. Interaction entre doc et différents utilisateurs qui enrichissent le document par leurs connaissances et leurs interventions. Autre conception du WEB 2.0 : web collaboratif fait par les utilisateurs, par leurs usages : folksonomie, tagging, détournement des outils initialement prévus. 3.0 : patrimoines : ici pas tant le document et sa construction qui est en question, mais sa place, son intégration à des projets plus vastes. Non plus de la description du document, mais la description de son contenu par le contexte de lecture et rapports entre individu, contexte et document? Notion de musées virtuels, de galeries.
Modélisation du document 2. Avec l’informatique Techniques documentaires Méta-données Indexation par mot-clé Mais pour les ressources ? Standardisation forte : ontologies Vs Collaboratif : folksonomie Accès : les SRI 2.0 : Normaliser la représentation du contenu. Ne plus accéder par index, mais par la substantifique moelle du document, ses « concepts », son SENS. Attention, pour Berners Lee & Co, aucune notion d’interprétation : juste réalisation d’une représentation générale du monde une ontologie standard (conçue main dans la main avec l’armement et le commerce US!). Puis chaque concepteur de document vient placer son doc dans l’ontologie.
Les SRI (systèmes de recherche d’information) Logiciel qui assure la tâche de recherche d’information Au centre : un moteur de recherche Pivot entre représentation des documents Et représentation du besoin des utilisateurs Expression d’un besoin d’utilisateur : requête Résultats obtenus Requête -----> Moteur de recherche ------> réponse Ce qui nous intéresse ici c’est ce pivot. Quelle représentation est adoptée ? Représentation en plain texte ? Seulement des méta données ? Des mots clés ?
Les SRI Calculatoires et algorithmiques Vers un nouveau paradigme ? Approche performative Représentation fondée sur étude statistique du texte Vers un nouveau paradigme ? Approche sociale et cognitive Études des comportements informationnels Nouveau paradigme : récent, volonté de replacer l’utilisateur au centre de ce processus
Logiciels de RI Moteurs de recherche à part entière Google, Yahoo!, Altavista, Bing Exalead, Boolgum Ujiko, Kartoo Moteurs de recherche « intégrés » ou dédiés Spinoo (éducation) Intégrés : site du CNRS, Encyclopédie Universalis, etc…
Le TAL en RI Où intervenir ? Comment ? Modélisation des documents/info Aide à la reformulation de requête Comment ? Extraction automatique de termes Construction d’index, d’ontologies Extract : LSA / pondération, loi de Zipf. Statistiques pour extraire pour chauqe texte les mots « saillants » Construction : à artir de voca de spécialité, par extraction ou à la main, en plein texte ou sur meta données ? Quelle correspondance entre index et expression de l’utilisateur? Capacité à reformuler dmd user ?
Evaluation de la RI Deux approches différentes Centré système Centré utilisateur Deux pratiques différentes Méthodes de laboratoire Etude des usages Enjeu : place de l’utilisateur dans l’éval Etude des usages : prise en compte du comportement réel des usagers
Evaluation de la RI Qu’est-ce qu’on évalue ? La pertinence des résultats ? La pertinence de l’index ? La construction de la requête ? L’ergonomie ? La prise en compte de l’utilisateur ? Pertinence des résultats > métrique binaire, bon ou pas bon Pertinence de l’index > cas de langue naturelle -> traitement des pluriels irréguliers (œil/yeux), entrée par lemme ou pour chaque forme, ttmt des verbes… Construction requête > utilisation d’opérateurs ? (define: ) utilisation de booléens ? Prise en compte des caractères spéciaux ? Exécution de calcul ? Ergonomie : simple ? Chargée? RA ? … Prise en compte user dans personnalisation des propositions ? Possibilité de paramétrer le moteur ?
Campagnes d’évaluation Campagnes les plus connues TREC (NIST) Recherche documentaire, extraction de données, fouille de textes Test de la pertinence des résultats Réponse à des requêtes +/- courtes NTCIR Recherche d’information
Evaluation : la pertinence Ecueils principaux en RI Bruits Silence Mesures utilisées Précision Rappel
Evaluation : Rappel et Précision Nombre de documents pertinents trouvés par rapport au nombre de documents total Précision Nombre de documents pertinents parmi tous les documents trouvés F-mesure 2(P*R)/P+R
Evaluation : L’index Langage naturel / contrôlé ? Plein texte ou champs limités ? Ambiguïtés : quel traitement ? Traitement syntaxique ? Sémantique ?
Evaluation : Les modes de recherche Recherche simple Recherche simple avec opérateurs Recherche avancée Recherche à partir d’un index