Recherche - Évaluation

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
Licence pro MPCQ : Cours
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Regroupement (clustering)
Test statistique : principe
Les numéros 70 –
Les numéros
Introduction à la logique
Systèmes Experts implémentation en Prolog
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Estimation de la survie comparaison des courbes de survie FRT C3.
Indexation textuelle : Systèmes de recherche d’informations
Ordonnancement des mouvements de deux robots
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Améliorer les performances du chiffrage à flot SYND
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
La méthodologie………………………………………………………….. p3 Les résultats
Un neurone élémentaire
Application des algorithmes génétiques
Jack Jedwab Association détudes canadiennes Le 27 septembre 2008 Sondage post-Olympique.
1 WEB EFFICACITE 3 WHAT IS WEB 2.0 ? 4 SIMPLICITE.
RELATION COÛT-VOLUME-BÉNÉFICE
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Présentation générale
Cours de physique générale I Ph 11
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Le drapeau canadien comme symbole de fierté nationale : une question de valeurs partagées Jack Jedwab Association détudes canadiennes 28 novembre 2012.
1.2 COMPOSANTES DES VECTEURS
Session 7 1 IST/VIH/SIDA.
Le Concours de Conaissance Francais I novembre 2012.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
Méthode des k plus proches voisins
Normalisation - Pondération
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
Tableaux de distributions
Tableaux de distributions
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
LES NOMBRES PREMIERS ET COMPOSÉS
Systèmes d’équations du premier degré à deux variables
Logiciel gratuit à télécharger à cette adresse :
Les chiffres & les nombres
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
Représentation des systèmes dynamiques dans l’espace d’état
Systèmes mécaniques et électriques
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
Des indicateurs de performance pertinents et adéquats
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
1.1 LES VECTEURS GÉOMÉTRIQUES
1 Licence dinformatique Algorithmique des graphes Problèmes dordonnancement. Utilisation de ce document strictement réservée aux étudiants de l IFSIC dans.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Chapitre 3 La cinématique à une dimension
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Résoudre une équation du 1er degré à une inconnue
Aire d’une figure par encadrement
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Nom:____________ Prénom: ___________
Jean de la Fontaine UMP Présidentielle 2017 Récitant: Fernandel Le lièvre et la tortue Par Nanou et Stan.
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)
Dominique LAURENT Patrick SEGUELA
Transcription de la présentation:

Recherche - Évaluation Indexation et Recherche d'Information

Rappels des épisodes précédents

Les acteurs de la Recherche d'Information Collection : un ensemble de documents Les systèmes de RI doivent pouvoir traiter : De grandes masses d'information En langage naturel (et créée pour des humains) De façon rapide et pertinente Utilisateur : un besoin d'information et/ou une tâche à accomplir

Recherche d'Information Indexation (modèle de document) Collections dynamiques vs. statiques Modèle de recherche Évaluation Requête

Construction de l’index : vue générale DOCUMENTS TERMES Rien ne sert de courir il faut partir à point INDEX TEXTE Rien ne sert de courir; il faut partir à point : «Gageons, dit celle-ci, que vous n'atteindrez point Le lièvre et la tortue en sont un témoignage. Sitôt que moi ce but. - Sitôt? Êtes-vous sage ? Ma commère, il vous faut purger Repartit l'animal léger : Avec quatre grains d'ellébore.) - Sage ou non, je parie encore." On mit près du but les enjeux : Ainsi fut fait; et de tous deux Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint. J'entends de ceux qu'il fait lorsque, prêt d'être atteint, Notre lièvre n'avait que quatre pas à faire, Il s'éloigne des chiens, les renvoie aux calendes, Ayant, dis-je, du temps de reste pour brouter, Et leur fait arpenter les landes. D'où vient le vent, il laisse la tortue Pour dormir et pour écouter Aller son train de sénateur. Elle part, elle s'évertue, Lui cependant méprise une telle victoire, Elle se hâte avec lenteur. Tient la gageure à peu de gloire, De partir tard. Il broute, il se repose, Croit qu'il y a de son honneur Qu'à la gageure. A la fin, quand il vit Il s'amuse à toute autre chose Que l'autre touchait presque au bout de la carrière, Il partit comme un trait; mais les élans qu'il fit "Eh bien! lui cria-t-elle, avais-je pas raison ? Furent vains : la tortue arriva la première. Moi l'emporter! et que serait-ce De quoi vous sert votre vitesse ? Si vous portiez une maison ?" TERMES normalisés rien sert courir faut partir point

Fichier inverse

Sac de mots Modèles « sac de mots » pour l’indexation et la recherche : On oublie l’ordre des mots On raisonne en termes de présence / absence des termes dans un document, ou en terme de fréquence de ces termes

tf.idf Intuition #1 : plus un document contient d'occurrences  d'un terme, plus il est "à propos" de ce terme Intuition #2 : des termes très fréquents dans tous les documents ne sont pas si importants (ils sont moins discriminants) Le poids d’un terme (tf.idf) est la combinaison de ces deux intuitions pour rendre compte du caractère discriminant d’un terme dans un document 𝒘 𝒕,𝒅 = 𝒕𝒇 𝒕,𝒅 ×𝒊𝒅𝒇 𝒕 = 𝒕𝒇 𝒕,𝒅 ×𝒍𝒐𝒈 𝟏𝟎 𝑵 𝒅𝒇 𝒕 (ou sa variante)

Proposition temporaire de similarité Proposition pour le score de similarité d’un document D en fonction d’une requête Q On ne la conservera pas! 𝑠𝑖𝑚 𝑄,𝐷 = 𝑡 ∈𝑄∩𝐷 𝑤 𝑡,𝐷

Du modèle booléen aux modèles à listes de résultats ordonnés

Modèles de recherche : les trois courants Modèles fondés sur la théorie des ensembles ► Modèle booléen Modèles algébriques ► Modèle vectoriel Modèles probabilistes ► Modélisation de la notion de "pertinence" Courants fondés à l'aube de la discipline (années 60, 70) Passage à l'échelle : des bases documentaires "jouets" au téraoctet de TREC et au Web

Modèle booléen Le premier et le plus simple des modèles Basé sur la théorie des ensembles et l'algèbre de Boole Les termes de la requête sont soit présents soit absents Poids binaire des termes, 0 ou 1 Un document est soit pertinent soit non pertinent Pertinence binaire, et jamais partielle (modèle exact) La requête s'exprime avec des opérateurs logiques AND, OR, NOT (cyclisme OR natation) AND NOT dopage le document est pertinent si et seulement si son contenu respecte la formule logique demandée

Modèle booléen : exemple Requête Q : (cyclisme OR natation) AND NOT dopage Le document contient Pertinence du document cyclisme natation cyclisme OR natation dopage NOT dopage 1

Modèle booléen : avantages et inconvénients Le modèle est transparent et simple à comprendre pour l'utilisateur : Pas de paramètres "cachés" Raison de sélection d'un document claire : il répond à une formule logique Adapté pour les spécialistes (vocabulaire contraint) Inconvénients : Il est difficile d'exprimer des requêtes longues sous forme booléenne Le critère binaire peu efficace Il est admis que la pondération des termes améliore les résultats cf. modèle booléen étendu Il est impossible d'ordonner les résultats Tous les documents retournés sont sur le même plan L'utilisateur préfère un classement lorsque la liste est grande

Recherche d'information semi-structurée Extensions possibles Recherche d'information semi-structurée Opérateurs d'adjacence ou de proximité : « base NEAR données » Nécessite la conservation des positions des mots dans les documents Pondération des mots-clés « JO AND Pékin AND (natation:3 OR cyclisme:4 OR athlétisme:2) » Permet un classement des résultats, mais selon des préférences exprimées par l'utilisateur Voir aussi plus loin le modèle booléen étendu

Vers des listes ordonnées de résultats La plupart des utilisateurs : ont du mal à écrire des requêtes booléennes ne veulent pas parcourir trop de résultats (des milliers, voire des millions) On préfère donc des listes ordonnées Du plus utile à l’utilisateur (pertinent) au moins utile Le nombre de résultats n’est plus un problème L’utilisateur en parcourt autant qu’il le souhaite La condition : avoir un algorithme d’ordonnancement efficace Modèle statistique : Aspect quantitatif des termes et des documents Degré de similarité entre une requête et un document

Modèle vectoriel

Modèle vectoriel Mesure de similarité : Plus deux représentations contiennent les mêmes éléments, plus la probabilité qu’elles représentent la même information est élevée. Documents et requête sont représentés par un vecteur Les coordonnées du vecteur sont exprimées dans un espace euclidien à n dimensions (n : nombre de termes) La longueur du vecteur (i.e. de sa projection sur chacun des axes/termes) est proportionnelle au poids des termes. La pertinence du document correspond au degré de similarité entre le vecteur de la requête et celui du document  On ordonne les documents du plus similaire à la requête au moins similaire

Modèle vectoriel Requête Q : t1 t2 t3 D Q Document D : … t1 … t3 … t3 0.80 Document D : … t1 … t3 … Poids wD,t1 = 0.45 t1 0.45 Poids wD,t3 = 0.80 t2

Quelle mesure de similarité ? Distance euclidienne ? Produit scalaire ? t2 t2 D1 D1 Q Q D2 D3 D2 D3 D4 D4 sim 𝑄 , 𝐷 = 𝑄 ∙ 𝐷 = 𝑖=1 𝑛 𝑤 𝑖,𝑄 × 𝑤 𝑖,𝐷 t1 t1 … Pourquoi ? Une mauvaise idée…

Quelle mesure de similarité ? La solution : travailler avec l’angle entre les vecteurs t2 D1 Cosinus Q sim 𝑄 , 𝐷 = 𝑄 ∙ 𝐷 𝑄 × 𝐷 = 𝑖=1 𝑛 𝑤 𝑖,𝑄 × 𝑤 𝑖,𝐷 𝑤² 𝑖,𝑄 × 𝑤² 𝑖,𝐷 D2 D3 D4 (Le produit scalaire avec normalisation de la longueur des vecteurs) t1 Quelle est la contribution d’un terme isolé ?

Quelle mesure de similarité ? Recherche d'information semi-structurée Quelle mesure de similarité ? Autres mesures : Dice Jaccard Overlap 𝑅𝑆𝑉 Q , D = 2 𝑤 𝑖Q × 𝑤 𝑖D 𝑤 𝑖Q + 𝑤 𝑖D 2∣𝐴∩𝐵∣ ∣𝐴∣+∣𝐵∣ 𝑅𝑆𝑉 Q , D = 𝑤 𝑖Q × 𝑤 𝑖D 𝑤 𝑖Q + 𝑤 𝑖D − 𝑤 𝑖Q × 𝑤 𝑖D ∣𝐴∩𝐵∣ ∣𝐴∪𝐵∣ 𝑅𝑆𝑉 Q , D = 𝑤 𝑖Q × 𝑤 𝑖D 𝑚𝑖𝑛 𝑤 𝑖D , 𝑤 𝑖Q ∣𝐴∩𝐵∣ 𝑚𝑖𝑛 ∣𝐴∣,∣𝐵∣

Modèle vectoriel – résumé On représente la requête comme un vecteur (quelle pondération ?) On représente chaque document comme un vecteur pondéré On calcule la similarité (cosinus par exemple) entre chaque vecteur document et le vecteur requête On ordonne les résultats dans l’ordre inverse des scores obtenus On fournit les k premiers résultats à l’utilisateur À retenir pour le projet !

Modèle vectoriel : avantages et inconvénients Le langage de requête est plus simple (liste de mot-clés) Les performances sont meilleures grâce à la pondération des termes Le renvoi de documents à pertinence partielle est possible La fonction d'appariement permet de trier les documents Inconvénients : Le modèle considère que tous les termes sont indépendants (inconvénient théorique) Le langage de requête est moins expressif L'utilisateur voit moins pourquoi un document lui est renvoyé  Le modèle vectoriel est le plus populaire en RI

Autres modèles

Modèle probabiliste (1/4) Recherche d'information semi-structurée Modèle probabiliste (1/4) Estimation de la probabilité de pertinence d'un document par rapport à une requête Probability Ranking Principle (Robertson 77) R : D est pertinent pour Q ¬R : D n'est pas pertinent pour Q Le but : estimer P(R/D) : probabilité que le document D soit contienne de l'information pertinente pour Q P(¬R/D) variables indépendantes, deux ensembles de documents séparés si 𝑃 𝑅 D 𝑃 ¬𝑅 D >1 ou si log 𝑃 𝑅 D 𝑃 ¬𝑅 D >0 alors D est pertinent

Modèle probabiliste Rappel du théorème de Bayes : On ne sait pas calculer P(R/D), mais on peut calculer P(D /R) Probabilité d'obtenir D en connaissant les pertinents Probabilité d'obtenir un document pertinent en piochant au hasard Probabilité de piocher D au hasard

Modèle probabiliste En utilisant l'hypothèse d'indépendance des termes : Pour estimer les probabilités sur les termes, on peut utiliser des requêtes déjà résolues (apprentissage) puis des pondérations Exemple (système Okapi) : le tf.idf la longueur du document la longueur moyenne des documents

Modèle probabiliste : conclusion Recherche d'information semi-structurée Deux modèles phares : 2-poisson Okapi Autres modèles de type probabiliste : Réseaux bayésiens Modèle de langage Conclusion : Problème des probabilités initiales Termes indépendants Résultats comparables à ceux du modèle vectoriel

Recherche d'information semi-structurée Modèle booléen étendu Recherche d'information semi-structurée Idée : permettre l'utilisation des opérateurs logiques tout en proposant une pertinence graduée Combinaison des modèles booléen et vectoriel Utilisation de la pondération des termes dans un document (tf.idf) Comme dans le modèle vectoriel, positionnement des documents dans un espace euclidien dont les axes sont les termes de la requête Calcul de la distance entre les coordonnées du document et : les coordonnées idéales (requête ET) les coordonnées nulles (requête OU)

Modèle booléen étendu : exemple (1/2) Recherche d'information semi-structurée Modèle booléen étendu : exemple (1/2) Requête Q : t1 AND/OR t2 t2 0,65 0,75 t1 1 0,5 0,25 (0,0) (1,1) x2 x1 y2 y1 Document D1 : ... t1 ... t2 ... poids wD1,t1 = 0.75 D1 D2 poids wD1,t2 = 0.65 Document D2 : ... t1 ... t2 ... poids wD2,t1 = 0.25 poids wD2,t2 = 0.50

Modèle booléen étendu : exemple (2/2) Recherche d'information semi-structurée Modèle booléen étendu : exemple (2/2) t1 OR t2 t1 AND t2 t2 0,65 0,75 t1 1 0,5 0,25 t2 0,65 0,75 t1 1 0,5 0,25 (1,1) (1,1) y1 y1 D2 D2 y2 D1 y2 D1 x2 x1 x2 x1 (0,0) (0,0) 𝑅𝑆𝑉 D , Q OR = 𝑥 2 + 𝑦 2 2 𝑅𝑆𝑉 D , Q AND =1− 1−𝑥 2 + 1−𝑦 2 2

Modèle booléen étendu : formule finale Recherche d'information semi-structurée Modèle booléen étendu : formule finale 𝑅𝑆𝑉 D , Q OR = 𝑝 𝑖=1..m 𝑐 𝑚 𝑝 𝑚 𝑅𝑆𝑉 D , Q AND =1− 𝑝 𝑖=1..m 1−𝑐 𝑚 𝑝 𝑚 avec : c les coordonnées des mots m le nombre de termes de la requête 1 ≤ p ≤ ∞ p = 1  modèle booléen classique p = 2  exemple précédent

Autres modèles algébriques Recherche d'information semi-structurée Modèle vectoriel généralisé Représente les dépendances entre termes Théoriquement intéressant, mais efficacité non démontrée Latent Semantic Indexing Propose d'étudier les "concepts" plutôt que les termes, car ce sont eux qui relaient les idées d'un texte. Lie les documents entre eux et avec la requête Permet de renvoyer des documents ne contenant aucun mot de la requête Moins de dimensions Réseaux de neurones ...

Recherche d'information semi-structurée Pour aller plus loin... Recherche d'information semi-structurée (Dominik Kuropka 04)

Recherche d'information semi-structurée Quelques outils lucy/zettair cheshire dataparksearch engine lemur lucene (et solr) terrier wumpus xapian http://www.seg.rmit.edu.au/zettair/ http://cheshire.lib.berkeley.edu/ http://www.dataparksearch.org/ http://www.lemurproject.org/ http://jakarta.apache.org/lucene/docs/ http://ir.dcs.gla.ac.uk/terrier/ http://www.wumpus-search.org/ http://www.xapian.org/ liste et liens sur http://www.emse.fr/~mbeig/IR/tools.html

Relevance feedback

Relevance feedback (1/2) Recherche d'information semi-structurée "Réinjection de la pertinence" Hypothèse : la requête initiale de l'utilisateur n'est pas la requête idéale pour obtenir les documents qu'il cherche But : déplacer le vecteur de la requête pour la rapprocher des documents pertinents documents non pertinents documents pertinents Q Q'

Relevance feedback (2/2) Recherche d'information semi-structurée "Manuel explicite" : L'utilisateur visualise les n premiers résultats Il estime la pertinence de chacun (0 ou 1) Nouvelle requête obtenue à partir des documents jugés pertinents et non pertinents Automatique (blind relevance feedback) : Les n premiers résultats du premier run sont supposés pertinents Même processus que pour le relevance feedback manuel (sans les documents non pertinents)

Relevance feedback : formule de Rocchio Recherche d'information semi-structurée 𝑄′ =α 𝑄 +β 𝑃 +γ 𝑁𝑃 moyenne des vecteurs des documents non pertinents valeur négative (ex : -0,25) moyenne des vecteurs des documents pertinents valeur positive (ex : 0.5) vecteur requête initial valeur positive supérieure aux autres (ex : 1) nouveau vecteur requête

Formule de Rocchio : exemple Recherche d'information semi-structurée Formule de Rocchio : exemple 𝑄′ =α 𝑄 +β 𝑃 +γ 𝑁𝑃 𝑄 = 5,0,3,0,1 𝑃 = 2,1,2,0,0 = D 1 𝑁𝑃 = 1,0,0,0,2 = D 2 𝑄′ = 𝑄 + 𝑃 − 𝑁𝑃 cosinus D1 D2 Q1 0,90 0,53 Q2 0,95 0,43 𝑄′ = 5.75,0.5,4,0,0.5

Divers

Recherche d'information semi-structurée Recherche multimédia Recherche d'information semi-structurée Texte et/ou image et/ou audio et/ou vidéo... Des collections très volumineuses : ex : collection Wikipédia pour INEX 4.6 Go en texte seul, 60 Go avec les images Documents structurés (MPEG-7...) Utilisation : des métadonnées du texte "environnant" les images (légende, point de référence...) des caractéristiques propres des documents autres que le texte : Analyse d'image Speech-to-text ...

Quels résultats présenter ? Recherche d'information semi-structurée Il est inutile et coûteux de présenter trop de résultats Où s'arrêter ? Un seuil : Fixe Difficile à trouver Risque de ne rien présenter Fonction du meilleur score Quelle signification ? Comportement variable Augmentation brutale de la pente La méthode du « coude » cosinus rang

Expansion de la requête Ajouter des mots pertinents à la requête initiale et les pondérer efficacement Méthodes pour palier les problèmes liés au langage naturel « bateau » ne ramène pas le mot « navire » « thermodynamique » ne ramène pas « chaleur » « félin » ne ramène pas « chat » … Le relevance feedback sert aussi à ça (en partie) Pourquoi ?

Expansion de la requête Les thesaurus « manuels » Les thesaurus automatiques (voir page suivante) L’analyse des logs de requêtes

Génération automatique de thesaurus Fondée sur la similarité entre deux mots Co-occurrence de deux mots : deux mots qui apparaissent fréquemment ensemble possèdent une relation sémantique entre eux Ex: « location » et « appartement » Conduit à des relations sémantiques non spécifiées Co-occurrence des contextes : deux mots sont similaires s’ils co-occurrent avec des mots similaires Ex: « bateau » et « navire », « chat » et « félin », mais aussi « chat » et « chien », « PS » et « UMP », etc. Conduit plutôt à des relations lexicales de synonymie ou hyperonymie, mais peut également être plus large Possibilité d’utiliser les relations syntaxiques également

Génération automatique de thesaurus chat  animal de compagnie, siamois, client IRC, persan, chien, … télévision  TV, séries, programme, radio, images, … Expansion de requêtes à base de thesaurus : Ajouter les mots jugés similaires à la requête Éventuellement, donner des pondérations en fonction du niveau de similarité Quand s’arrête-t-on d’étendre la requête ? Quels sont les effets de ces expansions de requêtes sur la précision et le rappel ?

Évaluation

Recherche d'Information Indexation (modèle de document) Collections dynamiques vs. statiques Modèle de recherche Évaluation Requête

Qu’est-ce qu’un bon moteur de recherche ? Il est rapide ! Une analyse rapide de la requête Une recherche rapide dans l’index Un tri rapide des résultats Il est complet et à jour ! Tous les (ou de nombreux) documents de la collection sont traités Les nouveaux documents sont incorporés rapidement aux résultats Une construction rapide de l’index (sur le Web) Une découverte permanente, efficace et rapide des nouveaux documents

Qu’est-ce qu’un bon moteur de recherche ? Son langage de requêtes est simple et expressif Ces notions dépendent des types d’utilisateurs Un modèle de recherche et d’indexation approprié Son interface est sympa De nombreuses recherches dans ce domaine Il est gratuit ou pas cher  Les moteurs de recherche (sur le Web mais pas seulement) sont un enjeu économique très important (et il faut trouver des recettes)

Qu’est-ce qu’un bon moteur de recherche ? Mais surtout… il est pertinent ! Ses résultats doivent satisfaire le besoin d’information de l’utilisateur Mais ce point est plus difficile à mesurer Il n’est pas indépendant des autres points (la satisfaction de l’utilisateur dépend de l’ensemble des critères) Ce point dépend des utilisateurs Les humains sont subjectifs Ils ont leurs propres connaissances Ils ont des besoins différents qui n’apparaissent pas toujours dans leur expression de ces besoins

Comment mesurer la pertinence ? Un moteur sur le Web L’utilisateur clique sur certains liens et pas sur d’autres L’utilisateur retourne sur le moteur L’utilisateur effectue une certaine tâche Un site de e-commerce L’utilisateur achète (mais alors de qui mesure-t-on la satisfaction ?) Il achète vite Une forte proportion de visiteurs achètent Un site d’entreprise L’utilisateur gagne-t-il en productivité ? L’accès est-il sécurisé ? Etc.

Qu’est-ce qu’une bonne évaluation ? Évaluer un système sert à : Savoir s’il remplit la tâche assignée Savoir s’il est meilleur que la concurrence Savoir où on peut l’améliorer Il faut donc une évaluation : Reproductible Pour évaluer plusieurs systèmes de la même façon Pour estimer les progrès accomplis Interprétable Pour identifier les zones de progrès possible Rapide Pour pouvoir évaluer chaque modification du système indépendamment Objective

Comment rendre la pertinence objective ? Rappel : Le besoin de l’utilisateur est d’abord transformé en requête, ce qui comporte déjà une perte d’information. On mesure la pertinence des résultats par rapport au besoin d’information initial, pas par rapport à la requête ! (ex: « java ») Des résultats peuvent être « très pertinents », « pas du tout pertinent », mais aussi « un peu pertinents », « moui » ou « je le savais déjà » Pour rendre la pertinence objective : On en simplifie la définition Les documents sont traités indépendamment les uns des autres La pertinence est transformée en notion binaire On utilise des « collections de test »

Collections de test La collection de test rend les expériences reproductibles On met au point un protocole On juge manuellement un nombre significatif d’exemples « Gold standard » Une partie peut également servir d’ensemble de « développement » et/ou d’ « apprentissage » On calcule un accord inter-annotateurs Pour valider le caractère objectif On compare les résultats du système aux résultats attendus On définit des mesures imparfaites mais précises

Évaluation : précision et rappel Documents renvoyés ET pertinents Documents pertinents P bruit silence Retour du système S

Précision et rappel Pourquoi pas juste la précision ? La précision évalue la capacité d’un système à renvoyer SURTOUT des documents pertinents Renvoyer un seul document pertinent suffit à obtenir 100 % de précision Ce n’est pas compatible avec la satisfaction de l’utilisateur ! Pourquoi pas juste le rappel ? Le rappel évalue la capacité d’un système à renvoyer TOUS les documents pertinents Renvoyer tous les documents de la collection permet d’obtenir 100 % de rappel  Ce n’est pas compatible avec la satisfaction de l’utilisateur !

Courbe rappel/précision Le rappel augmente bien sûr avec le nombre de réponses La précision diminue (en général) On utilise la courbe rappel/précision pour caractériser les systèmes de recherche d'information 1 0,8 0,6 0,4 0,2 ,1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 1

Évaluation : F-mesure Pour obtenir une valeur unique entre 0 et 1, on utilise la F-mesure (moyenne harmonique) Pour donner autant d'importance à la précision qu'au rappel, on choisit  = 1  < 1 favorise la précision,  > 1 favorise le rappel

Évaluation : autres mesures MAP (Mean Average Precision) : aire sous la courbe R/P P@5, P@10 : précision après 10 documents retrouvés favorise la haute/très haute précision P@100, ... Taux d'erreur = (faux positifs + faux négatifs) / pertinents et de nombreuses autres... MAP

Recherche d'information semi-structurée Le pooling (1/3) Recherche d'information semi-structurée Problème du rappel dans les collections importantes Le rappel impose en théorie de connaître tous les documents pertinents Impossible en pratique Le pooling : Une fusion "intelligente" des résultats Les n premiers documents produits par les systèmes sont fusionnés (n = 100 ou plus) Seuls ces documents sont jugés par les experts humains Les documents non jugés sont considérés comme non pertinents Le calcul du rappel fait comme si tout avait été jugé

Recherche d'information semi-structurée Le pooling (2/3) Recherche d'information semi-structurée L’accord inter-annotateurs est d'environ 80% Au mieux 50 à 70 % des documents pertinents seraient retrouvés par cette méthode (Zobel 98) Le biais qui en résulte : Le rappel est surévalué La précision est sous-évaluée Les systèmes "originaux" qui s'entraînent sur ces collections peuvent être pénalisés Mais : Le biais est faible s'il y a suffisamment de requêtes et de systèmes L'évaluation "relative" (comparaison entre systèmes) reste valable On n'a pas le choix

Recherche d'information semi-structurée Le pooling (3/3) Recherche d'information semi-structurée Documents pertinents Précision perdue Documents pertinents pooling Retour du Système Rappel gagné

Campagnes d'évaluation Recherche d'information semi-structurée TREC (Text REtrieval Conference) : Événement phare du domaine, tous les ans depuis 1992 Sponsorisée par la DARPA De nombreux axes de recherche : Multimédia : image, vidéo, Web Types de recherche spécifiques : questions-réponses, interactif, filtrage, "cross-language", "home page«  Domaines spécifiques : génomique, légal Modes d'expression spécifiques : blogs, spams ... CLEF (Cross-Language Evaluation Forum), spécialisée dans les langages européens NTCIR, spécialisée dans les langages asiatiques

Retour sur la normalisation

Influence de la normalisation Quelle est l’influence des techniques de normalisation sur la précision et le rappel ? Utilisation des mots vides Lemmatisation Racinisation … Quelle peut être l’influence d’autres techniques sur la précision et le rappel ? Ajout de synonymes ? Utilisation de la syntaxe des phrases ? Requête