La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Recherche - Évaluation

Présentations similaires


Présentation au sujet: "Recherche - Évaluation"— Transcription de la présentation:

1 Recherche - Évaluation
Indexation et Recherche d'Information

2 Rappels des épisodes précédents

3 Les acteurs de la Recherche d'Information
Collection : un ensemble de documents Les systèmes de RI doivent pouvoir traiter : De grandes masses d'information En langage naturel (et créée pour des humains) De façon rapide et pertinente Utilisateur : un besoin d'information et/ou une tâche à accomplir

4 Recherche d'Information
Indexation (modèle de document) Collections dynamiques vs. statiques Modèle de recherche Évaluation Requête

5 Construction de l’index : vue générale
DOCUMENTS TERMES Rien ne sert de courir il faut partir à point INDEX TEXTE Rien ne sert de courir; il faut partir à point : «Gageons, dit celle-ci, que vous n'atteindrez point Le lièvre et la tortue en sont un témoignage. Sitôt que moi ce but. - Sitôt? Êtes-vous sage ? Ma commère, il vous faut purger Repartit l'animal léger : Avec quatre grains d'ellébore.) - Sage ou non, je parie encore." On mit près du but les enjeux : Ainsi fut fait; et de tous deux Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint. J'entends de ceux qu'il fait lorsque, prêt d'être atteint, Notre lièvre n'avait que quatre pas à faire, Il s'éloigne des chiens, les renvoie aux calendes, Ayant, dis-je, du temps de reste pour brouter, Et leur fait arpenter les landes. D'où vient le vent, il laisse la tortue Pour dormir et pour écouter Aller son train de sénateur. Elle part, elle s'évertue, Lui cependant méprise une telle victoire, Elle se hâte avec lenteur. Tient la gageure à peu de gloire, De partir tard. Il broute, il se repose, Croit qu'il y a de son honneur Qu'à la gageure. A la fin, quand il vit Il s'amuse à toute autre chose Que l'autre touchait presque au bout de la carrière, Il partit comme un trait; mais les élans qu'il fit "Eh bien! lui cria-t-elle, avais-je pas raison ? Furent vains : la tortue arriva la première. Moi l'emporter! et que serait-ce De quoi vous sert votre vitesse ? Si vous portiez une maison ?" TERMES normalisés rien sert courir faut partir point

6 Fichier inverse

7 Sac de mots Modèles « sac de mots » pour l’indexation et la recherche : On oublie l’ordre des mots On raisonne en termes de présence / absence des termes dans un document, ou en terme de fréquence de ces termes

8 tf.idf Intuition #1 : plus un document contient d'occurrences  d'un terme, plus il est "à propos" de ce terme Intuition #2 : des termes très fréquents dans tous les documents ne sont pas si importants (ils sont moins discriminants) Le poids d’un terme (tf.idf) est la combinaison de ces deux intuitions pour rendre compte du caractère discriminant d’un terme dans un document 𝒘 𝒕,𝒅 = 𝒕𝒇 𝒕,𝒅 ×𝒊𝒅𝒇 𝒕 = 𝒕𝒇 𝒕,𝒅 ×𝒍𝒐𝒈 𝟏𝟎 𝑵 𝒅𝒇 𝒕 (ou sa variante)

9 Proposition temporaire de similarité
Proposition pour le score de similarité d’un document D en fonction d’une requête Q On ne la conservera pas! 𝑠𝑖𝑚 𝑄,𝐷 = 𝑡 ∈𝑄∩𝐷 𝑤 𝑡,𝐷

10 Du modèle booléen aux modèles à listes de résultats ordonnés

11 Modèles de recherche : les trois courants
Modèles fondés sur la théorie des ensembles ► Modèle booléen Modèles algébriques ► Modèle vectoriel Modèles probabilistes ► Modélisation de la notion de "pertinence" Courants fondés à l'aube de la discipline (années 60, 70) Passage à l'échelle : des bases documentaires "jouets" au téraoctet de TREC et au Web

12 Modèle booléen Le premier et le plus simple des modèles
Basé sur la théorie des ensembles et l'algèbre de Boole Les termes de la requête sont soit présents soit absents Poids binaire des termes, 0 ou 1 Un document est soit pertinent soit non pertinent Pertinence binaire, et jamais partielle (modèle exact) La requête s'exprime avec des opérateurs logiques AND, OR, NOT (cyclisme OR natation) AND NOT dopage le document est pertinent si et seulement si son contenu respecte la formule logique demandée

13 Modèle booléen : exemple
Requête Q : (cyclisme OR natation) AND NOT dopage Le document contient Pertinence du document cyclisme natation cyclisme OR natation dopage NOT dopage 1

14 Modèle booléen : avantages et inconvénients
Le modèle est transparent et simple à comprendre pour l'utilisateur : Pas de paramètres "cachés" Raison de sélection d'un document claire : il répond à une formule logique Adapté pour les spécialistes (vocabulaire contraint) Inconvénients : Il est difficile d'exprimer des requêtes longues sous forme booléenne Le critère binaire peu efficace Il est admis que la pondération des termes améliore les résultats cf. modèle booléen étendu Il est impossible d'ordonner les résultats Tous les documents retournés sont sur le même plan L'utilisateur préfère un classement lorsque la liste est grande

15 Recherche d'information semi-structurée
Extensions possibles Recherche d'information semi-structurée Opérateurs d'adjacence ou de proximité : « base NEAR données » Nécessite la conservation des positions des mots dans les documents Pondération des mots-clés « JO AND Pékin AND (natation:3 OR cyclisme:4 OR athlétisme:2) » Permet un classement des résultats, mais selon des préférences exprimées par l'utilisateur Voir aussi plus loin le modèle booléen étendu

16 Vers des listes ordonnées de résultats
La plupart des utilisateurs : ont du mal à écrire des requêtes booléennes ne veulent pas parcourir trop de résultats (des milliers, voire des millions) On préfère donc des listes ordonnées Du plus utile à l’utilisateur (pertinent) au moins utile Le nombre de résultats n’est plus un problème L’utilisateur en parcourt autant qu’il le souhaite La condition : avoir un algorithme d’ordonnancement efficace Modèle statistique : Aspect quantitatif des termes et des documents Degré de similarité entre une requête et un document

17 Modèle vectoriel

18 Modèle vectoriel Mesure de similarité : Plus deux représentations contiennent les mêmes éléments, plus la probabilité qu’elles représentent la même information est élevée. Documents et requête sont représentés par un vecteur Les coordonnées du vecteur sont exprimées dans un espace euclidien à n dimensions (n : nombre de termes) La longueur du vecteur (i.e. de sa projection sur chacun des axes/termes) est proportionnelle au poids des termes. La pertinence du document correspond au degré de similarité entre le vecteur de la requête et celui du document  On ordonne les documents du plus similaire à la requête au moins similaire

19 Modèle vectoriel Requête Q : t1 t2 t3 D Q Document D : … t1 … t3 … t3
0.80 Document D : … t1 … t3 … Poids wD,t1 = 0.45 t1 0.45 Poids wD,t3 = 0.80 t2

20 Quelle mesure de similarité ?
Distance euclidienne ? Produit scalaire ? t2 t2 D1 D1 Q Q D2 D3 D2 D3 D4 D4 sim 𝑄 , 𝐷 = 𝑄 ∙ 𝐷 = 𝑖=1 𝑛 𝑤 𝑖,𝑄 × 𝑤 𝑖,𝐷 t1 t1 … Pourquoi ? Une mauvaise idée…

21 Quelle mesure de similarité ?
La solution : travailler avec l’angle entre les vecteurs t2 D1 Cosinus Q sim 𝑄 , 𝐷 = 𝑄 ∙ 𝐷 𝑄 × 𝐷 = 𝑖=1 𝑛 𝑤 𝑖,𝑄 × 𝑤 𝑖,𝐷 𝑤² 𝑖,𝑄 × 𝑤² 𝑖,𝐷 D2 D3 D4 (Le produit scalaire avec normalisation de la longueur des vecteurs) t1 Quelle est la contribution d’un terme isolé ?

22 Quelle mesure de similarité ?
Recherche d'information semi-structurée Quelle mesure de similarité ? Autres mesures : Dice Jaccard Overlap 𝑅𝑆𝑉 Q , D = 2 𝑤 𝑖Q × 𝑤 𝑖D 𝑤 𝑖Q 𝑤 𝑖D 2∣𝐴∩𝐵∣ ∣𝐴∣+∣𝐵∣ 𝑅𝑆𝑉 Q , D = 𝑤 𝑖Q × 𝑤 𝑖D 𝑤 𝑖Q 𝑤 𝑖D − 𝑤 𝑖Q × 𝑤 𝑖D ∣𝐴∩𝐵∣ ∣𝐴∪𝐵∣ 𝑅𝑆𝑉 Q , D = 𝑤 𝑖Q × 𝑤 𝑖D 𝑚𝑖𝑛 𝑤 𝑖D , 𝑤 𝑖Q ∣𝐴∩𝐵∣ 𝑚𝑖𝑛 ∣𝐴∣,∣𝐵∣

23 Modèle vectoriel – résumé
On représente la requête comme un vecteur (quelle pondération ?) On représente chaque document comme un vecteur pondéré On calcule la similarité (cosinus par exemple) entre chaque vecteur document et le vecteur requête On ordonne les résultats dans l’ordre inverse des scores obtenus On fournit les k premiers résultats à l’utilisateur À retenir pour le projet !

24 Modèle vectoriel : avantages et inconvénients
Le langage de requête est plus simple (liste de mot-clés) Les performances sont meilleures grâce à la pondération des termes Le renvoi de documents à pertinence partielle est possible La fonction d'appariement permet de trier les documents Inconvénients : Le modèle considère que tous les termes sont indépendants (inconvénient théorique) Le langage de requête est moins expressif L'utilisateur voit moins pourquoi un document lui est renvoyé  Le modèle vectoriel est le plus populaire en RI

25 Autres modèles

26 Modèle probabiliste (1/4)
Recherche d'information semi-structurée Modèle probabiliste (1/4) Estimation de la probabilité de pertinence d'un document par rapport à une requête Probability Ranking Principle (Robertson 77) R : D est pertinent pour Q ¬R : D n'est pas pertinent pour Q Le but : estimer P(R/D) : probabilité que le document D soit contienne de l'information pertinente pour Q P(¬R/D) variables indépendantes, deux ensembles de documents séparés si 𝑃 𝑅 D 𝑃 ¬𝑅 D >1 ou si log 𝑃 𝑅 D 𝑃 ¬𝑅 D >0 alors D est pertinent

27 Modèle probabiliste Rappel du théorème de Bayes :
On ne sait pas calculer P(R/D), mais on peut calculer P(D /R) Probabilité d'obtenir D en connaissant les pertinents Probabilité d'obtenir un document pertinent en piochant au hasard Probabilité de piocher D au hasard

28 Modèle probabiliste En utilisant l'hypothèse d'indépendance des termes : Pour estimer les probabilités sur les termes, on peut utiliser des requêtes déjà résolues (apprentissage) puis des pondérations Exemple (système Okapi) : le tf.idf la longueur du document la longueur moyenne des documents

29 Modèle probabiliste : conclusion
Recherche d'information semi-structurée Deux modèles phares : 2-poisson Okapi Autres modèles de type probabiliste : Réseaux bayésiens Modèle de langage Conclusion : Problème des probabilités initiales Termes indépendants Résultats comparables à ceux du modèle vectoriel

30 Recherche d'information semi-structurée
Modèle booléen étendu Recherche d'information semi-structurée Idée : permettre l'utilisation des opérateurs logiques tout en proposant une pertinence graduée Combinaison des modèles booléen et vectoriel Utilisation de la pondération des termes dans un document (tf.idf) Comme dans le modèle vectoriel, positionnement des documents dans un espace euclidien dont les axes sont les termes de la requête Calcul de la distance entre les coordonnées du document et : les coordonnées idéales (requête ET) les coordonnées nulles (requête OU)

31 Modèle booléen étendu : exemple (1/2)
Recherche d'information semi-structurée Modèle booléen étendu : exemple (1/2) Requête Q : t1 AND/OR t2 t2 0,65 0,75 t1 1 0,5 0,25 (0,0) (1,1) x2 x1 y2 y1 Document D1 : t1 ... t2 ... poids wD1,t1 = 0.75 D1 D2 poids wD1,t2 = 0.65 Document D2 : t1 ... t2 ... poids wD2,t1 = 0.25 poids wD2,t2 = 0.50

32 Modèle booléen étendu : exemple (2/2)
Recherche d'information semi-structurée Modèle booléen étendu : exemple (2/2) t1 OR t2 t1 AND t2 t2 0,65 0,75 t1 1 0,5 0,25 t2 0,65 0,75 t1 1 0,5 0,25 (1,1) (1,1) y1 y1 D2 D2 y2 D1 y2 D1 x2 x1 x2 x1 (0,0) (0,0) 𝑅𝑆𝑉 D , Q OR = 𝑥 2 + 𝑦 2 2 𝑅𝑆𝑉 D , Q AND =1− 1−𝑥 −𝑦 2 2

33 Modèle booléen étendu : formule finale
Recherche d'information semi-structurée Modèle booléen étendu : formule finale 𝑅𝑆𝑉 D , Q OR = 𝑝 𝑖=1..m 𝑐 𝑚 𝑝 𝑚 𝑅𝑆𝑉 D , Q AND =1− 𝑝 𝑖=1..m 1−𝑐 𝑚 𝑝 𝑚 avec : c les coordonnées des mots m le nombre de termes de la requête 1 ≤ p ≤ ∞ p = 1  modèle booléen classique p = 2  exemple précédent

34 Autres modèles algébriques
Recherche d'information semi-structurée Modèle vectoriel généralisé Représente les dépendances entre termes Théoriquement intéressant, mais efficacité non démontrée Latent Semantic Indexing Propose d'étudier les "concepts" plutôt que les termes, car ce sont eux qui relaient les idées d'un texte. Lie les documents entre eux et avec la requête Permet de renvoyer des documents ne contenant aucun mot de la requête Moins de dimensions Réseaux de neurones ...

35 Recherche d'information semi-structurée
Pour aller plus loin... Recherche d'information semi-structurée (Dominik Kuropka 04)

36 Recherche d'information semi-structurée
Quelques outils lucy/zettair cheshire dataparksearch engine lemur lucene (et solr) terrier wumpus xapian liste et liens sur

37 Relevance feedback

38 Relevance feedback (1/2)
Recherche d'information semi-structurée "Réinjection de la pertinence" Hypothèse : la requête initiale de l'utilisateur n'est pas la requête idéale pour obtenir les documents qu'il cherche But : déplacer le vecteur de la requête pour la rapprocher des documents pertinents documents non pertinents documents pertinents Q Q'

39 Relevance feedback (2/2)
Recherche d'information semi-structurée "Manuel explicite" : L'utilisateur visualise les n premiers résultats Il estime la pertinence de chacun (0 ou 1) Nouvelle requête obtenue à partir des documents jugés pertinents et non pertinents Automatique (blind relevance feedback) : Les n premiers résultats du premier run sont supposés pertinents Même processus que pour le relevance feedback manuel (sans les documents non pertinents)

40 Relevance feedback : formule de Rocchio
Recherche d'information semi-structurée 𝑄′ =α 𝑄 +β 𝑃 +γ 𝑁𝑃 moyenne des vecteurs des documents non pertinents valeur négative (ex : -0,25) moyenne des vecteurs des documents pertinents valeur positive (ex : 0.5) vecteur requête initial valeur positive supérieure aux autres (ex : 1) nouveau vecteur requête

41 Formule de Rocchio : exemple
Recherche d'information semi-structurée Formule de Rocchio : exemple 𝑄′ =α 𝑄 +β 𝑃 +γ 𝑁𝑃 𝑄 = 5,0,3,0,1 𝑃 = 2,1,2,0,0 = D 1 𝑁𝑃 = 1,0,0,0,2 = D 2 𝑄′ = 𝑄 + 𝑃 − 𝑁𝑃 cosinus D1 D2 Q1 0,90 0,53 Q2 0,95 0,43 𝑄′ = 5.75,0.5,4,0,0.5

42 Divers

43 Recherche d'information semi-structurée
Recherche multimédia Recherche d'information semi-structurée Texte et/ou image et/ou audio et/ou vidéo... Des collections très volumineuses : ex : collection Wikipédia pour INEX 4.6 Go en texte seul, 60 Go avec les images Documents structurés (MPEG-7...) Utilisation : des métadonnées du texte "environnant" les images (légende, point de référence...) des caractéristiques propres des documents autres que le texte : Analyse d'image Speech-to-text ...

44 Quels résultats présenter ?
Recherche d'information semi-structurée Il est inutile et coûteux de présenter trop de résultats Où s'arrêter ? Un seuil : Fixe Difficile à trouver Risque de ne rien présenter Fonction du meilleur score Quelle signification ? Comportement variable Augmentation brutale de la pente La méthode du « coude » cosinus rang

45 Expansion de la requête
Ajouter des mots pertinents à la requête initiale et les pondérer efficacement Méthodes pour palier les problèmes liés au langage naturel « bateau » ne ramène pas le mot « navire » « thermodynamique » ne ramène pas « chaleur » « félin » ne ramène pas « chat » Le relevance feedback sert aussi à ça (en partie) Pourquoi ?

46 Expansion de la requête
Les thesaurus « manuels » Les thesaurus automatiques (voir page suivante) L’analyse des logs de requêtes

47 Génération automatique de thesaurus
Fondée sur la similarité entre deux mots Co-occurrence de deux mots : deux mots qui apparaissent fréquemment ensemble possèdent une relation sémantique entre eux Ex: « location » et « appartement » Conduit à des relations sémantiques non spécifiées Co-occurrence des contextes : deux mots sont similaires s’ils co-occurrent avec des mots similaires Ex: « bateau » et « navire », « chat » et « félin », mais aussi « chat » et « chien », « PS » et « UMP », etc. Conduit plutôt à des relations lexicales de synonymie ou hyperonymie, mais peut également être plus large Possibilité d’utiliser les relations syntaxiques également

48 Génération automatique de thesaurus
chat  animal de compagnie, siamois, client IRC, persan, chien, … télévision  TV, séries, programme, radio, images, … Expansion de requêtes à base de thesaurus : Ajouter les mots jugés similaires à la requête Éventuellement, donner des pondérations en fonction du niveau de similarité Quand s’arrête-t-on d’étendre la requête ? Quels sont les effets de ces expansions de requêtes sur la précision et le rappel ?

49 Évaluation

50 Recherche d'Information
Indexation (modèle de document) Collections dynamiques vs. statiques Modèle de recherche Évaluation Requête

51 Qu’est-ce qu’un bon moteur de recherche ?
Il est rapide ! Une analyse rapide de la requête Une recherche rapide dans l’index Un tri rapide des résultats Il est complet et à jour ! Tous les (ou de nombreux) documents de la collection sont traités Les nouveaux documents sont incorporés rapidement aux résultats Une construction rapide de l’index (sur le Web) Une découverte permanente, efficace et rapide des nouveaux documents

52 Qu’est-ce qu’un bon moteur de recherche ?
Son langage de requêtes est simple et expressif Ces notions dépendent des types d’utilisateurs Un modèle de recherche et d’indexation approprié Son interface est sympa De nombreuses recherches dans ce domaine Il est gratuit ou pas cher  Les moteurs de recherche (sur le Web mais pas seulement) sont un enjeu économique très important (et il faut trouver des recettes)

53 Qu’est-ce qu’un bon moteur de recherche ?
Mais surtout… il est pertinent ! Ses résultats doivent satisfaire le besoin d’information de l’utilisateur Mais ce point est plus difficile à mesurer Il n’est pas indépendant des autres points (la satisfaction de l’utilisateur dépend de l’ensemble des critères) Ce point dépend des utilisateurs Les humains sont subjectifs Ils ont leurs propres connaissances Ils ont des besoins différents qui n’apparaissent pas toujours dans leur expression de ces besoins

54 Comment mesurer la pertinence ?
Un moteur sur le Web L’utilisateur clique sur certains liens et pas sur d’autres L’utilisateur retourne sur le moteur L’utilisateur effectue une certaine tâche Un site de e-commerce L’utilisateur achète (mais alors de qui mesure-t-on la satisfaction ?) Il achète vite Une forte proportion de visiteurs achètent Un site d’entreprise L’utilisateur gagne-t-il en productivité ? L’accès est-il sécurisé ? Etc.

55 Qu’est-ce qu’une bonne évaluation ?
Évaluer un système sert à : Savoir s’il remplit la tâche assignée Savoir s’il est meilleur que la concurrence Savoir où on peut l’améliorer Il faut donc une évaluation : Reproductible Pour évaluer plusieurs systèmes de la même façon Pour estimer les progrès accomplis Interprétable Pour identifier les zones de progrès possible Rapide Pour pouvoir évaluer chaque modification du système indépendamment Objective

56 Comment rendre la pertinence objective ?
Rappel : Le besoin de l’utilisateur est d’abord transformé en requête, ce qui comporte déjà une perte d’information. On mesure la pertinence des résultats par rapport au besoin d’information initial, pas par rapport à la requête ! (ex: « java ») Des résultats peuvent être « très pertinents », « pas du tout pertinent », mais aussi « un peu pertinents », « moui » ou « je le savais déjà » Pour rendre la pertinence objective : On en simplifie la définition Les documents sont traités indépendamment les uns des autres La pertinence est transformée en notion binaire On utilise des « collections de test »

57 Collections de test La collection de test rend les expériences reproductibles On met au point un protocole On juge manuellement un nombre significatif d’exemples « Gold standard » Une partie peut également servir d’ensemble de « développement » et/ou d’ « apprentissage » On calcule un accord inter-annotateurs Pour valider le caractère objectif On compare les résultats du système aux résultats attendus On définit des mesures imparfaites mais précises

58 Évaluation : précision et rappel
Documents renvoyés ET pertinents Documents pertinents P bruit silence Retour du système S

59 Précision et rappel Pourquoi pas juste la précision ?
La précision évalue la capacité d’un système à renvoyer SURTOUT des documents pertinents Renvoyer un seul document pertinent suffit à obtenir 100 % de précision Ce n’est pas compatible avec la satisfaction de l’utilisateur ! Pourquoi pas juste le rappel ? Le rappel évalue la capacité d’un système à renvoyer TOUS les documents pertinents Renvoyer tous les documents de la collection permet d’obtenir 100 % de rappel  Ce n’est pas compatible avec la satisfaction de l’utilisateur !

60 Courbe rappel/précision
Le rappel augmente bien sûr avec le nombre de réponses La précision diminue (en général) On utilise la courbe rappel/précision pour caractériser les systèmes de recherche d'information 1 0,8 0,6 0,4 0,2 ,1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 1

61 Évaluation : F-mesure Pour obtenir une valeur unique entre 0 et 1, on utilise la F-mesure (moyenne harmonique) Pour donner autant d'importance à la précision qu'au rappel, on choisit  = 1  < 1 favorise la précision,  > 1 favorise le rappel

62 Évaluation : autres mesures
MAP (Mean Average Precision) : aire sous la courbe R/P : précision après 10 documents retrouvés favorise la haute/très haute précision ... Taux d'erreur = (faux positifs + faux négatifs) / pertinents et de nombreuses autres... MAP

63 Recherche d'information semi-structurée
Le pooling (1/3) Recherche d'information semi-structurée Problème du rappel dans les collections importantes Le rappel impose en théorie de connaître tous les documents pertinents Impossible en pratique Le pooling : Une fusion "intelligente" des résultats Les n premiers documents produits par les systèmes sont fusionnés (n = 100 ou plus) Seuls ces documents sont jugés par les experts humains Les documents non jugés sont considérés comme non pertinents Le calcul du rappel fait comme si tout avait été jugé

64 Recherche d'information semi-structurée
Le pooling (2/3) Recherche d'information semi-structurée L’accord inter-annotateurs est d'environ 80% Au mieux 50 à 70 % des documents pertinents seraient retrouvés par cette méthode (Zobel 98) Le biais qui en résulte : Le rappel est surévalué La précision est sous-évaluée Les systèmes "originaux" qui s'entraînent sur ces collections peuvent être pénalisés Mais : Le biais est faible s'il y a suffisamment de requêtes et de systèmes L'évaluation "relative" (comparaison entre systèmes) reste valable On n'a pas le choix

65 Recherche d'information semi-structurée
Le pooling (3/3) Recherche d'information semi-structurée Documents pertinents Précision perdue Documents pertinents pooling Retour du Système Rappel gagné

66 Campagnes d'évaluation
Recherche d'information semi-structurée TREC (Text REtrieval Conference) : Événement phare du domaine, tous les ans depuis 1992 Sponsorisée par la DARPA De nombreux axes de recherche : Multimédia : image, vidéo, Web Types de recherche spécifiques : questions-réponses, interactif, filtrage, "cross-language", "home page«  Domaines spécifiques : génomique, légal Modes d'expression spécifiques : blogs, spams ... CLEF (Cross-Language Evaluation Forum), spécialisée dans les langages européens NTCIR, spécialisée dans les langages asiatiques

67 Retour sur la normalisation

68 Influence de la normalisation
Quelle est l’influence des techniques de normalisation sur la précision et le rappel ? Utilisation des mots vides Lemmatisation Racinisation Quelle peut être l’influence d’autres techniques sur la précision et le rappel ? Ajout de synonymes ? Utilisation de la syntaxe des phrases ? Requête


Télécharger ppt "Recherche - Évaluation"

Présentations similaires


Annonces Google