Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parChristiane Lesueur Modifié depuis plus de 9 années
1
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez
2
Plan de la présentation Introduction Etat de l’art L’algorithme proposé Le système implémenté Résultats expérimentaux et discussion Conclusion et travaux à venir Conclusion personnelle et questions
3
Introduction Plus de 25.21 billions de pages web depuis la création du web (Worldwidewebsize.com, 2012) Recherche d’information difficile Utilisation des moteurs de recherche 2 problèmes principaux Modèles basés sur la recherche de mots clés Tâche de recherche extrêmement chronophage Opinions d’autres utilisateurs peuvent améliorer les résultats
4
Etat de l’art Exploitation des informations utilisateurs dans le processus de recherche Méthode de collecte des données « click through data » Filtrage et tagging collaboratif Algorithmes de ranking et systèmes de recherche sémantique existants Pagerank Google web search clustering Sensebot Moteurs de recherche tirer profit du tagging 3 approches d’indexation (naïve, co-occurrence, adaptative)
5
L’algorithme proposé Tire avantage des approches et fonctionnalités expliquées pour améliorer le ranking des résultats 4 grands principes Usage collaboratif des logs et des annotations sémantiques Désambiguisation Extension des possibilités des moteurs de recherche traditionnels Un temps de réponse bas pour l’obtention des résultats Important à préciser l’algorithme proposé utilise des informations récoltées pendant tout le processus de recherche
6
L’algorithme proposé Processus de recherche et de récolte des données 4 grands principes 1) Formulation d’une requête « q » q = {t ∈ T} where T is the set of terms and t represents a term of the query, and being t = {w ∈ à W}, where W is the set of words and w refers to a word the term is composed of Un exemple plus simple : q1 {{“Bush“}, {“Rome“}} two terms, each of them composed of one word
7
L’algorithme proposé 2) Désambiguisation de la requête On la nomme : dq = {(t,c) ∈ TxC} t represents a term of the original query q and c represents a Wikipedia concept that term has been disambiguated to, being C the set of Wikipedia pages related to particular concepts Ex : c1 = ‘‘http://es.wikipedia.org/wiki/George_W_Bush’’ c2 = ‘‘http://es.wikipedia.org/wiki/George_H_W_Bush’’ c3 = ‘‘http://en.wikipedia.org/wiki/Rome’’ c4 = ‘‘http://en.wikipedia.org/wiki/Rome_Georgia’’ Deux exemples possibles pour désambiguiser la requête : Dq 1 1 {({“Bush“}, c1), ({“Rome“}, c3)} Dq 2 1 {({“Bush“}, c2), ({“Rome“}, c4)}
8
L’algorithme proposé 3) Extension des possibilités des moteurs de recherche traditionnels L’annotation des ressources (user feedback) Lorsqu’un résultat retourné peut être considéré pertinent ou non
9
L’algorithme proposé 4) L’utilisation des annotations Pour une requête désambiguisée donnée (dq), une annotation que l’on nommera « andq,r » pourra être inscrite sur une ressource web « r » et où « andq,r » = {(t, c, score) ∈ T X C X {-1, 0, 1} Une ressource web identifiée par une URL « r » peut être considérée reliée ou non au concept de la requête formulée -1 indique aucune relation ; 1 indique l’opposé ; 0 indique que l’utilisateur ne sait pas où n’a pas répondu q2 = {{“Sun“}} ; c5 = ‘‘http://en.wikipedia.org/wiki/Sun,’’representing the star ; dq2 = {({“Sun"}, c5)} r1 = “www:sun:com", the site of Sun Microsystems company an1dq2r1 = {({“Sun“}, c5, -1)}
10
L’algorithme proposé L’algorithme a besoin du set de termes désambiguisés Le set peut devenir très conséquent au fur et à mesure des requêtes Ressources de calcul énormes Ralentissement du processus Pour pallier à ce problème accumulateur On considère le nombre total de pages indexées A chaque fois qu’une ressource est annotée, l’accumulateur est mis à jour Related, unrelated, undifferent Un exemple : acr1, c5 = (r1, c5, 100, 3000, 6900, -6800, 10000)
11
L’algorithme proposé Fonctionnement Basé sur « rq » et « rdq »
12
Le système implémenté Création d’un moteur de recherche « Itaca » Fonctionnement en quelques étapes 1) formulation de la requête
13
Le système implémenté 2) Désambiguisation de la requête
14
Le système implémenté 3) Résultats finaux et annotations
15
Résultats expérimentaux et discussion Elaboration d’un lot de requêtes (top 80 requêtes Google et Yahoo) 8 utilisateurs, 20 requêtes, 160 requêtes 6556 annotations, 14441 termes, 42 concepts, 2386 ressources web
16
Résultats expérimentaux et discussion Le temps de réponse n’augmente pas en parallèle des annotations… …Mais peut augmenter à cause des ressources qui augmentent Création d’un index inversé
17
Travaux à venir Etudier le comportement des utilisateurs Etudier les relations entre les utilisateurs Nouvelles recherches concernant la similitude des concepts wikipédia Utilisation de nouvelles sources type dbpedia Nouvelles fonctionnalités
18
Conclusion personnelle / questions? Apporte des pistes très intéressantes Peut largement aider dans la RI mais… …Les utilisateurs sont-ils prêts à prendre du temps pour participer au processus ? Dépend sans doute des communautés d’utilisateurs ayant des comportement différents Questions ?
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.