La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.

Présentations similaires


Présentation au sujet: "Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez."— Transcription de la présentation:

1 Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez

2 Plan de la présentation  Introduction  Etat de l’art  L’algorithme proposé  Le système implémenté  Résultats expérimentaux et discussion  Conclusion et travaux à venir  Conclusion personnelle et questions

3 Introduction  Plus de 25.21 billions de pages web depuis la création du web (Worldwidewebsize.com, 2012)  Recherche d’information difficile  Utilisation des moteurs de recherche  2 problèmes principaux  Modèles basés sur la recherche de mots clés  Tâche de recherche extrêmement chronophage  Opinions d’autres utilisateurs peuvent améliorer les résultats

4 Etat de l’art  Exploitation des informations utilisateurs dans le processus de recherche  Méthode de collecte des données  « click through data »  Filtrage et tagging collaboratif  Algorithmes de ranking et systèmes de recherche sémantique existants  Pagerank Google  web search clustering  Sensebot  Moteurs de recherche  tirer profit du tagging  3 approches d’indexation (naïve, co-occurrence, adaptative)

5 L’algorithme proposé  Tire avantage des approches et fonctionnalités expliquées pour améliorer le ranking des résultats  4 grands principes  Usage collaboratif des logs et des annotations sémantiques  Désambiguisation  Extension des possibilités des moteurs de recherche traditionnels  Un temps de réponse bas pour l’obtention des résultats  Important à préciser  l’algorithme proposé utilise des informations récoltées pendant tout le processus de recherche

6 L’algorithme proposé  Processus de recherche et de récolte des données  4 grands principes  1) Formulation d’une requête « q »  q = {t ∈ T} where T is the set of terms and t represents a term of the query, and being t = {w ∈ à W}, where W is the set of words and w refers to a word the term is composed of  Un exemple plus simple :  q1 {{“Bush“}, {“Rome“}}  two terms, each of them composed of one word

7 L’algorithme proposé  2) Désambiguisation de la requête  On la nomme : dq = {(t,c) ∈ TxC}  t represents a term of the original query q and c represents a Wikipedia concept that term has been disambiguated to, being C the set of Wikipedia pages related to particular concepts  Ex : c1 = ‘‘http://es.wikipedia.org/wiki/George_W_Bush’’ c2 = ‘‘http://es.wikipedia.org/wiki/George_H_W_Bush’’ c3 = ‘‘http://en.wikipedia.org/wiki/Rome’’ c4 = ‘‘http://en.wikipedia.org/wiki/Rome_Georgia’’  Deux exemples possibles pour désambiguiser la requête :  Dq 1 1 {({“Bush“}, c1), ({“Rome“}, c3)}  Dq 2 1 {({“Bush“}, c2), ({“Rome“}, c4)}

8 L’algorithme proposé  3) Extension des possibilités des moteurs de recherche traditionnels  L’annotation des ressources (user feedback)  Lorsqu’un résultat retourné peut être considéré pertinent ou non

9 L’algorithme proposé  4) L’utilisation des annotations  Pour une requête désambiguisée donnée (dq), une annotation que l’on nommera « andq,r » pourra être inscrite sur une ressource web « r » et où « andq,r » = {(t, c, score) ∈ T X C X {-1, 0, 1}  Une ressource web identifiée par une URL « r » peut être considérée reliée ou non au concept de la requête formulée  -1 indique aucune relation ; 1 indique l’opposé ; 0 indique que l’utilisateur ne sait pas où n’a pas répondu  q2 = {{“Sun“}} ; c5 = ‘‘http://en.wikipedia.org/wiki/Sun,’’representing the star ; dq2 = {({“Sun"}, c5)}  r1 = “www:sun:com", the site of Sun Microsystems company  an1dq2r1 = {({“Sun“}, c5, -1)}

10 L’algorithme proposé  L’algorithme a besoin du set de termes désambiguisés  Le set peut devenir très conséquent au fur et à mesure des requêtes  Ressources de calcul énormes  Ralentissement du processus  Pour pallier à ce problème  accumulateur  On considère le nombre total de pages indexées  A chaque fois qu’une ressource est annotée, l’accumulateur est mis à jour  Related, unrelated, undifferent  Un exemple : acr1, c5 = (r1, c5, 100, 3000, 6900, -6800, 10000)

11 L’algorithme proposé  Fonctionnement  Basé sur « rq » et « rdq »

12 Le système implémenté  Création d’un moteur de recherche « Itaca »  Fonctionnement en quelques étapes  1) formulation de la requête

13 Le système implémenté  2) Désambiguisation de la requête

14 Le système implémenté  3) Résultats finaux et annotations

15 Résultats expérimentaux et discussion  Elaboration d’un lot de requêtes (top 80 requêtes Google et Yahoo)  8 utilisateurs, 20 requêtes, 160 requêtes  6556 annotations, 14441 termes, 42 concepts, 2386 ressources web

16 Résultats expérimentaux et discussion  Le temps de réponse n’augmente pas en parallèle des annotations…  …Mais peut augmenter à cause des ressources qui augmentent  Création d’un index inversé

17 Travaux à venir  Etudier le comportement des utilisateurs  Etudier les relations entre les utilisateurs  Nouvelles recherches concernant la similitude des concepts wikipédia  Utilisation de nouvelles sources type dbpedia  Nouvelles fonctionnalités

18 Conclusion personnelle / questions?  Apporte des pistes très intéressantes  Peut largement aider dans la RI mais…  …Les utilisateurs sont-ils prêts à prendre du temps pour participer au processus ?  Dépend sans doute des communautés d’utilisateurs ayant des comportement différents Questions ?


Télécharger ppt "Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez."

Présentations similaires


Annonces Google