Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.

Slides:



Advertisements
Présentations similaires
Présentation des technologies SharePoint 2007
Advertisements

E-learning Evolutif Albarelli Corinne Behem Patrice Guillot Jérôme
La recherche documentaire
W3Line | 10 Ter, Rue Pasteur – BOURG LES VALENCE | Tél. : – Fax : | – Web :
Using Semantic Caching to Manage Location Dependent Data in Mobile Computing (2000) Qun Ren, Margaret H. Dunham Southern Methodist University Dallas, Texas.
TOUTES LES FORMES Two slides each set per one concept. Kathleen Pepin.
Principe d identification des internautes Au service du dataWebhouse Philippe Holland :
1 Programme de la journée Échange sur les programmes de 1 ère et de Terminale Les épreuves écrites et orales Conception de sujets doral.
COMMENT FONCTIONNE GOOGLE. QUE FAIT UN MOTEUR DE RECHERCHE? Contrairement à une base de données structurée dont on peut facilement extraire des informations,
ETAPES DE LA RECHERCHE DOCUMENTAIRE
La Recherche en Ligne.
Questions/problèmes Contraintes de départ… ressources, plateforme… utilisation de matériel existant –Pas de temps du prof pour préparer des exemples… concrets…
Un intranet documentaire : concepts, outils et avantages
LE REFERENCEMENT NATUREL S.E.O. (Search Engine Optimisation)
Annotations sémantiques pour le domaine des biopuces
Plan la séance 4 La problématique d’une recherche
Centre d’Excellence en Technologies de l’Information et de la Communication Moteurs de recherche Aspects techniques et retours d’expérience Christophe.
Développement d’un réseau social professionnel
Bibliothèque Saint-Jean Octobre 2013 ANTHE 393 Travail dapplication #3: Santé dans un contexte multiculturel contemporain.
Google, un moteur de recherche comme les autres ?
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
Moteur de recherche d’information
Moteur de recherche d’information
Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.
ADAMOS Une plate-forme pour concevoir et évaluer des services proactifs Système proactif ? qui évolue en fonction des paramètres de lenvironnement physique.
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Moteurs de recherche Modex Web Modex Web 441 professeur Go
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
IFT6255 – Recherche d’information Jian-Yun Nie
Les techniques des moteurs de recherche
Monitoring the Dynamic Web to respond to Continuous Queries Le titre en français : Surveillance de l'enchaînement dynamique pour répondre aux questions.
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Tous droits réservés 04 octobre 2005© présente Les Moteurs de Recherche.
Web sémantique Par Lydia Carine Mampais KI Bamba SISSOKO
Amélioration de la performance des SISR et de l’utilisation de l’information pour la gestion des systèmes de santé CESAG, Dakar, du 03 au 21 Mai 2010 Solutions.
CONGRÈS RÉGIONAUX Planifier, effectuer et utiliser l’évaluation.
MOUGEL Sébastien Le web 2.0 Effet de mode ou réelle innovation ?
La plateforme ETHNOSIRIS Une plateforme web sémantique de social tagging multilingue, multi- dialecte et polygraphe dédiée à la préservation participative.
Plusieurs techniques ont été expérimenté. Différentes modulations ont été étudiées et testées. Un setup expérimental a été mis en place. Les résultats.
Merci de lire le dossier d’Abondance (Olivier Andrieu) 20 conseils pour résoudre les problèmes de référencement m/2010/09/20-conseils-pour-reussir-
Algorithmes pour le web “A Unified Approach to Personalization Based on Probabilistic Latent Semantic Models of Web Usage and Content”
LA RECHERCHE DOCUMENTAIRE
Moteurs de recherche ontologiques
Web sémantique est pratique documentaire
Initiation à la conception des systèmes d'informations
Recherche d’information
10 juin 2008 Journée Technologies et Enjeux de l'Apprentissage Mobile Equipe SIMBAD.
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Web Spam Taxonomy (2005) Par : Zoltan Gyöngyi Hector Garcia-Molina Présentation: Algorithmique pour le Web Mirwais TAYEBI
T . P . E Travaux Personnels Encadrés
08/06/2000Inauguration CIME Romain Zeiliger CNRS-GATE 93 Chemin des Mouilles, Ecully, France NESTOR : Un navigateur Web cartographe et collaboratif.
David COLL Université de Genève 19 novembre 2008.
Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.
G ROUPE IRIUM ™ N°1 européen des PGI pour Distributeurs, Loueurs & Importateurs de Machines Les Bases de Connaissances Knowledge Base Maxime HILAIRE 07/05/2008.
Efficient Crawling Through URL Ordering Junghoo Cho - Hector Garcia-Molina - Lawrence Page Department of Computer Science Stanford, CA Algorithmes.
Combating Web Spam with TrustRank. OSINI Aurélien.
Les Systèmes de Gestion de Contenu (CMS) Allirand Maud Chabord Grégoire Massart Anne-Sophie 24 novembre 2006.
Moteurs et métamoteurs de recherche
Informatique et Sciences du Numérique
LA RECHERCHE D’INFORMATIONS SUR internet
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
R ETOURS SUR LE PROJET DISTIL ET PERSPECTIVES 2011 Sylvie Ranwez Gérard Dray.
System de recommandations
Nous allons maintenant sélectionner le bouton pour le format MEDLINE et retenir les options 20 résultats par page et Sort by Most Recent (tri par plus.
« Web 2.0 : l’impact sur la transformation de l’entreprise » Jeudi 7 février 2008 Refonte du site du Guide Share France V1.0 – Février 2008 David SapiroOlivier.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez

Plan de la présentation  Introduction  Etat de l’art  L’algorithme proposé  Le système implémenté  Résultats expérimentaux et discussion  Conclusion et travaux à venir  Conclusion personnelle et questions

Introduction  Plus de billions de pages web depuis la création du web (Worldwidewebsize.com, 2012)  Recherche d’information difficile  Utilisation des moteurs de recherche  2 problèmes principaux  Modèles basés sur la recherche de mots clés  Tâche de recherche extrêmement chronophage  Opinions d’autres utilisateurs peuvent améliorer les résultats

Etat de l’art  Exploitation des informations utilisateurs dans le processus de recherche  Méthode de collecte des données  « click through data »  Filtrage et tagging collaboratif  Algorithmes de ranking et systèmes de recherche sémantique existants  Pagerank Google  web search clustering  Sensebot  Moteurs de recherche  tirer profit du tagging  3 approches d’indexation (naïve, co-occurrence, adaptative)

L’algorithme proposé  Tire avantage des approches et fonctionnalités expliquées pour améliorer le ranking des résultats  4 grands principes  Usage collaboratif des logs et des annotations sémantiques  Désambiguisation  Extension des possibilités des moteurs de recherche traditionnels  Un temps de réponse bas pour l’obtention des résultats  Important à préciser  l’algorithme proposé utilise des informations récoltées pendant tout le processus de recherche

L’algorithme proposé  Processus de recherche et de récolte des données  4 grands principes  1) Formulation d’une requête « q »  q = {t ∈ T} where T is the set of terms and t represents a term of the query, and being t = {w ∈ à W}, where W is the set of words and w refers to a word the term is composed of  Un exemple plus simple :  q1 {{“Bush“}, {“Rome“}}  two terms, each of them composed of one word

L’algorithme proposé  2) Désambiguisation de la requête  On la nomme : dq = {(t,c) ∈ TxC}  t represents a term of the original query q and c represents a Wikipedia concept that term has been disambiguated to, being C the set of Wikipedia pages related to particular concepts  Ex : c1 = ‘‘ c2 = ‘‘ c3 = ‘‘ c4 = ‘‘  Deux exemples possibles pour désambiguiser la requête :  Dq 1 1 {({“Bush“}, c1), ({“Rome“}, c3)}  Dq 2 1 {({“Bush“}, c2), ({“Rome“}, c4)}

L’algorithme proposé  3) Extension des possibilités des moteurs de recherche traditionnels  L’annotation des ressources (user feedback)  Lorsqu’un résultat retourné peut être considéré pertinent ou non

L’algorithme proposé  4) L’utilisation des annotations  Pour une requête désambiguisée donnée (dq), une annotation que l’on nommera « andq,r » pourra être inscrite sur une ressource web « r » et où « andq,r » = {(t, c, score) ∈ T X C X {-1, 0, 1}  Une ressource web identifiée par une URL « r » peut être considérée reliée ou non au concept de la requête formulée  -1 indique aucune relation ; 1 indique l’opposé ; 0 indique que l’utilisateur ne sait pas où n’a pas répondu  q2 = {{“Sun“}} ; c5 = ‘‘ the star ; dq2 = {({“Sun"}, c5)}  r1 = “www:sun:com", the site of Sun Microsystems company  an1dq2r1 = {({“Sun“}, c5, -1)}

L’algorithme proposé  L’algorithme a besoin du set de termes désambiguisés  Le set peut devenir très conséquent au fur et à mesure des requêtes  Ressources de calcul énormes  Ralentissement du processus  Pour pallier à ce problème  accumulateur  On considère le nombre total de pages indexées  A chaque fois qu’une ressource est annotée, l’accumulateur est mis à jour  Related, unrelated, undifferent  Un exemple : acr1, c5 = (r1, c5, 100, 3000, 6900, -6800, 10000)

L’algorithme proposé  Fonctionnement  Basé sur « rq » et « rdq »

Le système implémenté  Création d’un moteur de recherche « Itaca »  Fonctionnement en quelques étapes  1) formulation de la requête

Le système implémenté  2) Désambiguisation de la requête

Le système implémenté  3) Résultats finaux et annotations

Résultats expérimentaux et discussion  Elaboration d’un lot de requêtes (top 80 requêtes Google et Yahoo)  8 utilisateurs, 20 requêtes, 160 requêtes  6556 annotations, termes, 42 concepts, 2386 ressources web

Résultats expérimentaux et discussion  Le temps de réponse n’augmente pas en parallèle des annotations…  …Mais peut augmenter à cause des ressources qui augmentent  Création d’un index inversé

Travaux à venir  Etudier le comportement des utilisateurs  Etudier les relations entre les utilisateurs  Nouvelles recherches concernant la similitude des concepts wikipédia  Utilisation de nouvelles sources type dbpedia  Nouvelles fonctionnalités

Conclusion personnelle / questions?  Apporte des pistes très intéressantes  Peut largement aider dans la RI mais…  …Les utilisateurs sont-ils prêts à prendre du temps pour participer au processus ?  Dépend sans doute des communautés d’utilisateurs ayant des comportement différents Questions ?