David COLL Université de Genève 19 novembre 2008
Présentation Recherche faites en 2006, Article présenté en 2008 lors de l’International World Wide Web Conference, Beijing. Durant la session sur les réseaux sociaux. Par un collectif de recherche : ZHOU Ding : chercheur pour le compte de Facebook et al. : chercheurs dans les universités de Pennsylvania et de Georgia, US.
Exposé de l’article Exploring / social annotations / for / information retrieval L’objet est de quantifier les méthodes employées pour la recherche d’information (ie. Google, search input dédié, etc.) L’article se veut exploratoire : Tests des méthodes dominantes Word-level language model probability Topic-level language model probability (LDA, Latent Dirichlet Allocation, EM-RI) ○ Qui sont aussi les prémisses de la recherche dites sémantique Propose d’étendre les modèles dominants à l’aide des annotations sociales Issue de la folksonomy Débouche sur : Proposition d’une méthodologie pour inclure les annotations sociales
Modèles employés (1) Certains concepts fondamentaux sous- tendent la méthodologie présentée : Les modèles de langage Lemmes associés à une page/site/user et composant son lexique de façon heuristique et probabiliste Forme des matrices probabilistes Différents niveaux (de complexité)… Topic vs word-level – probabilité associée et lambda/valeur attribuée
Modèles employés (2) Pour la construction des modèles de langage, usage des modèles : Topic/Sujet = word-centric model User/utilisateur = word & topic-centric model
Approche classique de la recherche d’information Modèle de langage word-level d’un document vs requête Documents avec score de probabilité le plus élevé sortent en premier (parfois appelé pertinence/relevance)
Approche sémantique – usage & création de topic Un algorithme beaucoup plus complexe Usage de chaîne de Markov (probabilité) pour former des groupes de termes depuis un échantillon de documents.
Approche sémantique – usage des topics/sujets
Différents usages des topics Un document appartient plus ou moins à une série de topics selon son contenu 1. Selon l’appartenance d’un document, il a une probabilité de contenir les termes du topic : Méthode EM-IR (article paru en 2006) Donc, une requête contenant un terme d’un topic donnera un score à un document même s’il ne contient pas ce terme. 2. Chaque document à une probabilité d’appartenir à un topic P(t|doc). Selon la requête, qui a des termes dans un topic t, on donne un score au document en fonction de sa probabilité P(t|doc).
Variations de l’importance du topic On calcule le score d’un document selon 2 valeurs : Word-level et Topic-level P(Word-level) + P(Topic-level) * λ1 = score
Ajout au modèle (1) Utilisation des annotations sociales Quel niveaux/valeur : Une annotation = un mot supplémentaire dans le modèle de langage ? Une annotation = un topic supplémentaire dans le modèle de langage du document ?
Ajout au modèle (2) Utilisation de l’expertise des utilisateurs Chaque user n’a pas les mêmes intérêts, donc n’est pas forcément apte à noter certains champs (topic) Chaque user annote une quantité particulière de document, dans certains champs Permet de postuler une expertise, un niveau de confiance, différent à chaque utilisateur. Cette expertise fera varier la valeur associé au tag. Seul le cas d’une annotation élevée au rang de topic à été testé.
Méthodologie Afin de créer les différents modèles de langage des documents et des topics URL accumulés depuis Mai 1995, dont encore valides, 9070 utilisateurs différents, annotations différentes.
Outils employés Delicious et son fameux système d’annotations sociales
Expérience 5 mots sélectionnés au hasard dans la banque de données générée. Recherche faites en utilisant les différentes approches de création de modèle de langage. 10 résultats par recherche. Test inter-juge où chaque juge donne une note de 0 à 3 ( 0 = pauvre, 3 = parfait) selon la qualité du document proposé en fonction de la requête. Score moyen selon les jugements standardisé sur une échelle de 0 à 10
Résultats 1.Word-level LM on content (W-QD) 2.EM-based information retrieval (EM-IR) 3.Word-level LM on content and annotations (W- QDA) 4.Word-level LM + LDA on content and annotations (WT-LDA) 5.Word-level LM + Topic- level LM (WT-QDA) 6.Word-level LM + Topic- level LM on document and users (WT-QDAU) 7.Word-level LM + Topic- level LM on document, and users with differentiation (WT- QDAU+)
Résultats Word-level LM on content (W-QD) < EM-based information retrieval (EM-IR) < Word-level LM on content and annotations (W- QDA) < Word-level LM + LDA on content and annotations (WT-LDA) < Word-level LM + Topic-level LM (WT-QDA) < Word-level LM + Topic-level LM on document and users (WT-QDAU) < Word-level LM + Topic-level LM on document, and users with differentiation (WT-QDAU+)
Conclusion sur les résultats Ceux qui sont intéressants et porteurs de sens: L’utilisation d’un topic-level dans la recherche d’information améliore énormément la qualité du résultat ○ Jusqu’à un certain point, lambda 0.2 est le top (dans ce modèle) L’intégration de l’expertise des utilisateurs- tageurs améliore la qualité du résultat
Discussion sur ces résultats De la folksonomy ? Ok, mais est-ce que c'est vraiment utile ? Réponse : Oui, la réponse est ici (tableau) Universelle ou socialement restreinte à un groupe ? Dans quelle mesure peut-on l'utiliser de manière plus universelle ? La question demeure car cela demande la création de matrices extrêmement complexe et d’algorithmes « perpétuels », donc difficile de savoir comment l’optimiser pour un web entier. On ne peut annoter socialement tous les sites/pages…… Quelles méthodes employer pour rechercher des informations pertinentes ? Éternelle question Que propose cette recherche ? Déjà, que la recherche d’information selon des aspects sémantique est plus adaptée que la recherche d’info basé sur un modèle de langage uniquement heuristique. Que l’intégration des annotations sociales dans les algorithmes des moteurs de recherche est favorable à l’amélioration de la qualité des recherches d’informations. Maintenant, je vous laisse réfléchir aux moyens que cela exige de mettre en place pour utiliser ces compétences utilisateurs……
Pour rajouter une couche… Ce que je n’ai pas bien saisi La distinction qui est faite entre latent et observé (observed) dans le cas des « users or sources of the tags and documents » Rapport avec le nombre minimal de topics nécessaires à une requête
Merci de votre attention