David COLL Université de Genève 19 novembre 2008.

Slides:



Advertisements
Présentations similaires
Présentation des technologies SharePoint 2007
Advertisements

Les technologies décisionnelles et le portail
Le web 2.0 L'Internet deuxième génération ? Moussay Jérôme - Master 2LCE1/16.
La recherche documentaire
Formation WIMS Jeudi 9 juillet 2009
Le publipostage La fonction de fusion permet de créer des documents identiques dans les grandes lignes que l’on personnalise automatiquement à chaque destinataires.
FAIRE UNE RECHERCHE SUR LE WEB
La Recherche en Ligne.
Introduction aux CMS.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Les Médias Sociaux au R tary World
Développement d’applications web
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Nouveau blog. WordPress connexion Nommez votre blog.
Annotations sémantiques pour le domaine des biopuces
Champs de Markov cachés pour la classification de gènes..
28 novembre 2012 Grégory Petit
Type de contenu. © Partouche David / 2007 version 0.1 Colonne de site Une colonne de site permet de définir un champs qui sera exploitable au sein de.
Recherche Documentaire et traitement de l’information
Les grands paradigmes de la science politique
La méthodologie expérimentale Fondements et bases d’application
Utilisateur (Client) Jai le choix du site web que je veux consulter. Sil ne mintéresse pas, alors je visiterai le suivant. Concepteur Je ne veux pas que.
La méthodologie expérimentale Fondements et bases d’application
La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 3: les moteurs académiques: Google.
La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 3: les moteurs académiques: Google.
1.Définition sémantique du thème 2.Lenvironnement Internet 3.Quest ce que Google? 4.Les 10 astuces dor pour optimiser une recherche sur Google 5.Linterêt.
Moteurs de recherche Modex Web Modex Web 441 professeur Go
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Approche qualitative Aussi grande complexité que
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
Praxiling – UMR Université de Montpellier 3 - CNRS Sciences du langage. Moujahed AL SABRI NEDEP juin 2009 Evaluation d’un support numérique.
Diaporama réalisé par Damienne PIN, Documentaliste Collège Barbara Hendricks 226 Rue du Limousin Orange LE PROBLEME DE LA QUALITE DE L ’INFORMATION.
1 Registration Physique Séminaire du Master Davide Bazzi Université de Fribourg
GESTION DE COMPOSANTS ELECTRONIQUES
D.E ZEGOUR Ecole Supérieure d’Informatique. Problèmes de décision Concepts de base Expressions régulières Notation particulière pour exprimer certaines.
Algorithmes pour le web “A Unified Approach to Personalization Based on Probabilistic Latent Semantic Models of Web Usage and Content”
Les approches qualitatives et quantitatives pour la recherche comparative Anthony Sealey Université de Toronto This material is distributed under an Attribution-NonCommercial-ShareAlike.
PubMed MeSH Medical Subject Headings Module 4.3. HINARI | July | Table des Matières Présentation de la terminologie MeSH La base de données MeSH.
Moteurs de recherche ontologiques
Delicious est un outil du Web social, qui permet: La sauvegarde de liens (favoris ou bookmark) dans un espace en ligne et donc accessible depuis n'importe.
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
Recherche d’information
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Recherche Bibliographique Master 1 Sciences de la Vie
La veille à l’Institut national du cancer Identifier des sources d’information fiables Rencontre De la veille à la gestion des connaissances, Bordeaux,
Évaluation et enrichissement de l'approche MUM pour évaluer la qualité décisionnelle a posteriori des données géospatiales Johann Levesque 28 avril Université.
Vers une intégration plus poussée de la recherche Web avec les Systèmes d’Information Géographiques Adapté de «Toward Tighter Integration of Web Search.
Efficient Crawling Through URL Ordering Junghoo Cho - Hector Garcia-Molina - Lawrence Page Department of Computer Science Stanford, CA Algorithmes.
Combating Web Spam with TrustRank. OSINI Aurélien.
TEXT MINING Fouille de textes
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Se repérer et organiser sa veille dans la recherche en éducation Module 2 « Maîtriser l’accès aux ressources scientifiques en éducation » Introduction.
Présentation nouveau site marchand
L’approche 3 e à 8 e année octobre  Les participants à cette formation doivent avoir une croyance profonde dans la capacité de tous les élèves.
Dr Vincent BIGE Centre de référence Mucoviscidose de Lyon
System de recommandations
A propos du “Minimal Controllability Problem” C. Commault Département Automatique Gipsa-Lab Grenoble –FRANCE 1 Séminaire GIPSA-Lab 22 octobre 2015.
Traitement des données et probabilité
Nous allons maintenant sélectionner le bouton pour le format MEDLINE et retenir les options 20 résultats par page et Sort by Most Recent (tri par plus.
Formation.
RÉFÉRENCES SCIENTIFIQUES
Recherche sur les systèmes de santé Méthodologie.
Bibliothèque cantonale et universitaire de Fribourg Compétences documentaires pour étudiants – lundi 30 mai 2016 Recherche documentaire.
L ’approche 9 e à 12 e année Octobre  Les participants à cette formation doivent avoir une croyance profonde dans la capacité de tous les élèves.
Intervention ReRIP – 26 mars 2008 – Mathilde Guiné Le Réseau Tela Botanica Un réseau d’acteurs au service de la botanique francophone Le projet "Outils-réseaux"
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Proposition d’un positionnement Web pour l’entreprise Pedlex.
Gilles Le Page – sept 2012 Créer un Scoop.it pour partager une veille Dia knowledge-community.net.
CV COMMUN CANADIEN (CVC) Daniel Grant, CRHA Conseiller en emploi, liaison avec les employeurs Service de recherche de travail.
Transcription de la présentation:

David COLL Université de Genève 19 novembre 2008

Présentation  Recherche faites en 2006,  Article présenté en 2008 lors de l’International World Wide Web Conference, Beijing. Durant la session sur les réseaux sociaux.  Par un collectif de recherche : ZHOU Ding : chercheur pour le compte de Facebook et al. : chercheurs dans les universités de Pennsylvania et de Georgia, US.

Exposé de l’article Exploring / social annotations / for / information retrieval  L’objet est de quantifier les méthodes employées pour la recherche d’information (ie. Google, search input dédié, etc.) L’article se veut exploratoire :  Tests des méthodes dominantes Word-level language model probability Topic-level language model probability (LDA, Latent Dirichlet Allocation, EM-RI) ○ Qui sont aussi les prémisses de la recherche dites sémantique  Propose d’étendre les modèles dominants à l’aide des annotations sociales Issue de la folksonomy Débouche sur : Proposition d’une méthodologie pour inclure les annotations sociales

Modèles employés (1) Certains concepts fondamentaux sous- tendent la méthodologie présentée :  Les modèles de langage Lemmes associés à une page/site/user et composant son lexique de façon heuristique et probabiliste Forme des matrices probabilistes Différents niveaux (de complexité)… Topic vs word-level – probabilité associée et lambda/valeur attribuée

Modèles employés (2)  Pour la construction des modèles de langage, usage des modèles : Topic/Sujet = word-centric model User/utilisateur = word & topic-centric model

Approche classique de la recherche d’information  Modèle de langage word-level d’un document vs requête  Documents avec score de probabilité le plus élevé sortent en premier (parfois appelé pertinence/relevance)

Approche sémantique – usage & création de topic  Un algorithme beaucoup plus complexe  Usage de chaîne de Markov (probabilité) pour former des groupes de termes depuis un échantillon de documents.

Approche sémantique – usage des topics/sujets

Différents usages des topics  Un document appartient plus ou moins à une série de topics selon son contenu 1. Selon l’appartenance d’un document, il a une probabilité de contenir les termes du topic : Méthode EM-IR (article paru en 2006) Donc, une requête contenant un terme d’un topic donnera un score à un document même s’il ne contient pas ce terme. 2. Chaque document à une probabilité d’appartenir à un topic P(t|doc). Selon la requête, qui a des termes dans un topic t, on donne un score au document en fonction de sa probabilité P(t|doc).

Variations de l’importance du topic  On calcule le score d’un document selon 2 valeurs :  Word-level  et Topic-level P(Word-level) + P(Topic-level) * λ1 = score

Ajout au modèle (1)  Utilisation des annotations sociales  Quel niveaux/valeur : Une annotation = un mot supplémentaire dans le modèle de langage ? Une annotation = un topic supplémentaire dans le modèle de langage du document ?

Ajout au modèle (2)  Utilisation de l’expertise des utilisateurs Chaque user n’a pas les mêmes intérêts, donc n’est pas forcément apte à noter certains champs (topic) Chaque user annote une quantité particulière de document, dans certains champs  Permet de postuler une expertise, un niveau de confiance, différent à chaque utilisateur.  Cette expertise fera varier la valeur associé au tag.  Seul le cas d’une annotation élevée au rang de topic à été testé.

Méthodologie  Afin de créer les différents modèles de langage des documents et des topics  URL accumulés depuis Mai 1995,  dont encore valides,  9070 utilisateurs différents,  annotations différentes.

Outils employés Delicious et son fameux système d’annotations sociales

Expérience  5 mots sélectionnés au hasard dans la banque de données générée.  Recherche faites en utilisant les différentes approches de création de modèle de langage.  10 résultats par recherche.  Test inter-juge où chaque juge donne une note de 0 à 3 ( 0 = pauvre, 3 = parfait) selon la qualité du document proposé en fonction de la requête.  Score moyen selon les jugements standardisé sur une échelle de 0 à 10

Résultats 1.Word-level LM on content (W-QD) 2.EM-based information retrieval (EM-IR) 3.Word-level LM on content and annotations (W- QDA) 4.Word-level LM + LDA on content and annotations (WT-LDA) 5.Word-level LM + Topic- level LM (WT-QDA) 6.Word-level LM + Topic- level LM on document and users (WT-QDAU) 7.Word-level LM + Topic- level LM on document, and users with differentiation (WT- QDAU+)

Résultats  Word-level LM on content (W-QD) <  EM-based information retrieval (EM-IR) <  Word-level LM on content and annotations (W- QDA) <  Word-level LM + LDA on content and annotations (WT-LDA) <  Word-level LM + Topic-level LM (WT-QDA) <  Word-level LM + Topic-level LM on document and users (WT-QDAU) <  Word-level LM + Topic-level LM on document, and users with differentiation (WT-QDAU+)

Conclusion sur les résultats  Ceux qui sont intéressants et porteurs de sens: L’utilisation d’un topic-level dans la recherche d’information améliore énormément la qualité du résultat ○ Jusqu’à un certain point, lambda 0.2 est le top (dans ce modèle) L’intégration de l’expertise des utilisateurs- tageurs améliore la qualité du résultat

Discussion sur ces résultats  De la folksonomy ? Ok, mais est-ce que c'est vraiment utile ? Réponse : Oui, la réponse est ici (tableau)  Universelle ou socialement restreinte à un groupe ? Dans quelle mesure peut-on l'utiliser de manière plus universelle ? La question demeure car cela demande la création de matrices extrêmement complexe et d’algorithmes « perpétuels », donc difficile de savoir comment l’optimiser pour un web entier. On ne peut annoter socialement tous les sites/pages……  Quelles méthodes employer pour rechercher des informations pertinentes ? Éternelle question  Que propose cette recherche ? Déjà, que la recherche d’information selon des aspects sémantique est plus adaptée que la recherche d’info basé sur un modèle de langage uniquement heuristique. Que l’intégration des annotations sociales dans les algorithmes des moteurs de recherche est favorable à l’amélioration de la qualité des recherches d’informations.  Maintenant, je vous laisse réfléchir aux moyens que cela exige de mettre en place pour utiliser ces compétences utilisateurs……

Pour rajouter une couche… Ce que je n’ai pas bien saisi  La distinction qui est faite entre latent et observé (observed) dans le cas des « users or sources of the tags and documents »  Rapport avec le nombre minimal de topics nécessaires à une requête

Merci de votre attention