1 Recherche d'information Recherche d'information sur le Web Cours Master Recherche Paris 13 Recherche et extraction d'information Antoine Rozenknop source.

Slides:



Advertisements
Présentations similaires
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Advertisements

GCstar Gestionnaire de collections personnelles Christian Jodar (Tian)
Visualisation dynamique d'arbres hiérarchiques de très grande taille Par Rémi Fusade TER encadré par Thomas Hurtut et Thierry Stein.
Epreuve E6 PARCOURS DE PROFESSIONNALISATION Fontan Savinien.
AID - Recherches - Stéphanie Vial & Patrick Johner Page 1 Journée 6 Pour une veille documentaire ou bibliographique.
Les systèmes d'information 1- Une pratique quotidienne 2- Les données 3- Approche conceptuelle 4- Notion de serveur 5- Conception d'un système d'information.
Rechercher sur Internet ➲ 1. Cerner le sujet et se poser des questions ➲ 2. Utiliser des outils de recherche ➲ 3. Choisir de bons mots-clés ➲ 4. Trier.
Courbes d'Interpolation Interpolation de Lagrange, et Interpolation B-spline.
1- Régles de normalisation 2ème partie : normalisation Modèle Conceptuel des Données 2- Les Formes Normales 3- Dépendances Fonctionnelles 4- Recap - Méthodologie.
SECONDE G HISTOIRE-GÉOGRAPHIE/DOCUMENTATION SÉQUENCE 2 : SÉANCE 1 Comment fonctionne Google ?
Comparing color edge detection and segmentation methods Projet TIM.
Moteur de recherche Recherche éveillée Conseils et astuces Conseils et astuces.
Le référencement gratuit Référencer gratuitement Licence Creative Common by SA Matthieu GIROUX Développeur en informatique de gestion libre
Qu'est-ce que c'est pour vous la veille informationnelle ?
La Messagerie Électronique Production Yahya+wassim Classe 8b1.
Initiation à la conception des systèmes d'informations
Indexation et Recherche d’Information
Les étapes de la recherche documentaire. Étape 1 : cerner le sujet  Cerner le sujet par des questionnements = délimitation du sujet  Faire une liste.
FORMATION DES POINTS FOCAUX SUR LE SYSTÈME CountrySTAT/FENIX
MOCAH / LIP6 / UPMC Entités / Composants / Systèmes Un formalisme de conception pour les jeux vidéo MOCAH.
SEO : Search Engine Optimization Référencement Naturel
Contexte et discours liés à la nouvelle répartition des audiences clients 18/01/2016.
Analyse, Classification,Indexation des Données ACID
Rechercher des articles et des sites web
Construire des requêtes
Phishing : Techniques et sensibilisation
Interprétation des indicateurs?
Bases de données multimédia
Se connecter toujours depuis TecfaMoodle
Tiré de: J.-M. Muller, Arithmétique des ordinateurs, Masson, 1989.
Pointeurs et langage C.
EVOLUTION DE LA PENSION DES ENSEIGNANTS DEPUIS DECEMBRE 2011
La spécialité math en TS
<nom du groupe de travail>
Évaluer un site internet
Reconnaitre les bons sites et la fiabilité de l’information
Les protocoles du Web Professeur: Tanja Dinić Étudiant:
Recherche sur le web : efficacité et qualité
VOTRE COMPLICE pour un tout nouveau Réseaurlp.
Outils méthodologiques
Faire sa veille informationnelle
Construire une progression pédagogique en STI2D
Routage S 3 - Questionnaire N°1
PROGRAMME DE CARTOGRAPHIE ET COLLECTE DE DONNEES DESEXPLOITATIONS AGRICOLES DU Togo Janvier 2016.
Recherche efficace dans Internet
Séquence1 . Séance 3 Problème posé :
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
Les grandes étapes de la recherche
REVUE DE LITTERATURE. Introduction Première partie majeure dans la rédaction du mémoire, la réalisation d’une revue de littérature consiste à effectuer.
Exploiter le Web Etape 2.
Les Systèmes d’Information et de Gestion Financière Depuis 1984, la Banque Mondiale a financé 87 projets de Systèmes d'Information de la Gestion Financière.
Royaume de Maroc Université Hassan Premier Settat Faculté des Sciences et Techniques de Settat LA CLASSIFICATION K-MEANS SOUS R /MATLAB Master :Automatique.
Chapitre2: SGBD et Datawarehouse. On pourrait se demander pourquoi ne pas utiliser un SGBD pour réaliser cette structure d'informatique décisionnelle.
Qui peut concurrencer Google en 2009 ?
Dans la peau d’un moteur de recherche : le PageRank
Présentation de la base Frantext
Les méthodes non paramétriques
Comment personnaliser Microsoft SharePoint Site web
Séminaire UCL - 22 février 2005
Tri de cartes.
SUJET : E C L A T UNIVERSITE GASTON BERGER DE SAINT LOUIS UFR DES SCIENCES APPLIQUEES ET DE TECHNOLOGIE MASTER PROFESSIONNEL EN DÉVELOPPEMENT DE SYSTÈMES.
Exploiter le WEB Etape no5.
Moteurs de recherches Data mining Nizar Jegham.
Base de données Table des clients Table des fournisseurs Table des commandes clients Formulaire des clients Formulaire des fournisseurs Formulaire des.
Tableau de bord d’un système de recommandation
INTELLIGENCE ARTIFICIELLE
L’élaboration d’une fiche de lecture : éléments méthodologiques
ScienceDirect Guide d’utilisation de la base de données : ScienceDirect Pr R. EL OUAHBI.
Qu’est ce qu’une page web? Comment fonctionne un site web?
Internet Stage – Semaine 5.
Transcription de la présentation:

1 Recherche d'information Recherche d'information sur le Web Cours Master Recherche Paris 13 Recherche et extraction d'information Antoine Rozenknop source : Romaric Besançon CEA-LIST/LIC2M

2 RI sur le Web Les spécificités du Web taille structure Les algorithmes de recherche sur le Web PageRank HITS

3 Les spécificités du Web recherche à l'intérieur d'un site web vs. recherche sur le web recherche sur un site web les documents sont semi-structuré (HTML) les documents contiennent des liens exploiter la structure et les liens recherche sur le web les documents sont semi-structurés et contiennent des liens les documents n'ont pas forcément un auteur identifié le web est GRAND

4 La taille du Web selon OCLC (Online Computer Library Center) nombre de sites web (un site est un ensemble de pages Web sur une même adresse IP) en 2005 Google annonçait plus de 8 milliards de pages indexées (apparemment triplé en septembre) Yahoo a annoncé en août 2005 un index de plus de 19.2 milliards de pages En août 2008 : 1000 milliards de pages annoncées par Google

5 La structure du Web une étude de 2000 [Broder et al. 2000] analyse une structure de 200 millions de pages et 1.5 million de liens comme un graphe non-orienté une composante faiblement connexe de 186 millions de pages (91%) comme un graphe orienté une composante fortement connexe (SCC) de 56 millions de pages (21%) un ensemble IN de pages ayant des liens vers SCC un ensemble OUT de pages ayant des liens depuis SCC

6 La structure du Web structure en « noeud papillon » SCC 56 millions de noeuds OUT 44 millions de noeuds IN 44 millions de noeuds tubes composantes déconnectées

7 La structure du Web une autre approche : partitionnement bipartite en distributeurs et autorités (hubs and authorities) [Kleinberg 1999] Chaque page est autorité ou distributeur à un certain degré les autorités sont des pages sur lesquelles pointent beaucoup de distributeurs les distributeurs sont les pages qui pointent sur beaucoup d'autorités distributeur s autorités

8 La recherche sur le Web Étant donnée la taille du Web, l'évaluation de la recherche est difficile Le rappel n'est pas important les utilisateurs ne regardent que les 10/20 premiers documents la recherche se fait sur un sous-ensemble du Web les moteurs de recherche ne couvrent que 10% du Web public Web invisible 200 fois plus grand que le Web public analyse des logs de recherche pour comprendre le comportement des utilisateurs

9 Les requêtes sur le Web Les requêtes sur le web sont courtes : en moyenne 2.4 mots 27% des requêtes contiennent un mot 32% deux mots interactivité: le nombre moyen de requêtes par session est de 2 ou 3 48% des utilisateurs ne soumettent qu'une requête 21% en soumettent deux modification des requêtes par substitution de termes (33%), ajout de termes (41%) ou suppression de termes (26%)

10 Les requêtes sur le Web Les requêtes sur le Web sont bruitées : 593 variations orthographiques de Britney Spears sur Google en 3 mois

11 Qualités d'une page Web La page Web qui a le plus haut score de similarité avec la requête (sur la base des termes de la requête) n'est pas forcément la plus pertinente Souvent, les utilisateurs veulent une page facilement compréhensible fiable qui puisse servir de point de départ pour faire de la navigation sur le sujet Idéalement, c'est une page que l'utilisateur ajoute dans ses préférences

12 Utiliser la structure du Web Utiliser la structure des liens du Web algorithme PageRank de Google [Brin and Page, 1998] Utiliser la structure distributeurs/autorités algorithme HITS [Kleinberg,1999]

13 PageRank ordonner les pages selon leur popularité PageRank est un algorithme de classement global ne dépend pas de la requête l'ensemble des documents pertinents pour une requête sont trouvés selon d'autres critères la popularité est calculée sur toute la collection Utilise la structure de liens pour calculer la popularité

14 PageRank La définition du score de PageRank est récursive avecu,v des pages Web B u l'ensemble des pages pointant sur u N v l'ensemble des liens partant de v q un facteur d'atténuation

15 PageRank - Exemple Score de classement après n étapes de récursion (q=0.15)

16 PageRank - Exemple Score de classement après n étapes de récursion

17 PageRank - Exemple Score de classement après n étapes de récursion

18 PageRank - Exemple Score de classement après n étapes de récursion

19 PageRank - Exemple Score de classement après n étapes de récursion

20 Problèmes avec PageRank problème du Rank sink deux pages qui s'auto-alimentent sans redistribuer leur score les pages nouvelles sont défavorisées distinction entre lien intra-sites et inter-sites est-ce que PageRank doit être appliqué aux pages Web ou aux sites Web ? problème du Google bombing: utilisation artificielle de PageRank A B

21 HITS Hyperlink Induced Topic Search à partir d'une requête, faire une recherche simple à partir des termes récupérer un ensemble S de documents étendre l'ensemble S à un ensemble V en ajoutant des pages qui sont liés aux pages de S (liens entrants ou sortants) une page de S ne peut pas introduire plus de d pages dans V enlever les liens intra-site les liens restant forment l'ensemble E calculer les poids d'autorité et de distributeur des pages de V

22 HITS étant donné l'ensemble de pages Web V et l'ensemble de liens E le poids d'autorité est défini par le poids de distributeur est définir par les deux poids sont normalisés

23 HITS calcule itérativement les poids d'autorité et de distributeur de chaque page de V classe les documents par poids d'autorité Cet algorithme peut aussi s'appliquer de manière globale (sur toute la collection, indépendamment de la requête) les pages plus fiables sont mieux classées mais une page plus fiable mieux classée peut être moins centrée sur la requête qu'une page moins fiable avec un score de similarité plus élevée (sur la base des termes de la requête)

24 HITS - Exemple

25 Stratégies de recherche Les moteurs de recherche sur le Web n'utilisent en général pas une seule méthode les méthodes de classement utilisant la structure du Web sont couplées avec des méthodes basées sur les termes, ou d'autres informations date visibilité ou positions des liens dans les documents termes dans les liens... Google utilise PageRank parmi plus de 150 critères de classement

26 Les métamoteurs idée: utiliser d'autres moteurs pour faire la recherche, et fusionner les résultats l'indexation du Web est coûteuse et complexe permet de bénéficier d'un renforcement des résultats ou de proposer d'autres méthodes de classement MetaCrawler, DogPile, Profusion permet d'intégrer une étape supplémentaire pour la visualisation: catégorisation, cartographie KartOO, Clusty inconvénient: ne peut pas utiliser les options de recherche avancée des différents moteurs (trop différentes)