La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Recherche d'information Recherche d'information sur le Web Cours Master Recherche Paris 13 Recherche et extraction d'information Antoine Rozenknop source.

Présentations similaires


Présentation au sujet: "1 Recherche d'information Recherche d'information sur le Web Cours Master Recherche Paris 13 Recherche et extraction d'information Antoine Rozenknop source."— Transcription de la présentation:

1 1 Recherche d'information Recherche d'information sur le Web Cours Master Recherche Paris 13 Recherche et extraction d'information Antoine Rozenknop source : Romaric Besançon CEA-LIST/LIC2M

2 2 RI sur le Web Les spécificités du Web taille structure Les algorithmes de recherche sur le Web PageRank HITS

3 3 Les spécificités du Web recherche à l'intérieur d'un site web vs. recherche sur le web recherche sur un site web les documents sont semi-structuré (HTML) les documents contiennent des liens exploiter la structure et les liens recherche sur le web les documents sont semi-structurés et contiennent des liens les documents n'ont pas forcément un auteur identifié le web est GRAND

4 4 La taille du Web selon OCLC (Online Computer Library Center) nombre de sites web (un site est un ensemble de pages Web sur une même adresse IP) en 2005 Google annonçait plus de 8 milliards de pages indexées (apparemment triplé en septembre) Yahoo a annoncé en août 2005 un index de plus de 19.2 milliards de pages En août 2008 : 1000 milliards de pages annoncées par Google

5 5 La structure du Web une étude de 2000 [Broder et al. 2000] analyse une structure de 200 millions de pages et 1.5 million de liens comme un graphe non-orienté une composante faiblement connexe de 186 millions de pages (91%) comme un graphe orienté une composante fortement connexe (SCC) de 56 millions de pages (21%) un ensemble IN de pages ayant des liens vers SCC un ensemble OUT de pages ayant des liens depuis SCC

6 6 La structure du Web structure en « noeud papillon » SCC 56 millions de noeuds OUT 44 millions de noeuds IN 44 millions de noeuds tubes composantes déconnectées

7 7 La structure du Web une autre approche : partitionnement bipartite en distributeurs et autorités (hubs and authorities) [Kleinberg 1999] Chaque page est autorité ou distributeur à un certain degré les autorités sont des pages sur lesquelles pointent beaucoup de distributeurs les distributeurs sont les pages qui pointent sur beaucoup d'autorités distributeur s autorités

8 8 La recherche sur le Web Étant donnée la taille du Web, l'évaluation de la recherche est difficile Le rappel n'est pas important les utilisateurs ne regardent que les 10/20 premiers documents la recherche se fait sur un sous-ensemble du Web les moteurs de recherche ne couvrent que 10% du Web public Web invisible 200 fois plus grand que le Web public analyse des logs de recherche pour comprendre le comportement des utilisateurs

9 9 Les requêtes sur le Web Les requêtes sur le web sont courtes : en moyenne 2.4 mots 27% des requêtes contiennent un mot 32% deux mots interactivité: le nombre moyen de requêtes par session est de 2 ou 3 48% des utilisateurs ne soumettent qu'une requête 21% en soumettent deux modification des requêtes par substitution de termes (33%), ajout de termes (41%) ou suppression de termes (26%)

10 10 Les requêtes sur le Web Les requêtes sur le Web sont bruitées : 593 variations orthographiques de Britney Spears sur Google en 3 mois http://www.google.com/jobs/britney.html

11 11 Qualités d'une page Web La page Web qui a le plus haut score de similarité avec la requête (sur la base des termes de la requête) n'est pas forcément la plus pertinente Souvent, les utilisateurs veulent une page facilement compréhensible fiable qui puisse servir de point de départ pour faire de la navigation sur le sujet Idéalement, c'est une page que l'utilisateur ajoute dans ses préférences

12 12 Utiliser la structure du Web Utiliser la structure des liens du Web algorithme PageRank de Google [Brin and Page, 1998] Utiliser la structure distributeurs/autorités algorithme HITS [Kleinberg,1999]

13 13 PageRank ordonner les pages selon leur popularité PageRank est un algorithme de classement global ne dépend pas de la requête l'ensemble des documents pertinents pour une requête sont trouvés selon d'autres critères la popularité est calculée sur toute la collection Utilise la structure de liens pour calculer la popularité

14 14 PageRank La définition du score de PageRank est récursive avecu,v des pages Web B u l'ensemble des pages pointant sur u N v l'ensemble des liens partant de v q un facteur d'atténuation

15 15 PageRank - Exemple Score de classement après n étapes de récursion (q=0.15)

16 16 PageRank - Exemple Score de classement après n étapes de récursion

17 17 PageRank - Exemple Score de classement après n étapes de récursion

18 18 PageRank - Exemple Score de classement après n étapes de récursion

19 19 PageRank - Exemple Score de classement après n étapes de récursion

20 20 Problèmes avec PageRank problème du Rank sink deux pages qui s'auto-alimentent sans redistribuer leur score les pages nouvelles sont défavorisées distinction entre lien intra-sites et inter-sites est-ce que PageRank doit être appliqué aux pages Web ou aux sites Web ? problème du Google bombing: utilisation artificielle de PageRank A B

21 21 HITS Hyperlink Induced Topic Search à partir d'une requête, faire une recherche simple à partir des termes récupérer un ensemble S de documents étendre l'ensemble S à un ensemble V en ajoutant des pages qui sont liés aux pages de S (liens entrants ou sortants) une page de S ne peut pas introduire plus de d pages dans V enlever les liens intra-site les liens restant forment l'ensemble E calculer les poids d'autorité et de distributeur des pages de V

22 22 HITS étant donné l'ensemble de pages Web V et l'ensemble de liens E le poids d'autorité est défini par le poids de distributeur est définir par les deux poids sont normalisés

23 23 HITS calcule itérativement les poids d'autorité et de distributeur de chaque page de V classe les documents par poids d'autorité Cet algorithme peut aussi s'appliquer de manière globale (sur toute la collection, indépendamment de la requête) les pages plus fiables sont mieux classées mais une page plus fiable mieux classée peut être moins centrée sur la requête qu'une page moins fiable avec un score de similarité plus élevée (sur la base des termes de la requête)

24 24 HITS - Exemple

25 25 Stratégies de recherche Les moteurs de recherche sur le Web n'utilisent en général pas une seule méthode les méthodes de classement utilisant la structure du Web sont couplées avec des méthodes basées sur les termes, ou d'autres informations date visibilité ou positions des liens dans les documents termes dans les liens... Google utilise PageRank parmi plus de 150 critères de classement

26 26 Les métamoteurs idée: utiliser d'autres moteurs pour faire la recherche, et fusionner les résultats l'indexation du Web est coûteuse et complexe permet de bénéficier d'un renforcement des résultats ou de proposer d'autres méthodes de classement MetaCrawler, DogPile, Profusion permet d'intégrer une étape supplémentaire pour la visualisation: catégorisation, cartographie KartOO, Clusty inconvénient: ne peut pas utiliser les options de recherche avancée des différents moteurs (trop différentes)


Télécharger ppt "1 Recherche d'information Recherche d'information sur le Web Cours Master Recherche Paris 13 Recherche et extraction d'information Antoine Rozenknop source."

Présentations similaires


Annonces Google