Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parPhilippine Raynal Modifié depuis plus de 10 années
1
Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo Cho et Hector Garcia-Molina
2
Plan Introduction Définition Types Expérience Configuration Résultats Architecture dun Crawler Incrémental Conclusion
3
Introduction
4
Quest-ce quun crawler ? Programme qui collecte automatiquement des pages web pour construire un index ou une collection locale.
5
Fonctionnement dun crawler Généralement : Seed Urls Récupération des pages (à partir des seed) Extraction des Urls contenues dans ces pages Addition de celles-ci aux Urls à scanner
6
Illustration Seed Urls Index / collection locale File de pages à visiter Ajout dans lindex Ajout des Urls récoltées lors du parcours des pages
7
Types différents de crawler 2 types : Le crawler periodique Quand nous avons besoin de raffraîchir la collection, il recommence de zéro et remplace la collection par celle trouvée Le crawler incrémental Continue à visiter les pages, même après latteignabilité de la taille maximum de la collection, puis lorsque lon demande de remettre à jour la collection on remplace les pages selon leur «importance».
8
Types différents de crawler Le crawler incrémental est plus efficace que le crawler periodique. Par exemple le crawler incrémental naura besoin que de vérifier les pages ayant changées (probabilité) Donc la page à indexer sera indexée en moins de temps à laide de ce type de crawler
9
Expérience Configuration
10
Configuration de lExpérience Questions importantes : Quelle est la fréquence de changement dune page ? Quelle est la durée de vie dune page ? Combien de temps est nécessaire au WEB pour changer 50 % de ces pages ?
11
Configuration de lExpérience Analysé 720000 pages depuis 270 sites pendant 5 mois. Séléction des sites faites selon un critère de « popularité » exemple: http://yahoo.com, http://microsoft.com, etc…http://yahoo.comhttp://microsoft.com Le nombre maximum de pages parcouru depuis ces sites est de 3000.
12
Expérience Résultats
13
Quelle est la fréquence de changement dune page ? Si vous mesurez 5 changements et que la page est présente 20 jours dans la sélection des pages nous obtenons une valeur de 20/5 = 4. Ce qui signifie que la page change tout les 4 jours.
14
Résultats
16
Quelle est la durée de vie dune page?
17
Résultats Quelle est la durée de vie dune page? 2 méthodes différentes pour calculer celle-ci : Calcul de la longueur normal (cest-à-dire le temps que la page se trouve dans la fenêtre) On calcule le temps comme 2s (où s est la période de temps où la page est présente dans la fenêtre)
18
Résultats
20
Combien de temps est nécessaire au WEB pour changer 50 % de ces pages? Remarque: Lorsque une page disparaît de notre fenêtre danalyse, elles sont considérées comme changée
21
Résultats
22
Architecture dun Crawler Incrémental
23
Algorithme : Crawler Incrémental
24
Architecture
25
Conclusion
26
Nous venons de voir comment implémenter un crawler incrémental et comme nous lavons vu celui-ci possède de nombreux avantages par rapport au crawler périodique
27
Références « The Evolution of the Web and Implications for an Incremental Crawler », Junghoo Cho, Hector Garcia-Molina Cours dalgorithmes pour le Web 2006-2007, J.Rolim http://en.wikipedia.org/wiki/Web_crawl er
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.