La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Présentations similaires


Présentation au sujet: "Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo."— Transcription de la présentation:

1 Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo Cho et Hector Garcia-Molina

2 Plan Introduction Définition Types Expérience Configuration Résultats Architecture dun Crawler Incrémental Conclusion

3 Introduction

4 Quest-ce quun crawler ? Programme qui collecte automatiquement des pages web pour construire un index ou une collection locale.

5 Fonctionnement dun crawler Généralement : Seed Urls Récupération des pages (à partir des seed) Extraction des Urls contenues dans ces pages Addition de celles-ci aux Urls à scanner

6 Illustration Seed Urls Index / collection locale File de pages à visiter Ajout dans lindex Ajout des Urls récoltées lors du parcours des pages

7 Types différents de crawler 2 types : Le crawler periodique Quand nous avons besoin de raffraîchir la collection, il recommence de zéro et remplace la collection par celle trouvée Le crawler incrémental Continue à visiter les pages, même après latteignabilité de la taille maximum de la collection, puis lorsque lon demande de remettre à jour la collection on remplace les pages selon leur «importance».

8 Types différents de crawler Le crawler incrémental est plus efficace que le crawler periodique. Par exemple le crawler incrémental naura besoin que de vérifier les pages ayant changées (probabilité) Donc la page à indexer sera indexée en moins de temps à laide de ce type de crawler

9 Expérience Configuration

10 Configuration de lExpérience Questions importantes : Quelle est la fréquence de changement dune page ? Quelle est la durée de vie dune page ? Combien de temps est nécessaire au WEB pour changer 50 % de ces pages ?

11 Configuration de lExpérience Analysé 720000 pages depuis 270 sites pendant 5 mois. Séléction des sites faites selon un critère de « popularité » exemple: http://yahoo.com, http://microsoft.com, etc…http://yahoo.comhttp://microsoft.com Le nombre maximum de pages parcouru depuis ces sites est de 3000.

12 Expérience Résultats

13 Quelle est la fréquence de changement dune page ? Si vous mesurez 5 changements et que la page est présente 20 jours dans la sélection des pages nous obtenons une valeur de 20/5 = 4. Ce qui signifie que la page change tout les 4 jours.

14 Résultats

15

16 Quelle est la durée de vie dune page?

17 Résultats Quelle est la durée de vie dune page? 2 méthodes différentes pour calculer celle-ci : Calcul de la longueur normal (cest-à-dire le temps que la page se trouve dans la fenêtre) On calcule le temps comme 2s (où s est la période de temps où la page est présente dans la fenêtre)

18 Résultats

19

20 Combien de temps est nécessaire au WEB pour changer 50 % de ces pages? Remarque: Lorsque une page disparaît de notre fenêtre danalyse, elles sont considérées comme changée

21 Résultats

22 Architecture dun Crawler Incrémental

23 Algorithme : Crawler Incrémental

24 Architecture

25 Conclusion

26 Nous venons de voir comment implémenter un crawler incrémental et comme nous lavons vu celui-ci possède de nombreux avantages par rapport au crawler périodique

27 Références « The Evolution of the Web and Implications for an Incremental Crawler », Junghoo Cho, Hector Garcia-Molina Cours dalgorithmes pour le Web 2006-2007, J.Rolim http://en.wikipedia.org/wiki/Web_crawl er


Télécharger ppt "Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo."

Présentations similaires


Annonces Google