Crawlers Parallèles Présentation faite par: Mélanie AMPRIMO

Slides:



Advertisements
Présentations similaires
Réseau Alumni. LE MASTER QUOI ? Le Master D.I.E. est le résultat d'un partenariat entre les universités de Barcelone (Espagne), Milan.
Advertisements

Module Systèmes d’exploitation
Chapitre 4 INTERNET Web Réalisé par Mme Lahbib Ilhem.
ACTIVE DIRECTORY. Qu'est-ce un service d'annuaire ?: Un service d'annuaire peut être comparé à un agenda téléphonique, celui- ci contient au départ des.
Chap. 4 Recherche en Table
Gestion de portefeuille
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
ANALYSE DE DISPOSITIFS UTILISANT UN FORUM « ÉTENDU » BASÉ SUR LES ÉCHANGES DE GROUPE. INFLUENCES SUR LES PRATIQUES PÉDAGOGIQUES ET LES DISPOSITIFS. Chantal.
Ingénieurs 2000 – Année 2004/ Ludovic LELION
Les jeux persistants massivement Multijoueurs : problèmes techniques Vincent Roudaut MASTER M2 ESTC/CAM
Performances 1 Évolution : Performance. Performances 2 Évolution : Mémoire.
Systèmes à tolérance de panne :RAID
Introduction aux CMS.
Jalel Saâdi La Faculté des Sciences de Bizerte * * * * *
Besoin et fonctionnement
Le protocole FTP.
Chapitre 3 INTERNET Web.
Conception des algorithmes parallèles
Sections sélectionnées du Chapitre 11
Google, un moteur de recherche comme les autres ?
Sommaire I- Présentation du projet II- Analyse du projet
Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.
Gestion de Fichiers Tri Interne Efficace et Tri Externe.
Réduction des stéréotypies chez le vison par la sélection
Gestion de Fichiers Hachage (suite). 2 Plan du cours daujourdhui Prédiction de la distribution des enregistrements Réduction des collisions en augmentant.
Gestion de Fichiers GF-10: Traitement Co-Sequentiel: Appariment et Fusion de Plusieures Listes (Base sur les sections de Folk, Zoellick & Riccardi,
Développement dapplication avec base de données Semaine 10 : WCF avec Entité Framework Automne 2013.
Novembre – Décembre 2005 Version Conclusion État de lart de la sécurité informatique Auteurs : Stéphan GUIDARINI – Consultant Senior Sébastien DESSE.
La veille numérique : un outil pour s'informer intelligemment &
IntroductionContexteAnalyseConclusionApproche Présentation d’article 04/02/04 DEA DISIC Grid Computing Monitoring Data Archive In Grid Environments GANAME.
Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)
Méthodologie expérimentale : l’analyse des données
Votre espace Web Entreprises Article 39 Démonstration.
Création d’une communauté web scénarisée : le projet Crealys
L’ANEG aujourd’hui pour construire demain Notre objectif : Mettre les activités aéronautiques à la portée de tous Mettre les activités aéronautiques à.
8INF856 Programmation sur architectures parallèles
Chapitre 2: La structure de l’Internet et son histoire
Master HTTP Créator LARNS Corporation Membres : ALFOSEAJean-FabienChef de Projet LEROGNONRenaudDesigner N'DOYEAssaneWebmestre RONCAGLIAThomasRelation Publique.
Formation des Rédacteurs Contributeurs à la Communication Diocésaine sur Internet 30 novembre 2005 Le site Internet du Diocèse de Fréjus-Toulon:
D. E ZEGOUR Institut National d ’Informatique
Le Taquin Mathieu Bernou Laurent Robin.
GF-11: Tri Interne Efficace et Tri Externe
INTRODUCTION VANET, c’est un réseau constitué d’un ensemble d’objets mobiles qui communiquent entre eux à l’aide de réseau sans fil de type IEEE
Initiation à la conception des systèmes d'informations
L’ergonomie des IHM : pourquoi, comment ?
Approche Cross layer Dr Mekkakia Maaza Zoulikha Cours M2 SIR
Structures de données avancées : LH (Hachage linéaire) D. E ZEGOUR Institut National d ’Informatique.
COMPARAISON ENTRE GNUTELLA ET FREENET
Recherche de motifs par projections aléatoires
Hamster : Outils de BackTrack
Résumé du track “Computing Fabrics and Networking Technologies” CHEP 2010 Guillaume Cessieux – Équipe réseaux, CCIN2P
JeanDo Lénard – Fondamentaux de l'Internet – Hetic –30 Janvier 2007 page 1 Fondamentaux de l'Internet (FDI) JeanDo Lénard
Efficient Crawling Through URL Ordering Junghoo Cho - Hector Garcia-Molina - Lawrence Page Department of Computer Science Stanford, CA Algorithmes.
Stratégie de communication
Option : Management des organisations
Couche réseau du modèle OSI
Structures de données avancées : LH* D. E ZEGOUR Institut National d ’Informatique.
ANNEHEIM Geoffrey21/03/ Protocole de communication Socket TCP/IP Afin que MyCrawler fonctionne de façon optimale, une configuration de deux machines.
Les courriels Georger Alice T.I.C. Ecole des Mines de Nancy 18/02/2013
Problématique, avantages, inconvénients et perspectives d’évolution
Bloc 1 - UE 5 - Technologies de l’information et de la communication TIC Bachelier en immobilier T. SOUMAGNE.
Raison d'être de la structure de fichiers : Les premiers travaux : Début des années 1960 : En 1963 : Près de 10 ans plus tard... (à peu près 1973) : Durant.
LES VLANS Présenté par : ATCHOM SANDJI DANIEL.
Les missions des opérations CTE9 – 13/12/2011 Gilles Mathieu.
TD N°5: Une GPAO pour l’usine Odyssée. Lancement du logiciel Logiciel « Usine Odyssée 7 » disponible dans … Entrer votre nom et un nom d’entreprise de.
1 Théorie de la finance Gestion de portefeuille Moyenne-variance Master Sciences de Gestion – Semestre II - Université Mohammed V Faculté des Sciences.
الهيئة العامة لحماية المستهلك أساليب الترويج وتأثيراتها على المستهلك خليفة التونكتي - مستشار المنافسة - 1.
Transcription de la présentation:

Crawlers Parallèles Présentation faite par: Mélanie AMPRIMO étudiante en Master en Sciences Informatique Basée sur l'article Parallel Crawler de Mr Junghoo Cho (Université de Californie) et de Mr Hector Garcia-Molina(Université de Stanford)

Situation Augmentation de la Taille du Web: Une solution: Augmentation des pages redondantes Difficultés de trouver toutes les pages en un temps respectables. Une solution: Les crawlers simples Les crawlers parallèles

Plan Introduction I. Architecture des crawlers parallèles II. Modes des crawlers pour un assignement statique II.1 Minimisation de l'échange d'URL II.2 Fonction de partition III. Modèle d'évaluation IV.Exemple d'évaluation IV.1 Base de données IV.2 Différents Modes Conclusion

Introduction: problèmes soulevés par les crawlers Pas que la parallélisation: combien de fois visiter une page, sans l'inonder? quelle page enregistrer pour pas remplir notre espace mémoire et avoir la meilleure collection possible? Mais enjeux plus intéressants surtout très peu traité et peu d'écrits.

Introduction Peu de modèles, donc questions essentielles: chevauchement: Comment peut-on coordonner les processus pour éviter le chevauchement? qualité: Comment peut-on être sûr de la qualité des crawlers parallèles / crawler centralisé? longueur de la bande passante de communication: De quoi ont-ils besoin pour communiquer et comment ces frais généraux seraient-ils significatifs? Peut-on réduire au minimum ces frais généraux tout en maintenant l'efficacité des crawlers?

Introduction Avantages: Supporter la charge Répartition en zones géographiques du réseau de téléchargement Réduction du réseau de téléchargement Toutes les pages doivent être transférées à un endroit centralisé: transfert<trafic de téléchargement initial compression :compresser la base différence avec l'image précédente synthèse: index central-> bases simplifiées

I.Architecture des crawlers parallèles plusieurs crawling processes : C-proc, équivalent chacun à un single crawler

I.Architecture des crawlers parallèles Problème: pages similaires Intra-site: crawlers sur le même réseau(Lan) le réseau de téléchargement est centralisé Distributed crawler: zone géographique distante séparation et réduction du téléchargement attention à la communication

I.Architecture des crawlers parallèles : Distributed Crawler Différentes façons de voir le problème de communication: crawlers indépendants: téléchargement des pages de manière individuelle assignement dynamique: Coordinateur central qui distribue les partitions aux différents crawlers, souvent parallélisé. assignement statique:le Web est déjà partitionné et les partitions sont attribuées avant le début du crawler

II.Fonctionnement du crawler pour un assignement statique 1 processus = 1 partition C1-S1 / C2-S2 mais on a certains liens d'inter-partition. (a,g),(c,g)... Comment gérer ces liens pour éviter la redondance?

II.Fonctionnement du crawler pour un assignement statique Mode FireWall liens inter-partitions ignorés =>ni surcharge, ni coordination Mode Cross-Over Mode exchange s'informe des liens sans telecharger les pages. minimise la redondance et maximise la sécurité

II.1 Minimisation de l'échange URL Batch Communication envoie d'un lot d'URLs après avoir collecté k pages à différents crawlers. purge en maitenant seulement la liste des liens dans le groupe courant. Replication: Distribution de Zipfian recherche des pages les plus populaires distribution entre les crawlers

II.2 Fonction de partitionnement URL-hash based: on assigne une page URL a un C-proc beaucoup de liens inter-partitions Site-hash based: on sélectionne le nom du site et attribue l'adresse à un C-proc -> diminution du nombre de lien inter-partitions Hierarchical: on sélectionne d'une manière hiérachique, par ex: nom de domaine ->diminution du nombre de lien inter-partitions, mais difficulté de faire des partitions équivalentes.

II.2 Fonction de partitionnement : résumé - Tableau représentant les points abordés dans le I puis le II.

III. Modèle d'évaluation Surcharge = N-I I Couverture= I N Qualité = |AnʌPn| |Pn| Surcharge de communication N: nombre de pages total télécharger par l'ensemble des crawlers I: nombre de pages uniques téléchargées An: ensemble des pages les plus importantes de l'image du web du crawler Pn: ensemble des pages les plus importantes du web = nombre de pages téléchargées nombre d'échanges d'URLs inter- partition

III. Modèle d'évaluation Les deux résultats: - Good: le mode est relativement performant dans ce domaine. - Bad : le mode n'est pas performant par rapport aux autres modes - Et sur des vraies bases de données?

IV. Exemples d'évaluation IV.1 Base de données 40 millions de pages Web issues de la base de Stanford URLs listés dans l'Open Directory dmoz.org = noyau du crawling = 1 million d'URLs bases petites mais peu cher résultats concluants

IV.2 Différents tests Mode Firewall et couverture Mode Cross-Over et Surcharge Mode Exchange et communication Qualité et Batch Communication

Mode Firewall et Couverture le mode Firewall limite la communication, mais aussi la couverture du réseau. Au départ: 5 URLs au hasard. => couverture diminue quand le nombre de processus augmente

Mode Firewall et Couverture La couverture dépend du nombre d'URLs du départ du crawler Conclusion: - Petit nombre d'URLs obligent un petit nombre de C-proc - le mode firewall n'est pas un bon choix

Mode Cross-Over et Surcharge Le mode cross-over augmente la couverture du réseau au dépend de la surcharge. La surcharge reste longtemps a 0 jusqu'à ce que la couverture atteigne un certain pourcentage Conclusion: Même si le mode Cross-Over est mieux qu'un mode indépendant, la surcharge devient vite très importante.

Mode Exchange et communication Nous avons divisés les 40 millions de pages par une méthode de hachage. - Le site Hash diminue la communication.

Qualité et Batch Communication l'importance des pages est noté par rapport aux nombres de liens allant sur cette page. La qualité dépend du nombre d'échanges d'URLs.

Qualité et Batch Communication La surcharge de communication ne croit pas linéarement avec le nombre d'URL échangés Les crawlers n'ont pas besoin de communiquer beaucoup pour avoir la qualité.

Conclusion crawlers parallèles de plus en plus utilisés Mais peu de choses connues En résumé: peu de processus de crawling -> mode firewall mode exchange-> peu de bande réseau batch communication-> maximise la qualité