Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parAdélaïde Lévesque Modifié depuis plus de 9 années
1
ANNEHEIM Geoffrey21/03/2009
2
2 2 Protocole de communication Socket TCP/IP Afin que MyCrawler fonctionne de façon optimale, une configuration de deux machines au minimum est nécessaire. Le réseau de MyCrawler est constitué de machines clientes se connectant à des machines serveurs. Seul les clients peuvent crawler des Urls néanmoins un client peut proposer sa puissance de calcul au serveur afin de le soulager de tâches lourdes telles que l’indexation de pages ou encore le calcul des nœuds du graphe de la communauté crawlée. Des serveurs peuvent communiquer entre eux afin d’élargir le réseau. Les échanges d’informations entre les machines du réseau se font à travers le protocole de communication TCP/IP via des sockets. Afin que MyCrawler fonctionne de façon optimale, une configuration de deux machines au minimum est nécessaire. Le réseau de MyCrawler est constitué de machines clientes se connectant à des machines serveurs. Seul les clients peuvent crawler des Urls néanmoins un client peut proposer sa puissance de calcul au serveur afin de le soulager de tâches lourdes telles que l’indexation de pages ou encore le calcul des nœuds du graphe de la communauté crawlée. Des serveurs peuvent communiquer entre eux afin d’élargir le réseau. Les échanges d’informations entre les machines du réseau se font à travers le protocole de communication TCP/IP via des sockets. Les informations contenues dans ce document sont la propriété exclusive de son/ses auteur(s). Toute utilisation sans accord préalable est interdite.
3
3 3 Système d’exploitation (Windows, Linux, Mac OS) Socket TCP/IP Table IPs des clients Espace de stockage Black list (Sites inutiles à Crawler) Black list (Sites inutiles à Crawler) White list Graphe des pages Web File des Urls visitées par les clients Espace d’Urls Table IPs des serveurs Protocole de communication Calcul position de l’Url Prise de décision Attribution des Urls à crawler aux clients Collecte les données du client sur le serveur Prise en compte des événements clients (perte du réseau, tâche terminée, …) Couche applicatif Interface utilisateur Configuration Liste des clients Liste des serveurs Urls en attente à crawler Graphe des pages Web Black list (liste noire des Urls) Observateur d’événements Composants logiciels Indexe des pages Web Indexeur (Lucene) Requêtes moteur de recherche Requêtes moteur de recherche (communication serveur à serveur) Répartition des tâches (fonction capacités de calcul des clients) Urls crawlées et indexées Pour une explication détaillée de chacun des blocs, veuillez vous référer au document de spécification logicielle. Les informations contenues dans ce document sont la propriété exclusive de son/ses auteur(s). Toute utilisation sans accord préalable est interdite. Ces fonctionnalités seront développées si l’état d’avancement du projet nous le permet.
4
4 4 Système d’exploitation (Windows, Linux, Mac OS) Socket TCP/IP Espace de stockage Graphe des pages Web Composant de stockage (messages serveur) Adresse IP serveur Protocole de communication Calcul position de l’Url Prise de décision Prise en compte des événements émis par le serveur Couche applicatif Interface utilisateur Configuration Composants logiciels Pour une explication détaillée de chacun des blocs, veuillez vous référer au document de spécification logicielle. Les informations contenues dans ce document sont la propriété exclusive de son/ses auteur(s). Toute utilisation sans accord préalable est interdite. Ces fonctionnalités seront développées si l’état d’avancement du projet nous le permet. Liste des Urls crawlées Protocole HTTP Composant de téléchargement des pages Web Coordination des pages à visiter Urls à crawler Black list Crawler Analyse de contenu Emission de données au serveur Collecte de données via le serveur Requêtes moteur de recherche Composant de calcul d’un graphe Liste des clients connectés au serveur Calcul position d’une Url dans un graphe fournie par le serveur Accepte ou rejette une page en fonction de son contenu Observateur d’événements Urls en attente à crawler Graphe des pages Web Black list (liste noire des Urls) Requêtes moteur de recherche Urls crawlées
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.