La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Bienvenue. UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU DEPARTEMENT D’INFORMATIQUE En vue d’obtention du diplôme d’ingénieur d’état en informatique Option.

Présentations similaires


Présentation au sujet: "Bienvenue. UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU DEPARTEMENT D’INFORMATIQUE En vue d’obtention du diplôme d’ingénieur d’état en informatique Option."— Transcription de la présentation:

1 Bienvenue

2 UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU DEPARTEMENT D’INFORMATIQUE En vue d’obtention du diplôme d’ingénieur d’état en informatique Option Systèmes d’information avancés Travail Réalisé par :  M R GUENDOUL Samir Dirigé par:  M r HAMMACHE Arezki PROMOTION2009_2010PROMOTION2009_2010

3 Thème : Réalisation d’un crawler web paramétrable.

4 Plan : Introduction. Recherche d’information sur le web. Moteurs de recherche. Crawler. Solution réalisée. Conclusion.

5 Introduction: Recherche d’information:  La recherche d'information est un domaine historiquement lié aux sciences de l'information et à la bibliothéconomie.  La recherche informatique a permis le développement d’outils pour traiter l’information et établir la représentation des documents à l’instant de leur indexation. Au sens large, la recherche d'information inclut deux aspects : l'indexation des corpus ; l'interrogation du fonds documentaire ainsi constitué.

6 Le Web: (www) Créé par Tim Berners-Lee dans les année 90. Représente la couche logique du réseau Internet. Créé pour échanger et consulter l’information. Question :  Comment accéder aux informations nous intéressant ? Parcourir tous les composants reliés au Web. (tâche ardue et lente). Comment faire ?

7 Les outils de recherche sur le Web Les moteurs de recherche :  l’un des composants qui ont révolutionné le web.  Créé par Matthew Gray En  Son travail consiste à :  Chercher les informations pertinentes.  Les restituer à l’utilisateur.

8 Les outils de recherche sur le Web Les annuaires:  Yahoo est le premier à faire son entrée en  Ils sont constitués par des catalogues organisés en grandes rubriques.  Les résultats sont pertinents mais beaucoup plus restreints. Les méta-moteurs:  Un méta-moteur est un moteur de recherche, combinant la recherche d’information sur plusieurs moteurs de recherche différents.  web Crawlde, métaCrawler, …etc.

9 Les moteurs de recherches: Web Liste rangée Représentation de question Anti-dictionnaire Besoin d’informations Formulation Indexeur Classement Retourne le résultat à l’utilisateur Crawler Base de stockage présentation

10 Processus de moteur de recherche: www Crawler Base de stockage indexeur Anti-dictionnaire Besoin d’informations Module de recherche Liste rangée requête

11 Le Crawler: Définition:  Programme intelligent qui s’exécute automatiquement.  Parcoure et explore le Web en suivant les line hypertextes.  Alimente la base de donné des moteurs de recherche. Archie:  Le premier robot apparu dans le web.  Créé par Alan Emtage en  Télécharger le listings d’annuaire.

12 Les types des Crawlers: Crawler Web :  il explore tous le Web et aspire les informations correspondantes à chaque URL. Crawler indexeur :  parcoure, aspirant et index chaque page trouver dans le Web. Crawler chercheur:  Rechercher des informations spécifique à un domaine précis par une requête.  Cherche sur le web en temps réel. Remarque : Le type de Crawler qu’est étudié est le Crawler Web.

13 Architecture Générale des Crawlers: Frontière Client HTTP Parseur URLs de départ www B.D.D Entrée Choisir URL Chercher Sauvegarde Fouiller Traiter Ajout d’URL Scanneur

14 Stratégies de parcours: Le web est un graphe dont les nœuds sont des pages et les arcs sont des liens. Le crawler commence par quelque nœuds est suit les arcs. Dévers Stratégies existe :  Le parcours en largeur (FIFO).  Le parcours en profondeur (LIFO).  Le parcours suivant le degré entrant maximum (DEM).  Le parcours aléatoire (RANDOM).

15 Le parcours en Largeur QueueTête

16 Le parcours en profondeur Queue Tête

17 Le processus de Crawler: URL Entrée URLs de départ La frontière Client HTTP Choisir URL www BDD chercher sauvegarder Parseur URL parser scanner URLs trouvées URL

18 Critères du Crawler: Les critères à suivre :  Eviter de parcourir une même page;  Choisir les documents a téléchargés;  Ne pas récolter des fichiers qui peuvent causer des dommages;  Eviter de suive un parcours sans fin;  Respecter les instructions d’exclusion (robot.txt);  Ne pas saturer les serveurs.

19 Les Crawlers distribués: Problème :  Immensité de Web.  Limite des Crawlers mon-poste.  Solution: Nécessité d’une nouvelle technologie; Naissance des Crawlers Distribués.

20 Architecture des Crawlers Distribués: Crawler www BDD Frontièr URL Clients Serveur URL...

21 Solution réaliser: Un Crawler Paramétrable

22 Environnement de développement : La réalisation d’un logiciel fiable et performant est capitale. Les outils de développement:  Système d’exploitation : Windows Vista.  Environnement : Eclipse IDE version  Langage de programmation : JAVA.

23 Architecture du Système: Crawler URL document

24 Architecture du Système: Interface Utilisateur Noyau Stockage d’informations Initialiser et démarrer le Crawler Sauvegarder les données Consulter les données

25 Le Noyau: Noyau ExploreurParseurScanneurClient HTTP

26 Le Client HTTP : URL Interroger le serveur www Existe? Oui Non Télécharger le document Base De Données Fin Sauvegarder

27 Le parseur: Analyser page Contient des liens? Extraire les liens Fille temporaire Fin Oui Non ajouter

28 Le Scanneur: URLs Vérifier le Protocole Ajouter à une fille temporaire Fin HTTP? Non Vérifier le lien interne? Oui Non Oui Vérifier le type existe? Non Vérifier la longueur et la profondeur dépasser? Oui Non

29 L’exploreur: Frontière Client HTTP vide? Fin Oui Choisir URL Non Parseur Scanneur Ajouter les URLs à la frontière Télécharger Analyser vérifier ajouter recommencer Début

30 Stratégies de parcours: La frontière détermine quelle stratégie adopter. Nous avons développés quatre stratégies :  Parcours en Largeur : utilise une fille FIFO.  Parcours en Profondeur : utilise une fille LIFO.  Parcours aléatoire : programmée avec la fonction Random().  Parcours Delay : utilise une fille FIFO, temps de connexion limité.  Pour programmer ces fille d’attentes, nous avons utilisés la classe ArrayList.

31 Interface graphique principale:

32 Ajouter un Crawler:

33 Panneau gestion Crawler: Propriétés du Crawler Etat de parcours Arrêter Pause Continuer Démarrer URLs éxplorées Pages téléchargées

34 Consulter les pages téléchargées: Consulter les URLs Explorées:

35 Fin de Crawler

36 Test Nous avons initialisé le Crawler comme suit:  Stratégie : Fifo ;  Nombre Urls : illimité ;  Nombre Répertoire : illimité ;  Longueur Url : illimité ;  Type Url : html, php, asp, pdf, doc, txt, ptt ;  Url de depart : Après onze heur de parcours:

37 Test

38 Conclusion Nous avons présenté une étude détaillé sur les Crawler et la solution réalisée. Nous avons conquis de nouvelles information sur la RI, et acquis une base solide sur le développement et la programmation de logiciel. En guise de perspective nous proposons, d’élaborer une architecture distribuée pour le Crawler réaliser.

39 Merci pour votre attention Questions..?


Télécharger ppt "Bienvenue. UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU DEPARTEMENT D’INFORMATIQUE En vue d’obtention du diplôme d’ingénieur d’état en informatique Option."

Présentations similaires


Annonces Google