La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Aperçu des architectures des systèmes dinformation web Camille MAUSSANG – IC05 – 11 mai 2004.

Présentations similaires


Présentation au sujet: "Aperçu des architectures des systèmes dinformation web Camille MAUSSANG – IC05 – 11 mai 2004."— Transcription de la présentation:

1 Aperçu des architectures des systèmes dinformation web Camille MAUSSANG – IC05 – 11 mai 2004

2 Plan Le web : sytème de données semi-structurées Crawler ? Architecture dun moteur de recherche Cas de Google 98 Architecture de TARENTe v2 Perspectives Références

3 Le web : système de données semi-structurées Le web Ensemble de pages HTML reliées entre elle par des liens hypertextes et transmises à travers le protocole HTTP. Trois inconvénients majeurs - Formats hétérogènes (Flash, PDF, etc.) - Dynamisme - temporel- programmes côté serveur (CGI) - cookies- code exécuté côté serveur (PHP) - formulaires- code exécuté côté client (Java, ActiveX) - Souplesse vis à vis du code Pour y remédier - Traitements spécifiques - Formaliser le dynamisme - Faculté de « corriger » les erreurs de syntaxe

4 Crawler ? Auparavant Collections fermées, possibilité détablir un catalogue exhaustif Aujourdhui Lunique moyen dobtenir un index est de collecter des pages liées à dautres pages déjà collectées Fonctionnement - soumission dURL - download (extraction des liens) - traitement Crawler à grande échelle Être capable de télécharger beaucoup de pages en peu de temps tout en respectant les règles de politesse et sans surcharger le réseau - Gestion du DNS - Sockets asynchrone - Eviter les pièges à robot

5 Crawler Repository Store Server Crawler URLs à crawler Download des pagesStockage et compression Schéma de larchitecture de 98 URL Server Stockage des pages (docID) Indexer Parsing et indexation Barrels Stockage des mots (occ., typo, position) Anchors Stockage des liens (from, to, texte) Lexicon Lexique (régénéré à partir de lindex inverse) Doc Index URL resolver Reconstruction des URLs, docIDs Links Stockage des liens (docID_f, docID_t) Pagerank Calcul du Pagerank Sorter Génération de lindex inverse Searcher Moteur de recherche Index des docIDs

6 Détails sur Google Le crawler de Google : GoogleBot -Fresh Bot (MAJ) -Deep Bot (Indexation massive) La GoogleDance toutes les 4 semaines Pagerank - Si A pointe B alors le pagerank de B augmente. - Le pagerank de B augmente en fonction du pagerank de A. - Moins A possède de liens plus le pagerank de B augmente. Favorise la connectivité au dépend dautres facteurs : - Traffic des sites pointant vers B - Nb. de clics sur le lien de A vers B - Nb. de clics sur le lien des résultats de Google vers B Yahoo! Search Technology Le crawler de Yahoo! : Slurp

7 URL Submiter Crawler URLs toVisit Link Node Word Page Analyser URL Expander Crawler Worm Pile dURLs à crawler Download des pages Soumet à la politique de crawl Indexation Schéma de larchitecture de TARENTe v2 Extraction des liens URLs Already Visited Pile dURLs déjà visitées HITS like CHP TouchGraph WordTable Export Map Crawler Dictionnaire des mots Stockage des liens Stockage des nœuds Traitements statistiques Exportation - Problèmes à grande échelle - Centré sur lutilisateur

8

9 Perspectives Focused Crawler - Parcours « guidé » du web à partir dindices de contenus Crawler périodique - Crawler de « rafraîchissement », tourne en continu - Optimise la fraîcheur de la base Crawler de deep-web - Crawler couplé à une table dassociation (Label/Value) - Capable de remplir un formulaire Crawler de forum - Corrélation topologique/sémantique naturelle - Extraction de profils dacteurs

10 Références (fr) Bibliographie (en) Développements de Google (fr) Comment optimiser son référencement chez Google et Yahoo! (en) Portail dédié aux moteurs de recherche


Télécharger ppt "Aperçu des architectures des systèmes dinformation web Camille MAUSSANG – IC05 – 11 mai 2004."

Présentations similaires


Annonces Google