Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget.

Slides:



Advertisements
Présentations similaires
Algorithmes et structures de données avancés
Advertisements

Classification et prédiction
Regroupement (clustering)
Internet : serveurs Web
Regroupement (clustering)
GEF 435 Principes des systèmes d’exploitation
Conception de Programmes Evolutifs Pré Soutenance de TER Année Encadrants : Cathy Escazut et Michel Gautero Auteurs: Paul-Kenji Cahier Sylvain.
Les TESTS STATISTIQUES
Les TESTS STATISTIQUES
Notions de variable aléatoire et de probabilité d’un événement
Le logarithme décimal : quelques exemples (introduction, utilisation)
Nicolas Bourbaki.
INTRODUCTION.
La fonction Style Permet de créer des types de texte, par exemple
Principe de défilement du document dans un traitement de texte
Utilisation des tableaux
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Concepts avancés en mathématiques et informatique appliquées
ETAPE03 « Produits et ingrédients…… » « Produits et ingrédients… » Rappel : Dans létape 2, nous avons vu une organisation plus complète des données relatives.
Traitement de textes WinWord 3 e année Sciences économiques, de gestion et commerciales Présenté par NEHAR Attia.
Algorithmique et Programmation
Algorithmes Branch & Bound
Xml/xslt : Extensible Stylesheet Language Transformation réalisé par: saÏd NAÏM.
Mode plan – Table des matières
Création d'un diaporama Création d'un diaporama
IFT-2000: Structures de Données Introduction à lanalyse dalgorithmes Dominic Genest, 2009.
Groupe 1: Classes de même intervalle
28 novembre 2012 Grégory Petit
RECONNAISSANCE DE FORMES
Techniques de test Boulanger Jean-Louis.
Chapitre 2 Réductions: exemples et méthodes
Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.
Les Fonctions. Définir une fonction Sections de code indépendantes que lon peut appeler à nimporte quel moment et dans nimporte quel ordre. Bout de code.
Introduction à la programmation I Fonctions Structures de contrôle Structures de données (arrays simples et indexés) Variables locales et globales.
Courbes de Bézier.
BIO1530 Lab2 Littérature scientifique. Objectifs de lexercice Après avoir complété cet exercice, vous devriez être en mesure de: Déterminer si une publication.
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Apprentissage semi-supervisé
Recherche Opérationnelle
Chapitre 9 Les sous-programmes.
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Interprétation automatique
Programmation linéaire en nombres entiers : les méthodes de troncature
D.E ZEGOUR Ecole Supérieure d’Informatique
INTRODUCTION.
Codage des nombres en informatique : le système binaire.
Programmation linéaire en nombres entiers
Internet : serveurs Web  Clients et serveurs : le navigateur  Sites Web et urls  Fichier source d’une page  Langage HTML 1.
 Objet window, la fenêtre du navigateur
Marquez cette valeur sur le diagramme à points de la question 6. La moyenne réelle des nombres de lettres par mots dans la population de l'ensemble des.
Algorithmes Branch & Bound
Ranking the web frontier Nadav Eiron, Kevin S. McCurley, John A. Tomlin IBM Almaden Research Center Bah Thierno Madiou.
Arbres binaires et tables de hachage
1 Algorithmes pour le Web Prof : José Rolim Coarse-grained Classification of Web Sites by Their Structural Properties Auteurs : Christoph Lindemann & Lars.
Sujets spéciaux en informatique I
Initiation au JavaScript
Recherche de motifs par projections aléatoires
En route vers le déploiement . . .
Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.
Efficient Crawling Through URL Ordering Junghoo Cho - Hector Garcia-Molina - Lawrence Page Department of Computer Science Stanford, CA Algorithmes.
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Scripts et fonctions Instructions de contrôle
ANNEHEIM Geoffrey21/03/ Protocole de communication Socket TCP/IP Afin que MyCrawler fonctionne de façon optimale, une configuration de deux machines.
PIF-6003 Sujets spéciaux en informatique I
Scénario Les scénarios permettent de modifier la position, taille … des calques au cours du temps. Son fonctionnement est très proche de celui de Macromedia.
Dreamweaver Séance 1.
Chap. 3 Récursion et induction. Les définitions par récurrence consistent à construire des objets finis, à partir d'autres, selon certaines règles. Les.
1 er séance SI28 A2004 YIN Lei Emmanuel Eugene. Plan de l’exposé  Introduction au HTML  Le HTML dans le bloc-notes (notepad)  Présentation de Dreamweaver.
Gilles Le Page – sept 2012 Créer un Scoop.it pour partager une veille Dia knowledge-community.net.
Transcription de la présentation:

Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget

Sommaire Introduction Deux approches pour le clustering du web Représentation dun document Mesure de similarité Algorithme LSH(locality-sensitive hashing) Clustering Résultats des expériences Références

Introduction Le clustering est lune des principales méthodes pour traiter la grande quantité dinformation actuelle du web.Avec les milliards de pages sur le web,des algorithmes de clustering fortement scalables sont nécessaires.

Deux approches pour le clustering du web Les approches pour le clustering du web peuvent être divisées en deux catégories: Offline Clustering: il sagit de grouper les pages indépendamment des questions de recherche. Cest à dire quon essaie de construire des ensembles de pages relatives en se basant sur une certaine métrique(la plupart du temps une notion de similarité).

Deux approches pour le clustering du web(suite) Online Clustering: Dans ce cas le clustering est fait par rapport aux questions de recherche selon une matière donnée. cette approche utilise deux méthodes: le méthode basé lien et la méthode basée texte.

Ces deux méthodes pour le clustering online ont donné de bons résultats pour trouver des pages qui parlent dun même sujet. Mais la méthode basée texte nest en général pas scalable pour le clustering offline de web entier. Et la méthode basée lien est souvent confrontée aux habituelles techniques de filtrage collaboratif:

Au moins quelques pages se dirigeant à deux pages sont nécessaires afin de fournir l'évidence de la similitude entre les deux. Ceci empêche des moteurs de recherche de trouver les relations tôt dans la vie de la page, par exemple, quand elle est crawlée en premier. Des pages sont considerées comme semblables seulement quand un nombre suffisant de pages les co-citent.

les méthodes basées lien sont sensibles aux choix spécifiques faits par les auteurs des pages Web ; par exemple certains utilisent CNN pour les informations météo et dautres MSNBC et il se peut très bien quil ny ait aucun lien entre ces deux pages.

Pour surmonter les limitations des approches ci-dessus, on introduit lalgorithme LSH( locality-sensitive hashing ) dont lidée de base est deffectuer un hashage des pages web de telle manière que les pages similaires aient une plus grande probabilité de collision.

Représentation dun document La plupart du temps un document est représenté comme un vecteur n- dimensionnel, où la dimension i est la fréquence du term i. Dans notre cas un document doc u est représenté par un bag où w u i sont les mots présents dans le bag et f u i les fréquences correspondantes. les fréquences des mots sont calculées grâce à la formule:

Avec : la fréquence du mot i dans tout le document N:nombre de documents Et comme avant.

Représentation dun document (suite) Deux options pour générer le bag cest pour décider quels mots en font partie: Content-Based Bags dans ce cas le bag est donné par le multi ensemble des mots apparaissant dans le document u. on élimine les commentaires HTML,le code javascript. on utilise aussi une liste de stopword. Anchor-Based Bags Mais lutilisation du contenu des pages est problématique dans la mesure où elle ne prend pas en compte les liens et les images. Cela soulève aussi des problèmes de polysémie et de synonymie.

Pour alléger ce problème le bag représentant un document sera un multi ensemble des occurrences des mots près des hyperliens de la page. Donc pour générer ces bag nous procédons comme précédemment sauf quau lieu de construire un sac des mots du documents,on construit un fragment de sac pour chaque URL auquel le document est lié. Chaque fragment de sac comprend le texte dancre de lURL, aussi bien qu'une fenêtre des mots juste avant et juste après le lien Dans les expériences de larticle la taille de la fenêtre est de 8.

Mesure de similarité Pour chaque paire durl u et v,leur similarité est donnée par: Exemple:on applique cette mesure de similarité au Anchor-Based bags Expérience:

Ils prennent les 12 premiers millions de pages du répertoire du Stanford WebBase à partir dun crawl effectué en Ces 12 millions de pages permettent la génération de Anchor-Based bags de 35 millions durls. Ils ont choisi aléatoirement 20 urls au deuxième niveau de la hiérarchie Yahoo et ont trouvé les 10 plus proches voisins de chaque url dans la collection de 35 millions durl en se basant sur la mesure de similarité définie plus haut.

On parcourt donc les sacs générés pour trouver les 10 plus proches voisins. Trouver des pages similaires deux par deux dans un lot de 35 millions durl ce nest pas très élégant mais nous verrons une manière plus efficace lorsque nous parleront du LSH. Les premiers résultats suggère que le Anchor- Based Bags est une bonne technique pour juger de la similitude des documents.

Quelques résultats: 2 sujets: 1.English langage studies 2.food

Algorithme LSH Lidée cest de créer une signature pour chaque url pour assurer que les url similaires aient une signature similaire. En admettant que les bags sont des ensembles,on utilise la formule:,où mh est est choisi de manière aléatoire dans la famille des fonctions de Hashage

On trouve une MH-signature par min w {h(w)|w appartient S} S est lensemble qui représente B(bag) h(.) est une fonction linéaire de hashage Cette MH-signature a la propriété que la même valeur correspond à des urls similaires. Mais comme la méthode est basée sur des probabilités,on peut avoir des faux positifs et des faux négatifs

Cest là quon introduit la LSH-signature qui est la concaténation de k MH-signature provenant dune génération de m MH- signature Cela réduit le nombre de faux positifs mais augmentent les faux négatifs. Pour cela on génère l différents LSH- signature pour chaque url.

Pour augmenter la qualité de nos résultats et réduire les faux positifs, il y a une étape de filtrage sur les paires produites par l'algorithme d'ExtractSimilarPairs. Pendant cette étape, chaque paire (u,v) est validée en vérifiant si les urls u et v sont daccord sur une fraction de leurs MH-SIGNATURES qui est au moins aussi grande que le niveau désiré de similitude ( 20%). Si la condition ne se tient pas, la paire est jetée.

Clustering Lensemble des paires de documents généré par lalgorithme doit être trié. Il faut noter que chaque paire apparaît 2 fois (u,v),(v,u). Pour former les cluster on utilise un algorithme quon appelle CENTER. Lidée est de considérer les paires similaires comme les arcs dun graphe et les urls sont les nœuds. Lalgorithme partitionne le graphe de telle manière que dans chaque cluster il y a un center Et les autres nœuds du graphe sont « assez proches» cest-à-dire quil existe un arc(il existe une paire similaire(nœud,center)).

L'algorithme parcourt séquentiellement les paires triées. La première fois que le noeud u apparaît dans le parcourt, il est marqué comme centre de cluster. Tous les noeuds v suivants qui apparaissent dans les paires (u,v) sont marqués comme appartenant au cluster de u et ne sont plus considérés.

Résultats des expériences Ils ont utilisé lapproche Anchor-Based pour générer les bags de 35 millions durls trouvés partir de 12 millions de pages. Ils appliquent ensuite le Clustering basé sur la technique LSH. Lalgorithme ExtractSimilarPairs est appliquée avec les paramètres suivants: l=125 m=80 k=3 Les temps dexécution de chaque étape sont dans le tableau suivant:

Références rennes1.fr/doc/nomindex/ rennes1.fr/doc/nomindex/ eCourante/documentshttp://cui.unige.ch/tcs/cours/algoweb/anne eCourante/documents