Ranking the web frontier Nadav Eiron, Kevin S. McCurley, John A. Tomlin IBM Almaden Research Center Bah Thierno Madiou
Sommaire Introduction Les Frontières du Web Algorithmes Conclusion
Introduction Traitement du problème des « pages pendantes » –Proposition d’algorithmes Résolution des problèmes de manipulation des rangs de pages. –Tenir compte de la manipulation des rangs
Les frontières du Web Frontière = ensemble de pages pendantes. Les pages peuvent être pendantes pour plusieurs raison: –Pages non atteintes par le crawler. –Pages protégées par un robots.txt –Pages sans liens sortant (PDF et PostScript) –Url avec Meta tag interdisant tout liens sortant. Nécessitant une authentification –Code 500, 404, 403 … Ignorer les pages pendantes revient à ignorer leur influence sur le calcul des rangs des pages.
Traitement des pages pendantes Suppression des liens des pages pendantes du graphe avant le calcul des rangs. Suppression puis insertion des pages pendantes pour les "dernières itérations". La suppression de pages pendantes produit de nouvelles pages pendantes.
Traitement des pages pendantes Méthode alternative: –Choisir aléatoirement une page, avec une probabilité 1, à partir d'une page pendante. –Calculer les rangs suivant les vecteurs propres
Traitement des pages pendantes Rappel algorithme de PageRank:
Algorithmes Amélioration de l'algorithme de PageRank pour ajuster les rang des pages liée à des pages pénalisantes. – Push-back –Self-loop –Jump-weighting –BHITS
Push-back Principe: –Réduire d'une fraction le rang d'une page liée a une page pénalisante. –Retourner les valeurs de rang transmises par les autres pages lors de l'itération précédente. Limite la propagation de valeurs vers cette page.
Self-loop Principe: –Augmenter chaque page avec un arc entrant sur lui même. –Affecter une probabilité doit être petit si le nombre de liens sortant vers des pages pénalisantes est grand. Choisir: nombre de liens sortants de i nombre de liens entrants de i
Jump-weighting Introduire un nœud virtuel. Pondérée le lien entre le nœud virtuel: –Et le nœud non pénalisant par. –Et le nœud pénalisant par. – est choisit de sorte que la somme de tous les poids des arcs soit égale l'unité.
BHITS Décrit comme un algorithme de parcours aléatoire qui utilise un «forward step» suivit d’un « backward » pour les pages pendantes. Pour les nœuds non pendantes le « backward » consiste un en arc bouclant le nœud concerné. Deux cas pour les nœud pendantes: – Page pénalisante: on propage la valeur de son rang vers le nœud virtuel. –Page non pénalisante: l’étape « backward » divise le rang de la page par le nombre de liens entrants puis propager les valeurs dans les nœuds des pages entrantes.
Hostrank Réduction de la taille de la taille du graphe. Perte d’informations.
Dirrank Les url's ont une structure hiérarchique. Chaque '/' désigne un sous "répertoire". Chaque "répertoire" peut être représentée par un nœud. Regroupement des tous les "répertoire" désignées par l'url pour former un noeud.
Conclusion
Merci