Combating Web Spam with TrustRank. OSINI Aurélien.

Slides:



Advertisements
Présentations similaires
Comparaison de deux algorithmes d’approximation
Advertisements

Soutenance du stage de DEA.
GROUPES D'INNOVATION.
Gestion de portefeuille
A Transparent n o 1 Saut Quantique 12 octobre 2000 Gestion de projet Ghislain Gravel ing.
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Algorithmes et structures de données avancés
Regroupement (clustering)
RECONNAISSANCE DE FORMES
GEF 435 Principes des systèmes d’exploitation
Cours d'algorithmique 11 / Intranet 1 9 janvier 2006 Cours dAlgorithmique N P - complétude.
A Pyramid Approach to Subpixel Registration Based on Intensity
Xialong Dai, Siamak Khorram
Le référencement des pages web
Probabilités et statistique en TS
Le référencement des sites internet par les principaux moteurs de recherche Adrien Rimélé Alice Laurent 25 septembre
Analyse des moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
                                        République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique.
Enseignement de spécialité en S
Algorithmique et Programmation
Initiation à la conception de systèmes d'information
UE : 3.4. S4 Initiation à la démarche de recherche
1. Société à but lucratif 2 Trois étapes Traiter beaucoup d informations Stoker beaucoup de pages web Fonctionnement dun moteur de recherche Google Explorer.
DEA Perception et Traitement de l’Information
Google, un moteur de recherche comme les autres ?
Le référencement en 2008 : Etat des lieux et perspectives Sébastien Billard -
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Les réseaux de neurones
Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.
Projet d’ingénerie Naissance Design Exécution Exploitation.
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Webmarketing solutions 2 rue Louise Possoz Clamart : Tél : 09 Contact : Marc BREEN
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Moteurs de recherche Modex Web Modex Web 441 professeur Go
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
La veille numérique : un outil pour s'informer intelligemment &
Les moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
GRAPHES EN INFORMATIQUE. INTRODUCTION Les objets mathématiques appelés graphes apparaissent dans de nombreux domaines comme les mathématiques, la biologie,
Vincent VANDENBUSSCHE DEA – SIR / GR BD Mars 2002
La formation des ressources humaines
Comment classer les pages web. Principe du moteur de recherche Mise en mémoire des pages web Associer chaque page à des mot-clefs Objectif : Classification.
CONSTRUIRE SON DIAPORAMA
Ranking the web frontier Nadav Eiron, Kevin S. McCurley, John A. Tomlin IBM Almaden Research Center Bah Thierno Madiou.
1 Algorithmes pour le Web Prof : José Rolim Coarse-grained Classification of Web Sites by Their Structural Properties Auteurs : Christoph Lindemann & Lars.
Le monde de Patrick Plante est le moteur de recherche le plus utilisé au monde. Détient de serveurs à travers le monde. Répond à plus.
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
Travaux Pratiques Optimisation Combinatoire
Initiation à la conception des systèmes d'informations
Problème de double digestion
Web Spam Taxonomy (2005) Par : Zoltan Gyöngyi Hector Garcia-Molina Présentation: Algorithmique pour le Web Mirwais TAYEBI
TLE WEB QUESTS TRAVAIL DE SESSION Missions virtuelles Enquêtes virtuelles James Rainville.
SVM machine à vecteurs de support ou séparateur à vaste marge
Google - La recherche de données
Efficient Crawling Through URL Ordering Junghoo Cho - Hector Garcia-Molina - Lawrence Page Department of Computer Science Stanford, CA Algorithmes.
La recherche de vertex dans CMS : le recuit déterministe Nicolas Estre – IPN Lyon – Journées Jeunes Chercheurs 2003.
De l'Informatique outil au Langage Informatique créé par le Web et à la valeur de l'Information. Université Paris II & LRI Michel de Rougemont
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Échantillonnage (STT-2000)
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
STRATÉGIE DE RECHERCHE DOCUMENTAIRE Trouver des articles de périodiques Adèle Flannery, Cynthia Lisée et Christine Médaille, bibliothécaires.
Comment faire une recherche documentaire?
ECHANTILLONAGE ET ESTIMATION
1. Tri rapide ou Quicksort Principe : La méthode du Quicksort due au C.A. Hoare (1962) utilise les principes généraux de division et équilibrage. 2.
STRATÉGIE DE RECHERCHE DOCUMENTAIRE Trouver des articles de périodiques Adèle Flannery, Cynthia Lisée et Christine Médaille, bibliothécaires.
7 – La génération de trafic 1 Les opérations de génération de trafic désignent les actions marketing ayant pour but de générer du passage ou trafic dans.
1 Tableur Excel. 2 Introduction Un tableur est un logiciel permettant de manipuler des données numériques et d'effectuer automatiquement des calculs sur.
ÉCONOMIE POUR INGÉNIEURS CHAPITRE 1 Les fondements de l’économie d’ingénierie © 2013 Chenelière Éducation inc.
IFT 501 Recherche d'information et forage de données Chapitre 4 : Classification concepts de base, arbres de décision et évalution des modèles Partie 3.
Transcription de la présentation:

Combating Web Spam with TrustRank. OSINI Aurélien.

A propos de l’article. Publié en mars 2004 par 2 chercheurs (Zoltán Gyöngyi et Hector Garcia-Molina ) de l’université de Stanford et un chercheur de Yahoo! (Jan Pedersen). Le 16 Mars 2005, Google a déposé aux Etats-Unis la marque TrustRank.

Web spam et TrustRank Web spam : sorte de spam utilisant différentes technique pour fausser le résultat d’un moteur de recherche. TrustRank : Méthode permettant de classifier les sites (bon / spam) de manière semi-automatique.

Introduction, motivation de l’article : Web spam déterminé de manière subjective. Tout comme les spams mail, difficile d’automatiser. Au moment de l’article, détermination manuelle. But : rendre le processus semi-automatique.

Introduction, méthodologie : Formaliser le problème. Définir une métrique sur l’efficacité des algorithme de détections. Principe de sélection d’un échantillon de base évalué manuellement. Algorithme du TrustRank donnant la probabilité qu’une page soit bonne.

Formalisme du problème. Le web : graphe G=(V,E), un ensemble V de pages et un ensemble E de liens. L’évaluation humaine sera formalisée par une fonction oracle O (fonction binaire), pour tout p de V :

Fonction de confiance. Appel à l’oracle coûteux. Recherche de la vraisemblance qu’une page soit bonne. Définition de la fonction de confiance T donnant la probabilité qu’une page p soit bonne. Fonction de confiance idéale T(p) = Pr[O(p) = 1]

Métriques d’évaluation. Fonction de confiance difficile à obtenir => besoin d’avoir une métrique pour évaluer les résultats. Precision & Recall :  Nombre de bonnes pages par rapport à celles ayant un score supérieur au seuil.  Nombre de pages ayant un score supérieur au seuil parmi les bonnes pages.

Calcul de la confiance : début. Soit un ensemble S de pages prisent au hasard, évaluées par l’oracle. Soit S+ les bonnes pages de S et S- les mauvaises.

Propagation / amortissement de la confiance. La fonction de confiance à M étapes permet une propagation de la confiance. Problèmes : liens de bon à mauvais. Solution : amortissement de la confiance :

Algorithme du TrustRank.

Algorithme du TrustRank. (fin)

Le PageRank pour la sélection. But : trouver les pages les plus utiles (ayant le plus de liens sortants). Utiliser le PageRank en modifiant le critère à optimiser (liens sortant au lieu d’entrant). Plusieurs définitions du PageRank. Celle utilisée donne sous forme matricielle :

SelectSeed : PageRank inversé. Idée : remplacer dans la formule du PageRank la matrice de transition par une ‘matrice de transition inverse’ : Le PageRank inversé donne donc :

PageRank élevé et TrustRank. Les pages d’un fort niveau de PageRank se retrouve en première comme résultat d’une recherche. Niveau de confiance très important pour ces pages. Autres pages ne sont de toutes façon pas bien classées dans les résultats.

Résultat : ensemble de donnée Ensemble complet des pages crawlées et indexées par AltaVista en août Regroupées en 31 millions de sites. 1/3 sont sans référence (sans importance) PageRank inversé utilisé sur 7900 sites sélectionnés. Les 1250 premiers donnent l’échantillon S. 178 sites désignés comme bons.

Résultats Sites regroupés en 20 classes en fonction de leur PageRank ou de leur TrustRank. Pourcentage de bonnes pages trouvées.

Relation TrustRank / PageRank Performance du TrustRank : notion de déclassement des pages.

Métrique pour ces résultats. Précision & Recall. Seuil : valeur limite de TrustRank séparant les classes. TrustRank : Précision élevée sur tout l’échantillon.

Conclusion. Web toujours en croissance. Moteurs de recherches prennent un rôle stratégique. D’après les auteurs (et à l’époque) première tentative de formalisation du problème et d’introduction d’une solution.