La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Combating Web Spam with TrustRank. OSINI Aurélien.

Présentations similaires


Présentation au sujet: "Combating Web Spam with TrustRank. OSINI Aurélien."— Transcription de la présentation:

1 Combating Web Spam with TrustRank. OSINI Aurélien.

2 A propos de l’article. Publié en mars 2004 par 2 chercheurs (Zoltán Gyöngyi et Hector Garcia-Molina ) de l’université de Stanford et un chercheur de Yahoo! (Jan Pedersen). Le 16 Mars 2005, Google a déposé aux Etats-Unis la marque TrustRank.

3 Web spam et TrustRank Web spam : sorte de spam utilisant différentes technique pour fausser le résultat d’un moteur de recherche. TrustRank : Méthode permettant de classifier les sites (bon / spam) de manière semi-automatique.

4 Introduction, motivation de l’article : Web spam déterminé de manière subjective. Tout comme les spams mail, difficile d’automatiser. Au moment de l’article, détermination manuelle. But : rendre le processus semi-automatique.

5 Introduction, méthodologie : Formaliser le problème. Définir une métrique sur l’efficacité des algorithme de détections. Principe de sélection d’un échantillon de base évalué manuellement. Algorithme du TrustRank donnant la probabilité qu’une page soit bonne.

6 Formalisme du problème. Le web : graphe G=(V,E), un ensemble V de pages et un ensemble E de liens. L’évaluation humaine sera formalisée par une fonction oracle O (fonction binaire), pour tout p de V :

7 Fonction de confiance. Appel à l’oracle coûteux. Recherche de la vraisemblance qu’une page soit bonne. Définition de la fonction de confiance T donnant la probabilité qu’une page p soit bonne. Fonction de confiance idéale T(p) = Pr[O(p) = 1]

8 Métriques d’évaluation. Fonction de confiance difficile à obtenir => besoin d’avoir une métrique pour évaluer les résultats. Precision & Recall :  Nombre de bonnes pages par rapport à celles ayant un score supérieur au seuil.  Nombre de pages ayant un score supérieur au seuil parmi les bonnes pages.

9 Calcul de la confiance : début. Soit un ensemble S de pages prisent au hasard, évaluées par l’oracle. Soit S+ les bonnes pages de S et S- les mauvaises.

10 Propagation / amortissement de la confiance. La fonction de confiance à M étapes permet une propagation de la confiance. Problèmes : liens de bon à mauvais. Solution : amortissement de la confiance :

11 Algorithme du TrustRank.

12 Algorithme du TrustRank. (fin)

13 Le PageRank pour la sélection. But : trouver les pages les plus utiles (ayant le plus de liens sortants). Utiliser le PageRank en modifiant le critère à optimiser (liens sortant au lieu d’entrant). Plusieurs définitions du PageRank. Celle utilisée donne sous forme matricielle :

14 SelectSeed : PageRank inversé. Idée : remplacer dans la formule du PageRank la matrice de transition par une ‘matrice de transition inverse’ : Le PageRank inversé donne donc :

15 PageRank élevé et TrustRank. Les pages d’un fort niveau de PageRank se retrouve en première comme résultat d’une recherche. Niveau de confiance très important pour ces pages. Autres pages ne sont de toutes façon pas bien classées dans les résultats.

16 Résultat : ensemble de donnée Ensemble complet des pages crawlées et indexées par AltaVista en août 2003. Regroupées en 31 millions de sites. 1/3 sont sans référence (sans importance) PageRank inversé utilisé sur 7900 sites sélectionnés. Les 1250 premiers donnent l’échantillon S. 178 sites désignés comme bons.

17 Résultats Sites regroupés en 20 classes en fonction de leur PageRank ou de leur TrustRank. Pourcentage de bonnes pages trouvées.

18 Relation TrustRank / PageRank Performance du TrustRank : notion de déclassement des pages.

19 Métrique pour ces résultats. Précision & Recall. Seuil : valeur limite de TrustRank séparant les classes. TrustRank : Précision élevée sur tout l’échantillon.

20 Conclusion. Web toujours en croissance. Moteurs de recherches prennent un rôle stratégique. D’après les auteurs (et à l’époque) première tentative de formalisation du problème et d’introduction d’une solution.


Télécharger ppt "Combating Web Spam with TrustRank. OSINI Aurélien."

Présentations similaires


Annonces Google