Web Spam Taxonomy (2005) Par : Zoltan Gyöngyi Hector Garcia-Molina Présentation: Algorithmique pour le Web Mirwais TAYEBI
Aperçu Introduction Définitions Boosting Techniques (augmenter le rang) Hiding Techniques ( dissimulation de signes de spam ) Statistiques Conclusion Référence linguistique: Le Grand Robert et Collins électronique
Introduction Web Spam? Fourvoyer les moteurs de recherche (MR) pour augmenter son rang. Conséquences: –Mauvaise qualité de résultats de recherche (utilisateurs) –Les indexes de MR sont pleines de pages inutiles (coût de MR)
Définitions Pertinence: similarité textuelle entre les termes de requête et d’une page Importance: popularité globale d’une page, inlinks Spamming ou Spamdexing: toute action humaine pour augmenter la pertinence ou/et importance d’une page sans que cela correspond à sa vraie valeur Exemple: –SEO’s(Search Engine Optimizers)
Web Spam Augmenter son rang (Boosting Techniques) dissimulation de signes de spam (Hiding Techniques)
Boosting Techniques::Term Spamming free, great deals, cheap, inexpensive,cheap, free buy-canon-rebel-20d-lens- case.camerasx.com, buy-nikon-d100-d70-lens- case.camerasx.com,... Pour déterminer la pertinence textuelle: champs d’une page.
Boosting Techniques::Term Spamming Algorithme cible: –TFIDF ( Term Frequency and Inverse Document Frequency ) page requête terme Fréquence d’un terme dans un champs de document # total de documents sur # de documents contenant le terme t
Boosting Techniques::link Spamming Augmenter l’importance de son page Le modèle qu’on considère: –3 types de page pour un spammer: inaccessibles,accessibles et ses propres pages. Ferme de spam Page cible
Boosting Techniques::link Spamming Algorithmes cibles: HITS: –hubness, authority PageRank: Dûe a la distibution statique du score dans le groupe Score dû aux liens externes du groupe Score de outlinks vers exterieur du groupe Les pages « puits » dans le groupe
Boosting Techniques::link Spamming Augmenter le hubness: dmoz.org, dir.yahoo.com,
Hiding Techniques::Content Hiding hidden text Le serveur peut distinguer les crawler: IP adresse ou le champs ‘user-agent’ de message de HTTP La page affichée par le browser est différent de la page retournée au crawler
Statistiques
Conclusion Cette taxonomie peut aider à combattre le web spam, ainsi: Les MR peuvent être en mesure de: –Identifier le pages spammées –Empêcher le spamming