Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parClotilde Charles Modifié depuis plus de 9 années
1
Web Spam Taxonomy (2005) Par : Zoltan Gyöngyi Hector Garcia-Molina Présentation: Algorithmique pour le Web Mirwais TAYEBI2005-06
2
Aperçu Introduction Définitions Boosting Techniques (augmenter le rang) Hiding Techniques ( dissimulation de signes de spam ) Statistiques Conclusion Référence linguistique: Le Grand Robert et Collins électronique
3
Introduction Web Spam? Fourvoyer les moteurs de recherche (MR) pour augmenter son rang. Conséquences: –Mauvaise qualité de résultats de recherche (utilisateurs) –Les indexes de MR sont pleines de pages inutiles (coût de MR)
4
Définitions Pertinence: similarité textuelle entre les termes de requête et d’une page Importance: popularité globale d’une page, inlinks Spamming ou Spamdexing: toute action humaine pour augmenter la pertinence ou/et importance d’une page sans que cela correspond à sa vraie valeur Exemple: –SEO’s(Search Engine Optimizers)
5
Web Spam Augmenter son rang (Boosting Techniques) dissimulation de signes de spam (Hiding Techniques)
6
Boosting Techniques::Term Spamming free, great deals, cheap, inexpensive,cheap, free buy-canon-rebel-20d-lens- case.camerasx.com, buy-nikon-d100-d70-lens- case.camerasx.com,... Pour déterminer la pertinence textuelle: champs d’une page.
7
Boosting Techniques::Term Spamming Algorithme cible: –TFIDF ( Term Frequency and Inverse Document Frequency ) page requête terme Fréquence d’un terme dans un champs de document # total de documents sur # de documents contenant le terme t
8
Boosting Techniques::link Spamming Augmenter l’importance de son page Le modèle qu’on considère: –3 types de page pour un spammer: inaccessibles,accessibles et ses propres pages. Ferme de spam Page cible
9
Boosting Techniques::link Spamming Algorithmes cibles: HITS: –hubness, authority PageRank: Dûe a la distibution statique du score dans le groupe Score dû aux liens externes du groupe Score de outlinks vers exterieur du groupe Les pages « puits » dans le groupe
10
Boosting Techniques::link Spamming Augmenter le hubness: dmoz.org, dir.yahoo.com,
11
Hiding Techniques::Content Hiding hidden text Le serveur peut distinguer les crawler: IP adresse ou le champs ‘user-agent’ de message de HTTP La page affichée par le browser est différent de la page retournée au crawler
12
Statistiques
13
Conclusion Cette taxonomie peut aider à combattre le web spam, ainsi: Les MR peuvent être en mesure de: –Identifier le pages spammées –Empêcher le spamming
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.