La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Web Spam Taxonomy (2005) Par : Zoltan Gyöngyi Hector Garcia-Molina Présentation: Algorithmique pour le Web Mirwais TAYEBI2005-06.

Présentations similaires


Présentation au sujet: "Web Spam Taxonomy (2005) Par : Zoltan Gyöngyi Hector Garcia-Molina Présentation: Algorithmique pour le Web Mirwais TAYEBI2005-06."— Transcription de la présentation:

1 Web Spam Taxonomy (2005) Par : Zoltan Gyöngyi Hector Garcia-Molina Présentation: Algorithmique pour le Web Mirwais TAYEBI2005-06

2 Aperçu Introduction Définitions Boosting Techniques (augmenter le rang) Hiding Techniques ( dissimulation de signes de spam ) Statistiques Conclusion Référence linguistique: Le Grand Robert et Collins électronique

3 Introduction Web Spam? Fourvoyer les moteurs de recherche (MR) pour augmenter son rang. Conséquences: –Mauvaise qualité de résultats de recherche (utilisateurs) –Les indexes de MR sont pleines de pages inutiles (coût de MR)

4 Définitions Pertinence: similarité textuelle entre les termes de requête et d’une page Importance: popularité globale d’une page, inlinks Spamming ou Spamdexing: toute action humaine pour augmenter la pertinence ou/et importance d’une page sans que cela correspond à sa vraie valeur Exemple: –SEO’s(Search Engine Optimizers)

5 Web Spam Augmenter son rang (Boosting Techniques) dissimulation de signes de spam (Hiding Techniques)

6 Boosting Techniques::Term Spamming free, great deals, cheap, inexpensive,cheap, free buy-canon-rebel-20d-lens- case.camerasx.com, buy-nikon-d100-d70-lens- case.camerasx.com,... Pour déterminer la pertinence textuelle: champs d’une page.

7 Boosting Techniques::Term Spamming Algorithme cible: –TFIDF ( Term Frequency and Inverse Document Frequency ) page requête terme Fréquence d’un terme dans un champs de document # total de documents sur # de documents contenant le terme t

8 Boosting Techniques::link Spamming Augmenter l’importance de son page Le modèle qu’on considère: –3 types de page pour un spammer: inaccessibles,accessibles et ses propres pages. Ferme de spam Page cible

9 Boosting Techniques::link Spamming Algorithmes cibles: HITS: –hubness, authority PageRank: Dûe a la distibution statique du score dans le groupe Score dû aux liens externes du groupe Score de outlinks vers exterieur du groupe Les pages « puits » dans le groupe

10 Boosting Techniques::link Spamming Augmenter le hubness: dmoz.org, dir.yahoo.com,

11 Hiding Techniques::Content Hiding hidden text Le serveur peut distinguer les crawler: IP adresse ou le champs ‘user-agent’ de message de HTTP La page affichée par le browser est différent de la page retournée au crawler

12 Statistiques

13 Conclusion Cette taxonomie peut aider à combattre le web spam, ainsi: Les MR peuvent être en mesure de: –Identifier le pages spammées –Empêcher le spamming


Télécharger ppt "Web Spam Taxonomy (2005) Par : Zoltan Gyöngyi Hector Garcia-Molina Présentation: Algorithmique pour le Web Mirwais TAYEBI2005-06."

Présentations similaires


Annonces Google