Graphes du Web, Mesures d’importance à la PageRank

Slides:



Advertisements
Présentations similaires
« Les Mercredis du développement » Introduction Office « 12 » Présenté par Bernard Fedotoff Microsoft Regional Director Agilcom.
Advertisements

Les politiques dalimentation et de développement des Archives Ouvertes Atelier Archives Ouvertes – Monastir – 15 mai 2012 Jean-François LUTZ Université
Graphes et Applications Thème de léquipe « Combinatoire et Algorithmique » LaBRI – janvier 2008.
Une approche informationnelle de la restauration d’images
ISP/ASP ISP ASP Conclusion DESS Réseaux 2000/2001
Relevons les défis de demain.
Métrologie pour lInternet. Jean-Loup Guillaume Journées Franciliennes de Recherche Opérationnelle.
Exemples d’utilisation du tableur en Analyse
Format dannotations génériques, multi-annotations, multi- documents Présentation ASP navigation 11 avril 2002.
1 Démarche dinvestigation Epreuve Pratique en S. 2 Culture scientifique acquise au collège A lissue de ses études au collège, lélève doit sêtre construit.
HTML Les types de balises
Yann SEMET Projet Fractales, INRIA Rocquencourt
TP 3-4 BD21.
A.Faÿ 1 Recherche opérationnelle Résumé de cours.
Bouyekhf Rachid-Lyuboumir Gruitch Laboratoire SeT UTBM
1 TICE 2000 / Troyes / octobre 2000 Des moteurs de recherche efficaces pour des systèmes hypertextes grâce aux contextes des nœuds Des moteurs de.
Plus rapide chemin bicritère : un problème d’aménagement du territoire
Le référencement des pages web
Le référencement des sites internet par les principaux moteurs de recherche Adrien Rimélé Alice Laurent 25 septembre
Chapitre VII :Commande par retour d’état
Sélection automatique d’index et de vues matérialisées
                                        République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique.
Utilisation du fil RSS du site du Master-Chimie d Aix-Marseille Université Tutoriel réalisé par Fabien.
Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles.
E.Dot – juillet 2005 Page 1 Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.
Guy Gauthier, ing., Ph.D. Session été 2013.
Septième étape : travailler avec des graphes probabilistes
Application des algorithmes génétiques
Aide à la Recherche Bibliographique sur le WEB Hatem BEN ROMDHANE (URSAM) ENIT Janvier 2003.
Auto-organisation dans les réseaux ad hoc
Jérôme Palaysi APR-LIRMM Montpellier
OLAP : Un pas vers la navigation
LE REFERENCEMENT NATUREL S.E.O. (Search Engine Optimisation)
Département fédéral de lintérieur DFI Office fédéral de la statistique OFS La qualité de lemploi en Suisse Silvia Perrenoud Journées suisses de la statistique.
Méthodes Numériques appliquées à la
1 1 ST Crolles 2 Université Montpellier II France FTFC 2003 Représentation Unifiée des Performances Temporelles dune Bibliothèque de Cellules Standards.
Plan d’expérience dynamique pour la maximisation
Indexation 1. Concepts de base 2. Arbre B 3. Indexes secondaires.
Recherche Documentaire et traitement de l’information
Option GI cursus possibles
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
Google, un moteur de recherche comme les autres ?
* Cete Nord Picardie, 9 septembre 2002
La spécialité mathématiques en Terminale S
Visio 2010 : représentez et partagez encore plus simplement vos diagrammes et données
Structures de données IFT-10541
IGL301 - Spécification et vérification des exgiences 1 Chapitre 1 Introduction (ref : Bray chapitre 1)
Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.
La métaphore dans lhypermédia : effets sur la navigation Etude empirique exploratoire.
Ecaterina Giacomini Pacurar
Annexe 1 VISITE SUR
Introduction au calcul quantique
Moteurs de recherche Modex Web Modex Web 441 professeur Go
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Eurométhode: méthode de gestion de la relation client-fournisseur
Filtre de Kalman – Préliminaires (1)
Processus de Poisson UQAM, Actuariat 3.
Probabilités et Statistiques
Programmation dynamique
L’identité numérique : outil de bonne gouvernance
1 Réseaux : algorithmique et combinatoire Daniel Krob (LIX) Laurent Viennot (INRIA)
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Bureau d’études Présentation du sujet Organisation des projets Version 1 8 octobre 2004.
Comment classer les pages web. Principe du moteur de recherche Mise en mémoire des pages web Associer chaque page à des mot-clefs Objectif : Classification.
Ranking the web frontier Nadav Eiron, Kevin S. McCurley, John A. Tomlin IBM Almaden Research Center Bah Thierno Madiou.
L’EVALUATION DE L’INFORMATION SUR INTERNET
Combating Web Spam with TrustRank. OSINI Aurélien.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Séminaire UCL - 22 février 2005
Transcription de la présentation:

Graphes du Web, Mesures d’importance à la PageRank Soutenance de thèse de Fabien Mathieu sous la direction de Michel Habib et co-encadrée par Laurent Viennot À mon père Université Montpellier II - LIRMM

Parcours Parcours entre maths et physique DEA ATIAM Tronc commun DEA algo Stage sur la téléphonie mobile (Daniel Krob) Une idée : les points chauds du Web Rencontre avec Laurent Viennot Thèse et monitorat avec Michel Habib 3 bureaux (LIAFA, LIRMM, INRIA) Université Montpellier II - LIRMM

Prélude : représenter un graphe du Web Graphe du Web = pages + hyperliens Matrice d’adjacence d’un graphe du Web : Visuellement, c’est joli… …et les sites apparaissent clairement Bien penser à dire que les URLS sont lexico-triées Université Montpellier II - LIRMM

Université Montpellier II - LIRMM Exemple Université Montpellier II - LIRMM

Université Montpellier II - LIRMM Plan du mémoire Structures du Web Qu’est-ce que le Web ? Crawlers, moteurs, tailles du Web Graphes et structures du Web Les PageRanks Chaînes de Markov PageRank : définitions, interprétations, limites BackRank : une amélioration possible de PageRank Décomposition fine du PageRank : FlowRank et BlowRank Passer vite sur le Web et les crawls. Insister sur les résultats obtenus (sites, …………., P2P) Université Montpellier II - LIRMM

Université Montpellier II - LIRMM Plan de l’exposé PageRank BackRank PageRank BackRank Motivation Théorie : Back irréversible Expérimentations PageRank Systèmes de classement Principe du modèle Facteur d’amortissement Problème des feuilles BackRank Inutile de trop développer le plan BackRank Université Montpellier II - LIRMM

Université Montpellier II - LIRMM PageRank Théorie & pratique Université Montpellier II - LIRMM

Université Montpellier II - LIRMM S’orienter dans le Web Web : masse «  infinie » d’information Besoin d’outils de recherche Manuels : annuaires ! capacité de traitement limité Automatiques : moteurs ! nécessité de trier les données Ne pas trop détailler les annuaires Université Montpellier II - LIRMM

Université Montpellier II - LIRMM Méthodes de tri Importance sémantique : pertinence Indexation Basée sur une requête (mots-clés) Manipulable (spamming : abus de mots-clés) Importance structurelle : PR, HITS… Basée sur les hyperliens Indépendante du contenu Méthodes hybrides : TSPR , OPIC… Autres ? Problème du secret industriel Se rappeler OPIC, TPSPR : OPIC : Online Page Importance Computation TSPR : Topic Sensitive PageRank (query-specific IR) Université Montpellier II - LIRMM

Université Montpellier II - LIRMM PageRank Introduit en 1998 avec Google L’importance P d’une page vient de l’importance des pages qui la réfèrent Si G=(V,E) est un graphe du Web (V : pages Web ; E : hyperliens) Dire que la relation est de type récursif !!! Université Montpellier II - LIRMM

Une double interprétation Distribution d’importance (flot) Chaque page possède une certaine importance P(v) L’importance est diffusée par les hyperliens Modèle du surfeur aléatoire Le surfeur aléatoire parcourt sans cesse le Web en cliquant au hasard En choisissant , P est la probabilité de présence asymptotique (si elle existe) PageRank des pages qui pointent sur v Dire que A est moralement, la matrice d’adjacence vue au tout début PageRank d’une page v Université Montpellier II - LIRMM

Cas de convergence : théorème de Perron-Frobenius (1912) On suppose G fortement connexe apériodique Soit A la matrice stochastique associée Alors P est solution de Convergence vers le point fixe P par itérations successives : Interprétation : chaîne de Markov Université Montpellier II - LIRMM

Limites du modèle idéal de PageRank ; facteur zap G n’est jamais fortement connexe La convergence du calcul est très lente Modélisation : un surfeur réel ne fait pas que suivre des liens ! Introduction d’un zap : possibilité de ne pas suivre un hyperlien et de zapper Essayer d’être rapide (mais clair) Ne pas se reprendre Ne pas parler des feuilles (ça viendra à temps) Université Montpellier II - LIRMM

Équation d’amortissement Propagation amortie par d (d=0,85) Z est la distribution du zap  est la probabilité effective de zapper Z est une source de flot Parler de d du point de vue flot : on ne conserve qu’une portion d du flot Du point de vue proba, avec une proba d, on clique sur un hyperlien Z : sur quelles pages on va atterrir grâce au zap Mu : probabilité effective de zap : dire que ça vaut 1-d si tout va bien muZ : peut être vu comme une source externe de PR : à chaque étape, on réinjecte une certaine quantité PR externe Université Montpellier II - LIRMM

Propagation du PageRank avec zap PageRank amorti des pages qui pointent sur v PageRank de zap SPEEDER à MORT SUR CELLE-LA (sinon, redondant) PageRank d’une page v Université Montpellier II - LIRMM

Les pages sans lien (feuilles) Non gérées par le modèle, même avec zap Processus mal défini Pertes de flot ! nécessité de Soit renormaliser Soit travailler à source constante de flot Le zap effectif est mal contrôlé : si on veut , alors >(1-d) Université Montpellier II - LIRMM

Les pages sans lien (suite) : problème du « remplumage » Les feuilles ne servent à rien On les enlève donc pour le calcul… … et on les remet après convergence Problème : PageRank sur le graphe effeuillé  PageRank sur le graphe entier Ne pas oublier de dire que c’est ce qui est proposé dans les algorithmes originaux de PR Dire que du coup, ben on peut calculer + vite : proportion de feuilles : bcp (pages explorées/connues) Université Montpellier II - LIRMM

Prise en charge des pages sans lien BackRank Prise en charge des pages sans lien Université Montpellier II - LIRMM

Modéliser la touche Back : Concept et limitations On veut pouvoir revenir en arrière dans le processus stochastique Si PageRank modélise un surfeur réel, la touche Back est une amélioration La touche Back gère les pages sans lien On travaille maintenant sur un processus de Markov avec mémoire Problème de la taille sur des gros graphes Dire que processus sans mémoire, on a juste à se rappeler à quel endroit on est ; avec mémoire, il faut aussi se rappeler ce que l’on a fait avant. Université Montpellier II - LIRMM

Notre modèle : Back irréversible La touche Back a l’importance d’un lien Mémoire minimale : dernière page visitée 2 Back ne peuvent être consécutifs Expliquer l’avantage modèle de l’importance d’un lien, mais aussi que c’est ce qui permet une prise en charge efficace des feuilles (adaptable) Université Montpellier II - LIRMM

Université Montpellier II - LIRMM Formalisation Phl(q,p) est la probabilité d’être en p en venant de q par un hyperlien Pib(p) est la probabilité d’être en p grâce à la touche Back (historique vierge) Phl(q,p) ne dépend pas du sommet d’arrivée p, et sera appelé Phl(q) Commencer par dire que pour exprimer correctement le modèle, il faut se placer au niveau des transitions entre pages (probabilité de transition ; écoulement de flot au niveau des arêtes) Université Montpellier II - LIRMM

Équations du Back irréversible 2 variables au lieu d’une Université Montpellier II - LIRMM

Université Montpellier II - LIRMM Incorporation du zap Le zap est facile à prendre en compte s’il désactive la touche Back Attention si Z contient des feuilles Aller lus vite pour les raisons modèles ; raison technique mémoire (on ne peut que remonter des liens réels) Si Z contient des feuilles, ces dernières ne sont plus prises en charge par le processus !!! Université Montpellier II - LIRMM

Algorithme pratique : BackRank Propagation/Convergence Reconstruction Application contractante (d-lipschitzienne) -> Université Montpellier II - LIRMM

Propagation de BackRank Back-attractivité de v Phl amorti des pages qui pointent sur v Phl d’une page v PageRank de zap Université Montpellier II - LIRMM

Université Montpellier II - LIRMM Importance de  Donne un classement différent ! modèle plus réaliste ? Les feuilles n’ont pas de Phl… …mais le PageRank obtenu est sur G entier ! Convergence plus rapide (Gauss-Seidel) Université Montpellier II - LIRMM

Résultats expérimentaux Graphes de travail crawls de .fr, .uk, .it et Web entre 2001 et 2004 8.1, 18.5, 41.3 et 118 millions de sommets PageRank vs BackRank Zap : d=0,85 Distribution uniforme sur les pages avec lien Université Montpellier II - LIRMM

Université Montpellier II - LIRMM Rank BackRank PageRank 1 www.yahoo.com www.adobe.com/prodindex/acrobat/readstep.html 2 www.yahoo.com/ 3 news.tucows.com www.worldwidemart.com/scripts/ 4 www.altavista.com www.adobe.com/products/acrobat/readstep.html 5 www.ibm.com/ 6 home.netscape.com/ 7 www.domaindirect.com/ www.listbot.com/ 8 www.acme.com/software/thttpd/ 9 www.adobe.com/ 10 www.btsw.com/ www.w3.org/ 11 webcrossing.com/ www.adobe.com/homepage.html 12 www.real.com/ www.adobe.com/misc/privacy.html 13 14 www.adobe.com/misc/copyright.html 15 www.adobe.com/misc/comments.html 16 www.microsoft.com/windows/ie/default.htm www.adobe.com/store/main.html 17 www.macromedia.com/shockwave/download/ www.listbot.com/faq.shtml 18 counter.rambler.ru/top100/ cbl.leeds.ac.uk/nikos/personal.html 19 www.mkstats.com/ www.listbot.com/cgi-bin/customer 20 www.tucows.com/privacy.html news.tucows.com/ Université Montpellier II - LIRMM

Université Montpellier II - LIRMM Chevauchement Rank BackRank PageRank 1 www.yahoo.com www.adobe.com/prodindex/.../readstep.html 2 www.yahoo.com/ 3 news.tucows.com www.worldwidemart.com/scripts/ 4 www.altavista.com www.adobe.com/products/.../readstep.html 5 www.ibm.com/ 6 home.netscape.com/ 7 www.domaindirect.com/ www.listbot.com/ 8 www.acme.com/software/thttpd/ 9 www.adobe.com/ 10 www.btsw.com/ www.w3.org/ Rank BackRank PageRank 1 www.yahoo.com www.adobe.com/prodindex/.../readstep.html 2 www.yahoo.com/ 3 news.tucows.com www.worldwidemart.com/scripts/ 4 www.altavista.com www.adobe.com/products/.../readstep.html 5 www.ibm.com/ 6 home.netscape.com/ 7 www.domaindirect.com/ www.listbot.com/ 8 www.acme.com/software/thttpd/ 9 www.adobe.com/ 10 www.btsw.com/ www.w3.org/ Rank BackRank PageRank 1 www.yahoo.com www.adobe.com/prodindex/.../readstep.html 2 www.yahoo.com/ 3 news.tucows.com www.worldwidemart.com/scripts/ 4 www.altavista.com www.adobe.com/products/.../readstep.html 5 www.ibm.com/ 6 home.netscape.com/ 7 www.domaindirect.com/ www.listbot.com/ 8 www.acme.com/software/thttpd/ 9 www.adobe.com/ 10 www.btsw.com/ www.w3.org/ Rank BackRank PageRank 1 www.yahoo.com www.adobe.com/prodindex/.../readstep.html 2 www.yahoo.com/ 3 news.tucows.com www.worldwidemart.com/scripts/ 4 www.altavista.com www.adobe.com/products/.../readstep.html 5 www.ibm.com/ 6 home.netscape.com/ 7 www.domaindirect.com/ www.listbot.com/ 8 www.acme.com/software/thttpd/ 9 www.adobe.com/ 10 www.btsw.com/ www.w3.org/ Rank BackRank PageRank 1 www.yahoo.com www.adobe.com/prodindex/.../readstep.html 2 www.yahoo.com/ 3 news.tucows.com www.worldwidemart.com/scripts/ 4 www.altavista.com www.adobe.com/products/.../readstep.html 5 www.ibm.com/ 6 home.netscape.com/ 7 www.domaindirect.com/ www.listbot.com/ 8 www.acme.com/software/thttpd/ 9 www.adobe.com/ 10 www.btsw.com/ www.w3.org/ Chevauchement : 60% Chevauchement : 0% Chevauchement : 100% Université Montpellier II - LIRMM

Différence quantitative entre PageRank et BackRank Université Montpellier II - LIRMM

Convergences comparées Université Montpellier II - LIRMM

Université Montpellier II - LIRMM Futurs travaux Expérimentations de BackRank à grande échelle Expérimentations de FlowRank et BlowRank, algorithmes de classement distribué de PageRank Autre sujet de recherche : pair-à-pair Université Montpellier II - LIRMM

Publications Université Montpellier II - LIRMM Structure supposée du graphe du Web. Première journée Graphes Dynamiques et Graphes du Web, décembre 2001. [Mat01] http://www.liafa.jussieu.fr/~latapy/gdgw.html Structure intrinsèque du Web. Rapport Tech. RR-4663, INRIA, 2002. [MV02] http://www.inria.fr/rrrt/rr-4663.html Aspects locaux de l'importance globale des pages Web. Algotel 2003 [MV03a] http://dept-info.labri.u-bordeaux.fr/algotel03/ Effet de la touche Back dans un modèle de surfeur aléatoire : application à PageRank. 1ères Journées Francophones de la Toile, 2003. [BM03] http://www.antsearch.univ-tours.fr/jft2003/ Local Structure in the Web. 12th international WWW conference, 2003 [MV03b] http://www2003.org/cdrom/papers/poster/p102/p102-mathieu.htm The effect of the back button in a random walk: application for pagerank. 13th international WWW conference, 2004. [MB04] http://www.www2004.org/proceedings/docs/2p370.pdf Local aspects of the Global Ranking of Web Pages. Rapport Tech. RR-5192, INRIA, 2004. [MV04] http://www.inria.fr/rrrt/rr-5192.html The BackRank Algorithm: Using Backoff Process to Improve PageRank Soumis à 14th international WWW conference, 2005 File Sharing in P2P: Missing Block Paradigm and Upload Strategies. Rapport Tech. RR-5193, INRIA, 2004. [MR04] http://www.inria.fr/rrrt/rr-5193.html Université Montpellier II - LIRMM

Université Montpellier II - LIRMM FIN Université Montpellier II - LIRMM

Influence du facteur d’amortissement sur le chevauchement Université Montpellier II - LIRMM

Décomposition du PageRank PageRank sortant externe PageRank entrant externe Diffusion à l’intérieur du site PageRank sortant de zap (dissipation) PageRank de zap (induction) Université Montpellier II - LIRMM

Équations du PageRank externe Université Montpellier II - LIRMM

Amplification du PageRank d’un site Université Montpellier II - LIRMM

Amplification du PageRank d’une page d’un site Université Montpellier II - LIRMM

Université Montpellier II - LIRMM

Université Montpellier II - LIRMM

Propagation du PageRank Université Montpellier II - LIRMM Retour

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire Université Montpellier II - LIRMM Retour