Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parAndromaque Grenier Modifié depuis plus de 11 années
1
Graphes du Web, Mesures d’importance à la PageRank
Soutenance de thèse de Fabien Mathieu sous la direction de Michel Habib et co-encadrée par Laurent Viennot À mon père Université Montpellier II - LIRMM
2
Parcours Parcours entre maths et physique DEA ATIAM
Tronc commun DEA algo Stage sur la téléphonie mobile (Daniel Krob) Une idée : les points chauds du Web Rencontre avec Laurent Viennot Thèse et monitorat avec Michel Habib 3 bureaux (LIAFA, LIRMM, INRIA) Université Montpellier II - LIRMM
3
Prélude : représenter un graphe du Web
Graphe du Web = pages + hyperliens Matrice d’adjacence d’un graphe du Web : Visuellement, c’est joli… …et les sites apparaissent clairement Bien penser à dire que les URLS sont lexico-triées Université Montpellier II - LIRMM
4
Université Montpellier II - LIRMM
Exemple Université Montpellier II - LIRMM
5
Université Montpellier II - LIRMM
Plan du mémoire Structures du Web Qu’est-ce que le Web ? Crawlers, moteurs, tailles du Web Graphes et structures du Web Les PageRanks Chaînes de Markov PageRank : définitions, interprétations, limites BackRank : une amélioration possible de PageRank Décomposition fine du PageRank : FlowRank et BlowRank Passer vite sur le Web et les crawls. Insister sur les résultats obtenus (sites, …………., P2P) Université Montpellier II - LIRMM
6
Université Montpellier II - LIRMM
Plan de l’exposé PageRank BackRank PageRank BackRank Motivation Théorie : Back irréversible Expérimentations PageRank Systèmes de classement Principe du modèle Facteur d’amortissement Problème des feuilles BackRank Inutile de trop développer le plan BackRank Université Montpellier II - LIRMM
7
Université Montpellier II - LIRMM
PageRank Théorie & pratique Université Montpellier II - LIRMM
8
Université Montpellier II - LIRMM
S’orienter dans le Web Web : masse « infinie » d’information Besoin d’outils de recherche Manuels : annuaires ! capacité de traitement limité Automatiques : moteurs ! nécessité de trier les données Ne pas trop détailler les annuaires Université Montpellier II - LIRMM
9
Université Montpellier II - LIRMM
Méthodes de tri Importance sémantique : pertinence Indexation Basée sur une requête (mots-clés) Manipulable (spamming : abus de mots-clés) Importance structurelle : PR, HITS… Basée sur les hyperliens Indépendante du contenu Méthodes hybrides : TSPR , OPIC… Autres ? Problème du secret industriel Se rappeler OPIC, TPSPR : OPIC : Online Page Importance Computation TSPR : Topic Sensitive PageRank (query-specific IR) Université Montpellier II - LIRMM
10
Université Montpellier II - LIRMM
PageRank Introduit en 1998 avec Google L’importance P d’une page vient de l’importance des pages qui la réfèrent Si G=(V,E) est un graphe du Web (V : pages Web ; E : hyperliens) Dire que la relation est de type récursif !!! Université Montpellier II - LIRMM
11
Une double interprétation
Distribution d’importance (flot) Chaque page possède une certaine importance P(v) L’importance est diffusée par les hyperliens Modèle du surfeur aléatoire Le surfeur aléatoire parcourt sans cesse le Web en cliquant au hasard En choisissant , P est la probabilité de présence asymptotique (si elle existe) PageRank des pages qui pointent sur v Dire que A est moralement, la matrice d’adjacence vue au tout début PageRank d’une page v Université Montpellier II - LIRMM
12
Cas de convergence : théorème de Perron-Frobenius (1912)
On suppose G fortement connexe apériodique Soit A la matrice stochastique associée Alors P est solution de Convergence vers le point fixe P par itérations successives : Interprétation : chaîne de Markov Université Montpellier II - LIRMM
13
Limites du modèle idéal de PageRank ; facteur zap
G n’est jamais fortement connexe La convergence du calcul est très lente Modélisation : un surfeur réel ne fait pas que suivre des liens ! Introduction d’un zap : possibilité de ne pas suivre un hyperlien et de zapper Essayer d’être rapide (mais clair) Ne pas se reprendre Ne pas parler des feuilles (ça viendra à temps) Université Montpellier II - LIRMM
14
Équation d’amortissement
Propagation amortie par d (d=0,85) Z est la distribution du zap est la probabilité effective de zapper Z est une source de flot Parler de d du point de vue flot : on ne conserve qu’une portion d du flot Du point de vue proba, avec une proba d, on clique sur un hyperlien Z : sur quelles pages on va atterrir grâce au zap Mu : probabilité effective de zap : dire que ça vaut 1-d si tout va bien muZ : peut être vu comme une source externe de PR : à chaque étape, on réinjecte une certaine quantité PR externe Université Montpellier II - LIRMM
15
Propagation du PageRank avec zap
PageRank amorti des pages qui pointent sur v PageRank de zap SPEEDER à MORT SUR CELLE-LA (sinon, redondant) PageRank d’une page v Université Montpellier II - LIRMM
16
Les pages sans lien (feuilles)
Non gérées par le modèle, même avec zap Processus mal défini Pertes de flot ! nécessité de Soit renormaliser Soit travailler à source constante de flot Le zap effectif est mal contrôlé : si on veut , alors >(1-d) Université Montpellier II - LIRMM
17
Les pages sans lien (suite) : problème du « remplumage »
Les feuilles ne servent à rien On les enlève donc pour le calcul… … et on les remet après convergence Problème : PageRank sur le graphe effeuillé PageRank sur le graphe entier Ne pas oublier de dire que c’est ce qui est proposé dans les algorithmes originaux de PR Dire que du coup, ben on peut calculer + vite : proportion de feuilles : bcp (pages explorées/connues) Université Montpellier II - LIRMM
18
Prise en charge des pages sans lien
BackRank Prise en charge des pages sans lien Université Montpellier II - LIRMM
19
Modéliser la touche Back : Concept et limitations
On veut pouvoir revenir en arrière dans le processus stochastique Si PageRank modélise un surfeur réel, la touche Back est une amélioration La touche Back gère les pages sans lien On travaille maintenant sur un processus de Markov avec mémoire Problème de la taille sur des gros graphes Dire que processus sans mémoire, on a juste à se rappeler à quel endroit on est ; avec mémoire, il faut aussi se rappeler ce que l’on a fait avant. Université Montpellier II - LIRMM
20
Notre modèle : Back irréversible
La touche Back a l’importance d’un lien Mémoire minimale : dernière page visitée 2 Back ne peuvent être consécutifs Expliquer l’avantage modèle de l’importance d’un lien, mais aussi que c’est ce qui permet une prise en charge efficace des feuilles (adaptable) Université Montpellier II - LIRMM
21
Université Montpellier II - LIRMM
Formalisation Phl(q,p) est la probabilité d’être en p en venant de q par un hyperlien Pib(p) est la probabilité d’être en p grâce à la touche Back (historique vierge) Phl(q,p) ne dépend pas du sommet d’arrivée p, et sera appelé Phl(q) Commencer par dire que pour exprimer correctement le modèle, il faut se placer au niveau des transitions entre pages (probabilité de transition ; écoulement de flot au niveau des arêtes) Université Montpellier II - LIRMM
22
Équations du Back irréversible
2 variables au lieu d’une Université Montpellier II - LIRMM
23
Université Montpellier II - LIRMM
Incorporation du zap Le zap est facile à prendre en compte s’il désactive la touche Back Attention si Z contient des feuilles Aller lus vite pour les raisons modèles ; raison technique mémoire (on ne peut que remonter des liens réels) Si Z contient des feuilles, ces dernières ne sont plus prises en charge par le processus !!! Université Montpellier II - LIRMM
24
Algorithme pratique : BackRank
Propagation/Convergence Reconstruction Application contractante (d-lipschitzienne) -> Université Montpellier II - LIRMM
25
Propagation de BackRank
Back-attractivité de v Phl amorti des pages qui pointent sur v Phl d’une page v PageRank de zap Université Montpellier II - LIRMM
26
Université Montpellier II - LIRMM
Importance de Donne un classement différent ! modèle plus réaliste ? Les feuilles n’ont pas de Phl… …mais le PageRank obtenu est sur G entier ! Convergence plus rapide (Gauss-Seidel) Université Montpellier II - LIRMM
27
Résultats expérimentaux
Graphes de travail crawls de .fr, .uk, .it et Web entre 2001 et 2004 8.1, 18.5, 41.3 et 118 millions de sommets PageRank vs BackRank Zap : d=0,85 Distribution uniforme sur les pages avec lien Université Montpellier II - LIRMM
28
Université Montpellier II - LIRMM
Rank BackRank PageRank 1 2 3 news.tucows.com 4 5 6 home.netscape.com/ 7 8 9 10 11 webcrossing.com/ 12 13 14 15 16 17 18 counter.rambler.ru/top100/ cbl.leeds.ac.uk/nikos/personal.html 19 20 news.tucows.com/ Université Montpellier II - LIRMM
29
Université Montpellier II - LIRMM
Chevauchement Rank BackRank PageRank 1 2 3 news.tucows.com 4 5 6 home.netscape.com/ 7 8 9 10 Rank BackRank PageRank 1 2 3 news.tucows.com 4 5 6 home.netscape.com/ 7 8 9 10 Rank BackRank PageRank 1 2 3 news.tucows.com 4 5 6 home.netscape.com/ 7 8 9 10 Rank BackRank PageRank 1 2 3 news.tucows.com 4 5 6 home.netscape.com/ 7 8 9 10 Rank BackRank PageRank 1 2 3 news.tucows.com 4 5 6 home.netscape.com/ 7 8 9 10 Chevauchement : 60% Chevauchement : 0% Chevauchement : 100% Université Montpellier II - LIRMM
30
Différence quantitative entre PageRank et BackRank
Université Montpellier II - LIRMM
31
Convergences comparées
Université Montpellier II - LIRMM
32
Université Montpellier II - LIRMM
Futurs travaux Expérimentations de BackRank à grande échelle Expérimentations de FlowRank et BlowRank, algorithmes de classement distribué de PageRank Autre sujet de recherche : pair-à-pair Université Montpellier II - LIRMM
33
Publications Université Montpellier II - LIRMM
Structure supposée du graphe du Web. Première journée Graphes Dynamiques et Graphes du Web, décembre [Mat01] Structure intrinsèque du Web. Rapport Tech. RR-4663, INRIA, [MV02] Aspects locaux de l'importance globale des pages Web. Algotel 2003 [MV03a] Effet de la touche Back dans un modèle de surfeur aléatoire : application à PageRank. 1ères Journées Francophones de la Toile, [BM03] Local Structure in the Web. 12th international WWW conference, 2003 [MV03b] The effect of the back button in a random walk: application for pagerank. 13th international WWW conference, [MB04] Local aspects of the Global Ranking of Web Pages. Rapport Tech. RR-5192, INRIA, [MV04] The BackRank Algorithm: Using Backoff Process to Improve PageRank Soumis à 14th international WWW conference, 2005 File Sharing in P2P: Missing Block Paradigm and Upload Strategies. Rapport Tech. RR-5193, INRIA, [MR04] Université Montpellier II - LIRMM
34
Université Montpellier II - LIRMM
FIN Université Montpellier II - LIRMM
35
Influence du facteur d’amortissement sur le chevauchement
Université Montpellier II - LIRMM
36
Décomposition du PageRank
PageRank sortant externe PageRank entrant externe Diffusion à l’intérieur du site PageRank sortant de zap (dissipation) PageRank de zap (induction) Université Montpellier II - LIRMM
37
Équations du PageRank externe
Université Montpellier II - LIRMM
38
Amplification du PageRank d’un site
Université Montpellier II - LIRMM
39
Amplification du PageRank d’une page d’un site
Université Montpellier II - LIRMM
40
Université Montpellier II - LIRMM
41
Université Montpellier II - LIRMM
42
Propagation du PageRank
Université Montpellier II - LIRMM Retour
43
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
44
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
45
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
46
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
47
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
48
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
49
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
50
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
51
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
52
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
53
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
54
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
55
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
56
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
57
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
58
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
59
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM
60
Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM Retour
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.