La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Graphes du Web, Mesures d’importance à la PageRank

Présentations similaires


Présentation au sujet: "Graphes du Web, Mesures d’importance à la PageRank"— Transcription de la présentation:

1 Graphes du Web, Mesures d’importance à la PageRank
Soutenance de thèse de Fabien Mathieu sous la direction de Michel Habib et co-encadrée par Laurent Viennot À mon père Université Montpellier II - LIRMM

2 Parcours Parcours entre maths et physique DEA ATIAM
Tronc commun DEA algo Stage sur la téléphonie mobile (Daniel Krob) Une idée : les points chauds du Web Rencontre avec Laurent Viennot Thèse et monitorat avec Michel Habib 3 bureaux (LIAFA, LIRMM, INRIA) Université Montpellier II - LIRMM

3 Prélude : représenter un graphe du Web
Graphe du Web = pages + hyperliens Matrice d’adjacence d’un graphe du Web : Visuellement, c’est joli… …et les sites apparaissent clairement Bien penser à dire que les URLS sont lexico-triées Université Montpellier II - LIRMM

4 Université Montpellier II - LIRMM
Exemple Université Montpellier II - LIRMM

5 Université Montpellier II - LIRMM
Plan du mémoire Structures du Web Qu’est-ce que le Web ? Crawlers, moteurs, tailles du Web Graphes et structures du Web Les PageRanks Chaînes de Markov PageRank : définitions, interprétations, limites BackRank : une amélioration possible de PageRank Décomposition fine du PageRank : FlowRank et BlowRank Passer vite sur le Web et les crawls. Insister sur les résultats obtenus (sites, …………., P2P) Université Montpellier II - LIRMM

6 Université Montpellier II - LIRMM
Plan de l’exposé PageRank BackRank PageRank BackRank Motivation Théorie : Back irréversible Expérimentations PageRank Systèmes de classement Principe du modèle Facteur d’amortissement Problème des feuilles BackRank Inutile de trop développer le plan BackRank Université Montpellier II - LIRMM

7 Université Montpellier II - LIRMM
PageRank Théorie & pratique Université Montpellier II - LIRMM

8 Université Montpellier II - LIRMM
S’orienter dans le Web Web : masse «  infinie » d’information Besoin d’outils de recherche Manuels : annuaires ! capacité de traitement limité Automatiques : moteurs ! nécessité de trier les données Ne pas trop détailler les annuaires Université Montpellier II - LIRMM

9 Université Montpellier II - LIRMM
Méthodes de tri Importance sémantique : pertinence Indexation Basée sur une requête (mots-clés) Manipulable (spamming : abus de mots-clés) Importance structurelle : PR, HITS… Basée sur les hyperliens Indépendante du contenu Méthodes hybrides : TSPR , OPIC… Autres ? Problème du secret industriel Se rappeler OPIC, TPSPR : OPIC : Online Page Importance Computation TSPR : Topic Sensitive PageRank (query-specific IR) Université Montpellier II - LIRMM

10 Université Montpellier II - LIRMM
PageRank Introduit en 1998 avec Google L’importance P d’une page vient de l’importance des pages qui la réfèrent Si G=(V,E) est un graphe du Web (V : pages Web ; E : hyperliens) Dire que la relation est de type récursif !!! Université Montpellier II - LIRMM

11 Une double interprétation
Distribution d’importance (flot) Chaque page possède une certaine importance P(v) L’importance est diffusée par les hyperliens Modèle du surfeur aléatoire Le surfeur aléatoire parcourt sans cesse le Web en cliquant au hasard En choisissant , P est la probabilité de présence asymptotique (si elle existe) PageRank des pages qui pointent sur v Dire que A est moralement, la matrice d’adjacence vue au tout début PageRank d’une page v Université Montpellier II - LIRMM

12 Cas de convergence : théorème de Perron-Frobenius (1912)
On suppose G fortement connexe apériodique Soit A la matrice stochastique associée Alors P est solution de Convergence vers le point fixe P par itérations successives : Interprétation : chaîne de Markov Université Montpellier II - LIRMM

13 Limites du modèle idéal de PageRank ; facteur zap
G n’est jamais fortement connexe La convergence du calcul est très lente Modélisation : un surfeur réel ne fait pas que suivre des liens ! Introduction d’un zap : possibilité de ne pas suivre un hyperlien et de zapper Essayer d’être rapide (mais clair) Ne pas se reprendre Ne pas parler des feuilles (ça viendra à temps) Université Montpellier II - LIRMM

14 Équation d’amortissement
Propagation amortie par d (d=0,85) Z est la distribution du zap  est la probabilité effective de zapper Z est une source de flot Parler de d du point de vue flot : on ne conserve qu’une portion d du flot Du point de vue proba, avec une proba d, on clique sur un hyperlien Z : sur quelles pages on va atterrir grâce au zap Mu : probabilité effective de zap : dire que ça vaut 1-d si tout va bien muZ : peut être vu comme une source externe de PR : à chaque étape, on réinjecte une certaine quantité PR externe Université Montpellier II - LIRMM

15 Propagation du PageRank avec zap
PageRank amorti des pages qui pointent sur v PageRank de zap SPEEDER à MORT SUR CELLE-LA (sinon, redondant) PageRank d’une page v Université Montpellier II - LIRMM

16 Les pages sans lien (feuilles)
Non gérées par le modèle, même avec zap Processus mal défini Pertes de flot ! nécessité de Soit renormaliser Soit travailler à source constante de flot Le zap effectif est mal contrôlé : si on veut , alors >(1-d) Université Montpellier II - LIRMM

17 Les pages sans lien (suite) : problème du « remplumage »
Les feuilles ne servent à rien On les enlève donc pour le calcul… … et on les remet après convergence Problème : PageRank sur le graphe effeuillé PageRank sur le graphe entier Ne pas oublier de dire que c’est ce qui est proposé dans les algorithmes originaux de PR Dire que du coup, ben on peut calculer + vite : proportion de feuilles : bcp (pages explorées/connues) Université Montpellier II - LIRMM

18 Prise en charge des pages sans lien
BackRank Prise en charge des pages sans lien Université Montpellier II - LIRMM

19 Modéliser la touche Back : Concept et limitations
On veut pouvoir revenir en arrière dans le processus stochastique Si PageRank modélise un surfeur réel, la touche Back est une amélioration La touche Back gère les pages sans lien On travaille maintenant sur un processus de Markov avec mémoire Problème de la taille sur des gros graphes Dire que processus sans mémoire, on a juste à se rappeler à quel endroit on est ; avec mémoire, il faut aussi se rappeler ce que l’on a fait avant. Université Montpellier II - LIRMM

20 Notre modèle : Back irréversible
La touche Back a l’importance d’un lien Mémoire minimale : dernière page visitée 2 Back ne peuvent être consécutifs Expliquer l’avantage modèle de l’importance d’un lien, mais aussi que c’est ce qui permet une prise en charge efficace des feuilles (adaptable) Université Montpellier II - LIRMM

21 Université Montpellier II - LIRMM
Formalisation Phl(q,p) est la probabilité d’être en p en venant de q par un hyperlien Pib(p) est la probabilité d’être en p grâce à la touche Back (historique vierge) Phl(q,p) ne dépend pas du sommet d’arrivée p, et sera appelé Phl(q) Commencer par dire que pour exprimer correctement le modèle, il faut se placer au niveau des transitions entre pages (probabilité de transition ; écoulement de flot au niveau des arêtes) Université Montpellier II - LIRMM

22 Équations du Back irréversible
2 variables au lieu d’une Université Montpellier II - LIRMM

23 Université Montpellier II - LIRMM
Incorporation du zap Le zap est facile à prendre en compte s’il désactive la touche Back Attention si Z contient des feuilles Aller lus vite pour les raisons modèles ; raison technique mémoire (on ne peut que remonter des liens réels) Si Z contient des feuilles, ces dernières ne sont plus prises en charge par le processus !!! Université Montpellier II - LIRMM

24 Algorithme pratique : BackRank
Propagation/Convergence Reconstruction Application contractante (d-lipschitzienne) -> Université Montpellier II - LIRMM

25 Propagation de BackRank
Back-attractivité de v Phl amorti des pages qui pointent sur v Phl d’une page v PageRank de zap Université Montpellier II - LIRMM

26 Université Montpellier II - LIRMM
Importance de  Donne un classement différent ! modèle plus réaliste ? Les feuilles n’ont pas de Phl… …mais le PageRank obtenu est sur G entier ! Convergence plus rapide (Gauss-Seidel) Université Montpellier II - LIRMM

27 Résultats expérimentaux
Graphes de travail crawls de .fr, .uk, .it et Web entre 2001 et 2004 8.1, 18.5, 41.3 et 118 millions de sommets PageRank vs BackRank Zap : d=0,85 Distribution uniforme sur les pages avec lien Université Montpellier II - LIRMM

28 Université Montpellier II - LIRMM
Rank BackRank PageRank 1 2 3 news.tucows.com 4 5 6 home.netscape.com/ 7 8 9 10 11 webcrossing.com/ 12 13 14 15 16 17 18 counter.rambler.ru/top100/ cbl.leeds.ac.uk/nikos/personal.html 19 20 news.tucows.com/ Université Montpellier II - LIRMM

29 Université Montpellier II - LIRMM
Chevauchement Rank BackRank PageRank 1 2 3 news.tucows.com 4 5 6 home.netscape.com/ 7 8 9 10 Rank BackRank PageRank 1 2 3 news.tucows.com 4 5 6 home.netscape.com/ 7 8 9 10 Rank BackRank PageRank 1 2 3 news.tucows.com 4 5 6 home.netscape.com/ 7 8 9 10 Rank BackRank PageRank 1 2 3 news.tucows.com 4 5 6 home.netscape.com/ 7 8 9 10 Rank BackRank PageRank 1 2 3 news.tucows.com 4 5 6 home.netscape.com/ 7 8 9 10 Chevauchement : 60% Chevauchement : 0% Chevauchement : 100% Université Montpellier II - LIRMM

30 Différence quantitative entre PageRank et BackRank
Université Montpellier II - LIRMM

31 Convergences comparées
Université Montpellier II - LIRMM

32 Université Montpellier II - LIRMM
Futurs travaux Expérimentations de BackRank à grande échelle Expérimentations de FlowRank et BlowRank, algorithmes de classement distribué de PageRank Autre sujet de recherche : pair-à-pair Université Montpellier II - LIRMM

33 Publications Université Montpellier II - LIRMM
Structure supposée du graphe du Web. Première journée Graphes Dynamiques et Graphes du Web, décembre [Mat01] Structure intrinsèque du Web. Rapport Tech. RR-4663, INRIA, [MV02] Aspects locaux de l'importance globale des pages Web. Algotel 2003 [MV03a] Effet de la touche Back dans un modèle de surfeur aléatoire : application à PageRank. 1ères Journées Francophones de la Toile, [BM03] Local Structure in the Web. 12th international WWW conference, 2003 [MV03b] The effect of the back button in a random walk: application for pagerank. 13th international WWW conference, [MB04] Local aspects of the Global Ranking of Web Pages. Rapport Tech. RR-5192, INRIA, [MV04] The BackRank Algorithm: Using Backoff Process to Improve PageRank Soumis à 14th international WWW conference, 2005 File Sharing in P2P: Missing Block Paradigm and Upload Strategies. Rapport Tech. RR-5193, INRIA, [MR04] Université Montpellier II - LIRMM

34 Université Montpellier II - LIRMM
FIN Université Montpellier II - LIRMM

35 Influence du facteur d’amortissement sur le chevauchement
Université Montpellier II - LIRMM

36 Décomposition du PageRank
PageRank sortant externe PageRank entrant externe Diffusion à l’intérieur du site PageRank sortant de zap (dissipation) PageRank de zap (induction) Université Montpellier II - LIRMM

37 Équations du PageRank externe
Université Montpellier II - LIRMM

38 Amplification du PageRank d’un site
Université Montpellier II - LIRMM

39 Amplification du PageRank d’une page d’un site
Université Montpellier II - LIRMM

40 Université Montpellier II - LIRMM

41 Université Montpellier II - LIRMM

42 Propagation du PageRank
Université Montpellier II - LIRMM Retour

43 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

44 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

45 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

46 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

47 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

48 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

49 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

50 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

51 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

52 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

53 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

54 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

55 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

56 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

57 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

58 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

59 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM

60 Interprétation : surfeur aléatoire
Université Montpellier II - LIRMM Retour


Télécharger ppt "Graphes du Web, Mesures d’importance à la PageRank"

Présentations similaires


Annonces Google