La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Université Montpellier II - LIRMM 1/33 Graphes du Web, Mesures dimportance à la PageRank Soutenance de thèse de Fabien Mathieu sous la direction de Michel.

Présentations similaires


Présentation au sujet: "Université Montpellier II - LIRMM 1/33 Graphes du Web, Mesures dimportance à la PageRank Soutenance de thèse de Fabien Mathieu sous la direction de Michel."— Transcription de la présentation:

1 Université Montpellier II - LIRMM 1/33 Graphes du Web, Mesures dimportance à la PageRank Soutenance de thèse de Fabien Mathieu sous la direction de Michel Habib et co-encadrée par Laurent Viennot À mon père

2 Université Montpellier II - LIRMM2/33 Parcours Parcours entre maths et physique DEA ATIAM Tronc commun DEA algo Stage sur la téléphonie mobile (Daniel Krob) Une idée : les points chauds du Web Rencontre avec Laurent Viennot Thèse et monitorat avec Michel Habib 3 bureaux (LIAFA, LIRMM, INRIA)

3 Université Montpellier II - LIRMM3/33 Prélude : représenter un graphe du Web Graphe du Web = pages + hyperliens Graphe du Web = pages + hyperliens Matrice dadjacence dun graphe du Web : Matrice dadjacence dun graphe du Web : Visuellement, cest joli… Visuellement, cest joli… …et les sites apparaissent clairement …et les sites apparaissent clairement

4 Université Montpellier II - LIRMM4/33 Exemple

5 Université Montpellier II - LIRMM5/33 Plan du mémoire Structures du Web Structures du Web –Quest-ce que le Web ? –Crawlers, moteurs, tailles du Web –Graphes et structures du Web Les PageRanks Les PageRanks –Chaînes de Markov –PageRank : définitions, interprétations, limites –BackRank : une amélioration possible de PageRank –Décomposition fine du PageRank : FlowRank et BlowRank FlowRank et BlowRank

6 Université Montpellier II - LIRMM6/33 Plan de lexposé PageRank PageRank –Systèmes de classement –Principe du modèle –Facteur damortissement –Problème des feuilles BackRank BackRank PageRank PageRank BackRank BackRank –Motivation –Théorie : Back irréversible –Expérimentations PageRank PageRank BackRank BackRank

7 Université Montpellier II - LIRMM7/33 PageRank Théorie & pratique

8 Université Montpellier II - LIRMM8/33 Sorienter dans le Web Web : masse « infinie » dinformation Web : masse « infinie » dinformation Besoin doutils de recherche Besoin doutils de recherche –Manuels : annuaires ! capacité de traitement limité ! capacité de traitement limité –Automatiques : moteurs ! nécessité de trier les données ! nécessité de trier les données

9 Université Montpellier II - LIRMM9/33 Méthodes de tri Importance sémantique : pertinence Importance sémantique : pertinence –Indexation –Basée sur une requête (mots-clés) –Manipulable (spamming : abus de mots-clés) Importance structurelle : PR, HITS… Importance structurelle : PR, HITS… –Basée sur les hyperliens –Indépendante du contenu Méthodes hybrides : TSPR, OPIC… Méthodes hybrides : TSPR, OPIC… Autres ? Problème du secret industriel Autres ? Problème du secret industriel

10 Université Montpellier II - LIRMM10/33 PageRank Introduit en 1998 avec Google Introduit en 1998 avec Google Limportance P dune page vient de limportance des pages qui la réfèrent Limportance P dune page vient de limportance des pages qui la réfèrent Si G=(V,E) est un graphe du Web Si G=(V,E) est un graphe du Web (V : pages Web ; E : hyperliens)

11 Université Montpellier II - LIRMM11/33 Une double interprétation Distribution dimportance (flot) Distribution dimportance (flot) –Chaque page possède une certaine importance P(v) –Limportance est diffusée par les hyperliens Modèle du surfeur aléatoire Modèle du surfeur aléatoire –Le surfeur aléatoire parcourt sans cesse le Web en cliquant au hasard –En choisissant, P est la probabilité de présence asymptotique (si elle existe) PageRank dune page v PageRank des pages qui pointent sur v PageRank des pages qui pointent sur v

12 Université Montpellier II - LIRMM12/33 Cas de convergence : théorème de Perron-Frobenius (1912) On suppose G fortement connexe apériodique On suppose G fortement connexe apériodique Soit A la matrice stochastique associée Soit A la matrice stochastique associée Alors P est solution de Alors P est solution de Convergence vers le point fixe P par itérations successives : Convergence vers le point fixe P par itérations successives : Interprétation : chaîne de Markov Interprétation : chaîne de Markov

13 Université Montpellier II - LIRMM13/33 Limites du modèle idéal de PageRank ; facteur zap G nest jamais fortement connexe G nest jamais fortement connexe La convergence du calcul est très lente La convergence du calcul est très lente Modélisation : un surfeur réel ne fait pas que suivre des liens Modélisation : un surfeur réel ne fait pas que suivre des liens ! Introduction dun zap : possibilité de ne pas suivre un hyperlien et de zapper ! Introduction dun zap : possibilité de ne pas suivre un hyperlien et de zapper

14 Université Montpellier II - LIRMM14/33 Équation damortissement Propagation amortie par d (d=0,85) Propagation amortie par d (d=0,85) Z est la distribution du zap Z est la distribution du zap est la probabilité effective de zapper est la probabilité effective de zapper Z est une source de flot Z est une source de flot

15 Université Montpellier II - LIRMM15/33 Propagation du PageRank avec zap PageRank amorti des pages qui pointent sur v PageRank de zap PageRank dune page v

16 Université Montpellier II - LIRMM16/33 Les pages sans lien (feuilles) Non gérées par le modèle, même avec zap Non gérées par le modèle, même avec zap Processus mal défini Processus mal défini Pertes de flot Pertes de flot ! nécessité de ! nécessité de –Soit renormaliser –Soit travailler à source constante de flot Le zap effectif est mal contrôlé : Le zap effectif est mal contrôlé : si on veut, alors >(1-d)

17 Université Montpellier II - LIRMM17/33 Les pages sans lien (suite) : problème du « remplumage » Les feuilles ne servent à rien Les feuilles ne servent à rien On les enlève donc pour le calcul… On les enlève donc pour le calcul… … et on les remet après convergence … et on les remet après convergence Problème : Problème : PageRank sur le graphe effeuillé PageRank sur le graphe entier

18 Université Montpellier II - LIRMM18/33 BackRank Prise en charge des pages sans lien

19 Université Montpellier II - LIRMM19/33 Modéliser la touche Back : Concept et limitations On veut pouvoir revenir en arrière dans le processus stochastique On veut pouvoir revenir en arrière dans le processus stochastique Si PageRank modélise un surfeur réel, la touche Back est une amélioration Si PageRank modélise un surfeur réel, la touche Back est une amélioration La touche Back gère les pages sans lien La touche Back gère les pages sans lien On travaille maintenant sur un processus de Markov avec mémoire On travaille maintenant sur un processus de Markov avec mémoire Problème de la taille sur des gros graphes Problème de la taille sur des gros graphes

20 Université Montpellier II - LIRMM20/33 Notre modèle : Back irréversible La touche Back a limportance dun lien La touche Back a limportance dun lien Mémoire minimale : dernière page visitée Mémoire minimale : dernière page visitée 2 Back ne peuvent être consécutifs 2 Back ne peuvent être consécutifs

21 Université Montpellier II - LIRMM21/33 Formalisation P hl (q,p) est la probabilité dêtre en p en venant de q par un hyperlien P hl (q,p) est la probabilité dêtre en p en venant de q par un hyperlien P ib (p) est la probabilité dêtre en p grâce à la touche Back (historique vierge) P ib (p) est la probabilité dêtre en p grâce à la touche Back (historique vierge) P hl (q,p) ne dépend pas du sommet darrivée p, et sera appelé P hl (q) P hl (q,p) ne dépend pas du sommet darrivée p, et sera appelé P hl (q)

22 Université Montpellier II - LIRMM22/33 Équations du Back irréversible

23 Université Montpellier II - LIRMM23/33 Incorporation du zap Le zap est facile à prendre en compte sil désactive la touche Back Le zap est facile à prendre en compte sil désactive la touche Back Attention si Z contient des feuilles Attention si Z contient des feuilles

24 Université Montpellier II - LIRMM24/33 Algorithme pratique : BackRank Propagation/Convergence Propagation/Convergence Reconstruction Reconstruction

25 Université Montpellier II - LIRMM25/33 Propagation de BackRank P hl amorti des pages qui pointent sur v PageRank de zap P hl dune page v Back-attractivité de v

26 Université Montpellier II - LIRMM26/33 Importance de Importance de Donne un classement différent Donne un classement différent ! modèle plus réaliste ? ! modèle plus réaliste ? Les feuilles nont pas de P hl … Les feuilles nont pas de P hl … …mais le PageRank obtenu est sur …mais le PageRank obtenu est sur G entier ! Convergence plus rapide (Gauss-Seidel) Convergence plus rapide (Gauss-Seidel)

27 Université Montpellier II - LIRMM27/33 Résultats expérimentaux Graphes de travail Graphes de travail –crawls de.fr,.uk,.it et Web entre 2001 et 2004 –8.1, 18.5, 41.3 et 118 millions de sommets PageRank vs BackRank PageRank vs BackRank Zap : Zap : –d=0,85 –Distribution uniforme sur les pages avec lien

28 Université Montpellier II - LIRMM28/33 RankBackRankPageRank 1www.yahoo.comwww.adobe.com/prodindex/acrobat/readstep.html 2www.adobe.com/prodindex/acrobat/readstep.htmlwww.yahoo.com/ 3news.tucows.comwww.worldwidemart.com/scripts/ 4www.altavista.comwww.adobe.com/products/acrobat/readstep.html 5www.adobe.com/products/acrobat/readstep.htmlwww.ibm.com/ 6home.netscape.com/home.netscape.com/ 7www.domaindirect.com/www.listbot.com/ 8www.worldwidemart.com/scripts/www.acme.com/software/thttpd/ 9www.ibm.com/www.adobe.com/ 10www.btsw.com/www.w3.org/ 11webcrossing.com/www.adobe.com/homepage.html 12www.real.com/www.adobe.com/misc/privacy.html 13www.acme.com/software/thttpd/www.domaindirect.com/ 14www.listbot.com/www.adobe.com/misc/copyright.html 15www.adobe.com/www.adobe.com/misc/comments.html 16www.microsoft.com/windows/ie/default.htmwww.adobe.com/store/main.html 17www.macromedia.com/shockwave/download/www.listbot.com/faq.shtml 18counter.rambler.ru/top100/cbl.leeds.ac.uk/nikos/personal.html 19www.mkstats.com/www.listbot.com/cgi-bin/customer 20www.tucows.com/privacy.htmlnews.tucows.com/

29 Université Montpellier II - LIRMM29/33 RankBackRankPageRank 1www.yahoo.comwww.adobe.com/prodindex/.../readstep.html 2www.adobe.com/prodindex/.../readstep.htmlwww.yahoo.com/ 3news.tucows.comwww.worldwidemart.com/scripts/ 4www.altavista.comwww.adobe.com/products/.../readstep.html 5www.adobe.com/products/.../readstep.htmlwww.ibm.com/ 6home.netscape.com/home.netscape.com/ 7www.domaindirect.com/www.listbot.com/ 8www.worldwidemart.com/scripts/www.acme.com/software/thttpd/ 9www.ibm.com/www.adobe.com/ 10www.btsw.com/www.w3.org/ Chevauchement : 0% ChevauchementRankBackRankPageRank1www.yahoo.comwww.adobe.com/prodindex/.../readstep.html 2www.adobe.com/prodindex/.../readstep.htmlwww.yahoo.com/ 3news.tucows.comwww.worldwidemart.com/scripts/ 4www.altavista.comwww.adobe.com/products/.../readstep.html 5www.adobe.com/products/.../readstep.htmlwww.ibm.com/ 6home.netscape.com/home.netscape.com/ 7www.domaindirect.com/www.listbot.com/ 8www.worldwidemart.com/scripts/www.acme.com/software/thttpd/ 9www.ibm.com/www.adobe.com/ 10www.btsw.com/www.w3.org/ RankBackRankPageRank1www.yahoo.comwww.adobe.com/prodindex/.../readstep.html 2www.adobe.com/prodindex/.../readstep.htmlwww.yahoo.com/ 3news.tucows.comwww.worldwidemart.com/scripts/ 4www.altavista.comwww.adobe.com/products/.../readstep.html 5www.adobe.com/products/.../readstep.htmlwww.ibm.com/ 6home.netscape.com/home.netscape.com/ 7www.domaindirect.com/www.listbot.com/ 8www.worldwidemart.com/scripts/www.acme.com/software/thttpd/ 9www.ibm.com/www.adobe.com/ 10www.btsw.com/www.w3.org/ Chevauchement : 100% RankBackRankPageRank1www.yahoo.comwww.adobe.com/prodindex/.../readstep.html 2www.adobe.com/prodindex/.../readstep.htmlwww.yahoo.com/ 3news.tucows.comwww.worldwidemart.com/scripts/ 4www.altavista.comwww.adobe.com/products/.../readstep.html 5www.adobe.com/products/.../readstep.htmlwww.ibm.com/ 6home.netscape.com/home.netscape.com/ 7www.domaindirect.com/www.listbot.com/ 8www.worldwidemart.com/scripts/www.acme.com/software/thttpd/ 9www.ibm.com/www.adobe.com/ 10www.btsw.com/www.w3.org/ Chevauchement : 60% RankBackRankPageRank1www.yahoo.comwww.adobe.com/prodindex/.../readstep.html 2www.adobe.com/prodindex/.../readstep.htmlwww.yahoo.com/ 3news.tucows.comwww.worldwidemart.com/scripts/ 4www.altavista.comwww.adobe.com/products/.../readstep.html 5www.adobe.com/products/.../readstep.htmlwww.ibm.com/ 6home.netscape.com/home.netscape.com/ 7www.domaindirect.com/www.listbot.com/ 8www.worldwidemart.com/scripts/www.acme.com/software/thttpd/ 9www.ibm.com/www.adobe.com/ 10www.btsw.com/www.w3.org/

30 Université Montpellier II - LIRMM30/33 Différence quantitative entre PageRank et BackRank

31 Université Montpellier II - LIRMM31/33 Convergences comparées

32 Université Montpellier II - LIRMM32/33 Futurs travaux Expérimentations de BackRank à grande échelle Expérimentations de BackRank à grande échelle Expérimentations de FlowRank et BlowRank, algorithmes de classement distribué de PageRank Expérimentations de FlowRank et BlowRank, algorithmes de classement distribué de PageRank Autre sujet de recherche : pair-à-pair Autre sujet de recherche : pair-à-pair

33 Université Montpellier II - LIRMM33/33 Publications Structure supposée du graphe du Web. Première journée Graphes Dynamiques et Graphes du Web, décembre [Mat01] Structure intrinsèque du Web. Rapport Tech. RR-4663, INRIA, [MV02] Aspects locaux de l'importance globale des pages Web. Algotel 2003 [MV03a] Effet de la touche Back dans un modèle de surfeur aléatoire : application à PageRank. 1ères Journées Francophones de la Toile, [BM03] Local Structure in the Web. 12th international WWW conference, 2003 [MV03b] mathieu.htm mathieu.htm The effect of the back button in a random walk: application for pagerank. 13th international WWW conference, [MB04] Local aspects of the Global Ranking of Web Pages. Rapport Tech. RR-5192, INRIA, [MV04] The BackRank Algorithm: Using Backoff Process to Improve PageRank Soumis à 14th international WWW conference, 2005 File Sharing in P2P: Missing Block Paradigm and Upload Strategies. Rapport Tech. RR-5193, INRIA, [MR04]

34 Université Montpellier II - LIRMM34/33 FIN

35 Université Montpellier II - LIRMM35/33 Influence du facteur damortissement sur le chevauchement

36 Université Montpellier II - LIRMM36/33 Décomposition du PageRank PageRank entrant externe PageRank de zap (induction) Diffusion à lintérieur du site PageRank sortant externe de zap (dissipation)

37 Université Montpellier II - LIRMM37/33 Équations du PageRank externe

38 Université Montpellier II - LIRMM38/33 Amplification du PageRank dun site

39 Université Montpellier II - LIRMM39/33 Amplification du PageRank dune page dun site

40 Université Montpellier II - LIRMM40/33

41 Université Montpellier II - LIRMM41/33

42 Université Montpellier II - LIRMM Propagation du PageRank Retour

43 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

44 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

45 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

46 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

47 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

48 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

49 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

50 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

51 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

52 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

53 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

54 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

55 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

56 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

57 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

58 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

59 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire

60 Université Montpellier II - LIRMM Interprétation : surfeur aléatoire Retour


Télécharger ppt "Université Montpellier II - LIRMM 1/33 Graphes du Web, Mesures dimportance à la PageRank Soutenance de thèse de Fabien Mathieu sous la direction de Michel."

Présentations similaires


Annonces Google