La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Séminaire UCL - 22 février 2005

Présentations similaires


Présentation au sujet: "Séminaire UCL - 22 février 2005"— Transcription de la présentation:

1 Séminaire UCL - 22 février 2005
PageRank : un aperçu Fabien Mathieu Séminaire UCL - 22 février 2005

2 Séminaire UCL - 22 février 2005
Plan Introduction : graphes du Web Principes de PageRank Variations PageRank amorti Convergences quantitatives Séminaire UCL - 22 février 2005

3 Les sites : une réalité structurelle
Graphe du Web = pages + hyperliens Matrice d’adjacence d’un graphe du Web : Visuellement, c’est joli… …et les sites apparaissent clairement Bien penser à dire que les URLS sont lexico-triées Séminaire UCL - 22 février 2005

4 Séminaire UCL - 22 février 2005
Exemple Séminaire UCL - 22 février 2005

5 Séminaire UCL - 22 février 2005
PageRank Théorie & pratique Séminaire UCL - 22 février 2005

6 Séminaire UCL - 22 février 2005
S’orienter dans le Web Web : masse «  infinie » d’information Besoin d’outils de recherche Manuels : annuaires ! capacité de traitement limité Automatiques : moteurs ! nécessité de trier les données Ne pas trop détailler les annuaires Séminaire UCL - 22 février 2005

7 Séminaire UCL - 22 février 2005
Méthodes de tri Importance sémantique : pertinence Indexation Basée sur une requête (mots-clés) Manipulable (spamming : abus de mots-clés) Importance structurelle : PR, HITS… Basée sur les hyperliens Indépendante du contenu Méthodes hybrides : TSPR , OPIC… Autres ? Problème du secret industriel Se rappeler OPIC, TPSPR : OPIC : Online Page Importance Computation TSPR : Topic Sensitive PageRank (query-specific IR) Séminaire UCL - 22 février 2005

8 Séminaire UCL - 22 février 2005
PageRank Introduit en 1998 avec Google L’importance P d’une page vient de l’importance des pages qui la réfèrent Chaque page doit avoir une importance Si G=(V,E) est un graphe du Web (V : pages Web ; E : hyperliens) Dire que la relation est de type récursif !!! Dire qu’il n’y a pas d’auto-lien Séminaire UCL - 22 février 2005

9 Une double interprétation
Distribution d’importance (flot) Chaque page possède une certaine importance P(v) L’importance est diffusée par les hyperliens Modèle du surfeur aléatoire Le surfeur aléatoire parcourt sans cesse le Web en cliquant au hasard En choisissant , P est la probabilité de présence asymptotique (si elle existe) PageRank des pages qui pointent sur v Dire que A est moralement, la matrice d’adjacence vue au tout début PageRank d’une page v Séminaire UCL - 22 février 2005

10 Cas de convergence : théorème de Perron-Frobenius (1912)
On suppose G fortement connexe apériodique Soit A la matrice stochastique associée Alors 1 est valeur propre maximale simple et unique P est solution de Convergence vers le point fixe P par itérations successives : Interprétation : chaîne de Markov Séminaire UCL - 22 février 2005

11 Modèle idéal et graphe réel
Il existe plusieurs composantes fortement connexes (cfc) dont des pages sans lien Séminaire UCL - 22 février 2005

12 Séminaire UCL - 22 février 2005
Réduction de A On regroupe les sommets par cfc On respecte l’ordre partiel sur les cfc A est alors triangulaire par bloc Séminaire UCL - 22 février 2005

13 Convergence du processus itératif
Les cfc récurrentes (hors feuilles) sont : Stables Stochastiques Irréductibles Les feuilles sont nulles Les cfc transitoires sont strictement sous-stochastiques On va donc observer une projection sur les cfc récurrentes Séminaire UCL - 22 février 2005

14 Trouver un PageRank unique et strictement positif
Rendre la matrice A irréductible Séminaire UCL - 22 février 2005

15 Renormalisation (méthode de la puissance)
Qu’apporte ? Rien s’il existe des cfc récurrentes Le filtre des cfc transitoires maximales sinon Pas intéressant Séminaire UCL - 22 février 2005

16 Complétion stochastique
À cause des feuilles, il existe un défaut stochastique Ce défaut peut être redirigé Z : distribution recouvrante Si pas de cfc récurrente, c’est gagné Sinon, c’est perdu !!! Séminaire UCL - 22 février 2005

17 Séminaire UCL - 22 février 2005
Choix de Z Interprétation : comportement par défaut Importance du caractère recouvrant Nombreuses possibilités : Distribution uniforme (standard) Distribution sur les pages d’accueil Personnalisation sémantique Personnalisation commerciale Séminaire UCL - 22 février 2005

18 Facteur d’amortissement
Séminaire UCL - 22 février 2005

19 Séminaire UCL - 22 février 2005
Principe Introduire de l’amortissement dans les transitions Ainsi, même les cfc récurrentes possèdent un défaut stochastique On peut donc réaliser une complétion stochastique qui marche Séminaire UCL - 22 février 2005

20 PR -compensé (Perron-Frobenius)
On est dans le cas idéal, avec Interprétation stochastique : Suivre un lien avec prob. d (s’il en existe) Sinon, zapper selon Z Séminaire UCL - 22 février 2005

21 Séminaire UCL - 22 février 2005
Choix de d Compromis convergence/dénaturation : d amortit les valeurs propres secondaires Atténuation des cfc récurrentes Classement selon A ou selon Z ? Modèle du surfeur aléatoire : Le zap suit une loi géométrique Distance moyenne entre 2 zaps : Empiriquement : d=0,85 Séminaire UCL - 22 février 2005

22 PR non-compensé (point fixe)
est d-lipschitzienne : Convergence Unicité Plus besoin de Perron-Frobenius Interprétation : flot Séminaire UCL - 22 février 2005

23 Séminaire UCL - 22 février 2005
Équivalence des PR Perron-Frobenius : Point fixe : On pourrait aussi bien prendre (Bianchini) Séminaire UCL - 22 février 2005

24 Séminaire UCL - 22 février 2005
Convergences Séminaire UCL - 22 février 2005

25 Séminaire UCL - 22 février 2005
Mieux que d ? L’amortissement garantit d. Après, cela dépend du spectre de A. En pratique, A est « saturé » de valeurs propres proches ou égales de 1 : Cfc récurrentes Cfc transitoires quasi-récurrentes Conclusion : guère mieux que d Séminaire UCL - 22 février 2005

26 Les pages sans lien : problème du « remplumage »
Les feuilles ne servent à rien On les enlève donc pour le calcul… … et on les remet après convergence Problème : PageRank sur le graphe effeuillé PageRank sur le graphe entier Ne pas oublier de dire que c’est ce qui est proposé dans les algorithmes originaux de PR Dire que du coup, ben on peut calculer + vite : proportion de feuilles : bcp (pages explorées/connues) Séminaire UCL - 22 février 2005

27 Vitesse de convergence
Séminaire UCL - 22 février 2005

28 Séminaire UCL - 22 février 2005
Nombre d’itérations Dépend de ce que l’on veut : Donner une note de 1 à 10 Avoir pour chaque page une importance précise Avoir un classement stable Il est possible d’avoir des profils statistiques de densités et de vitesses empiriques On a ainsi des « formules » empiriques Séminaire UCL - 22 février 2005

29 Exemples de profils de densité
Séminaire UCL - 22 février 2005

30 Exemple de profil de vitesses
Séminaire UCL - 22 février 2005

31 Convergence du classement
Bien dire que par exemple, on peut grâce au profil retrouver epsilon=1/100*n Séminaire UCL - 22 février 2005


Télécharger ppt "Séminaire UCL - 22 février 2005"

Présentations similaires


Annonces Google