Séminaire UCL - 22 février 2005 PageRank : un aperçu Fabien Mathieu Séminaire UCL - 22 février 2005
Séminaire UCL - 22 février 2005 Plan Introduction : graphes du Web Principes de PageRank Variations PageRank amorti Convergences quantitatives Séminaire UCL - 22 février 2005
Les sites : une réalité structurelle Graphe du Web = pages + hyperliens Matrice d’adjacence d’un graphe du Web : Visuellement, c’est joli… …et les sites apparaissent clairement Bien penser à dire que les URLS sont lexico-triées Séminaire UCL - 22 février 2005
Séminaire UCL - 22 février 2005 Exemple Séminaire UCL - 22 février 2005
Séminaire UCL - 22 février 2005 PageRank Théorie & pratique Séminaire UCL - 22 février 2005
Séminaire UCL - 22 février 2005 S’orienter dans le Web Web : masse « infinie » d’information Besoin d’outils de recherche Manuels : annuaires ! capacité de traitement limité Automatiques : moteurs ! nécessité de trier les données Ne pas trop détailler les annuaires Séminaire UCL - 22 février 2005
Séminaire UCL - 22 février 2005 Méthodes de tri Importance sémantique : pertinence Indexation Basée sur une requête (mots-clés) Manipulable (spamming : abus de mots-clés) Importance structurelle : PR, HITS… Basée sur les hyperliens Indépendante du contenu Méthodes hybrides : TSPR , OPIC… Autres ? Problème du secret industriel Se rappeler OPIC, TPSPR : OPIC : Online Page Importance Computation TSPR : Topic Sensitive PageRank (query-specific IR) Séminaire UCL - 22 février 2005
Séminaire UCL - 22 février 2005 PageRank Introduit en 1998 avec Google L’importance P d’une page vient de l’importance des pages qui la réfèrent Chaque page doit avoir une importance Si G=(V,E) est un graphe du Web (V : pages Web ; E : hyperliens) Dire que la relation est de type récursif !!! Dire qu’il n’y a pas d’auto-lien Séminaire UCL - 22 février 2005
Une double interprétation Distribution d’importance (flot) Chaque page possède une certaine importance P(v) L’importance est diffusée par les hyperliens Modèle du surfeur aléatoire Le surfeur aléatoire parcourt sans cesse le Web en cliquant au hasard En choisissant , P est la probabilité de présence asymptotique (si elle existe) PageRank des pages qui pointent sur v Dire que A est moralement, la matrice d’adjacence vue au tout début PageRank d’une page v Séminaire UCL - 22 février 2005
Cas de convergence : théorème de Perron-Frobenius (1912) On suppose G fortement connexe apériodique Soit A la matrice stochastique associée Alors 1 est valeur propre maximale simple et unique P est solution de Convergence vers le point fixe P par itérations successives : Interprétation : chaîne de Markov Séminaire UCL - 22 février 2005
Modèle idéal et graphe réel Il existe plusieurs composantes fortement connexes (cfc) dont des pages sans lien Séminaire UCL - 22 février 2005
Séminaire UCL - 22 février 2005 Réduction de A On regroupe les sommets par cfc On respecte l’ordre partiel sur les cfc A est alors triangulaire par bloc Séminaire UCL - 22 février 2005
Convergence du processus itératif Les cfc récurrentes (hors feuilles) sont : Stables Stochastiques Irréductibles Les feuilles sont nulles Les cfc transitoires sont strictement sous-stochastiques On va donc observer une projection sur les cfc récurrentes Séminaire UCL - 22 février 2005
Trouver un PageRank unique et strictement positif Rendre la matrice A irréductible Séminaire UCL - 22 février 2005
Renormalisation (méthode de la puissance) Qu’apporte ? Rien s’il existe des cfc récurrentes Le filtre des cfc transitoires maximales sinon Pas intéressant Séminaire UCL - 22 février 2005
Complétion stochastique À cause des feuilles, il existe un défaut stochastique Ce défaut peut être redirigé Z : distribution recouvrante Si pas de cfc récurrente, c’est gagné Sinon, c’est perdu !!! Séminaire UCL - 22 février 2005
Séminaire UCL - 22 février 2005 Choix de Z Interprétation : comportement par défaut Importance du caractère recouvrant Nombreuses possibilités : Distribution uniforme (standard) Distribution sur les pages d’accueil Personnalisation sémantique Personnalisation commerciale Séminaire UCL - 22 février 2005
Facteur d’amortissement Séminaire UCL - 22 février 2005
Séminaire UCL - 22 février 2005 Principe Introduire de l’amortissement dans les transitions Ainsi, même les cfc récurrentes possèdent un défaut stochastique On peut donc réaliser une complétion stochastique qui marche Séminaire UCL - 22 février 2005
PR -compensé (Perron-Frobenius) On est dans le cas idéal, avec Interprétation stochastique : Suivre un lien avec prob. d (s’il en existe) Sinon, zapper selon Z Séminaire UCL - 22 février 2005
Séminaire UCL - 22 février 2005 Choix de d Compromis convergence/dénaturation : d amortit les valeurs propres secondaires Atténuation des cfc récurrentes Classement selon A ou selon Z ? Modèle du surfeur aléatoire : Le zap suit une loi géométrique Distance moyenne entre 2 zaps : Empiriquement : d=0,85 Séminaire UCL - 22 février 2005
PR non-compensé (point fixe) est d-lipschitzienne : Convergence Unicité Plus besoin de Perron-Frobenius Interprétation : flot Séminaire UCL - 22 février 2005
Séminaire UCL - 22 février 2005 Équivalence des PR Perron-Frobenius : Point fixe : On pourrait aussi bien prendre (Bianchini) Séminaire UCL - 22 février 2005
Séminaire UCL - 22 février 2005 Convergences Séminaire UCL - 22 février 2005
Séminaire UCL - 22 février 2005 Mieux que d ? L’amortissement garantit d. Après, cela dépend du spectre de A. En pratique, A est « saturé » de valeurs propres proches ou égales de 1 : Cfc récurrentes Cfc transitoires quasi-récurrentes Conclusion : guère mieux que d Séminaire UCL - 22 février 2005
Les pages sans lien : problème du « remplumage » Les feuilles ne servent à rien On les enlève donc pour le calcul… … et on les remet après convergence Problème : PageRank sur le graphe effeuillé PageRank sur le graphe entier Ne pas oublier de dire que c’est ce qui est proposé dans les algorithmes originaux de PR Dire que du coup, ben on peut calculer + vite : proportion de feuilles : bcp (pages explorées/connues) Séminaire UCL - 22 février 2005
Vitesse de convergence Séminaire UCL - 22 février 2005
Séminaire UCL - 22 février 2005 Nombre d’itérations Dépend de ce que l’on veut : Donner une note de 1 à 10 Avoir pour chaque page une importance précise Avoir un classement stable Il est possible d’avoir des profils statistiques de densités et de vitesses empiriques On a ainsi des « formules » empiriques Séminaire UCL - 22 février 2005
Exemples de profils de densité Séminaire UCL - 22 février 2005
Exemple de profil de vitesses Séminaire UCL - 22 février 2005
Convergence du classement Bien dire que par exemple, on peut grâce au profil retrouver epsilon=1/100*n Séminaire UCL - 22 février 2005