20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade Presenté par : Emna KAMOUN
20/06/2015propagation de signatures lexicales dans le graphe du Web 2 Plan de la présentation Introduction Quelques méthodes de tri automatique Tri par contenu PageRank Le modèle lexicalRank Résultats Conclusion et perspectives
20/06/2015propagation de signatures lexicales dans le graphe du Web 3 INTRODUCTION La nature hypertexte du web : documents structurés en pages, qui se pointent les unes vers les autres, par un système de références. La croissance exponentielle du Web complique l’appréhension de sa structure globale => développement des méthodes de tri automatique des résultats
20/06/2015propagation de signatures lexicales dans le graphe du Web 4 Quelques méthodes de tri automatique : Tri par contenu Méthode la plus ancienne et la plus utilisée : Voila, Lycos, AltaVista… Principe : nombre d’occurrence des termes de la recherche dans les pages, leur proximité et leur place dans le texte Inconvénient : Facile à détourner
20/06/2015propagation de signatures lexicales dans le graphe du Web 5 PageRank : Tri selon la popularité Principe : estimer la popularité des pages web en se servant de la structure du graphe du Web. Permet de classer les pages en utilisant le «rang» calculé globalement pour chaque page et qui donne une estimation de sa popularité. L’axiome de l’algorithme : les pages les plus intéressantes sont celles sur lesquelles on tombe en cliquant au hasard. Quelques méthodes de tri automatique :
20/06/2015propagation de signatures lexicales dans le graphe du Web 6 Les règles du PageRank Les variantes de PageRank = un surfeur, dont le comportement aléatoire est soumis à certaines règles définissant la variante. A partir d’une distribution de probabilité sur l’ensemble des pages, le processus est itéré et, sous réserves de convergences et d’unicité de la limite, tend vers une distribution de probabilité : C’est le PageRank de cette variante. => Il existe en réalité une multitude de PageRanks
20/06/2015propagation de signatures lexicales dans le graphe du Web 7 Le Model initial du PageRank Equation de propagation du rang : R n+1 (p) : la probabilité de présence du surfeur à l’instant n+1 sur la page p deg(p) : le degré externe de q. Soit M la matrice d’adjacence de G, l’équation de propagation devient : Avec Rechercher une distribution de probabilité vérifiant R n+1 = trouver la distribution asymptotique de la chaîne de Markov homogène dont la matrice de transition est A. Si A est apériodique et irréductible, le processus converge géométriquement vers une distribution de probabilité qui confirme R n+1 quelque soit la distribution de probabilité initiale.
20/06/2015propagation de signatures lexicales dans le graphe du Web 8 Algorithme 1 : model originel Données : - Une matrice irréductible et apéiodique A; - Une distribution de probabilité Z; - Un réél e. Résultat : le vecteur propre principal de probabilité de A T avec une precision e Début R 0 = Z répéter R n+1 = A T R n = ll R n+1 - R n ll 1 jusqu’à < e Fin Le Model initial du PageRank
20/06/2015propagation de signatures lexicales dans le graphe du Web 9 Améliorations du PageRank Le PageRank remonte dans les composantes fortement connexes terminal appelées puit de rang Pour y échapper il faut sauter aléatoirement vers une page quelconque du web. Modélisation : on dote chaque page d’un rang par défaut : Z(p) ≥ 0. On introduit un facteur d’amortissement d ∈ ]0,1[ Avec
20/06/2015propagation de signatures lexicales dans le graphe du Web 10 Le modèle lexicalRank L’algorithme lexicalRank propage dans le graphe deux signatures lexicales : ensemble de termes pondérés caractérisant la thématique d’une page Signature interne : la signature que donne l’auteur Signature externe: la signature perçue par les auteurs des pages qui la pointent Contenu C(p) : signature lexicale qui caractérise le contenu de la page en dehors des liens hypertextes. Peut être complété par les signatures.
20/06/2015propagation de signatures lexicales dans le graphe du Web 11 Equation de la Propagation Les signatures lexicales sont obtenues en appliquant les équations de propagation : Avant E n : Arrière I n :
20/06/2015propagation de signatures lexicales dans le graphe du Web 12 Calcule de la signature C(p)d’une page : TF : fréquence relative d’un terme donné dans une page. IDF : fréquence inverse de ce terme sur l’ensemble du corpus. N : nombre total de documents du corpus DF(t) : nombre de pages contenant le terme. La valeur de fréquence d’un terme correspond à son nombre d’occurrences. Le poids d’une occurrence (par défaut = 1) augmente ou diminue en fonction de sa position dans la page. => une heuristique satisfaisante consiste à privilégier plutôt les termes en début de page.
20/06/2015propagation de signatures lexicales dans le graphe du Web 13 Données Un graphe du web G =(V,E); Un entier k. Résultat. Signature interne et externe des graphes de V. Début Pour p V faire I 0 (p) = C(p) E 0 (p) = fin pour n=1 à k faire Pour p V faire Appliquer l’equation de propagation avant aux pages avant p dans G pour obtenir E’ n (p) Appliquer l’equation de propagation arrière aux pages après p dans G pour obtenir I’ n (p) fin normaliser le vecteur signature externe pour obtenir E n normaliser le vecteur signature interne pour obtenir I n fin retourner I k et E k : signatures de V fin
20/06/2015propagation de signatures lexicales dans le graphe du Web 14 Résultat Un logiciel implémentant LexicalRank permet de nous promener dans le graphe. Il permet de suivre l’évolution signatures interne et externe de la page courante Le graphe de travail est un site web consacré à l’étude des réseaux pairs à pairs. Résultat Signature interne itérations 2 et 3
20/06/2015propagation de signatures lexicales dans le graphe du Web 15 Resultat signature externe itération 2 et 3
20/06/2015propagation de signatures lexicales dans le graphe du Web 16 Conclusion L’algorithme LexicalRank propage deux signatures lexicales : l’une interne, l’autre externe. => Ouvrir la voie à une nouvelle famille d’algorithmes PageRank fondés sur la propagation de signatures lexicales. les résultats obtenus sont très prometteurs : On a constaté, lors de l’exécution de l’algorithme, l’émergence de termes précis caractérisant implicitement la page. Perspectives : une validation complète de LexicalRank en l’incorporant dans un moteur de recherche et en effectuant une série de tests de satisfaction sur une population témoin