20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.

Slides:



Advertisements
Présentations similaires
Apprentissage spectral
Advertisements

Application au suivi des paramètres de problèmes de vision
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Cours 8 Problèmes de dynamiques : techniques de résolution pas-à-pas
Cours 3-b Méthode des éléments finis 1D
GEF 435 Principes des systèmes d’exploitation
Application de réseaux bayésiens à la détection de fumées polluantes
Journée Francilienne de recherche Opérationnelle Politiques de gestion de coûts de transit dans lInter domaine basé sur BGP Loubna ECHABBI Dominique BARTH,
Colloque Traitement et Analyse de séquences : compte-rendu
A Pyramid Approach to Subpixel Registration Based on Intensity
1°) consolider une connaissance des nombres
FONCTIONS EXPONENTIELLES
FONCTIONS EXPONENTIELLES ET LOGARITHMES
EXPONENTIELLES FONCTIONS EXPONENTIELLES EN TERMINALE ST2S auteur : Philippe Angot (version adaptée)
simulateur de réseau de machines UML connectées par WiFi mode ad-hoc
Le 19/ 11/ Modèle de tarification planifiée pour les réseaux mobiles Mustapha OUGHDI Alexandre CAMINADA Sid LAMROUS.
Le référencement des sites internet par les principaux moteurs de recherche Adrien Rimélé Alice Laurent 25 septembre
Programmes du cycle terminal
                                        République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique.
Concepts avancés en mathématiques et informatique appliquées
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN
Un neurone élémentaire
Septième étape : travailler avec des graphes probabilistes
Plus courts chemins On présente dans ce chapitre un problème typique de cheminement dans les graphes : la recherche d'un plus court chemin entre deux sommets.
Application des algorithmes génétiques
Aide à la décision multicritères
Suites de matrices Quelques usages récurrents
Suites de matrices Quelques usages récurrents
Concepts avancés en mathématiques et informatique appliquées
ALGORITHMIQUE en classe de seconde
Génération de feuilles de style pour site Web par un
III – Convergence Asymptotique
Rappel... Solution itérative de systèmes linéaires (suite et fin).
Exemple en dynamique de population
Structures de données IFT-2000
MOT Éditeur de modèles de connaissances par objets typés
Méthodes de prévision (STT-3220)
Moteur de recherche d’information
Moteur de recherche d’information
II- L’algorithme du recuit simulé (pseudo-code)
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
L ABORATOIRE d I NGÉNIERIE des S YSTÈMES A UTOMATISÉS EA 4014 – Université dAngers Institut des Sciences et Techniques de lIngénieur dAngers Master2 Recherche.
Pour le chemin le plus court pour tous les couples
Cours du 25 octobre Mardi le 24 octobre
DU TRAITEMENT DU SIGNAL
Comment classer les pages web. Principe du moteur de recherche Mise en mémoire des pages web Associer chaque page à des mot-clefs Objectif : Classification.
Ranking the web frontier Nadav Eiron, Kevin S. McCurley, John A. Tomlin IBM Almaden Research Center Bah Thierno Madiou.
LE FLOT MAXIMAL et LA COUPE MINIMALE
STATISTIQUES – PROBABILITÉS
D.E ZEGOUR Ecole Supérieure d’Informatique. Problèmes de décision Concepts de base Expressions régulières Notation particulière pour exprimer certaines.
Septembre Semaines du 2 au 13 septembre DATECOURSEXERCICESEXERCICES à fairePOUR le Jeudi 4 Prise de contact Rappels sur les suites 2 exemples donnés pour.
Sériation et traitement de données archéologiques
© Petko ValtchevUniversité de Montréal Février IFT 2251 Génie Logiciel Spécification de Processus Concurrents Hiver 2002 Petko Valtchev.
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Approximation d’un contrôle optimal par un circuit électronique
TNS et Analyse Spectrale
Web Spam Taxonomy (2005) Par : Zoltan Gyöngyi Hector Garcia-Molina Présentation: Algorithmique pour le Web Mirwais TAYEBI
Classification de données par l’algorithme FPSO-GA
Efficient Crawling Through URL Ordering Junghoo Cho - Hector Garcia-Molina - Lawrence Page Department of Computer Science Stanford, CA Algorithmes.
Combating Web Spam with TrustRank. OSINI Aurélien.
Mais quel est donc le taux d’inflation actuel ? J.C. Lambelet et D. Nilles Catherine Roux Alvaro Aparicio Gregor Banzer Daniel Cavallaro.
Classification automatique des messages électroniques
1 Logiciels de confection automatique d’horaires.
Résolution des équations différentielles
Spécialité en Terminale S
Recuit simulé Une métaheuristique venue de la métallurgie.
Faire un dossier documentaire
ECHANTILLONAGE ET ESTIMATION
1 Master Data Management au SANDRE. ADD 27/11/ Une philosophie de diffusion des référentiels 3 grands blocs dans les systèmes d’information environnementaux:
Transcription de la présentation:

20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade Presenté par : Emna KAMOUN

20/06/2015propagation de signatures lexicales dans le graphe du Web 2 Plan de la présentation Introduction Quelques méthodes de tri automatique  Tri par contenu  PageRank Le modèle lexicalRank Résultats Conclusion et perspectives

20/06/2015propagation de signatures lexicales dans le graphe du Web 3 INTRODUCTION La nature hypertexte du web : documents structurés en pages, qui se pointent les unes vers les autres, par un système de références. La croissance exponentielle du Web complique l’appréhension de sa structure globale => développement des méthodes de tri automatique des résultats

20/06/2015propagation de signatures lexicales dans le graphe du Web 4 Quelques méthodes de tri automatique : Tri par contenu  Méthode la plus ancienne et la plus utilisée : Voila, Lycos, AltaVista…  Principe : nombre d’occurrence des termes de la recherche dans les pages, leur proximité et leur place dans le texte  Inconvénient : Facile à détourner

20/06/2015propagation de signatures lexicales dans le graphe du Web 5 PageRank : Tri selon la popularité  Principe : estimer la popularité des pages web en se servant de la structure du graphe du Web.  Permet de classer les pages en utilisant le «rang» calculé globalement pour chaque page et qui donne une estimation de sa popularité.  L’axiome de l’algorithme : les pages les plus intéressantes sont celles sur lesquelles on tombe en cliquant au hasard. Quelques méthodes de tri automatique :

20/06/2015propagation de signatures lexicales dans le graphe du Web 6 Les règles du PageRank Les variantes de PageRank = un surfeur, dont le comportement aléatoire est soumis à certaines règles définissant la variante. A partir d’une distribution de probabilité sur l’ensemble des pages, le processus est itéré et, sous réserves de convergences et d’unicité de la limite, tend vers une distribution de probabilité : C’est le PageRank de cette variante. => Il existe en réalité une multitude de PageRanks

20/06/2015propagation de signatures lexicales dans le graphe du Web 7 Le Model initial du PageRank Equation de propagation du rang :  R n+1 (p) : la probabilité de présence du surfeur à l’instant n+1 sur la page p  deg(p) : le degré externe de q. Soit M la matrice d’adjacence de G, l’équation de propagation devient : Avec Rechercher une distribution de probabilité vérifiant R n+1 = trouver la distribution asymptotique de la chaîne de Markov homogène dont la matrice de transition est A. Si A est apériodique et irréductible, le processus converge géométriquement vers une distribution de probabilité qui confirme R n+1 quelque soit la distribution de probabilité initiale.

20/06/2015propagation de signatures lexicales dans le graphe du Web 8 Algorithme 1 : model originel Données : - Une matrice irréductible et apéiodique A; - Une distribution de probabilité Z; - Un réél e. Résultat : le vecteur propre principal de probabilité de A T avec une precision e Début R 0 = Z répéter R n+1 = A T R n  = ll R n+1 - R n ll 1 jusqu’à  < e Fin Le Model initial du PageRank

20/06/2015propagation de signatures lexicales dans le graphe du Web 9 Améliorations du PageRank Le PageRank remonte dans les composantes fortement connexes terminal appelées puit de rang Pour y échapper il faut sauter aléatoirement vers une page quelconque du web. Modélisation :  on dote chaque page d’un rang par défaut : Z(p) ≥ 0.  On introduit un facteur d’amortissement d ∈ ]0,1[ Avec

20/06/2015propagation de signatures lexicales dans le graphe du Web 10 Le modèle lexicalRank L’algorithme lexicalRank propage dans le graphe deux signatures lexicales : ensemble de termes pondérés caractérisant la thématique d’une page  Signature interne : la signature que donne l’auteur  Signature externe: la signature perçue par les auteurs des pages qui la pointent Contenu C(p) : signature lexicale qui caractérise le contenu de la page en dehors des liens hypertextes. Peut être complété par les signatures.

20/06/2015propagation de signatures lexicales dans le graphe du Web 11 Equation de la Propagation Les signatures lexicales sont obtenues en appliquant les équations de propagation : Avant E n : Arrière I n :

20/06/2015propagation de signatures lexicales dans le graphe du Web 12 Calcule de la signature C(p)d’une page :  TF : fréquence relative d’un terme donné dans une page.  IDF : fréquence inverse de ce terme sur l’ensemble du corpus.  N : nombre total de documents du corpus  DF(t) : nombre de pages contenant le terme. La valeur de fréquence d’un terme correspond à son nombre d’occurrences. Le poids d’une occurrence (par défaut = 1) augmente ou diminue en fonction de sa position dans la page. => une heuristique satisfaisante consiste à privilégier plutôt les termes en début de page.

20/06/2015propagation de signatures lexicales dans le graphe du Web 13 Données Un graphe du web G =(V,E); Un entier k. Résultat. Signature interne et externe des graphes de V. Début Pour p  V faire I 0 (p) = C(p) E 0 (p) =  fin pour n=1 à k faire Pour p  V faire Appliquer l’equation de propagation avant aux pages avant p dans G pour obtenir E’ n (p) Appliquer l’equation de propagation arrière aux pages après p dans G pour obtenir I’ n (p) fin normaliser le vecteur signature externe pour obtenir E n normaliser le vecteur signature interne pour obtenir I n fin retourner I k et E k : signatures de V fin

20/06/2015propagation de signatures lexicales dans le graphe du Web 14 Résultat Un logiciel implémentant LexicalRank permet de nous promener dans le graphe. Il permet de suivre l’évolution signatures interne et externe de la page courante Le graphe de travail est un site web consacré à l’étude des réseaux pairs à pairs. Résultat Signature interne itérations 2 et 3

20/06/2015propagation de signatures lexicales dans le graphe du Web 15 Resultat signature externe itération 2 et 3

20/06/2015propagation de signatures lexicales dans le graphe du Web 16 Conclusion L’algorithme LexicalRank propage deux signatures lexicales : l’une interne, l’autre externe. => Ouvrir la voie à une nouvelle famille d’algorithmes PageRank fondés sur la propagation de signatures lexicales. les résultats obtenus sont très prometteurs : On a constaté, lors de l’exécution de l’algorithme, l’émergence de termes précis caractérisant implicitement la page. Perspectives : une validation complète de LexicalRank en l’incorporant dans un moteur de recherche et en effectuant une série de tests de satisfaction sur une population témoin