Séminaire UCL - 22 février 2005

Slides:



Advertisements
Présentations similaires
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Advertisements

1 Recherche d'information Recherche d'information sur le Web Cours Master Recherche Paris 13 Recherche et extraction d'information Antoine Rozenknop source.
Modélisation Géométrique Cours 4 : Acquisition de la géométrie.
Les systèmes d'information 1- Une pratique quotidienne 2- Les données 3- Approche conceptuelle 4- Notion de serveur 5- Conception d'un système d'information.
1- Régles de normalisation 2ème partie : normalisation Modèle Conceptuel des Données 2- Les Formes Normales 3- Dépendances Fonctionnelles 4- Recap - Méthodologie.
SECONDE G HISTOIRE-GÉOGRAPHIE/DOCUMENTATION SÉQUENCE 2 : SÉANCE 1 Comment fonctionne Google ?
SQL partie 5 1 LMD create – update – primary key secondary key.
Introduction Bases de Données NoSQL Principe de base Avantages/Inconvénients L’évolution du Web 2.0 et actuellement Web 3.0, a montrée l’insuffisance des.
Le référencement gratuit Référencer gratuitement Licence Creative Common by SA Matthieu GIROUX Développeur en informatique de gestion libre
WIKITEM L'encyclopédie collaborative des produits Diaporama de présentation libre de droits.
NF04 - Automne - UTC1 Version 09/2006 (E.L.) Fiche « succincte » des mini-projets Portance d’un profil porteur (aile, hydrofoil …) Acoustique (automobile,
Chapitre 5 Interprétation des données d’enquête
Et maintenant, le mode : fastoche !
Chapitre 1 Les oscillations 1.  Site Web: A-2010/Bienvenue_.htmlhttp://
Suites ordonnées ou mettre de l’ordre
Module de gestion des tournées de livraison
Analyse, Classification,Indexation des Données ACID
Les outils informatiques utilises
Les Instructions Itératives (Les Boucles)
Valeurs de toutes les différences observables sous H0
Représentation des nombres réels
La spécialité math en TS
Techniques de décomposition
Loi Normale (Laplace-Gauss)
Résumé de l’objectif de l’A.C.P.
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Projet Analyse numérique – 2
COURS DE structure de la matière (Module Ph 13)
Simulation des nanostructures à base de nanorubans de graphène
La spécialité math en TS
Plans d’experiences : plans de melanges
Les répétitions en tandem et l ’étude des génomes
Introduction aux Statistiques Variables aléatoires
Technologies de l’intelligence d’affaires Séance 12
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
L’I NSTRUCTION DE T EST A LTERNATIF Réalisé par : OUZEGGANE Redouane Département de Technologie Faculté de Technologie – Université A.Mira, Bejaia Année.
L ES I NSTRUCTIONS I TÉRATIVES (L ES B OUCLES ) Réalisé par : OUZEGGANE Redouane Département de Technologie Faculté de Technologie – Université A.Mira,
4.2 Estimation d’une moyenne
Structure D’une Base De Données Relationnelle
LES GRAPHES. Introduction L'introduction d'éléments de la théorie des graphes dans l'enseignement de spécialité de la classe terminale de la série ES.
Modélisation Spatio-temporelle de la pluviométrie " Application du prédicteur Filtre de Kalman":Cas du bassin versant de Cheliff -Algérie- Présentée par Samra Harkat
METHODE DES CHAÎNONS Méthode permettant d’implanter des postes de travail dans les usines ou entrepôts. Optimisation recherchée Gain sur le temps de fabrication.
ACP Analyse en Composantes Principales
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
 1____Probabilité  2______variables aléatoires discrètes et continues  3______loi de probabilités d’une v a  4_______les moyens et les moyens centraux.
Royaume de Maroc Université Hassan Premier Settat Faculté des Sciences et Techniques de Settat LA CLASSIFICATION K-MEANS SOUS R /MATLAB Master :Automatique.
OPTIMISATION 1ère année ingénieurs
Dans la peau d’un moteur de recherche : le PageRank
La méthode scientifique
INTRODUCTION A LA SPECTROSCOPIE
Calcul de probabilités
Lois de Probabilité Discrètes
Etude de la commande du système à inertie
2.4 La loi de vitesse d’une réaction chimique
Test 2.
Créer un diaporama avec Open Office Impress
l’algorithme du simplexe
Moteurs de recherches Data mining Nizar Jegham.
RABAH M ed Ali 2018/2019
METHODE DES CHAÎNONS Méthode permettant d’implanter des postes de travail dans les usines ou entrepôts. Optimisation recherchée Gain sur le temps de fabrication.
Recherche de zero d'une fonction MARMAD ANAS MPSI -2.
Programme d’appui à la gestion publique et aux statistiques
Tableau de bord d’un système de recommandation
Tableau d’amortissement à amortissements constants Tableau d’amortissement à annuités constantes Les annuités Intérêts composés L’essentiel des Mathématiques.
Cette activité se joue :
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
LES GRAPHES. Introduction L'introduction d'éléments de la théorie des graphes dans l'enseignement de spécialité de la classe terminale de la série ES.
Initiation à la recherche documentaire
Couche limite atmosphérique
Transcription de la présentation:

Séminaire UCL - 22 février 2005 PageRank : un aperçu Fabien Mathieu Séminaire UCL - 22 février 2005

Séminaire UCL - 22 février 2005 Plan Introduction : graphes du Web Principes de PageRank Variations PageRank amorti Convergences quantitatives Séminaire UCL - 22 février 2005

Les sites : une réalité structurelle Graphe du Web = pages + hyperliens Matrice d’adjacence d’un graphe du Web : Visuellement, c’est joli… …et les sites apparaissent clairement Bien penser à dire que les URLS sont lexico-triées Séminaire UCL - 22 février 2005

Séminaire UCL - 22 février 2005 Exemple Séminaire UCL - 22 février 2005

Séminaire UCL - 22 février 2005 PageRank Théorie & pratique Séminaire UCL - 22 février 2005

Séminaire UCL - 22 février 2005 S’orienter dans le Web Web : masse «  infinie » d’information Besoin d’outils de recherche Manuels : annuaires ! capacité de traitement limité Automatiques : moteurs ! nécessité de trier les données Ne pas trop détailler les annuaires Séminaire UCL - 22 février 2005

Séminaire UCL - 22 février 2005 Méthodes de tri Importance sémantique : pertinence Indexation Basée sur une requête (mots-clés) Manipulable (spamming : abus de mots-clés) Importance structurelle : PR, HITS… Basée sur les hyperliens Indépendante du contenu Méthodes hybrides : TSPR , OPIC… Autres ? Problème du secret industriel Se rappeler OPIC, TPSPR : OPIC : Online Page Importance Computation TSPR : Topic Sensitive PageRank (query-specific IR) Séminaire UCL - 22 février 2005

Séminaire UCL - 22 février 2005 PageRank Introduit en 1998 avec Google L’importance P d’une page vient de l’importance des pages qui la réfèrent Chaque page doit avoir une importance Si G=(V,E) est un graphe du Web (V : pages Web ; E : hyperliens) Dire que la relation est de type récursif !!! Dire qu’il n’y a pas d’auto-lien Séminaire UCL - 22 février 2005

Une double interprétation Distribution d’importance (flot) Chaque page possède une certaine importance P(v) L’importance est diffusée par les hyperliens Modèle du surfeur aléatoire Le surfeur aléatoire parcourt sans cesse le Web en cliquant au hasard En choisissant , P est la probabilité de présence asymptotique (si elle existe) PageRank des pages qui pointent sur v Dire que A est moralement, la matrice d’adjacence vue au tout début PageRank d’une page v Séminaire UCL - 22 février 2005

Cas de convergence : théorème de Perron-Frobenius (1912) On suppose G fortement connexe apériodique Soit A la matrice stochastique associée Alors 1 est valeur propre maximale simple et unique P est solution de Convergence vers le point fixe P par itérations successives : Interprétation : chaîne de Markov Séminaire UCL - 22 février 2005

Modèle idéal et graphe réel Il existe plusieurs composantes fortement connexes (cfc) dont des pages sans lien Séminaire UCL - 22 février 2005

Séminaire UCL - 22 février 2005 Réduction de A On regroupe les sommets par cfc On respecte l’ordre partiel sur les cfc A est alors triangulaire par bloc Séminaire UCL - 22 février 2005

Convergence du processus itératif Les cfc récurrentes (hors feuilles) sont : Stables Stochastiques Irréductibles Les feuilles sont nulles Les cfc transitoires sont strictement sous-stochastiques On va donc observer une projection sur les cfc récurrentes Séminaire UCL - 22 février 2005

Trouver un PageRank unique et strictement positif Rendre la matrice A irréductible Séminaire UCL - 22 février 2005

Renormalisation (méthode de la puissance) Qu’apporte ? Rien s’il existe des cfc récurrentes Le filtre des cfc transitoires maximales sinon Pas intéressant Séminaire UCL - 22 février 2005

Complétion stochastique À cause des feuilles, il existe un défaut stochastique Ce défaut peut être redirigé Z : distribution recouvrante Si pas de cfc récurrente, c’est gagné Sinon, c’est perdu !!! Séminaire UCL - 22 février 2005

Séminaire UCL - 22 février 2005 Choix de Z Interprétation : comportement par défaut Importance du caractère recouvrant Nombreuses possibilités : Distribution uniforme (standard) Distribution sur les pages d’accueil Personnalisation sémantique Personnalisation commerciale Séminaire UCL - 22 février 2005

Facteur d’amortissement Séminaire UCL - 22 février 2005

Séminaire UCL - 22 février 2005 Principe Introduire de l’amortissement dans les transitions Ainsi, même les cfc récurrentes possèdent un défaut stochastique On peut donc réaliser une complétion stochastique qui marche Séminaire UCL - 22 février 2005

PR -compensé (Perron-Frobenius) On est dans le cas idéal, avec Interprétation stochastique : Suivre un lien avec prob. d (s’il en existe) Sinon, zapper selon Z Séminaire UCL - 22 février 2005

Séminaire UCL - 22 février 2005 Choix de d Compromis convergence/dénaturation : d amortit les valeurs propres secondaires Atténuation des cfc récurrentes Classement selon A ou selon Z ? Modèle du surfeur aléatoire : Le zap suit une loi géométrique Distance moyenne entre 2 zaps : Empiriquement : d=0,85 Séminaire UCL - 22 février 2005

PR non-compensé (point fixe) est d-lipschitzienne : Convergence Unicité Plus besoin de Perron-Frobenius Interprétation : flot Séminaire UCL - 22 février 2005

Séminaire UCL - 22 février 2005 Équivalence des PR Perron-Frobenius : Point fixe : On pourrait aussi bien prendre (Bianchini) Séminaire UCL - 22 février 2005

Séminaire UCL - 22 février 2005 Convergences Séminaire UCL - 22 février 2005

Séminaire UCL - 22 février 2005 Mieux que d ? L’amortissement garantit d. Après, cela dépend du spectre de A. En pratique, A est « saturé » de valeurs propres proches ou égales de 1 : Cfc récurrentes Cfc transitoires quasi-récurrentes Conclusion : guère mieux que d Séminaire UCL - 22 février 2005

Les pages sans lien : problème du « remplumage » Les feuilles ne servent à rien On les enlève donc pour le calcul… … et on les remet après convergence Problème : PageRank sur le graphe effeuillé  PageRank sur le graphe entier Ne pas oublier de dire que c’est ce qui est proposé dans les algorithmes originaux de PR Dire que du coup, ben on peut calculer + vite : proportion de feuilles : bcp (pages explorées/connues) Séminaire UCL - 22 février 2005

Vitesse de convergence Séminaire UCL - 22 février 2005

Séminaire UCL - 22 février 2005 Nombre d’itérations Dépend de ce que l’on veut : Donner une note de 1 à 10 Avoir pour chaque page une importance précise Avoir un classement stable Il est possible d’avoir des profils statistiques de densités et de vitesses empiriques On a ainsi des « formules » empiriques Séminaire UCL - 22 février 2005

Exemples de profils de densité Séminaire UCL - 22 février 2005

Exemple de profil de vitesses Séminaire UCL - 22 février 2005

Convergence du classement Bien dire que par exemple, on peut grâce au profil retrouver epsilon=1/100*n Séminaire UCL - 22 février 2005