Comment classer les pages web. Principe du moteur de recherche Mise en mémoire des pages web Associer chaque page à des mot-clefs Objectif : Classification.

Slides:



Advertisements
Présentations similaires
La recherche documentaire
Advertisements

Probabilités et statistiques au lycée
Animation pédagogique cycle 1
Traitement d’images : concepts avancés
III. IDENTIFICATION PARAMETRIQUE DES SYSTEMES LINEAIRES
Stratégies et techniques de recherche Utilisation optimale des ressources d'informations électroniques.
Modèle des jeux et des mécanismes
1 Modèles Economiques en Informatique Michel de Rougemont Université Paris II.
Systèmes de Recherche d’Information
Introduction à l’Algorithmique
La recherche documentaire sur le réseau Internet
Application de réseaux bayésiens à la détection de fumées polluantes
Journée Francilienne de recherche Opérationnelle Politiques de gestion de coûts de transit dans lInter domaine basé sur BGP Loubna ECHABBI Dominique BARTH,
La spécialité mathématique en TS
Gouvernance, refinancement et risque de faillite: une approche MFG Une étape vers une nouvelle modélisation du risque de liquidité
Complexité et Classification
COMMENT FONCTIONNE GOOGLE. QUE FAIT UN MOTEUR DE RECHERCHE? Contrairement à une base de données structurée dont on peut facilement extraire des informations,
Inter-académiques Montpellier 2011 Atelier spécialité Proposé par lacadémie de Grenoble.
Le référencement des pages web
Chapitre II.Rappels mathématiques et complexité
Le référencement des sites internet par les principaux moteurs de recherche Adrien Rimélé Alice Laurent 25 septembre
Analyse des moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
La compréhension en lecture
Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles.
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN
EVALUATION DU COUPLE PRODUIT/MARCHÉ.
PRESENTATION DE LA « PHILOSOPHIE » DU PROGRAMME DE TERMINALE S.
Limportance des réseaux dans un monde en mutation Jean Ollivro CCI Rennes Bretagne Domloup, le 4 octobre 2012.
B2i Lycée Circulaire BO n°31 du 29/08/2013.
1. Société à but lucratif 2 Trois étapes Traiter beaucoup d informations Stoker beaucoup de pages web Fonctionnement dun moteur de recherche Google Explorer.
Méthode des k plus proches voisins
Échantillonnage (STT-2000)
La segmentation
DEA Perception et Traitement de l’Information
Référencement Que peut faire baisser votre classement ?
Moteur de recherche d’information
Les réseaux de neurones
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Modélisation de la topologie avec le Graphe Génératif Gaussien
Natalie Meystre Maciej Macowicz Conférence des Webmasters 22 mars 2005 Moteurs de recherche, meta-moteurs.
Webmarketing solutions 2 rue Louise Possoz Clamart : Tél : 09 Contact : Marc BREEN
Structure discriminante (analyse discriminante)
Algorithmique (Introduction)
Les Algorithmes de Tri Introduction Tri par Sélection
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
1 Référencer ses pages web Principes – Référencement passif (SEO) – Référencement actif (SEM) – Maîtrise des outils [Source : formation au référencement.
Quelle spécialité en Terminale S ?
Les moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
les méthodes de recherche locale
La spécialité mathématique en TS
Vincent VANDENBUSSCHE DEA – SIR / GR BD Mars 2002
Projet Session CC6 Action ENS Constantine : du 20 Mars au 24 Mars 2009 Michèle Drechsler Utilisation de Google.
Comment préparer une présentation
Les tris Tri Action de mettre une structure de données en ordre (croissant ou décroissant). Le plus simple est d’insérer en ordre. Les algorithmes de tri.
Programmation fonctionnelle Preuve
Recherche documentaire sur Google Formation à destination des professionnels de l’Infodoc Réseau Bruxellois des centres de Documentation en promotion de.
Efficient Crawling Through URL Ordering Junghoo Cho - Hector Garcia-Molina - Lawrence Page Department of Computer Science Stanford, CA Algorithmes.
Combating Web Spam with TrustRank. OSINI Aurélien.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
4ème journées PDM IA - Vendredi 7 mai 2004 Recherche en ligne pour la résolution de PDMs Laurent Péret, Frédérick Garcia INRA Toulouse, équipe Méthodes.
Algorithmique et Complexité
ISO 31000: Vers un management global des risques
1 Logiciels de confection automatique d’horaires.
Cours_1_Modélisation_ Modelisation/ Analyse - Equations dierentielles.
Résolution des équations différentielles
Spécialité en Terminale S
Principes des grilles d’évaluation
Segmentation (2 ième partie) Références: Sonka et al: sections 6.2.6, 10.2 (10.6) Autres: chap Forsyth chap. 4 Ballard & Brown (pour GHT) Dernière.
7 – La génération de trafic 1 Les opérations de génération de trafic désignent les actions marketing ayant pour but de générer du passage ou trafic dans.
Fédération de l’Enseignement Secondaire Catholique Cellule de Conseil et de Soutien Pédagogique Mathématiques.
Transcription de la présentation:

Comment classer les pages web

Principe du moteur de recherche Mise en mémoire des pages web Associer chaque page à des mot-clefs Objectif : Classification selon deux critères : pertinence et popularité

Première approche

Exploitation

Comptage naïf Avec le comptage naïf, la page 1 et la page 9 arrivent en tête : m 1 = m 9 = 4.

Comptage pondéré La page 7 reçoit des liens depuis les pages 5, 6 et 8. Venant de la page 5, il s'agit d'un lien parmi 3 liens émis, ℓ 5 = 3. De même, ℓ 6 = ℓ 8 = 2. Donc avec le comptage pondéré, m 7 = 1 / ℓ / ℓ / ℓ 8 = 1/3 + 1/2 + 1/2 = 4/3. l j : Nombre de liens émis par la source j vers i.

Comptage récursif P 1 P 2 P 3 P 4 P 5 P 6 P 7 P 8 P 9 P 10 P 11 P 12 M = ( 2 ; 1 ; 1 ; 1 ; 3 ; 1 ; 2 ; 1 ; 2 ; 1 ; 1 ;1 ) m : poids de la source j vers i.

Promenade aléatoire P1P1 P2P2 P3P3 P4P4 P5P5 P6P6 P7P7 P8P8 P9P9 P 10 P 11 P 12 t= t= t= t= t= t= … t= t=

Cas des « trous noirs » m = (0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1).

Modèle utilisé par Google Pour échapper aux trous noirs, Google utilise un modèle plus raffiné : avec une probabilité fixée c, le surfeur abandonne sa page actuelle P j et recommence sur une des n pages du web, choisie de manière équiprobable; sinon, avec la probabilité 1 − c, le surfeur suit un des liens de la page P j, choisi de manière équiprobable. Cette astuce de « téléportation » évite de se faire piéger par une page sans issue, et garantit d’arriver n’importe où dans le graphe. (c/n) provient de la « téléportation » Avec 0 < c ≤ 1

Conclusion Pour être utile, un moteur de recherche doit non seulement énumérer les résultats d’une requête, mais les classer par ordre d’importance. Or, estimer la pertinence des pages web est un profond défi de modélisation. En première approximation, Google analyse le graphe formé par les liens entre pages web. Interprétant un lien j → i comme « vote » de la page P j en faveur de la page P i, le modèle Page-Rank (6) définit une mesure de « popularité ». Le théorème du point fixe assure que cette équation admet une unique solution, et justifie l’algorithme itératif (5) pour l’approcher. Celui-ci est facile à implémenter et assez efficace pour les graphes de grandeur nature. Muni de ces outils mathématiques et d’une habile stratégie d’entreprise, Google gagne des milliards de dollars. Il fallait y penser !

Source t-google-classe-les-pages-web