SRI pour le WEB : Moteurs de recherche

Slides:

Advertisements

Présentations similaires

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6

Advertisements

LES NOMBRES PREMIERS ET COMPOSÉS

Page 1 Retour sur le e- tourisme. Page 2 Quelques chiffres…

La recherche documentaire

Distance inter-locuteur

W3Line | 10 Ter, Rue Pasteur – BOURG LES VALENCE | Tél. : – Fax : | – Web :

Les systèmes d’informations documentaires et les ENT Éléments de cahier des charges pour les projets nouveaux.

Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.

Comment choisir une solution technologique de veille sur le marché ?

Epidémiologie des cancers digestifs en France

Systèmes Experts implémentation en Prolog

Indexation textuelle : Systèmes de recherche d’informations

ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.

IronWEB : Une architecture distribuée

La Recherche en Ligne.

User management pour les entreprises et les organisations Auteur / section: Gestion des accès.

1 7 Langues niveaux débutant à avancé. 2 Allemand.

JACK JEDWAB ASSOCIATION DÉTUDES CANADIENNES MAI 2013 LE DÉCLIN DU FRANÇAIS OU DE LANGLAIS AU QUÉBEC? OPINIONS DU RDC (RESTE DU CANADA)

Analyse des moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.

Gestion de la communication par établissement sur le site ville

1 5 octobre 2011 / paw Présentation du 7 octobre 2011.

Quelles ressources sur linternet ? Méthodologie de recherche et validation de linformation Jean-Philippe Accart Bibliothèque nationale suisse Service de.

Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.

1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.

Aide à la Recherche Bibliographique sur le WEB Hatem BEN ROMDHANE (URSAM) ENIT Janvier 2003.

Lycée Louis Vincent Séance 1

Les étapes de la recherche documentaire

1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.

Identifier ce qui peut gêner ou bloquer votre référencement Sébastien Billard, consultant référencement.

Annuaires et moteurs de recherche d’information sur Internet

Titre : Implémentation des éléments finis sous Matlab

Pro Senectute Vaud Unité Centres de rencontre Centre Val Paisible Lausanne.

Médiathèque de Sélestat - 5 février 2005 Olivier Andrieu Comment ne pas être visible sur les moteurs de recherche.

Le portail des MSH

Recherche Documentaire et traitement de l’information

Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.

LES NOMBRES PREMIERS ET COMPOSÉS

Google, un moteur de recherche comme les autres ?

Les Pourcentages.

Logiciel gratuit à télécharger à cette adresse :

1. 2 PLAN DE LA PRÉSENTATION - SECTION 1 : Code HTML - SECTION 2.1. : CSS (Méthode 1) - SECTION 2.2. : CSS (Méthode 2) - SECTION 3 : JavaScript - SECTION.

DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.

24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.

Web sémantique : Web de demain

Titre : Implémentation des éléments finis en Matlab

Moteurs de recherche Modex Web Modex Web 441 professeur Go

MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.

La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.

Résoudre une équation du 1er degré à une inconnue

P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)

LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.

La veille numérique : un outil pour s'informer intelligemment &

1/65 微距摄影美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.

Nom:____________ Prénom: ___________

Les moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.

Centre d’échange d’informations sur la Convention sur la Diversité Biologique Bienvenue dans le cours sur l’ajout d’une page web sur un site web développé.

Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE EXPÉRIENCE DE SOINS DES ANGLOPHONES DE LA MONTÉRÉGIE Direction de santé publique Surveillance.

Vincent VANDENBUSSCHE DEA – SIR / GR BD Mars 2002

Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.

La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)

FRANÇOIS-XAVIER PARÉ Bibliothécaire BUREAU DES SYSTÈMES 11 novembre 2009 L A BARRE D’OUTILS L IB X : L A RECHERCHE À UN CLIC Merci à Lucie Geoffroy et.

Tous droits réservés 04 octobre 2005© présente Les Moteurs de Recherche.

LA RECHERCHE DOCUMENTAIRE

Recherche d’information

Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.

Combating Web Spam with TrustRank. OSINI Aurélien.

20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.

Internet et la recherche documentaire Comment utiliser Internet de façon pertinente ?

Compétences informationnelles Choisir ses sources Connaître les outils de repérage.

Transcription de la présentation:

SRI pour le WEB : Moteurs de recherche

Plan Introduction Principes de fonctionnement Conclusion et discussion Caractéristiques du WEB Définitions Principes de fonctionnement Annuaires (ou répertoires) thématiques Moteurs de recherche : Indexation Couverture Statistiques significatives Méta-moteurs Conclusion et discussion Le 09/11/2001

Introduction Définition du WEB Documents présents sur le WEB Système hypertexte qui relie des documents multimédia grâce à des serveurs répartis géographiquement dans le monde. Documents présents sur le WEB Tout type de format : fichiers textuels PDF Postscript Word PowerPoint, … HTML (en majorité) XML (pour l’avenir) Le 09/11/2001

Exemple de page WEB Entête Corps <HTML> <HEAD> <TITLE>Exemple de document HTML</TITLE> <META NAME="author" CONTENT="Emmanuel Nauer"> <META NAME="organization" CONTENT="LORIA"> <META NAME="keywords" CONTENT="HTML, exemple, lien hypertexte, LORIA"> </HEAD> <BODY> <H1>Mon 1er document HTML</H1> <P> Ceci est un document HTML avec un lien hypertexte sur le <A HREF="http://www.loria.fr/">LORIA</A>. </P> </BODY> </HTML> Entête Corps Le 09/11/2001

Caractéristiques des moteurs de recherche Composent de deux parties distinctes : un logiciel de recherche Robot (« crawlers » ou « spiders ») qui traverse automatiquement la structure hypertextuelle du Web, Les informations collectées peuvent varier d’un moteur à l’autre mais généralement elles recouvrent : l’URL, le titre, les premiers paragraphes, des mots-clés dans le texte ou texte intégral et/ou metainformations Ces informations sont ensuite transmises à une autre station en charge de la sauvegarde et de la gestion de ces données. la base de données qui reçoit les informations collectées par le robot. Le 09/11/2001

Mise à jour de la base de données Mise à jour à intervalles réguliers dépendants de la rapidité du robot, ceci pour éliminer les liens morts, les fonctions principales de la base de données sont : la recherche ou requête l’insertion des données la mise à jour des données la suppression des données Le 09/11/2001

Contenu du WEB Une grande hétérogénéité Différents sujets d’informations : informations scientifiques, commerciales, sportives, actualités, … Différents types d’informations : données factuelles, texte intégral, banques de données … Différents supports : images, sons, vidéos, textes … Différents formats Gigantesque espace d’information Résultant de la grande facilité de publication d’information : N’importe qui peut mettre n’importe quoi, n’importe comment Le 09/11/2001

Taille du WEB Des chiffres à la mi-2002 (source : www.abondance.com) Nombre de sites WEB (i.e. ensemble de pages WEB) : anglophones : au moins 3 millions (nombre de sources d'information recensées sur les annuaires anglophones majeurs : Yahoo!, Looksmart, Open Directory). francophones : au moins 160 000 (mêmes sources : annuaires francophones Yahoo!, Nomade.fr, Guide de Voila). Nombre de pages WEB : en toutes langues : au moins 3 milliards. en français : 60 millions environ. Ces chiffres ne concernent que le WEB statique !!! = uniquement les documents accessibles par des liens hypertextes Le 09/11/2001

Répertoires thématiques Le 09/11/2001

Répertoires thématiques (ou annuaires) Objectif Fournir un accès hiérarchisé à l'information Exemple : http://www.dmoz.org/, http://www.yahoo.com/, … Organisation des données Indexation humaine des sites (ensemble de pages WEB) : Valeur ajoutée Couverture limitée Biais de l'indexation humaine Maintenance de la hiérarchie Recherche par navigation dans des classifications thématiques Le 09/11/2001

Répertoires thématiques (ou annuaires) Quelques statistiques Open Directory (www.dmoz.org, 04/2001) 36 000 indexeurs 361 000 catégories 2 600 000 d’URL LookSmart (08/2001) 200 indexeurs 200 000 catégories 2 500 000 d’URL Yahoo (08/2000) 100 indexeurs Non communiqué 1 500 000 à 1 800 000 d’URL (intervalle estimé par addition des liens présentes dans l’ensemble des catégories) Le 09/11/2001

Moteurs de recherche Le 09/11/2001

Moteurs de recherche Objectifs Les plus connus Fournir un service pour de la recherche d'information sur le WEB à partir de requêtes. Indexation automatique et complète du WEB Les plus connus http://www.altavista.com/ http://www.alltheweb.com/ http://www.excite.com/ http://www.google.com/ http://www.hotbot.com/ … Le 09/11/2001

Moteurs de recherche Fonctionnement et architecture Moteur d’indexation et de recherche, adapté au WEB Moteur Web INDEX Indexation a : … information : (#1,16), (#4,145),(#12,19)… recherche : (#1,4), … - Parcours du WEB - Mise à jour des index Recherche - Traitement de la requête - Calcul de la réponse ? Le 09/11/2001

Problèmes de mise en oeuvre Indexation Fréquence de mise à jour de l'index Couverture : indexation d'une partie du WEB seulement Technique pour ré-indexer régulièrement les pages à grande fréquence de modification Constitution de l’index = analyse de la page WEB : Accentuations et majuscules Mots « vides » (exemples : a, pour, de, afin, ...) Indexation d'une partie de document seulement Détection de doublons (document identique à différentes URL) Non-indexation des pages contenant du SPAM (pollution électronique dont le but est de classer une page dans les premières places des résultats de recherche) Le 09/11/2001

Exemple de document contenant du SPAM <HTML> <HEAD> <TITLE>Ma page d’accueil perso</TITLE> <META NAME="keywords" CONTENT="pamela anderson, pamela, pamela, pamela, sex, sex, sex, sex"> </HEAD> <BODY BGCOLOR="white"> … <P> Eh non… elle n’est pas là ! </P> <FONT COLOR="white">pamela, pamela, pamela, … </FONT> </BODY> </HTML> Le 09/11/2001

Problèmes d’utilisation des moteurs Recherche Hétérogénéité des interfaces : Recherche simple Recherche avancée ... Syntaxes et fonctionnalités : Syntaxe particulières à chaque moteur Opérateurs booléens Opérateurs spécifiques Méthodes de classement Le 09/11/2001

Classement des réponses Formule mystérieuse et secrète ! Méthode dépendante du moteur et de différents paramètres Nombre de mots de la requête présents dans le document « Un document qui contient tous les mots de la requête est plus pertinent qu’un document qui n’en contient qu’une partie » Mots de la requête en tête de page « Un document qui contient les mots en tête de page est plus pertinent qu’un document qui les contient en fin de page » Le 09/11/2001

Classement des réponses Proximité des mots de la requête dans le document « Si les mots de la requête sont proches, ils sont employés dans un même contexte » Exemple : Taille de la page « Plus une page est grande, plus elle contient d’information » ……………………………….. … recherche ……………….. …………………………… ………………… ……………….. moteur ……. ………………………………….. …….. moteur de recherche …. …….. Le 09/11/2001

Classement des réponses Rareté d’un mot de la requête dans l'ensemble des documents « Plus un mot est rare dans l’ensemble des documents, plus ce mot est spécifique… par conséquent, il aura un poids plus important que les autres mots de la requête » Densité des mots (pour relativiser l’importance de chacun des mots d'une page) Exemple : nombre d'occurrences du mot le nombre total de mots de la page « Plus un mot apparaît souvent dans un document, plus il caractérise ce document (par rapport aux mots du document qui apparaissent moins souvent) » Le 09/11/2001

Classement des réponses Contenu des méta-données Nombre de liens qui pointent sur la page « Plus une page est accessible à partir d’autres pages, plus elle est importante » Diminution de la pertinence des pages contenant du SPAM (page en fin de classement) Paiement pour apparaître en tête de classement <META NAME="author" CONTENT= "Toto Titi"> <META NAME="keywords" CONTENT="page personnelle, recherche, UTBM, …"> Le 09/11/2001

Utilisation des liens pour la Recherche d’Information Les approches existantes l’approche du PageRank, Utilisation des liens lors de la phase d’indexation l’approche de propagation de pertinence le système probabiliste d’argumentation (PAS), et l’algorithme de Kleinberg (HITS) Utilisation des liens lors de la phase d’interrogation Le 09/11/2001

Le PageRank Basé sur la notion de propagation de popularité. Le principe est d’évaluer l’importance d’une page en fonction de chaque page pointant vers elle. La propagation met en avant les pages qui jouent un rôle particulier dans le réseau des liens, avec l’hypothèse : “une page référencée par un grand nombre de pages est une bonne page”. Cette mesure est une distribution de probabilité sur les pages. Elle mesure la probabilité PR d'atteindre une page donnée P. Cette probabilité est d'autant plus forte que le nombre de pages P1 à Pm qui réfèrent P est important. PR est donc fonction de la somme des probabilités des pages qui référencent P. Il faut aussi tenir compte du fait que les pages qui référencent P ont d'autres liens sortant vers d'autres pages que P. Il faut donc diviser cette probabilité par le nombre C(Pi) de liens sortant des pages Pi qui référencent P. Le 09/11/2001

Approche de propagation de pertinence Le principe de cette approche consiste à propager des valeurs de pertinence de documents par rapport à une requête avec l’hypothèse suivante : “un document référencé par un grand nombre de documents pertinents est un bon document”. Contrairement à la propagation de popularité , le calcul de la propagation dépend de la requête. Il doit être effectué à la phase d’interrogation, et donc à chaque fois que l’utilisateur pose sa requête. Au lieu de modifier directement l’index des pages, on modifie la pertinence d’une page en fonction de la pertinence des pages voisines. Le 09/11/2001

Le système probabiliste d’argumentation (PAS) Dans cette approche, au lieu de propager la valeur de pertinence d’un document par rapport à une requête, on propage la probabilité qu’il soit pertinent. Le 09/11/2001

Algorithme de Kleinberg (HITS) Cette approche consiste à calculer la popularité (Hub) et l’autorité (Authority) d’un document et ce pour classer les documents résultats par rapport à une requête. L’hypothèse est : “Un document qui pointe vers beaucoup de bonnes Authorities est un bon Hub, et un document pointé par beaucoup de bons Hubs est une bonne Authority” [Kleinberg99]. Le 09/11/2001

Google Le 09/11/2001

Google : http://www.google.com/ Principes de fonctionnement Idée : exploiter les liens hypertextes (à la manière de l’analyse des citations en science de l’information) avec l’hypothèse que les liens de citations entre pages WEB expriment une approbation Exemple : LORIA accueil Le 09/11/2001

Google : http://www.google.com/ Algorithme de classement 2 types de pages : les pages de références (i.e. pages fréquemment citées) les pages pivots (i.e. pages contenant un grand nombre de liens) Définition récursive de l’importance des pages « plus une page de référence est pointée par de bonnes pages pivots, plus elle sera une bonne page de référence » « plus une page pivot pointera de bonnes pages de références, plus, plus elle sera une bonne page pivot » Le 09/11/2001

Google Algorithme de classement Évaluation de chaque page par rapport : à un score de référence à un score pivot : Méthode de calcul des scores Augmentation des valeurs des pages pivots par rapport aux meilleurs pages de référence Augmentation des valeurs des pages de référence par rapport aux bonnes pages pivots Après quelques itérations, le classement devient stationnaire Le 09/11/2001

Google Constitution de la base d’index Taille annoncée (source Google, 12/2001) : 2 000 000 000 d’URL, dont : 1 465 000 000 de pages WEB indexées 500 000 000 pages non indexés : documents non analysés, seuls les termes de l’URL et les termes de l’ancre qui contenait ce lien sont indexés. 35 000 000 de documents accessibles par le WEB, mais qui ne sont pas des pages WEB (documents PDF, Postscript, Word, PowerPoint, ...) 3 000 000 de pages ré-indexées quotidiennement (pages à grande fréquence de modification) Le 09/11/2001

Google Nombre de requêtes Infrastructure matérielle Plus de 150 millions de requêtes par jour ! (dans le plus grand index) Infrastructure matérielle Utilisation du plus grand cluster LINUX commercialisé : plus de 10 000 serveurs !!! Le 09/11/2001

Quelques statistiques http://www.searchengineshowdown.com/ Le 09/11/2001

Taille des index (en nombre d’URL) Chiffres annoncés Par les moteurs eux-mêmes (12/2001) Abréviations : FAST=FAST, AV=AltaVista,NL=Northern Light, GG=Google, INK=Inktomi. Le 09/11/2001

Champs pris en compte lors de l’indexation Les moteurs étudiés sont : AltaVista, HotBot, Excite, NorthernLight, Voilà, Lycos, WebCrawler, Infoseek Le 09/11/2001

Priorités dans les champs indexés

Taille des index (en nombre d’URL) Méthode d’estimation 25 requêtes Calcul de la taille de l’index d’un moteur par rapport à un moteur dont on connaît la taille de l’index (multiplication par un coefficient issu des résultats des requêtes). Résultats estimés annoncés Google 968 000 000 1 500 000 000 WiseNut 579 000 000 1 500 000 000 AllTheWeb 580 000 000 507 000 000 AltaVista 397 000 000 500 000 000 Hotbot 332 000 000 500 000 000 MSN Search 292 000 000 500 000 000 Le 09/11/2001

Taille relative Principe d’évaluation Résultats 25 requêtes simples (composées d’un seul terme) et comparaison du nombre d’URL renvoyées Résultats (04/2001) Le 09/11/2001

Recouvrement des index Principe d’évaluation 4 requêtes donnant peu de réponses Étude des réponses par moteurs Très peu de recouvrement malgré une croissance de la taille des index Le 09/11/2001

Recouvrement des index Évaluation de la couverture des moteurs Analyse de répartitions des réponses données par 1 seul moteur Le 09/11/2001

Le Web « invisible » On entend par Web « invisible » , les pages qui demeurent invisibles aux moteurs de recherche. On peut en extraire trois catégories : 1- Les « frames » : de nombreux moteurs ne savent pas indexer les sites basés sur des « frames » (terme utilisé pour désigner les cadres qui permettent d’avoir constamment à l’écran le menu initial). Northern Light et AltaVista comprennent les « frames » mais elles ne sont pas dans leur contexte (contenu indexé mais navigation impossible). Le 09/11/2001

Le Web « invisible » (2) 2- Les pages dynamiques : ce sont les pages typiquement liées à des bases de données, il yen a de plus en plus sur le Web. Quand l’utilisateur fait sa demande, la base de données assemble les différentes pièces et délivre une page Web comme réponse. La marque de fabrique d’une page dynamique est la présence d’un « ? » dans l’URL. La plupart des moteurs ne vont pas plus loin que le « ? », qu’ils comprennent comme une erreur et qui empêche la page d’être indexée. Google, grâce à sa particularité d’indexer les mots proches des liens, permet de retrouver ces pages par leurs liens. Le 09/11/2001

Le Web « invisible » (3) Le XML : ce format nouveau ouvre des perspectives intéressantes et est le langage d’avenir sur le Web. Tous les moteurs de recherche disent qu’ils supporteront le XML mais avec des « si ». Si un standard émerge, si les « tags »sont utilisés de façon uniforme. Les documents pourraient être indexés par auteur,par éditeur, par dates. L’indexation du XML n’est pas encore mise en place Le 09/11/2001

Au delà des moteurs de recherche Le 09/11/2001

Méta-moteurs Principe de fonctionnement Deux types Intérêt Interrogation (parallèle ou à la suite) de plusieurs moteurs de recherche à partir d'une interface unique Deux types Méta-moteurs accessibles par le WEB : http://www.search.com/, http://www.metacrawler.com/, http://www.ariane6.com/, … Méta-moteurs logiciels : à installer sur son ordinateur : Copernic, DigOut4U, … Intérêt Besoin rapide d'exhaustivité : recherches aboutissant à peu (ou pas) de réponse avec les moteurs de recherche classiques Le 09/11/2001

Méta-moteurs accessibles par le WEB Principe de fonctionnement Interrogation (parallèle ou à la suite) de plusieurs moteurs de recherche à partir d'une interface unique Indexation Pas d’indexation propre Résultats Exhaustivité variable, dépendante du nombre de résultats fournis par les moteurs, du temps, des moteurs interrogés Dédoublonnage Méthode de classement : le plus souvent en fonction des classements des réponses fournis par les différents moteurs Quelque fois : synthèse des réponses Le 09/11/2001

Méta-moteurs logiciels Principe de fonctionnement Interrogation initiale (en parallèle ou à la suite) de plusieurs moteurs de recherche à partir d'une interface locale Puis traitement local : Récupération des documents en local Mesure de similarité entre la requête et les documents (avec éventuellement prise en compte de connaissances de domaine) Parcours des liens hypertextes pour accéder à d’autres documents, et les évaluer Résultats Propre à chaque logiciel : utilisation de critères semblables à ceux utilisés par les moteurs Temps d’exécution Le 09/11/2001

Conclusion Le 09/11/2001

Conclusion langage de représentation de documents De sérieux problèmes… d’organisation des données : accroissement du nombre de serveurs, du nombre de pages, du volume des données, … de sémantique : HTML = langage de présentation de documents  langage de représentation de documents + d’utilisation du WEB (méthodologie de recherche d’information : connaissances des sources, des outils, capacité à formuler son besoin, à analyser et comprendre les résultats, …) … pour mettre en œuvre des systèmes de recherche d’information de qualité. Le 09/11/2001

Des recherches plus sémantiques Recherche dans des parties précises (exemple : AltaVista) de documents Dans le texte du document : text:expression_recherchée Dans le titre du document : title:expression Dans les ancres : anchor:expression_recherchée Dans les URL : url:expression_recherchée … ou d’éléments attachés aux documents Nom de domaine : domain:domaine Nom de serveur WEB : host:serveur C’est pas la panacée, tout de même !!! Le 09/11/2001

La RI sur le WEB chez Orpailleur DefineCrawler : un crawler paramétrable pour la recherche d’information intelligente Système capable de parcourir le WEB de façon dirigée Exploitation de connaissances pour guider la RI : aide à la formulation et formulation automatique de requêtes évaluation du contexte d’apparition des termes de la requête évaluation de l’adéquation entre le contenu d’un document et le domaine Transparence de la méthode de classement Travail en cours Identification des connaissances favorisant la RI sur le WEB Le 09/11/2001

Références Sites WEB Moteurs Statistiques et fonctionnement http://www.google.com/ http://www.altavista.com/ Statistiques et fonctionnement http://www.abondance.com/ http://www.searchengineshowdown.com/ http://searchenginewatch.com/ Le 09/11/2001