La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Présentations similaires


Présentation au sujet: "Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche."— Transcription de la présentation:

1 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ SRI pour le WEB : Moteurs de recherche

2 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Plan Introduction –Caractéristiques du WEB –Définitions Principes de fonctionnement –Annuaires (ou répertoires) thématiques –Moteurs de recherche : Indexation Couverture Statistiques significatives –Méta-moteurs Conclusion et discussion

3 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Introduction Définition du WEB –Système hypertexte qui relie des documents multimédia grâce à des serveurs répartis géographiquement dans le monde. Documents présents sur le WEB –Tout type de format : fichiers textuels PDF Postscript Word PowerPoint, … –HTML (en majorité) –XML (pour lavenir)

4 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Exemple de page WEB Corps Entête Exemple de document HTML Mon 1er document HTML Ceci est un document HTML avec un lien hypertexte sur le LORIA.

5 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Caractéristiques des moteurs de recherche un logiciel de recherche –Robot (« crawlers » ou « spiders ») qui traverse automatiquement la structure hypertextuelle du Web, –Les informations collectées peuvent varier dun moteur à lautre mais généralement elles recouvrent : lURL, le titre, les premiers paragraphes, des mots-clés dans le texte ou texte intégral et/ou metainformations –Ces informations sont ensuite transmises à une autre station en charge de la sauvegarde et de la gestion de ces données. la base de données qui reçoit les informations collectées par le robot. Composent de deux parties distinctes :

6 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Mise à jour de la base de données Mise à jour à intervalles réguliers dépendants de la rapidité du robot, ceci pour éliminer les liens morts, les fonctions principales de la base de données sont : –la recherche ou requête –linsertion des données –la mise à jour des données –la suppression des données

7 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Contenu du WEB Une grande hétérogénéité –Différents sujets dinformations : informations scientifiques, commerciales, sportives, actualités, … –Différents types dinformations : données factuelles, texte intégral, banques de données … –Différents supports : images, sons, vidéos, textes … –Différents formats Gigantesque espace dinformation –Résultant de la grande facilité de publication dinformation : Nimporte qui peut mettre nimporte quoi, nimporte comment

8 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Taille du WEB Des chiffres à la mi-2002 (source : –Nombre de sites WEB (i.e. ensemble de pages WEB) : anglophones : au moins 3 millions (nombre de sources d'information recensées sur les annuaires anglophones majeurs : Yahoo!, Looksmart, Open Directory). francophones : au moins (mêmes sources : annuaires francophones Yahoo!, Nomade.fr, Guide de Voila). –Nombre de pages WEB : en toutes langues : au moins 3 milliards. en français : 60 millions environ. –Ces chiffres ne concernent que le WEB statique !!! =uniquement les documents accessibles par des liens hypertextes

9 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Répertoires thématiques

10 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Répertoires thématiques (ou annuaires) Objectif –Fournir un accès hiérarchisé à l'information –Exemple : …http://www.dmoz.org/http://www.yahoo.com/ Organisation des données –Indexation humaine des sites (ensemble de pages WEB) : Valeur ajoutée Couverture limitée Biais de l'indexation humaine Maintenance de la hiérarchie –Recherche par navigation dans des classifications thématiques

11 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Répertoires thématiques (ou annuaires) Quelques statistiques –Open Directory (www.dmoz.org, 04/2001)Open Directorywww.dmoz.org indexeurs catégories dURL –LookSmart (08/2001)LookSmart 200 indexeurs catégories dURL –Yahoo (08/2000)Yahoo 100 indexeurs Non communiqué à dURL (intervalle estimé par addition des liens présentes dans lensemble des catégories)

12 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Moteurs de recherche

13 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Moteurs de recherche Objectifs –Fournir un service pour de la recherche d'information sur le WEB à partir de requêtes. –Indexation automatique et complète du WEB Les plus connus –http://www.altavista.com/http://www.altavista.com/ –http://www.alltheweb.com/http://www.alltheweb.com/ –http://www.excite.com/http://www.excite.com/ –http://www.google.com/http://www.google.com/ –http://www.hotbot.com/http://www.hotbot.com/ –…

14 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Moteurs de recherche Fonctionnement et architecture –Moteur dindexation et de recherche, adapté au WEB Web INDEX a : … information : (#1,16), (#4,145),(#12,19)… recherche : (#1,4), … Moteur - Parcours du WEB - Mise à jour des index Indexation - Traitement de la requête - Calcul de la réponse Recherche ?

15 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Problèmes de mise en oeuvre Indexation –Fréquence de mise à jour de l'index Couverture : indexation d'une partie du WEB seulement Technique pour ré-indexer régulièrement les pages à grande fréquence de modification –Constitution de lindex = analyse de la page WEB : Accentuations et majuscules Mots « vides » (exemples : a, pour, de, afin,...) Indexation d'une partie de document seulement Détection de doublons (document identique à différentes URL) Non-indexation des pages contenant du SPAM (pollution électronique dont le but est de classer une page dans les premières places des résultats de recherche)

16 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Exemple de document contenant du SPAM Ma page daccueil perso … Eh non… elle nest pas là ! … pamela, pamela, pamela, …

17 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Problèmes dutilisation des moteurs Recherche –Hétérogénéité des interfaces : Recherche simple Recherche avancée... –Syntaxes et fonctionnalités : Syntaxe particulières à chaque moteur Opérateurs booléens Opérateurs spécifiques –Méthodes de classement

18 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Classement des réponses Formule mystérieuse et secrète ! Méthode dépendante du moteur et de différents paramètres –Nombre de mots de la requête présents dans le document « Un document qui contient tous les mots de la requête est plus pertinent quun document qui nen contient quune partie » –Mots de la requête en tête de page « Un document qui contient les mots en tête de page est plus pertinent quun document qui les contient en fin de page »

19 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Classement des réponses –Proximité des mots de la requête dans le document « Si les mots de la requête sont proches, ils sont employés dans un même contexte » Exemple : –Taille de la page « Plus une page est grande, plus elle contient dinformation » ………………………………….. …….. moteur de recherche …. ………………………………….. …….. ……………………………….. … recherche ……………….. …………………………… ……………………………….. ………………… ……………….. moteur ……. ………………………………..

20 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Classement des réponses –Rareté dun mot de la requête dans l'ensemble des documents « Plus un mot est rare dans lensemble des documents, plus ce mot est spécifique… par conséquent, il aura un poids plus important que les autres mots de la requête » –Densité des mots (pour relativiser limportance de chacun des mots d'une page) Exemple : nombre d'occurrences du mot le nombre total de mots de la page « Plus un mot apparaît souvent dans un document, plus il caractérise ce document (par rapport aux mots du document qui apparaissent moins souvent) »

21 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Classement des réponses –Contenu des méta-données –Nombre de liens qui pointent sur la page « Plus une page est accessible à partir dautres pages, plus elle est importante » –Diminution de la pertinence des pages contenant du SPAM (page en fin de classement) –Paiement pour apparaître en tête de classement

22 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Utilisation des liens pour la Recherche dInformation Les approches existantes –lapproche du PageRank, Utilisation des liens lors de la phase dindexation –lapproche de propagation de pertinence –le système probabiliste dargumentation (PAS), –et lalgorithme de Kleinberg (HITS) Utilisation des liens lors de la phase dinterrogation

23 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Le PageRank Basé sur la notion de propagation de popularité. Le principe est dévaluer limportance dune page en fonction de chaque page pointant vers elle. La propagation met en avant les pages qui jouent un rôle particulier dans le réseau des liens, avec lhypothèse : une page référencée par un grand nombre de pages est une bonne page. Cette mesure est une distribution de probabilité sur les pages. Elle mesure la probabilité PR d'atteindre une page donnée P. Cette probabilité est d'autant plus forte que le nombre de pages P1 à Pm qui réfèrent P est important. PR est donc fonction de la somme des probabilités des pages qui référencent P. Il faut aussi tenir compte du fait que les pages qui référencent P ont d'autres liens sortant vers d'autres pages que P. Il faut donc diviser cette probabilité par le nombre C(Pi) de liens sortant des pages Pi qui référencent P.

24 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Approche de propagation de pertinence Le principe de cette approche consiste à propager des valeurs de pertinence de documents par rapport à une requête avec lhypothèse suivante : –un document référencé par un grand nombre de documents pertinents est un bon document. Contrairement à la propagation de popularité, le calcul de la propagation dépend de la requête. Il doit être effectué à la phase dinterrogation, et donc à chaque fois que lutilisateur pose sa requête. Au lieu de modifier directement lindex des pages, on modifie la pertinence dune page en fonction de la pertinence des pages voisines.

25 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Le système probabiliste dargumentation (PAS) Dans cette approche, au lieu de propager la valeur de pertinence dun document par rapport à une requête, on propage la probabilité quil soit pertinent.

26 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Algorithme de Kleinberg (HITS) Cette approche consiste à calculer la popularité (Hub) et lautorité (Authority) dun document et ce pour classer les documents résultats par rapport à une requête. Lhypothèse est : – Un document qui pointe vers beaucoup de bonnes Authorities est un bon Hub, –et un document pointé par beaucoup de bons Hubs est une bonne Authority [Kleinberg99].

27 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Google

28 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Google : Principes de fonctionnement –Idée : exploiter les liens hypertextes (à la manière de lanalyse des citations en science de linformation) avec lhypothèse que les liens de citations entre pages WEB expriment une approbation –Exemple : LORIA accueil

29 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Google : Algorithme de classement –2 types de pages : les pages de références (i.e. pages fréquemment citées) les pages pivots (i.e. pages contenant un grand nombre de liens) –Définition récursive de limportance des pages « plus une page de référence est pointée par de bonnes pages pivots, plus elle sera une bonne page de référence » « plus une page pivot pointera de bonnes pages de références, plus, plus elle sera une bonne page pivot »

30 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Google Algorithme de classement –Évaluation de chaque page par rapport : à un score de référence à un score pivot : – Méthode de calcul des scores Augmentation des valeurs des pages pivots par rapport aux meilleurs pages de référence Augmentation des valeurs des pages de référence par rapport aux bonnes pages pivots –Après quelques itérations, le classement devient stationnaire

31 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Google Constitution de la base dindex –Taille annoncée (source Google, 12/2001) : dURL, dont : de pages WEB indexées pages non indexés : documents non analysés, seuls les termes de lURL et les termes de lancre qui contenait ce lien sont indexés de documents accessibles par le WEB, mais qui ne sont pas des pages WEB (documents PDF, Postscript, Word, PowerPoint,...) de pages ré-indexées quotidiennement (pages à grande fréquence de modification)

32 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Google Nombre de requêtes –Plus de 150 millions de requêtes par jour ! (dans le plus grand index) Infrastructure matérielle –Utilisation du plus grand cluster LINUX commercialisé : plus de serveurs !!!

33 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Quelques statistiques

34 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Taille des index (en nombre dURL) Chiffres annoncés –Par les moteurs eux-mêmes (12/2001) Abréviations : FAST=FAST, AV=AltaVista,NL=Northern Light, GG=Google, INK=Inktomi.

35 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Les moteurs étudiés sont : AltaVista, HotBot, Excite, NorthernLight, Voilà, Lycos, WebCrawler, Infoseek Champs pris en compte lors de lindexation

36 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Priorités dans les champs indexés

37 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Taille des index (en nombre dURL) Méthode destimation –25 requêtes –Calcul de la taille de lindex dun moteur par rapport à un moteur dont on connaît la taille de lindex (multiplication par un coefficient issu des résultats des requêtes). Résultats estimés annoncés –Google –WiseNut –AllTheWeb –AltaVista –Hotbot –MSN Search

38 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Taille relative Principe dévaluation –25 requêtes simples (composées dun seul terme) et comparaison du nombre dURL renvoyées Résultats (04/2001)

39 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Recouvrement des index Principe dévaluation –4 requêtes donnant peu de réponses –Étude des réponses par moteurs Très peu de recouvrement –malgré une croissance de la taille des index

40 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Recouvrement des index Évaluation de la couverture des moteurs –Analyse de répartitions des réponses données par 1 seul moteur

41 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Le Web « invisible » On entend par Web « invisible », les pages qui demeurent invisibles aux moteurs de recherche. On peut en extraire trois catégories : 1- Les « frames » : de nombreux moteurs ne savent pas indexer les sites basés sur des « frames » (terme utilisé pour désigner les cadres qui permettent davoir constamment à lécran le menu initial). Northern Light et AltaVista comprennent les « frames » mais elles ne sont pas dans leur contexte (contenu indexé mais navigation impossible).

42 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Le Web « invisible » (2) 2- Les pages dynamiques : ce sont les pages typiquement liées à des bases de données, il yen a de plus en plus sur le Web. Quand lutilisateur fait sa demande, la base de données assemble les différentes pièces et délivre une page Web comme réponse. La marque de fabrique dune page dynamique est la présence dun « ? » dans lURL. La plupart des moteurs ne vont pas plus loin que le « ? », quils comprennent comme une erreur et qui empêche la page dêtre indexée. Google, grâce à sa particularité dindexer les mots proches des liens, permet de retrouver ces pages par leurs liens.

43 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Le Web « invisible » (3) –Le XML : ce format nouveau ouvre des perspectives intéressantes et est le langage davenir sur le Web. Tous les moteurs de recherche disent quils supporteront le XML mais avec des « si ». –Si un standard émerge, si les « tags »sont utilisés de façon uniforme. Les documents pourraient être indexés par auteur,par éditeur, par dates. –Lindexation du XML nest pas encore mise en place

44 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Au delà des moteurs de recherche

45 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Méta-moteurs Principe de fonctionnement –Interrogation (parallèle ou à la suite) de plusieurs moteurs de recherche à partir d'une interface unique Deux types –Méta-moteurs accessibles par le WEB : … –Méta-moteurs logiciels : à installer sur son ordinateur : Copernic, DigOut4U, … Intérêt –Besoin rapide d'exhaustivité : recherches aboutissant à peu (ou pas) de réponse avec les moteurs de recherche classiques

46 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Méta-moteurs accessibles par le WEB Principe de fonctionnement –Interrogation (parallèle ou à la suite) de plusieurs moteurs de recherche à partir d'une interface unique Indexation –Pas dindexation propre Résultats –Exhaustivité variable, dépendante du nombre de résultats fournis par les moteurs, du temps, des moteurs interrogés –Dédoublonnage –Méthode de classement : le plus souvent en fonction des classements des réponses fournis par les différents moteurs –Quelque fois : synthèse des réponses

47 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Méta-moteurs logiciels Principe de fonctionnement –Interrogation initiale (en parallèle ou à la suite) de plusieurs moteurs de recherche à partir d'une interface locale –Puis traitement local : Récupération des documents en local Mesure de similarité entre la requête et les documents (avec éventuellement prise en compte de connaissances de domaine) Parcours des liens hypertextes pour accéder à dautres documents, et les évaluer Résultats –Propre à chaque logiciel : utilisation de critères semblables à ceux utilisés par les moteurs –Temps dexécution

48 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Conclusion

49 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Conclusion De sérieux problèmes… –dorganisation des données : accroissement du nombre de serveurs, du nombre de pages, du volume des données, … –de sémantique : HTML = langage de présentation de documents langage de représentation de documents +dutilisation du WEB (méthodologie de recherche dinformation : connaissances des sources, des outils, capacité à formuler son besoin, à analyser et comprendre les résultats, …) … pour mettre en œuvre des systèmes de recherche dinformation de qualité.

50 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Des recherches plus sémantiques Recherche dans des parties précises (exemple : AltaVista) –de documents Dans le texte du document : text:expression_recherchée Dans le titre du document : title:expression Dans les ancres : anchor:expression_recherchée Dans les URL : url:expression_recherchée … –ou déléments attachés aux documents Nom de domaine : domain:domaine Nom de serveur WEB : host:serveur … Cest pas la panacée, tout de même !!!

51 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ La RI sur le WEB chez Orpailleur DefineCrawler : un crawler paramétrable pour la recherche dinformation intelligente –Système capable de parcourir le WEB de façon dirigée –Exploitation de connaissances pour guider la RI : aide à la formulation et formulation automatique de requêtes évaluation du contexte dapparition des termes de la requête évaluation de ladéquation entre le contenu dun document et le domaine –Transparence de la méthode de classement Travail en cours –Identification des connaissances favorisant la RI sur le WEB

52 Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/ Références Sites WEB –Moteurs –Statistiques et fonctionnement


Télécharger ppt "Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche."

Présentations similaires


Annonces Google