La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Moteurs de recherche Aspects techniques et retours dexpérience Christophe Noël Dec 2005 Centre dExcellence en Technologies de lInformation et de la Communication.

Présentations similaires


Présentation au sujet: "Moteurs de recherche Aspects techniques et retours dexpérience Christophe Noël Dec 2005 Centre dExcellence en Technologies de lInformation et de la Communication."— Transcription de la présentation:

1 Moteurs de recherche Aspects techniques et retours dexpérience Christophe Noël Dec 2005 Centre dExcellence en Technologies de lInformation et de la Communication

2 Dec 2005www.cetic.be2 Plan Introduction Crawling Indexation Module dinterrogation Application développée

3 Dec 2005www.cetic.be3 Introduction Moteur de recherche : machine(s) chargée(s) dindexer des documents webs et permettant une recherche rapide à laide de mots-clés. Mieux comprendre : –Quel est son fonctionnement? –Solutions apportées par le CETIC ?

4 Dec 2005www.cetic.be4 Plan Introduction Crawling Indexation Module dinterrogation Application dévellopée

5 Dec 2005www.cetic.be5 Crawling Tâche globale de collecte de documents Logiciels de parcours et daspiration de linternet Scénario simplifié : –Chargement du document (web) –Extraction durls –Parcours des nouveaux urls

6 Dec 2005www.cetic.be6 Crawling : contraintes Crawler vite : condition pour assurer une fraîcheur suffisante Crawler tout : les robots doivent parcourir une part significative du web Crawler poliment : les robots doivent respecter les sites visités (exemple : robots.txt)

7 Dec 2005www.cetic.be7 Crawling : difficultés Contraintes bande passante –Du crawler –Des serveurs interrogés Contraintes de stockage Paramètres nombreux (threads, timeout) –Mode poli : lent –Mode impoli : uniquement en intranet Mauvaise expérience : 95% derreurs 30 % de bande passante utilisée

8 Dec 2005www.cetic.be8 Crawling : solutions Le crawler du CETIC : –Avec une bande passante de 2Mbits : Environ urls / jour –Avec une bande passante de 100 Mbits : Environ urls / jour –Espace de stockage : 1 millions de documents = 20 Go 50 millions de documents = 1 To Crawler sur mesure : –Nombre durls donné : adapter les paramètres –Meilleure tolérance aux timeout –Meilleure fréquence de rafraichissement

9 Dec 2005www.cetic.be9 Plan Introduction Crawling Indexation Module dinterrogation Application développée

10 Dec 2005www.cetic.be10 Indexation Etape préparatoire pour les recherches : construction de fichiers dindex rapides et performants Utilisation dindex inversés : –Index : Livre1 (alouette,p5) (corbeau,p2) (geai, p9) Livre2 (abricot,p12) (fraise,p1) (pomme,p4) –Index inversé : Abricot (livre2,p12) (livre 6, p23) Alouette (livre1,p5) (livre22,p2)

11 Dec 2005www.cetic.be11 Index inversé

12 Dec 2005www.cetic.be12 Documents et champs Un document est une séquence de champs Un champ est une paire Nom : nom du champ –Exemple : titre, texte, url Valeur : le titre, le texte ou lurl Permet de rechercher des documents dans un champs particulier

13 Dec 2005www.cetic.be13 Indexation : généralités Lindex des mots est organisé par une structure de fichier dindex inversé Les termes des documents sont qualifiés par des champs Des méthodes de déformattage, danalyse et de filtrage permettent de passer de linformation brute vers une information structure exploitable Le CETIC utilise le système de gestion dindex Lucene (Apache)

14 Dec 2005www.cetic.be14 Plan Introduction Crawling Indexation Module de dinterrogation Application développée

15 Dec 2005www.cetic.be15 Module dinterrogation Un module dinterrogation en bref : –Un lecteur de fichier dindex –Une interface Web –Un mécanisme danalyse et de traitement des requêtes –Un algorithme de Scoring

16 Dec 2005www.cetic.be16 Algorithme de scoring Score final dun document dépend de : –Résultat relatif à la pertinence des termes dans le document –Résultat relatif à limportance des ancres pointant vers le document (pageRank) Les différents critères sont pondérés pour obtenir le résultat final Robuste au spam

17 Dec 2005www.cetic.be17 Algorithme de scoring –Occurences du mot dans le document –1/rareté du mot dans le document –Importance du champ du mot (titre?) –PageRank du document –Différents facteurs

18 Dec 2005www.cetic.be18 Plan Introduction Crawling Indexation Module dinterrogation Application développée

19 Dec 2005www.cetic.be19 Application développée Technologie de moteur de recherche complète Possibilité de gérer de gros index Solution intégrée comprenant : –Un crawler –Un moteur dindexation –Une interface de recherche Solution adaptée à vos besoins Quelques exemples de fonctionnalités : –Correction orthographique –Groupement par catégorie (clustering) –Suggestion de mots-clés –Géolocalisation

20 Dec 2005www.cetic.be20 Application développée Deux cas concrets : –IllicoPresto : un moteur de recherche personnalisé 6000 urls Correction automatique Affichage spontanné de mots clés Liste de contacts contextuelle –Eurobot : le démonstrateur du CETIC Préparé pour le groupe de discussion Suggestion de mots clés Géolocalisation

21 Dec 2005www.cetic.be21 Questions ? Renseignements ?

22 Dec 2005www.cetic.be22 Indexation: parsing Parsing signifie déformatage Transformation des formats de représentation –Input : HTML, pdf, ps, msword, texte –Sortie : Format utilisable Contrainte : garder un maximum dinformations structurelles (url, titre, liens, …)

23 Dec 2005www.cetic.be23 Indexation : analyse Quelles sont les informations pertinentes ? –Format du document –Langue utilisée –Valeur du document : Longueur Forme Profondeur de la page dans un site Nombre de liens dans la page Etc. –…

24 Dec 2005www.cetic.be24 Indexation : filtrage Que doit-on préparer pour lindexation ? Différents traitements : –Application des stop words (le, la, un, est) –Conversion de caractères/mots (accents?) –Décomposition du texte en termes –Lemmatisation éventuelle Prépare à la phase de création des fichiers dindex


Télécharger ppt "Moteurs de recherche Aspects techniques et retours dexpérience Christophe Noël Dec 2005 Centre dExcellence en Technologies de lInformation et de la Communication."

Présentations similaires


Annonces Google