Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parMainfred Remond Modifié depuis plus de 10 années
1
Centre d’Excellence en Technologies de l’Information et de la Communication
Moteurs de recherche Aspects techniques et retours d’expérience Christophe Noël Dec 2005
2
Plan Introduction Crawling Indexation Module d’interrogation
Application développée
3
Introduction Moteur de recherche : machine(s) chargée(s) d’indexer des documents webs et permettant une recherche rapide à l’aide de mots-clés. Mieux comprendre : Quel est son fonctionnement? Solutions apportées par le CETIC ?
4
Plan Introduction Crawling Indexation Module d’interrogation
Application dévellopée
5
Crawling Tâche globale de collecte de documents
Logiciels de parcours et d’aspiration de l’internet Scénario simplifié : Chargement du document (web) Extraction d’urls Parcours des nouveaux urls
6
Crawling : contraintes
Crawler vite : condition pour assurer une fraîcheur suffisante Crawler tout : les robots doivent parcourir une part significative du web Crawler poliment : les robots doivent respecter les sites visités (exemple : robots.txt)
7
Crawling : difficultés
Contraintes bande passante Du crawler Des serveurs interrogés Contraintes de stockage Paramètres nombreux (threads, timeout) Mode poli : lent Mode impoli : uniquement en intranet Mauvaise expérience : 95% d’erreurs 30 % de bande passante utilisée
8
Crawling : solutions Le crawler du CETIC : Crawler sur mesure :
Avec une bande passante de 2Mbits : Environ urls / jour Avec une bande passante de 100 Mbits : Environ urls / jour Espace de stockage : 1 millions de documents = 20 Go 50 millions de documents = 1 To Crawler sur mesure : Nombre d’urls donné : adapter les paramètres Meilleure tolérance aux timeout Meilleure fréquence de rafraichissement
9
Plan Introduction Crawling Indexation Module d’interrogation
Application développée
10
Indexation Etape préparatoire pour les recherches : construction de fichiers d’index rapides et performants Utilisation d’index inversés : Index : Livre1 (alouette,p5) (corbeau,p2) (geai, p9) Livre2 (abricot,p12) (fraise,p1) (pomme,p4) Index inversé : Abricot (livre2,p12) (livre 6, p23) Alouette (livre1,p5) (livre22,p2)
11
Index inversé
12
Documents et champs Un document est une séquence de champs
Un champ est une paire <nom,valeur> Nom : nom du champ Exemple : “titre”, “texte”, “url” Valeur : le titre, le texte ou l’url Permet de rechercher des documents dans un champs particulier
13
Indexation : généralités
L’index des mots est organisé par une structure de fichier d’index inversé Les termes des documents sont qualifiés par des champs Des méthodes de déformattage, d’analyse et de filtrage permettent de passer de l’information brute vers une information structure exploitable Le CETIC utilise le système de gestion d’index Lucene (Apache)
14
Plan Introduction Crawling Indexation Module de d’interrogation
Application développée
15
Module d’interrogation
Un module d’interrogation en bref : Un lecteur de fichier d’index Une interface Web Un mécanisme d’analyse et de traitement des requêtes Un algorithme de Scoring
16
Algorithme de scoring Score final d’un document dépend de :
Résultat relatif à la pertinence des termes dans le document Résultat relatif à l’importance des ancres pointant vers le document (pageRank) Les différents critères sont pondérés pour obtenir le résultat final Robuste au spam
17
Algorithme de scoring Occurences du mot dans le document
1/rareté du mot dans le document Importance du champ du mot (titre?) PageRank du document Différents facteurs
18
Plan Introduction Crawling Indexation Module d’interrogation
Application développée
19
Application développée
Technologie de moteur de recherche complète Possibilité de gérer de gros index Solution intégrée comprenant : Un crawler Un moteur d’indexation Une interface de recherche Solution adaptée à vos besoins Quelques exemples de fonctionnalités : Correction orthographique Groupement par catégorie (clustering) Suggestion de mots-clés Géolocalisation
20
Application développée
Deux cas concrets : IllicoPresto : un moteur de recherche personnalisé 6000 urls Correction automatique Affichage spontanné de mots clés Liste de contacts contextuelle Eurobot : le démonstrateur du CETIC Préparé pour le groupe de discussion Suggestion de mots clés Géolocalisation
21
Questions ? Questions ? Renseignements ?
22
Indexation: parsing Parsing signifie déformatage
Transformation des formats de représentation Input : HTML, pdf, ps, msword, texte Sortie : Format utilisable Contrainte : garder un maximum d’informations structurelles (url, titre, liens, …)
23
Indexation : analyse Quelles sont les informations pertinentes ?
Format du document Langue utilisée Valeur du document : Longueur Forme Profondeur de la page dans un site Nombre de liens dans la page Etc. …
24
Indexation : filtrage Que doit-on préparer pour l’indexation ?
Différents traitements : Application des stop words (le, la, un, est) Conversion de caractères/mots (accents?) Décomposition du texte en termes Lemmatisation éventuelle Prépare à la phase de création des fichiers d’index
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.