Centre d’Excellence en Technologies de l’Information et de la Communication Moteurs de recherche Aspects techniques et retours d’expérience Christophe.

Slides:



Advertisements
Présentations similaires
E-learning Evolutif Albarelli Corinne Behem Patrice Guillot Jérôme
Advertisements

Concevoir un site dans une optique de référencement Sébastien Billard Consultant référencement.
« Les Mercredis du développement » Introduction Office « 12 » Présenté par Bernard Fedotoff Microsoft Regional Director Agilcom.
Quelle stratégie adopter pour la recherche en Entreprise ?
Aperçu des architectures des systèmes d’information web
Les outils Web - ENT Authentification – Sécurité
Concevoir un site dans une optique de référencement.
Connecter des données métier à Office SharePoint Server 2007 via le Business Data Catalog.
Présentation technique des fonctions de recherche SharePoint.
Introduction aux fonctions de gestion de contenu Web dans Microsoft Office SharePoint Server 2007.
Exposé de Système - Informatique et Réseau
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Présentation Mars 2007 Organet II: service de gestion du déroulement des épreuves dans les établissements centres d’examen Organet II est un produit pour.
SRI pour le WEB : Moteurs de recherche
TP 3-4 BD21.
Présentation de la Nouvelle version V3 de club Pro Tout est en Ligne et Entièrement paramétrable.
IronWEB : Une architecture distribuée
La société MAKINA CORPUS Spécialisée dans le « libre ». Deux pôles technologiques principaux. La conjoncture.
Conception d’une application de gestion de fiches études
V 1.5 Site Web de Formation. Intérêts Cette fonctionnalité de Spiral vous permet de créer et gérer des sites web entièrement personnalisable venant s'appuyer.
PRO VELO a.s.b.l. Le déplacement et la découverte à vélo
Assurance RC automobile chez les jeunes Car Insurance Survey
La mise en place du Règlement sur la diffusion de linformation Un travail déquipe.
> a patent search service supplied by Patents & Technology Surveys Ltd PROFESSIONAL ONLINE PATENT INFORMATION SERVICE.
Interfaces de recherche usager
SECURITE DU SYSTEME D’INFORMATION (SSI)
Traitement de texte ++.
Collecte de données en ligne
Utilisations pédagogiques dInternet Jean Talbot Service de lenseignement des technologies de linformation Août 98.
Identifier ce qui peut gêner ou bloquer votre référencement Sébastien Billard, consultant référencement.
LE REFERENCEMENT NATUREL S.E.O. (Search Engine Optimisation)
Médiathèque de Sélestat - 5 février 2005 Olivier Andrieu Comment ne pas être visible sur les moteurs de recherche.
Ordre du jour Copernic, portrait de lentreprise Copernic Enterprise Search Description du produit Fonctionnement Spécificités techniques Options offertes.
DÉCOUVREZ VITE LES PRINCIPALES FONCTIONS ! Bienvenue dans AssoLink. Tout est en ligne, et entièrement paramétrable. Copyright Comunica, © 2009.
Comment optimiser la visibilité de vos contenus sur les principaux moteurs de recherches ? Rédaction de contenus SEO friendly Publication on-line.
Moteur de recherche d’information
Moteur de recherche d’information
Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.
Gouvernement du Québec Présentation par : Alain Thibault : PDG Efoé Wallace : Directeur du développement.
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.
Natalie Meystre Maciej Macowicz Conférence des Webmasters 22 mars 2005 Moteurs de recherche, meta-moteurs.
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Recherche par mots-clés vs recherche en langue naturelle.
1 Référencement (phase 2) Rappel SEO (acquis) Analytics (suivi daudience) SEM (liens sponsorisés)
Les techniques des moteurs de recherche
La veille numérique : un outil pour s'informer intelligemment &
MEMOIRE INDUSTRIEL ESIEA
Crawlers Parallèles Présentation faite par: Mélanie AMPRIMO
1 Algorithmes pour le Web Prof : José Rolim Coarse-grained Classification of Web Sites by Their Structural Properties Auteurs : Christoph Lindemann & Lars.
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
Dominique LAURENT Patrick SEGUELA
WINWORD.. OBJECTIFS n.n. WINWORD n POURQUOI WINWORD n SAISIE n OPERATIONS AVANT IMPRESSION n CREATION DE MODELES.
Présentation Finale Spirit 07 / 03 / 2011 Groupe Vert 1 Equipe Verte.
Recherche d’information
PLAN 1. Introduction 1.1. Sites de presse actuels 1.2. Objectif de notre site 2. Description du modèle 3. Outils utilisés 3.1. SVG 3.2. PHP et MySQL 4.
Améliorer la performance des organisations en apportant à toutes les équipes la meilleure compréhension de leur activité pour des décisions plus rapides.
Présentation du 05 avril 2006 L’intranet : une réalité pour les entreprises Espace sécurisé où sont stockés les documents internes Base de connaissances.
Efficient Crawling Through URL Ordering Junghoo Cho - Hector Garcia-Molina - Lawrence Page Department of Computer Science Stanford, CA Algorithmes.
Plan de la présentation
Les Systèmes de Gestion de Contenu (CMS) Allirand Maud Chabord Grégoire Massart Anne-Sophie 24 novembre 2006.
Moteurs et métamoteurs de recherche
Pour mieux vieillir ensemble EndNote Bâtir sa bibliothèque Par Marie-Marthe Gagnon Bibliothécaire Mars 2015.
OBJECTIFS : STOP à la recopie fastidieuse SÆCI « Recherche Structurée » permet de récupérer des informations de documents quelconques d’après leur positionnement.
ANNEHEIM Geoffrey21/03/ Protocole de communication Socket TCP/IP Afin que MyCrawler fonctionne de façon optimale, une configuration de deux machines.
ClubService, C’est un logiciel accessible de partout, Où chaque personne de votre club se connecte avec ses identifiants Et qui est disponible en plusieurs.
Présentation du Moodle de Joliot Curie Collège Joliot-Curie Le vendredi 19 sept Karine LÉPOUCHARD.
Le guide d’autoévaluation interactif, Mode d’emploi Version Mai 2016.
KOSMOS 1 Outils transversaux Module 7 1.L’annuaire 2.La recherche d’informations 3.La réservation de ressources.
Compétences informationnelles Choisir ses sources Connaître les outils de repérage.
Transcription de la présentation:

Centre d’Excellence en Technologies de l’Information et de la Communication Moteurs de recherche Aspects techniques et retours d’expérience Christophe Noël Dec 2005

Plan Introduction Crawling Indexation Module d’interrogation Application développée

Introduction Moteur de recherche : machine(s) chargée(s) d’indexer des documents webs et permettant une recherche rapide à l’aide de mots-clés. Mieux comprendre : Quel est son fonctionnement? Solutions apportées par le CETIC ?

Plan Introduction Crawling Indexation Module d’interrogation Application dévellopée

Crawling Tâche globale de collecte de documents Logiciels de parcours et d’aspiration de l’internet Scénario simplifié : Chargement du document (web) Extraction d’urls Parcours des nouveaux urls

Crawling : contraintes Crawler vite : condition pour assurer une fraîcheur suffisante Crawler tout : les robots doivent parcourir une part significative du web Crawler poliment : les robots doivent respecter les sites visités (exemple : robots.txt)

Crawling : difficultés Contraintes bande passante Du crawler Des serveurs interrogés Contraintes de stockage Paramètres nombreux (threads, timeout) Mode poli : lent Mode impoli : uniquement en intranet Mauvaise expérience : 95% d’erreurs 30 % de bande passante utilisée

Crawling : solutions Le crawler du CETIC : Crawler sur mesure : Avec une bande passante de 2Mbits : Environ 700.000 urls / jour Avec une bande passante de 100 Mbits : Environ 35.000.000 urls / jour Espace de stockage : 1 millions de documents = 20 Go 50 millions de documents = 1 To Crawler sur mesure : Nombre d’urls donné : adapter les paramètres Meilleure tolérance aux timeout Meilleure fréquence de rafraichissement

Plan Introduction Crawling Indexation Module d’interrogation Application développée

Indexation Etape préparatoire pour les recherches : construction de fichiers d’index rapides et performants Utilisation d’index inversés : Index : Livre1  (alouette,p5) (corbeau,p2) (geai, p9) Livre2  (abricot,p12) (fraise,p1) (pomme,p4) Index inversé : Abricot  (livre2,p12) (livre 6, p23) Alouette  (livre1,p5) (livre22,p2)

Index inversé

Documents et champs Un document est une séquence de champs Un champ est une paire <nom,valeur> Nom : nom du champ Exemple : “titre”, “texte”, “url” Valeur : le titre, le texte ou l’url Permet de rechercher des documents dans un champs particulier

Indexation : généralités L’index des mots est organisé par une structure de fichier d’index inversé Les termes des documents sont qualifiés par des champs Des méthodes de déformattage, d’analyse et de filtrage permettent de passer de l’information brute vers une information structure exploitable Le CETIC utilise le système de gestion d’index Lucene (Apache)

Plan Introduction Crawling Indexation Module de d’interrogation Application développée

Module d’interrogation Un module d’interrogation en bref : Un lecteur de fichier d’index Une interface Web Un mécanisme d’analyse et de traitement des requêtes Un algorithme de Scoring

Algorithme de scoring Score final d’un document dépend de : Résultat relatif à la pertinence des termes dans le document Résultat relatif à l’importance des ancres pointant vers le document (pageRank) Les différents critères sont pondérés pour obtenir le résultat final Robuste au spam

Algorithme de scoring Occurences du mot dans le document 1/rareté du mot dans le document Importance du champ du mot (titre?) PageRank du document Différents facteurs

Plan Introduction Crawling Indexation Module d’interrogation Application développée

Application développée Technologie de moteur de recherche complète Possibilité de gérer de gros index Solution intégrée comprenant : Un crawler Un moteur d’indexation Une interface de recherche Solution adaptée à vos besoins Quelques exemples de fonctionnalités : Correction orthographique Groupement par catégorie (clustering) Suggestion de mots-clés Géolocalisation

Application développée Deux cas concrets : IllicoPresto : un moteur de recherche personnalisé 6000 urls Correction automatique Affichage spontanné de mots clés Liste de contacts contextuelle Eurobot : le démonstrateur du CETIC Préparé pour le groupe de discussion Suggestion de mots clés Géolocalisation

Questions ? Questions ? Renseignements ? christophe.noel@cetic.be

Indexation: parsing Parsing signifie déformatage Transformation des formats de représentation Input : HTML, pdf, ps, msword, texte Sortie : Format utilisable Contrainte : garder un maximum d’informations structurelles (url, titre, liens, …)

Indexation : analyse Quelles sont les informations pertinentes ? Format du document Langue utilisée Valeur du document : Longueur Forme Profondeur de la page dans un site Nombre de liens dans la page Etc. …

Indexation : filtrage Que doit-on préparer pour l’indexation ? Différents traitements : Application des stop words (le, la, un, est) Conversion de caractères/mots (accents?) Décomposition du texte en termes Lemmatisation éventuelle Prépare à la phase de création des fichiers d’index