Les techniques des moteurs de recherche

Slides:



Advertisements
Présentations similaires
Un thésaurus des services généraux pour l'Arseg
Advertisements

Le rôle des mesures de similarité dans l'algorithme de Google
Concevoir un site dans une optique de référencement Sébastien Billard Consultant référencement.
La recherche documentaire
I- Qu’est ce qu’un réseau informatique ?
Le dossier documentaire
W3Line | 10 Ter, Rue Pasteur – BOURG LES VALENCE | Tél. : – Fax : | – Web :
Olivier Kraif, Agnès Tutin LIDILEM
Image et apprentissage
Chercher pour trouver Nous quittons l'ère où on courait après l'information pour entrer dans celle où l'information nous court après"Nous quittons l'ère.
Concevoir un site dans une optique de référencement.
BCDI UTILISER LE THESAURUS POUR FAIRE UNE RECHERCHE
Mettre en place une démarche de recherche documentaire
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
FAIRE UNE RECHERCHE SUR LE WEB
Indexation textuelle : Systèmes de recherche d’informations
1 TICE 2000 / Troyes / octobre 2000 Des moteurs de recherche efficaces pour des systèmes hypertextes grâce aux contextes des nœuds Des moteurs de.
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Le référencement des pages web
Le référencement des sites internet par les principaux moteurs de recherche Adrien Rimélé Alice Laurent 25 septembre
2006/2007Denis Cabasson – Programmation Web Cours de programmation web ENSAE
Interfaces de recherche usager
Quest-ce quun blog? « Un blog ou blogue (aphérèse de web log) est un site Web constitué par la réunion d'un ensemble de billets triés par ordre chronologique.
Vue générale de Sharpdesk
Annotations sémantiques pour le domaine des biopuces
Centre d’Excellence en Technologies de l’Information et de la Communication Moteurs de recherche Aspects techniques et retours d’expérience Christophe.
Médiathèque de Sélestat - 5 février 2005 Olivier Andrieu Comment ne pas être visible sur les moteurs de recherche.
Ordre du jour Copernic, portrait de lentreprise Copernic Enterprise Search Description du produit Fonctionnement Spécificités techniques Options offertes.
Google, un moteur de recherche comme les autres ?
Moteur de recherche d’information
Moteur de recherche d’information
Gouvernement du Québec Présentation par : Alain Thibault : PDG Efoé Wallace : Directeur du développement.
Oasif et Scenari TECFA Dpt of Psychology and Education CoFor 2
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Recherche, évaluation et utilisation de linformation Martine Mottet www1.sites.fse.ulaval.ca/martine.mottet.
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Recherche par mots-clés vs recherche en langue naturelle.
IFT6255 – Recherche d’information Jian-Yun Nie
La veille numérique : un outil pour s'informer intelligemment &
Présentation du projet edot Revue intermédiaire - 29 Juin 2004.
Les Moteurs de recherche:
Vincent VANDENBUSSCHE DEA – SIR / GR BD Mars 2002
Rappel de quelques notions de base de la recherche documentaire
Internet : serveurs Web  Clients et serveurs : le navigateur  Sites Web et urls  Fichier source d’une page  Langage HTML 1.
La recherche documentaire
MEMOIRE INDUSTRIEL ESIEA
D4 : Organiser la recherche d'informations numériques
Dominique LAURENT Patrick SEGUELA
Recherche d’information
PLAN 1. Introduction 1.1. Sites de presse actuels 1.2. Objectif de notre site 2. Description du modèle 3. Outils utilisés 3.1. SVG 3.2. PHP et MySQL 4.
SEO le Référencement Naturel
Observus - ENEIDE 28 novembre Pertimm : la société  Pertimm SAS : Fondée en 1997 en France, Présente en France et aux Etats-Unis, Start-up innovante.
Dossier de Lecture Par Julie Dubé But : rassembler l’information pertinente à l’aide de fiches et indiquer les références exactes. Constituez un dossier.
Edot Groupe de travail sur l’intégration. Le problème Intégration de nouvelles données avec les données existantes dans l’entrepôt Les données existantes:
LITTERATURE SCIENTIFIQUE STRATEGIES DE RECHERCHE PMSS
Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.
Plan de la présentation
Moteurs et métamoteurs de recherche
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
ANNEHEIM Geoffrey21/03/ Protocole de communication Socket TCP/IP Afin que MyCrawler fonctionne de façon optimale, une configuration de deux machines.
Titre du dossier et photo illustrant le dossier
Introduction à la Recherche
Faire un dossier documentaire
MelonDoc Projet libre de fin d’année
Internet et la recherche documentaire Comment utiliser Internet de façon pertinente ?
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
الهيئة العامة لحماية المستهلك أساليب الترويج وتأثيراتها على المستهلك خليفة التونكتي - مستشار المنافسة - 1.
Transcription de la présentation:

Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Qu’est-ce qui marche le mieux ? BOUTTES Cédric

Plan Plan I - Le fonctionnement des moteurs de recherche II – Un mode de recherche booléen basé sur le contenu des documents  indexation en texte intégral avec prise en compte de la localisation et de la fréquence des mots des documents III – Application des traitements linguistiques pour une recherche plus efficace  utilisation d’ index de lemmes et technique d’expansion de requête  utilisation d’ index de groupes nominaux  indexation sémantique à l’aide des ontologies IV – Des techniques pour améliorer le classement des résultats  tri par popularité et tri par clustering  outils d’aide à la reformulation des requêtes

Fonctionnement des moteurs FONCTIONNEMENT DES MOTEURS DE RECHERCHES Fonctionnement des moteurs Base de données de documents indexés 1 téléchargement des pages Serveur d’index Crawler indexation 2 3 interrogation de l’index et mis en forme des résultats Serveur Web INTRANET Internet requête requin AND blanc 

Indexation en texte intégral INDEX page 2 www.dietetique.fr F E U T I M Poids Homme : 1 0 0 0 0 0 1 Blanc : 1 0 0 0 0 0 1 Recherche : 1 0 0 0 0 0 1 Page Web N°2 url : www.dietetique.fr Texte : … un homme mange le blanc d’œuf … Indexation en texte intégral Page Web N°1 url : www.dents_de_la_mer.fr Titre : Le grand requin blanc. Texte : ... le film où le requin attaquait l’homme … Image : INDEX page 1 www.dents_de_la_mer.fr F E U T I M Poids Requin : 2 0 0 1 1 0 4 Blanc : 1 0 0 1 0 0 2 Homme : 1 0 0 0 0 0 1 … INDEX inversé des mots Page Poids Blanc :www.dents_de_la_mer.fr 2 www.dietetique.fr 1 Homme : www.dietetique.fr 1 www.dents_de_la_mer.fr 1 Requin : www.dents_de_la_mer.fr 4 Mange : www.dietetique.fr 1 … à la de d’ dans les par des le nos Liste mots-vides

Ensemble des documents de la base Bruit et Silence Documents pertinents trouvés Ensemble des documents trouvés Ensemble des documents pertinents dans la base Rappel Précision SILENCE = ensemble des documents pertinents non trouvés BRUIT = ensemble des documents non pertinents trouvés

Non trouvé et pertinent Trouvé et = SILENCE pertinent Source de silence … ont attaqué … … attaquera … Rappel … attaque … … attaquait… REQUETE UTILISATEUR : « REQUIN BLANC ATTAQUE HOMME»

Indexation libre par fichier inverse de lemmes Doc1 Doc2 Doc3 Index de lemmes Extraction des mots bruts attaquera attaquait ont attaqué Dico de lemmes Analyse Syntaxique INDEXATION attaquer : Doc1 Doc2 Doc3 Dico de lemmes Analyse Syntaxique ANALYSE DE LA REQUETE REQUETE UTILISATEUR : « … attaque … » Indexation libre par fichier inverse de lemmes

INDEXATION EN TEXTE INTEGRAL Doc1 Doc2 Doc3 Expansion de requête Extraction des mots bruts attaquera attaquait ont attaqué INDEXATION EN TEXTE INTEGRAL attaquera : Doc1 attaquait : Doc2 ont attaqué : Doc3 attaquera attaquait Dico de lemmes ont attaqué Analyse Syntaxique ANALYSE DE LA REQUETE REQUETE UTILISATEUR : « … attaque … » Technique d’expansion de requête

Trouvé et non pertinent = BRUIT Trouvé et pertinent Source de bruit … blanc d’oeuf … Précision … requin blanc … … requin baleine … REQUETE UTILISATEUR : « GRAND REQUIN BLANC»

Index de groupes nominaux Doc1 Doc2 Index de groupes nominaux Extraction de groupes nominaux Analyse Syntaxique du texte Dico Le requin blanc a attaqué Des requins blancs ont attaqué INDEXATION Nominalisation Attaque de requin blanc : Doc1 Doc2 Index inversé de groupes nominaux Dico Nominalisation Analyse Syntaxique ANALYSE DE LA REQUETE REQUETE UTILISATEUR : « Une attaque de requin blanc » Indexation libre par fichier inverse de groupes nominaux (ou syntagme)

Indexation sémantique Doc1 « … l’homme a été victime d’un grand requin blanc … » Indexation sémantique Analyse Morpho Syntaxique du texte Extraction de mots, groupes nominaux Ontologie Analyse statistique pour le choix des concepts qui serviront à indexer le document INDEXATION AGRESSION requin victime attaque AGRESSION : Doc1 Index des concepts extraits des documents Ontologie AGRESSION ANALYSE DE LA REQUETE Analyse statistique requin victime attaque Analyse Morpho Syntaxique de la question REQUETE UTILISATEUR : « Les attaques de requin blanc sur l’homme » Indexation sémantique à l’aide des ontologies

Techniques de classement Autres techniques de classement Techniques de classement 100 45.1 45.1 10 Méthode basée sur la co-citation 58 25.8 52.8 52.8 7.74 2) Tri par clustering Classement des documents trouvés dans des dossiers eux même constitués de sous-dossiers Sujets Type Source Langue

Techniques d’affinage : l’exemple de Kartoo

CONCLUSION L’interrogation en mode booléen des index en texte intégral génère du bruit et du silence. Les techniques linguistiques permettent de limiter ces problèmes. Il existe des méthodes pour améliorer le classement des résultats. Une autre piste : le Web Sémantique