Accéder aux informations nécessaires avec efficience

Slides:



Advertisements
Présentations similaires
Tutoriel - Les Ressources du BCH
Advertisements

La recherche documentaire
Participez dès aujourdhui au répertoire des SSII sur technologies Microsoft Guide pour la mise à jour du profil Société pour être visible sur
W3Line | 10 Ter, Rue Pasteur – BOURG LES VALENCE | Tél. : – Fax : | – Web :
UNIVERSITE DE TECHNOLOGIE COMPIEGNE GE 15 LA RECHERCHE DOCUMENTAIRE SUR LE NET Béatrice KONIG – BUTC Tél. : Mars 2007.
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Site WEB: communication grand publique
Guide rapide pour le gestionnaire Etape
La recherche documentaire sur le réseau Internet
Le publipostage La fonction de fusion permet de créer des documents identiques dans les grandes lignes que l’on personnalise automatiquement à chaque destinataires.
La Recherche en Ligne.
Longue Traîne en Liens Sponsorisés.
ONRN V2 Guide de contribution. Organisation des documents Listes de valeurs Ce répertoire contient les listes de valeurs qui sont utilisées pour qualifier.
FACTIVA Présentation et guide d’utilisation
Analyse des moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
Gestion de la communication par établissement sur le site ville
PubMed Trucs et astuces…
Quelles ressources sur linternet ? Méthodologie de recherche et validation de linformation Jean-Philippe Accart Bibliothèque nationale suisse Service de.
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
> a patent search service supplied by Patents & Technology Surveys Ltd PROFESSIONAL ONLINE PATENT INFORMATION SERVICE.
Interfaces de recherche usager
Etude des Technologies du Web services
SECURITE DU SYSTEME D’INFORMATION (SSI)
LITTERATURE SCIENTIFIQUE STRATÉGIES DE RECHERCHE PMSS
Le Référencement en Savoie Historique
1 Bibdoc 37 – Regards croisés Bibliothèques virtuelles, usages réels 7 avril 2009 – Tours « Les usages des bibliothèques virtuelles » Jean-Philippe Accart.
Bee 27 Normandie. Début 2010 Aujourdhui, on note labsence dun annuaire global référençant toutes les entreprises possédant un site. Contrairement, aux.
Aide à la Recherche Bibliographique sur le WEB Hatem BEN ROMDHANE (URSAM) ENIT Janvier 2003.
Comment trouver sur Internet?
1 Sécurité Informatique : Proxy Présenter par : Mounir GRARI.
Lycée Louis Vincent Séance 1
Annuaires et moteurs de recherche d’information sur Internet
02/071 LA RECHERCHE sur INTERNET POURQUOI ? Amicale Laïque Poisat.
Les instructions PHP pour l'accès à une base de données MySql
LE REFERENCEMENT NATUREL S.E.O. (Search Engine Optimisation)
Médiathèque de Sélestat - 5 février 2005 Olivier Andrieu Comment ne pas être visible sur les moteurs de recherche.
Référencement Que peut faire baisser votre classement ?
Chercher et trouver Module 1 Déroulement : Souhaiter la bienvenue
Natalie Meystre Maciej Macowicz Conférence des Webmasters 22 mars 2005 Moteurs de recherche, meta-moteurs.
La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 3: les moteurs académiques: Google.
La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 3: les moteurs académiques: Google.
La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 1: notions de base.
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
1 Référencement (phase 2) Rappel SEO (acquis) Analytics (suivi daudience) SEM (liens sponsorisés)
La veille numérique : un outil pour s'informer intelligemment &
Les moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
Les Moteurs de recherche:
Formation ADBS – septembre 2014 – 1 Approfondir son expertise en recherche d'information 3-4 & 5 septembre 2014.
Tous droits réservés 04 octobre 2005© présente Les Moteurs de Recherche.
Conversation permanente
LA RECHERCHE DOCUMENTAIRE
INTERNET Un réseau informatique mondial : ce sont des millions d'ordinateurs en permanence allumés (reliés entre-eux par des lignes téléphoniques, fibres.
Recherche d’information
LA BIOBASE ET LE BIOPRESSE DU CETAB+ ET D’ABIODOC Projet réalisé dans le cadre du programme Innovbio du Ministère de l’agriculture, des pêcheries et de.
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
LITTERATURE SCIENTIFIQUE STRATEGIES DE RECHERCHE PMSS
Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.
Se repérer et organiser sa veille dans la recherche en éducation Module 2 « Maîtriser l’accès aux ressources scientifiques en éducation » Introduction.
Moteurs et métamoteurs de recherche
Division des achats du Secrétariat de l’Organisation des Nations Unies Présentation de la procédure d’agrément des fournisseurs Higher Standards, Better.
IUFM D’AIX-EN-PROVENCE
France Bilodeau Bibliothécaire-conseil 19 octobre 2015 La recherche d’information en éducation.
CDI du lycée Jean Jaurès / La recherche dans BCDI.
Comment faire une recherche documentaire?
L’information commerciale, ressource stratégique.
Formation.
Internet et la recherche documentaire Comment utiliser Internet de façon pertinente ?
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 4 Support de cours rédigé par Bernard COFFIN Université.
Compétences informationnelles Choisir ses sources Connaître les outils de repérage.
Association régionale pour la formation, l’orientation et l’emploi Mode d’emploi Portail internet Aquitaine Cap Métiers Novembre 2011 Service éditions.
Transcription de la présentation:

Accéder aux informations nécessaires avec efficience Dollara.fr - 2013

Mode de recherche : recherche par mots-clés Outils : moteurs et métamoteurs Dollara.fr - 2013

Principales sources utilisées Recherche éveillée sur Internet : mode d'emploi : outils et méthodes pour explorer le Web : Web visible, Web invisible, Web social, Web temps réel Foenix-Riou, Béatrice - Paris : Lavoisier : Bases publications, DL 2011 Dollara.fr - 2013

Principales sources utilisées Net recherche 2010 : le guide pratique pour mieux trouver l'information utile et surveiller le web Véronique Mesguich et Armelle Thomas. Préface d'Olivier Andrieu Collection : Sciences et techniques de l'information, 2010. Dollara.fr - 2013

Caractéristiques du contexte ce mode de recherche s’est largement imposée devant les autres modes de recherche ; plébiscitée par les internautes pour sa simplicité ; démocratisation de la pratique de la recherche d’information, réduction de la « fracture numérique » ; MAIS, baisse globale de la qualité des recherches : pour être efficace, cette méthode induit généralement un travail conséquent en amont décrit ci-dessous. Dollara.fr - 2013

De quoi s’agit-il ? Dollara.fr - 2013

De la recherche par mots-clés sur le texte intégral des pages Web via des moteurs ou métamoteurs de façon automatique. L’utilisateur saisit un ou plusieurs mots-clés dans le formulaire La requête est lancée sur le texte intégral des pages enregistrées par le moteur (La page de résultats affiche la liste et les extraits des (copies de) pages contenant le(s)mot(s)-clé(s) (à la date de l’indexation) Un clic sur le titre affiche la page aujourd’hui sur le Web Dollara.fr - 2013

Analyse de la présentation des résultats Dollara.fr - 2013

Dollara.fr - 2013

Quand utiliser ce mode de recherche ? Dollara.fr - 2013

Résultats convaincants pour les questions factuelles (adresse, dates, etc.) pour des questions très générales (avoir une idée d’ensemble sur un sujet) Dollara.fr - 2013

Comment fonctionne un moteur et quelles sont les incidences sur la recherche ? Dollara.fr - 2013

Le moteur est constitué de trois éléments : un robot ou bot/crawler/spider qui parcourt le web de liens en liens. Il parcourt le contenu des sites Web à intervalles réguliers et de façon automatique. Il teste tous les liens hypertextes et fait une copie des pages visitées sur une base de données structurée. Dollara.fr - 2013

Il se connecte aussi à toutes les pages soumises par les éditeurs de sites (référencement) http://www.google.fr/submit_content.html Le robot n’indexera pas forcément toutes les pages d’un site. Dollara.fr - 2013

Mise à jour de la base de données (délai de rafraîchissement) : - varie selon les moteurs et selon le type de pages - de quelques secondes à plusieurs mois - les pages issues de blogs ou de sites de microblogging sont indexés en temps quasi réel - une page régulièrement mise à jour et souvent consultée sera visitée beaucoup plus fréquemment. Dollara.fr - 2013

un index Il s’occupe de l’indexation automatique des pages Web collectées par le robot pour construire l’index de la base de données ainsi constituée par exploration successive. Il contient tous les mots de toutes les pages rapatriées par le robot.  Il contient la copie des pages telles qu’elles étaient le jour de la visite du robot. Il indexe donc: le texte intégral de la page, l’URL et les différentes balises méta (titre, mot clé, etc.) Dollara.fr - 2013

Elle met en relation le système et l’usager. une interface web Elle met en relation le système et l’usager. L’usager peut lancer une requête par mots sur l’index du moteur, à l’aide d’une syntaxe propre à chaque moteur. Dollara.fr - 2013

Google me permet-il de retrouver une page consultée il y a un an ? Je recherche la page http://dollara.fr/references.html Contenant des informations sur les établissements collaborateurs de l’organisme Dollara.fr - 2013

Google me permet-il de retrouver une page consultée il y a un an ? Les moteurs n’archivent pas les documents qui ont été modifiés ou qui ont disparu. Ce n’est pas parce que vous avez vu une page un jour sur le Web que vous la retrouverez forcément. La solution de recours pour retrouver une page disparue : la « Wayback Machine » sur le site www.archive.org. Fondé en 1996, Internet Archive est un organisme à but non lucratif, dont l’objectif est de constituer une bibliothèque de pages web accessible de façon permanente. La bibliothèque regroupe plus de 150 milliards de pages web archivées depuis 1996. Dollara.fr - 2013

Fonctionnalités disponibles sur un moteur Consulter les aides en ligne.   Les recherches sont-elles effectuées de manière anonyme sur les moteurs ? Les moteurs de recherche disposent de l’historique des mots-clés recherchés par les usagers sur leur index ; l’internaute est identifié par son adresse IP. Les données sont censées être détruites après un temps plus ou moins long. Dollara.fr - 2013

Incidences sur la recherche 1.une requête par mots clés sur un moteur va chercher sur son index, qui contient le texte de toutes les pages rapatriées par le robot. Dollara.fr - 2013

Dollara.fr - 2013

2. la requête doit être formulée de manière très précise si l’on ne veut pas avoir trop de bruit. Dollara.fr - 2013

3. La page actuelle peut être différente de celle indexées par le robot: effacée, mise à jour, déplacée on peut cliquer sur le titre d’un résultat et avoir le message « Erreur 404 page not found » OU les snippets (extraits des pages copiés par le robot) ne sont pas trouvables sur la page actuelle Dollara.fr - 2013

=> d’où l’intérêt de consulter les pages « En cache » : copie de la page dans l’index du moteur, c’est-à-dire une reproduction de la page telle qu’elle était lors de la dernière visite du robot. Dollara.fr - 2013

4. il est nécessaire d’interroger plusieurs moteurs : - ils n’ont pas la même couverture du web - ils utilisent des algorithmes de classement différents - la recherche se fait sur l’index du moteur-sur la copie des pages telles qu’elles étaient lorsqu’il les a copiées Cf Fiche pratique algorithme de pertinence Dollara.fr - 2013

Essayez sur Google et Bing avec la requête: Pollution air - L’interrogation de plusieurs moteurs à l’aide d’une même requête donne des premières pages de résultats trèsdifférents. Essayez sur Google et Bing avec la requête: Pollution air Dollara.fr - 2013

Illustration avec Google Source: Amit Singhal, Technologies behind Google ranking , 7/16/2, http://googleblog.blogspot.com/2008/07/technologies-behind-google-ranking.html008 Google explique en 2008 l’évolution de ces critères de classification : les attentes des utilisateurs sont passées de « donnez-moi ce que je dis » à « donnez-moi ce que je veux ». Google a donc fait évoluer sa technologie autour de trois points : - comprendre le contenu des pages web : « We find the official homepage for Sprovieri Gallery in London for the Italian query [galleria sprovieri londra], even though the official page does not have either London or Londra on it. ” Dollara.fr - 2013

Illustration avec Google Source: Amit Singhal, Technologies behind Google ranking , 7/16/2, http://googleblog.blogspot.com/2008/07/technologies-behind-google-ranking.html008 - comprendre la requête de l’internaute Correcteur orthographique: « [kofee annan] is really searching for Mr. Kofi Annan, and is prompted: Did you mean: kofi annan;“ Synonymes: “e.g., it knows that the word 'Dr' in the query [Dr Zhivago] stands for Doctor whereas in [Rodeo Dr] it means Drive.” Dollara.fr - 2013

Illustration avec Google Source: Amit Singhal, Technologies behind Google ranking , 7/16/2, http://googleblog.blogspot.com/2008/07/technologies-behind-google-ranking.html008 - Comprendre l’internaute lui-même Système de localisation : la même question ne donnera pas la même réponse selon le pays d’où elle est posée. Dollara.fr - 2013

5. Les moteurs n’interrogent qu’une partie de leur index : il ne faut absolument pas se fier aux premières estimations des moteurs - les moteurs ne communiquent plus sur la taille de leur index depuis 2005 : la performance d’un moteur réside dans la qualité et non la quantité. - poursuite des efforts pour augmenter la couverture de leur index et réduire le délai de rafraîchissement des pages (certains moteurs travaillent sur le temps réel et indexent des documents dès leur mise en ligne sur le web). Dollara.fr - 2013

Exemple sur Google: Mettre les préférences de recherche à 100 résultats par page (! Désactiver la recherche instantanée) Requête: élasticimétrie Résultats annoncés: 15700 En page 6, on a: Dollara.fr - 2013

3 raisons justifiant cela: Si on relance la recherche , on a 10 000 résultats au lieu de 15700: (la page 10 est la dernière page) 3 raisons justifiant cela: - la lutte contre le spam (filtrage des résultats) - l’optimisation des temps de réponse - la réduction des coûts (Les serveurs informatiques, ogres énergivores, Fabrice Nodé-Langlois, 22/04/2010, http://www.lefigaro.fr) Dollara.fr - 2013

Exercice sur la fonction "Pages en langue étrangère traduite "Comment localiser des associations dans le domaine de l'énergie en Espagne ?" Dollara.fr - 2013

Quel est le modèle économique ? Dollara.fr - 2013

les moteurs de recherche proposent gratuitement leurs services aux internautes les revenus publicitaires représentent la plus grande source de financement des moteurs (98% pour Google). présence de liens sponsorisés ou liens commerciaux : les annonces sont contextualisées, c’est-à-dire en rapport avec les mots-clés utilisés pour la recherche par l’internaute. L’annonceur n’est facturé que ci celui-ci clique sur le lien publicitaire selon le principe du « coût par clic » ou CPC. Dollara.fr - 2013

certains mots-clés étant plus demandés que d’autres, un système d’enchères régule l’ensemble (des sociétés achètent aux enchères certains mots clés afin de se retrouver dans les premiers résultats d'une requête comprenant ce mot) Google va très loin dans ce principe de gratuité pour l’utilisateur financée par les revenus publicitaires, en proposant de très nombreux produits et services à ses usagers. Dollara.fr - 2013

Quelles sont les statistiques ? Dollara.fr - 2013

nette domination mondiale du moteur Google ; accord de partenariat sur 10 ans entre Yahoo! et Microsoft en été 2009. Bing est le nouveau moteur de recherche utilisé sur les sites de Yahoo! partout dans le monde ; de nombreux sites moteurs ou répertoires travaillent avec des bases de pages crawlées ou des répertoires de sites et des technologies appartenant à d’autres. Exemple : Mozbot est développé à partir de l’index de Google - http://www.mozbot.fr Dollara.fr - 2013

plusieurs moteurs d’origine américaine, comme Google, Yahoo plusieurs moteurs d’origine américaine, comme Google, Yahoo!, Bing ou Ask existent également en version française ; l’index est sensiblement équivalent entre la version française et américaine, mais les réponses en français vont généralement être privilégiées ; « much ado about nothing » : plusieurs moteurs qui ont fait parler d’eux ont fermé leurs portes (Wikia Search) ou bien ont des audiences très marginales (Exalead, Cuil, Gigablast) ; émergence de moteurs spécialisés par pays : Baidu, moteur chinois, Yandex, moteur russe importance accrue de marchés spécifiques à la téléphonie mobile (contrats liant les fabricants de téléphones aux moteurs leaders) et aux réseaux sociaux (partenariat entre Bing et Facebook). Dollara.fr - 2013

Dollara.fr - 2013

Les moteurs disparus depuis 2001 Infoseek Ecila Excite (en tant que technologie moteur) ; il vivote sous la forme d’un portail. Webtop (Dialog) Lokace et Northern Light Teoma (racheté en 2001 par Ask) Altavista et Alltheweb (en tant qu’entités développant leurs propres technologies) ; en 2003, Yahoo a racheté Overture, propriétaire du moteur Altavista et de la division Web Search de Fast, l’éditeur du moteur Alltheweb. Dollara.fr - 2013

Les moteurs disparus depuis 2001 Inktomi, racheté par Yahoo! en 2003 Ask (racheté en 2005 par InterActiveCorp) Wisenut en 2007 Accoona Powerset (spécialisé en « langage naturel ») racheté par Live Search en 2008 Arrêt en tant que moteur Web de la technologie Ask; Ask évolue vers des marchés de niche, développant son service de questions-réponses et l’accès à des services structurés. Wikia Search en 2009 Alltheweb en avril 2011 Dollara.fr - 2013

Il existe de nombreux baromètres dont la vocation est de mesurer, au fil des mois, l’évolution des parts de marché des principaux outils de recherche. AT Internet http://www.atinternet.fr/ressources/ressources/etudes-publiques/barometre-des-moteurs/ Permet de suivre les principales évolutions des parts de visites des moteurs en Allemagne, en Espagne, en France et au Royaume-Uni sur l’ensemble des visites provenant des moteurs de recherche. Dollara.fr - 2013

comScore Releases July 2012 U.S. Search Engine Rankings http://www.comscore.com/fre/Press_Events/Press_Releases/2012/8/comScore_Releases_July_2012_U.S._Search_Engine_Rankings Dollara.fr - 2013

Focus sur Google raisons du décollage : rapidité, simplicité, orientation pur moteur, tri de pertinence révolutionnaire raisons du maintien : avalanches d’innovations, de nouveaux produits et de nouveaux services, soit par création directe, soit par rachat d’entreprises ; la société va toujours plus loin : achat d’un satellite pour améliorer Google Earth, toujours plus de photographies des rues pour améliorer Google Street View ; fonctionnalités récentes : à partir de la page de résultats, options de filtrage des résultats et fonctionnalités supplémentaires Dollara.fr - 2013

Dollara.fr - 2013

Quelle méthodologie de recherche dans un moteur Quelle méthodologie de recherche dans un moteur ? Deux approches et des outils d’aide à la formulation Dollara.fr - 2013

Deux approches : - utiliser le moteur pour identifier des sources pertinentes, des sources susceptibles de répondre => les mots clés devront être relativement génériques (énergie renouvelable) Objectif : - repérer quelques sites à explorer Conseil : affichage de 100 documents par page. Pour ce type de requête, on pourrait interroger un répertoire. - se connecter à un site que l’on connaît mais que l’on n’a pas enregistré dans ses favoris. Dollara.fr - 2013

- utiliser le moteur pour localiser le document pertinent => les mots clés devront être relativement précis. Réfléchir aux mots susceptibles de se trouver dans le texte intégral des pages web. Selon le nombre de pages obtenues, on affinera la requête en ajoutant des mots clés, en utilisant des opérateurs avancés, en supprimant des mots clés et en ajoutant des synonymes, etc. => du choix des mots clés dépendra la pertinence des résultats Dollara.fr - 2013

Précisions sur cette deuxième approche : Étape 1 de la formulation: bien formuler sa requête: prendre garde aux guillemets, aux accents et aux diverses formes des mots-clés. Étape 2 de la formulation : analyse des résultats de recherche. Si trop de résultats : affiner sa requête en utilisant les différents opérateurs (recherche sur le titre, le nom de domaine, l’URL, etc.). Dollara.fr - 2013

Conseils Pour affiner la recherche, entrer les opérateurs directement dans le champ de recherche du moteur et ne pas utiliser la formulaire de recherche avancée. Exemple : rechercher l’expression « bibliothèques numériques » dans le titre des pages et le mot France dans le reste de la page. => Impossible avec les formulaire de recherche avancée Dollara.fr - 2013

Des outils d’aide à la formulation - Fonction Did you mean? - Termes associés d’Exalead À la requête : « énergie des marées » Choix de cliquer sur le terme pour les rajouter à la requête ou au contraire l’exclure : chaque ajout ou suppression génère l’affichage d’une nouvelle liste de termes associés. Dollara.fr - 2013

générateur de mots clés de Google bfr.li/fdl5ko Des outils d’aide à la formulation pour les professionnels du référencement et pour les webmasters : générateur de mots clés de Google bfr.li/fdl5ko Kwmap http://www.kwmap.com Google Trends http://www.google.fr/trends Dollara.fr - 2013

Quelle syntaxe d’interrogation des moteurs ? Dollara.fr - 2013

Syntaxe : règles définissant la manière d’interroger un moteur, la manière d’écrire les mots clés. - variable selon chaque moteur - mais on retrouve quelques constantes dans quasiment tous les outils. Dollara.fr - 2013

Conseils pour la recherche simple Utiliser des mots aussi PRECIS que possible, dans la langue des documents que l’on recherche (se demander quels mots doivent être présents dans le document recherché) 1ère recherche sans guillemets ,en affichant 100 résultats / page; évaluer les résultats puis modifier la requête en conséquence Dollara.fr - 2013

Conseils pour la recherche simple Lors de l’utilisation des guillemets, penser à «élargir» la recherche: « Daniel Arasse » OR « Arasse Daniel » OR « D Arasse » OR « Arasse D», etc. «textile technique » OR « textiles techniques » Ecrire de préférence les mots avec leurs accents Comparer les formes pluriels et singuliers (ex. pluriel OR singulier) Dollara.fr - 2013

Conseils pour la recherche avancée Si le nombre de résultat est trop grand : Chercher dans le titre des pages web Identifier des documents spécifiques Restreindre à certains types de sites Chercher dans l’URL Combiner les critères de recherche Dollara.fr - 2013

Fiche pratique moteurs Fiche pratique booléens Fiche pratique tableau comparatif Dollara.fr - 2013

Qu’entend-on par Web invisible ? Dollara.fr - 2013

Terminologie : Web profond, Web caché par opposition au Web visible ou Web de surface Gary Price & Chris Sherman (July 2001). The Invisible Web : Uncovering Information Sources Search Engines Can't See. CyberAge Books . Le Web invisible désigne l’ensemble des pages non localisables et/ou non indexables par les moteurs ou métamoteurs. Dollara.fr - 2013

Gary Price & Chris Sherman distinguent quatre niveaux d’invisibilité: the Opaque Web: constitué des pages qui pourraient être indexées par les moteurs, mais qui ne le sont pas pour des raisons diverses : - limitation des pages indexées pour un même site - indice de popularité de la page est faible et le moteur ne l’a pas découverte, etc. Dollara.fr - 2013

the Private Web: pages interdites aux moteurs (volonté du webmestre) the Proprietary Web: pages nécessitant une identification de la part de l’internaute (exemple de nombreux sites scientifiques) the Truly Invisible Web: constitue la majeure partie du web invisible. Il s’agit des pages non indexées par les moteurs pour des raisons techniques (pages dynamiques essentiellement) Dollara.fr - 2013

Aucune étude récente ne permet d’estimer la taille du web. La dernière étude classait les sites du web profond dans 12 catégories : (Source: The Deep Web: Surfacing Hidden Value, by MICHAEL K. BERGMAN, Monday, September 24, 2001, http://brightplanet.com/images/uploads/12550176481-deepwebwhitepaper.pdf) - les bases de données spécialisées dans des domaines comme les brevets, la médecine, les informations financières sur les entreprises, appels d’offres, informations juridiques, etc. (54% des sites du web invisible) - sites web construits autour d’une base de données internes (13%) - banques de données de presse (11%) - sites de vente en ligne, sites de petites annonces, portails sectoriels, bibliothèques, annuaires du type « pages jaunes » ou « pages blanches », bases de CV, etc. Dollara.fr - 2013

Cinq pistes de recherche s’offrent : - dans les répertoires de bases de données, de contenus de type livre blanc - dans les répertoires généralistes ou plus thématiques, voire listes de ressources très spécialisées proposées par des experts - sur des métamoteurs spécialisés (Scirus pour les sciences, Trabber pour les vols et les hôtels) - sur des moteurs ou métamoteurs classiques du Web en utilisant des mots-clés comme « base de données », database, preprint, « white paper », « livre blanc », etc. Dollara.fr - 2013

Cinq pistes de recherche s’offrent : - sur des réservoirs d’information particuliers comme les sites d’archives ouvertes ou de dépôt de thèses. - interroger les moteurs internes de sites de presse, entreprises... la requête suivante dans un moteur : insulin site:www.thelancet.com ne ramène pas du tout les mêmes résultats que la requête insulin dans le moteur du site The Lancet lui-même. Dollara.fr - 2013

Les moteurs indexent de plus en plus de documents du web invisible - indexation de nouveaux formats de fichiers - partenariats avec les éditeurs de banques de données Dollara.fr - 2013

Exemple de l’Inist : accord signé avec Google en 2006, puis en 2007 avec Exalead. des références issues du catalogue de documents pour le chercheurs sont indexées (Refdoc.fr http://cat.inist.fr) soit 17 millions de références bibliographiques (depuis 1973) issues des collections du fonds documentaire de l'Inist-Cnrs et couvrant l'ensemble des champs de la recherche mondiale en science, technologie, médecine, sciences humaines et sociales. Dollara.fr - 2013

"identité numérique" "procédures judiciaires« Exemple de requête : "identité numérique" "procédures judiciaires«  Cette référence n’apparait pas dans les premiers résultats de Bing Dollara.fr - 2013

Exemples de métamoteurs Dollara.fr - 2013

Apparition à la fin des années 1990 Apparition à la fin des années 1990. Les métamoteurs interrogent simultanément plusieurs moteurs de recherche et/ou répertoires et compilent les résultats avant de les présenter en éliminant les éventuels doublons, et en calculant un nouveau tri de pertinence. Ils ne maintiennent donc pas de base de données, mais ne font que transmettre la requête aux outils utilisés. Dollara.fr - 2013

Ont connu leur âge d’or au début des années 2000, lorsque les moteurs cherchaient tous à avoir l’index le plus grand. Plusieurs raisons expliquent la désaffection actuelle du public pour ce type d’outil: - prédominance de Google - peu de de possibilités de recherche: la requête envoyée aux moteurs et annuaires doit être comprise par chacun; or, chacun a sa propre syntaxe. La requête est par conséquent réduite au plus petit dénominateur commun (souvent quelques mots reliés par AND et OR) Dollara.fr - 2013

- l’interprétation des résultats est rendue plus difficile : comment interpréter l’absence de résultats en provenance d’un moteur? Ce dernier n’a aucune réponse, ou bien ‘a-t-il pas répondu? - Google refuse de plus en plus d’être interrogé par les métamoteurs qui utilisent les ressources informatiques du moteur et rapatrient les résultats sans cliquer sur les liens sponsorisés. Cela diminue donc l’attrait pour les utilisateurs. Dollara.fr - 2013

- de façon générale, on obtient des résultats plus pertinents en tirant parti des fonctions avancées d’un moteur qu’en interrogeant de façon basique un métamoteur. Dollara.fr - 2013

Les arguments en faveur des métamoteurs : - lorsqu’une requête est simple et génère peu de réponses sur un moteur, il convient d’interroger d’autres outils (moteurs, répertoires, etc.), comparer et dédoublonner les résultats. On peut gagner du temps avec un métamoteur. - La consultation d’un métamoteur peut être intéressante lorsque l’on souhaite avoir un premier aperçu d’un sujet, puisqu’il affichera les meilleurs résultats identifiés pour les différents outils. - Certains métamoteurs disposent de fonctionnalités particulières au niveau de l’analyse des résultats (clusterisation) et de la présentation des résultats. Dollara.fr - 2013

Quelques métamoteurs http://twingine.no Interroge Bing et Yahoo! Pas de tri, ni de dédoublonnage des résultats. Dollara.fr - 2013

http://harvester42.fzk.de Développé par le Liebel-Lab de l’Institut de technologie de Karlsruhe Interroge une cinquantaine de banques de données et de moteurs spécialisés Pas de tri, ni de dédoublonnage des résultats. Dollara.fr - 2013

http://spezify. com Origine suédoise http://spezify.com Origine suédoise. Interface innovante comportant des pages web, des images, des vidéos, etc. Collecte des données auprès de moteurs généralistes, de sites communautaires (Digg) et d’autres sites. Dollara.fr - 2013