La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Accéder aux informations nécessaires avec efficience

Présentations similaires


Présentation au sujet: "Accéder aux informations nécessaires avec efficience"— Transcription de la présentation:

1 Accéder aux informations nécessaires avec efficience
Dollara.fr

2 Mode de recherche : recherche par mots-clés Outils : moteurs et métamoteurs
Dollara.fr

3 Principales sources utilisées Recherche éveillée sur Internet : mode d'emploi : outils et méthodes pour explorer le Web : Web visible, Web invisible, Web social, Web temps réel Foenix-Riou, Béatrice - Paris : Lavoisier : Bases publications, DL 2011 Dollara.fr

4 Principales sources utilisées Net recherche 2010 : le guide pratique pour mieux trouver l'information utile et surveiller le web Véronique Mesguich et Armelle Thomas. Préface d'Olivier Andrieu Collection : Sciences et techniques de l'information, 2010. Dollara.fr

5 Caractéristiques du contexte
ce mode de recherche s’est largement imposée devant les autres modes de recherche ; plébiscitée par les internautes pour sa simplicité ; démocratisation de la pratique de la recherche d’information, réduction de la « fracture numérique » ; MAIS, baisse globale de la qualité des recherches : pour être efficace, cette méthode induit généralement un travail conséquent en amont décrit ci-dessous. Dollara.fr

6 De quoi s’agit-il ? Dollara.fr

7 De la recherche par mots-clés sur le texte intégral des pages Web via des moteurs ou métamoteurs de façon automatique. L’utilisateur saisit un ou plusieurs mots-clés dans le formulaire La requête est lancée sur le texte intégral des pages enregistrées par le moteur (La page de résultats affiche la liste et les extraits des (copies de) pages contenant le(s)mot(s)-clé(s) (à la date de l’indexation) Un clic sur le titre affiche la page aujourd’hui sur le Web Dollara.fr

8 Analyse de la présentation des résultats
Dollara.fr

9 Dollara.fr

10 Quand utiliser ce mode de recherche ?
Dollara.fr

11 Résultats convaincants pour les questions factuelles (adresse, dates, etc.)
pour des questions très générales (avoir une idée d’ensemble sur un sujet) Dollara.fr

12 Comment fonctionne un moteur et quelles sont les incidences sur la recherche ?
Dollara.fr

13 Le moteur est constitué de trois éléments :
un robot ou bot/crawler/spider qui parcourt le web de liens en liens. Il parcourt le contenu des sites Web à intervalles réguliers et de façon automatique. Il teste tous les liens hypertextes et fait une copie des pages visitées sur une base de données structurée. Dollara.fr

14 Il se connecte aussi à toutes les pages soumises par les éditeurs de sites (référencement) Le robot n’indexera pas forcément toutes les pages d’un site. Dollara.fr

15 Mise à jour de la base de données (délai de rafraîchissement) : - varie selon les moteurs et selon le type de pages - de quelques secondes à plusieurs mois - les pages issues de blogs ou de sites de microblogging sont indexés en temps quasi réel - une page régulièrement mise à jour et souvent consultée sera visitée beaucoup plus fréquemment. Dollara.fr

16 un index Il s’occupe de l’indexation automatique des pages Web collectées par le robot pour construire l’index de la base de données ainsi constituée par exploration successive. Il contient tous les mots de toutes les pages rapatriées par le robot.  Il contient la copie des pages telles qu’elles étaient le jour de la visite du robot. Il indexe donc: le texte intégral de la page, l’URL et les différentes balises méta (titre, mot clé, etc.) Dollara.fr

17 Elle met en relation le système et l’usager.
une interface web Elle met en relation le système et l’usager. L’usager peut lancer une requête par mots sur l’index du moteur, à l’aide d’une syntaxe propre à chaque moteur. Dollara.fr

18 Google me permet-il de retrouver une page consultée il y a un an ?
Je recherche la page Contenant des informations sur les établissements collaborateurs de l’organisme Dollara.fr

19 Google me permet-il de retrouver une page consultée il y a un an ?
Les moteurs n’archivent pas les documents qui ont été modifiés ou qui ont disparu. Ce n’est pas parce que vous avez vu une page un jour sur le Web que vous la retrouverez forcément. La solution de recours pour retrouver une page disparue : la « Wayback Machine » sur le site Fondé en 1996, Internet Archive est un organisme à but non lucratif, dont l’objectif est de constituer une bibliothèque de pages web accessible de façon permanente. La bibliothèque regroupe plus de 150 milliards de pages web archivées depuis 1996. Dollara.fr

20 Fonctionnalités disponibles sur un moteur
Consulter les aides en ligne. Les recherches sont-elles effectuées de manière anonyme sur les moteurs ? Les moteurs de recherche disposent de l’historique des mots-clés recherchés par les usagers sur leur index ; l’internaute est identifié par son adresse IP. Les données sont censées être détruites après un temps plus ou moins long. Dollara.fr

21 Incidences sur la recherche
1.une requête par mots clés sur un moteur va chercher sur son index, qui contient le texte de toutes les pages rapatriées par le robot. Dollara.fr

22 Dollara.fr

23 2. la requête doit être formulée de manière très précise si l’on ne veut pas avoir trop de bruit.
Dollara.fr

24 3. La page actuelle peut être différente de celle indexées par le robot: effacée, mise à jour, déplacée on peut cliquer sur le titre d’un résultat et avoir le message « Erreur 404 page not found » OU les snippets (extraits des pages copiés par le robot) ne sont pas trouvables sur la page actuelle Dollara.fr

25 => d’où l’intérêt de consulter les pages « En cache » : copie de la page dans l’index du moteur, c’est-à-dire une reproduction de la page telle qu’elle était lors de la dernière visite du robot. Dollara.fr

26 4. il est nécessaire d’interroger plusieurs moteurs :
- ils n’ont pas la même couverture du web - ils utilisent des algorithmes de classement différents - la recherche se fait sur l’index du moteur-sur la copie des pages telles qu’elles étaient lorsqu’il les a copiées Cf Fiche pratique algorithme de pertinence Dollara.fr

27 Essayez sur Google et Bing avec la requête: Pollution air
- L’interrogation de plusieurs moteurs à l’aide d’une même requête donne des premières pages de résultats trèsdifférents. Essayez sur Google et Bing avec la requête: Pollution air Dollara.fr

28 Illustration avec Google
Source: Amit Singhal, Technologies behind Google ranking , 7/16/2, Google explique en 2008 l’évolution de ces critères de classification : les attentes des utilisateurs sont passées de « donnez-moi ce que je dis » à « donnez-moi ce que je veux ». Google a donc fait évoluer sa technologie autour de trois points : - comprendre le contenu des pages web : « We find the official homepage for Sprovieri Gallery in London for the Italian query [galleria sprovieri londra], even though the official page does not have either London or Londra on it. ” Dollara.fr

29 Illustration avec Google
Source: Amit Singhal, Technologies behind Google ranking , 7/16/2, - comprendre la requête de l’internaute Correcteur orthographique: « [kofee annan] is really searching for Mr. Kofi Annan, and is prompted: Did you mean: kofi annan;“ Synonymes: “e.g., it knows that the word 'Dr' in the query [Dr Zhivago] stands for Doctor whereas in [Rodeo Dr] it means Drive.” Dollara.fr

30 Illustration avec Google
Source: Amit Singhal, Technologies behind Google ranking , 7/16/2, - Comprendre l’internaute lui-même Système de localisation : la même question ne donnera pas la même réponse selon le pays d’où elle est posée. Dollara.fr

31 5. Les moteurs n’interrogent qu’une partie de leur index : il ne faut absolument pas se fier aux premières estimations des moteurs - les moteurs ne communiquent plus sur la taille de leur index depuis 2005 : la performance d’un moteur réside dans la qualité et non la quantité. - poursuite des efforts pour augmenter la couverture de leur index et réduire le délai de rafraîchissement des pages (certains moteurs travaillent sur le temps réel et indexent des documents dès leur mise en ligne sur le web). Dollara.fr

32 Exemple sur Google: Mettre les préférences de recherche à 100 résultats par page (! Désactiver la recherche instantanée) Requête: élasticimétrie Résultats annoncés: En page 6, on a: Dollara.fr

33 3 raisons justifiant cela:
Si on relance la recherche , on a résultats au lieu de 15700: (la page 10 est la dernière page) 3 raisons justifiant cela: - la lutte contre le spam (filtrage des résultats) - l’optimisation des temps de réponse - la réduction des coûts (Les serveurs informatiques, ogres énergivores, Fabrice Nodé-Langlois, 22/04/2010, Dollara.fr

34 Exercice sur la fonction "Pages en langue étrangère traduite
"Comment localiser des associations dans le domaine de l'énergie en Espagne ?" Dollara.fr

35 Quel est le modèle économique ?
Dollara.fr

36 les moteurs de recherche proposent gratuitement leurs services aux internautes
les revenus publicitaires représentent la plus grande source de financement des moteurs (98% pour Google). présence de liens sponsorisés ou liens commerciaux : les annonces sont contextualisées, c’est-à-dire en rapport avec les mots-clés utilisés pour la recherche par l’internaute. L’annonceur n’est facturé que ci celui-ci clique sur le lien publicitaire selon le principe du « coût par clic » ou CPC. Dollara.fr

37 certains mots-clés étant plus demandés que d’autres, un système d’enchères régule l’ensemble (des sociétés achètent aux enchères certains mots clés afin de se retrouver dans les premiers résultats d'une requête comprenant ce mot) Google va très loin dans ce principe de gratuité pour l’utilisateur financée par les revenus publicitaires, en proposant de très nombreux produits et services à ses usagers. Dollara.fr

38 Quelles sont les statistiques ?
Dollara.fr

39 nette domination mondiale du moteur Google ;
accord de partenariat sur 10 ans entre Yahoo! et Microsoft en été Bing est le nouveau moteur de recherche utilisé sur les sites de Yahoo! partout dans le monde ; de nombreux sites moteurs ou répertoires travaillent avec des bases de pages crawlées ou des répertoires de sites et des technologies appartenant à d’autres. Exemple : Mozbot est développé à partir de l’index de Google - Dollara.fr

40 plusieurs moteurs d’origine américaine, comme Google, Yahoo
plusieurs moteurs d’origine américaine, comme Google, Yahoo!, Bing ou Ask existent également en version française ; l’index est sensiblement équivalent entre la version française et américaine, mais les réponses en français vont généralement être privilégiées ; « much ado about nothing » : plusieurs moteurs qui ont fait parler d’eux ont fermé leurs portes (Wikia Search) ou bien ont des audiences très marginales (Exalead, Cuil, Gigablast) ; émergence de moteurs spécialisés par pays : Baidu, moteur chinois, Yandex, moteur russe importance accrue de marchés spécifiques à la téléphonie mobile (contrats liant les fabricants de téléphones aux moteurs leaders) et aux réseaux sociaux (partenariat entre Bing et Facebook). Dollara.fr

41 Dollara.fr

42 Les moteurs disparus depuis 2001 Infoseek Ecila
Excite (en tant que technologie moteur) ; il vivote sous la forme d’un portail. Webtop (Dialog) Lokace et Northern Light Teoma (racheté en 2001 par Ask) Altavista et Alltheweb (en tant qu’entités développant leurs propres technologies) ; en 2003, Yahoo a racheté Overture, propriétaire du moteur Altavista et de la division Web Search de Fast, l’éditeur du moteur Alltheweb. Dollara.fr

43 Les moteurs disparus depuis 2001 Inktomi, racheté par Yahoo! en 2003
Ask (racheté en 2005 par InterActiveCorp) Wisenut en 2007 Accoona Powerset (spécialisé en « langage naturel ») racheté par Live Search en 2008 Arrêt en tant que moteur Web de la technologie Ask; Ask évolue vers des marchés de niche, développant son service de questions-réponses et l’accès à des services structurés. Wikia Search en 2009 Alltheweb en avril 2011 Dollara.fr

44 Il existe de nombreux baromètres dont la vocation est de mesurer, au fil des mois, l’évolution des parts de marché des principaux outils de recherche. AT Internet Permet de suivre les principales évolutions des parts de visites des moteurs en Allemagne, en Espagne, en France et au Royaume-Uni sur l’ensemble des visites provenant des moteurs de recherche. Dollara.fr

45 comScore Releases July 2012 U.S. Search Engine Rankings
Dollara.fr

46 Focus sur Google raisons du décollage : rapidité, simplicité, orientation pur moteur, tri de pertinence révolutionnaire raisons du maintien : avalanches d’innovations, de nouveaux produits et de nouveaux services, soit par création directe, soit par rachat d’entreprises ; la société va toujours plus loin : achat d’un satellite pour améliorer Google Earth, toujours plus de photographies des rues pour améliorer Google Street View ; fonctionnalités récentes : à partir de la page de résultats, options de filtrage des résultats et fonctionnalités supplémentaires Dollara.fr

47 Dollara.fr

48 Quelle méthodologie de recherche dans un moteur
Quelle méthodologie de recherche dans un moteur ? Deux approches et des outils d’aide à la formulation Dollara.fr

49 Deux approches : - utiliser le moteur pour identifier des sources pertinentes, des sources susceptibles de répondre => les mots clés devront être relativement génériques (énergie renouvelable) Objectif : - repérer quelques sites à explorer Conseil : affichage de 100 documents par page. Pour ce type de requête, on pourrait interroger un répertoire. - se connecter à un site que l’on connaît mais que l’on n’a pas enregistré dans ses favoris. Dollara.fr

50 - utiliser le moteur pour localiser le document pertinent => les mots clés devront être relativement précis. Réfléchir aux mots susceptibles de se trouver dans le texte intégral des pages web. Selon le nombre de pages obtenues, on affinera la requête en ajoutant des mots clés, en utilisant des opérateurs avancés, en supprimant des mots clés et en ajoutant des synonymes, etc. => du choix des mots clés dépendra la pertinence des résultats Dollara.fr

51 Précisions sur cette deuxième approche : Étape 1 de la formulation: bien formuler sa requête: prendre garde aux guillemets, aux accents et aux diverses formes des mots-clés. Étape 2 de la formulation : analyse des résultats de recherche. Si trop de résultats : affiner sa requête en utilisant les différents opérateurs (recherche sur le titre, le nom de domaine, l’URL, etc.). Dollara.fr

52 Conseils Pour affiner la recherche, entrer les opérateurs directement dans le champ de recherche du moteur et ne pas utiliser la formulaire de recherche avancée. Exemple : rechercher l’expression « bibliothèques numériques » dans le titre des pages et le mot France dans le reste de la page. => Impossible avec les formulaire de recherche avancée Dollara.fr

53 Des outils d’aide à la formulation
- Fonction Did you mean? - Termes associés d’Exalead À la requête : « énergie des marées » Choix de cliquer sur le terme pour les rajouter à la requête ou au contraire l’exclure : chaque ajout ou suppression génère l’affichage d’une nouvelle liste de termes associés. Dollara.fr

54 générateur de mots clés de Google bfr.li/fdl5ko
Des outils d’aide à la formulation pour les professionnels du référencement et pour les webmasters : générateur de mots clés de Google bfr.li/fdl5ko Kwmap Google Trends Dollara.fr

55 Quelle syntaxe d’interrogation des moteurs ?
Dollara.fr

56 Syntaxe : règles définissant la manière d’interroger un moteur, la manière d’écrire les mots clés. - variable selon chaque moteur - mais on retrouve quelques constantes dans quasiment tous les outils. Dollara.fr

57 Conseils pour la recherche simple
Utiliser des mots aussi PRECIS que possible, dans la langue des documents que l’on recherche (se demander quels mots doivent être présents dans le document recherché) 1ère recherche sans guillemets ,en affichant 100 résultats / page; évaluer les résultats puis modifier la requête en conséquence Dollara.fr

58 Conseils pour la recherche simple
Lors de l’utilisation des guillemets, penser à «élargir» la recherche: « Daniel Arasse » OR « Arasse Daniel » OR « D Arasse » OR « Arasse D», etc. «textile technique » OR « textiles techniques » Ecrire de préférence les mots avec leurs accents Comparer les formes pluriels et singuliers (ex. pluriel OR singulier) Dollara.fr

59 Conseils pour la recherche avancée
Si le nombre de résultat est trop grand : Chercher dans le titre des pages web Identifier des documents spécifiques Restreindre à certains types de sites Chercher dans l’URL Combiner les critères de recherche Dollara.fr

60 Fiche pratique moteurs Fiche pratique booléens
Fiche pratique tableau comparatif Dollara.fr

61 Qu’entend-on par Web invisible ?
Dollara.fr

62 Terminologie : Web profond, Web caché par opposition au Web visible ou Web de surface
Gary Price & Chris Sherman (July 2001). The Invisible Web : Uncovering Information Sources Search Engines Can't See. CyberAge Books . Le Web invisible désigne l’ensemble des pages non localisables et/ou non indexables par les moteurs ou métamoteurs. Dollara.fr

63 Gary Price & Chris Sherman distinguent quatre niveaux d’invisibilité:
the Opaque Web: constitué des pages qui pourraient être indexées par les moteurs, mais qui ne le sont pas pour des raisons diverses : - limitation des pages indexées pour un même site - indice de popularité de la page est faible et le moteur ne l’a pas découverte, etc. Dollara.fr

64 the Private Web: pages interdites aux moteurs (volonté du webmestre)
the Proprietary Web: pages nécessitant une identification de la part de l’internaute (exemple de nombreux sites scientifiques) the Truly Invisible Web: constitue la majeure partie du web invisible. Il s’agit des pages non indexées par les moteurs pour des raisons techniques (pages dynamiques essentiellement) Dollara.fr

65 Aucune étude récente ne permet d’estimer la taille du web.
La dernière étude classait les sites du web profond dans 12 catégories : (Source: The Deep Web: Surfacing Hidden Value, by MICHAEL K. BERGMAN, Monday, September 24, 2001, - les bases de données spécialisées dans des domaines comme les brevets, la médecine, les informations financières sur les entreprises, appels d’offres, informations juridiques, etc. (54% des sites du web invisible) - sites web construits autour d’une base de données internes (13%) - banques de données de presse (11%) - sites de vente en ligne, sites de petites annonces, portails sectoriels, bibliothèques, annuaires du type « pages jaunes » ou « pages blanches », bases de CV, etc. Dollara.fr

66 Cinq pistes de recherche s’offrent : - dans les répertoires de bases de données, de contenus de type livre blanc - dans les répertoires généralistes ou plus thématiques, voire listes de ressources très spécialisées proposées par des experts - sur des métamoteurs spécialisés (Scirus pour les sciences, Trabber pour les vols et les hôtels) - sur des moteurs ou métamoteurs classiques du Web en utilisant des mots-clés comme « base de données », database, preprint, « white paper », « livre blanc », etc. Dollara.fr

67 Cinq pistes de recherche s’offrent : - sur des réservoirs d’information particuliers comme les sites d’archives ouvertes ou de dépôt de thèses. - interroger les moteurs internes de sites de presse, entreprises... la requête suivante dans un moteur : insulin site:www.thelancet.com ne ramène pas du tout les mêmes résultats que la requête insulin dans le moteur du site The Lancet lui-même. Dollara.fr

68 Les moteurs indexent de plus en plus de documents du web invisible
- indexation de nouveaux formats de fichiers - partenariats avec les éditeurs de banques de données Dollara.fr

69 Exemple de l’Inist : accord signé avec Google en 2006, puis en 2007 avec Exalead.
des références issues du catalogue de documents pour le chercheurs sont indexées (Refdoc.fr soit 17 millions de références bibliographiques (depuis 1973) issues des collections du fonds documentaire de l'Inist-Cnrs et couvrant l'ensemble des champs de la recherche mondiale en science, technologie, médecine, sciences humaines et sociales. Dollara.fr

70 "identité numérique" "procédures judiciaires«
Exemple de requête : "identité numérique" "procédures judiciaires«  Cette référence n’apparait pas dans les premiers résultats de Bing Dollara.fr

71 Exemples de métamoteurs
Dollara.fr

72 Apparition à la fin des années 1990
Apparition à la fin des années Les métamoteurs interrogent simultanément plusieurs moteurs de recherche et/ou répertoires et compilent les résultats avant de les présenter en éliminant les éventuels doublons, et en calculant un nouveau tri de pertinence. Ils ne maintiennent donc pas de base de données, mais ne font que transmettre la requête aux outils utilisés. Dollara.fr

73 Ont connu leur âge d’or au début des années 2000, lorsque les moteurs cherchaient tous à avoir l’index le plus grand. Plusieurs raisons expliquent la désaffection actuelle du public pour ce type d’outil: - prédominance de Google - peu de de possibilités de recherche: la requête envoyée aux moteurs et annuaires doit être comprise par chacun; or, chacun a sa propre syntaxe. La requête est par conséquent réduite au plus petit dénominateur commun (souvent quelques mots reliés par AND et OR) Dollara.fr

74 - l’interprétation des résultats est rendue plus difficile : comment interpréter l’absence de résultats en provenance d’un moteur? Ce dernier n’a aucune réponse, ou bien ‘a-t-il pas répondu? - Google refuse de plus en plus d’être interrogé par les métamoteurs qui utilisent les ressources informatiques du moteur et rapatrient les résultats sans cliquer sur les liens sponsorisés. Cela diminue donc l’attrait pour les utilisateurs. Dollara.fr

75 - de façon générale, on obtient des résultats plus pertinents en tirant parti des fonctions avancées d’un moteur qu’en interrogeant de façon basique un métamoteur. Dollara.fr

76 Les arguments en faveur des métamoteurs : - lorsqu’une requête est simple et génère peu de réponses sur un moteur, il convient d’interroger d’autres outils (moteurs, répertoires, etc.), comparer et dédoublonner les résultats. On peut gagner du temps avec un métamoteur. - La consultation d’un métamoteur peut être intéressante lorsque l’on souhaite avoir un premier aperçu d’un sujet, puisqu’il affichera les meilleurs résultats identifiés pour les différents outils. - Certains métamoteurs disposent de fonctionnalités particulières au niveau de l’analyse des résultats (clusterisation) et de la présentation des résultats. Dollara.fr

77 Quelques métamoteurs http://twingine.no Interroge Bing et Yahoo!
Pas de tri, ni de dédoublonnage des résultats. Dollara.fr

78 Développé par le Liebel-Lab de l’Institut de technologie de Karlsruhe Interroge une cinquantaine de banques de données et de moteurs spécialisés Pas de tri, ni de dédoublonnage des résultats. Dollara.fr

79 http://spezify. com Origine suédoise
Origine suédoise. Interface innovante comportant des pages web, des images, des vidéos, etc. Collecte des données auprès de moteurs généralistes, de sites communautaires (Digg) et d’autres sites. Dollara.fr


Télécharger ppt "Accéder aux informations nécessaires avec efficience"

Présentations similaires


Annonces Google