La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Accéder aux informations nécessaires avec efficience Dollara.fr - 2013.

Présentations similaires


Présentation au sujet: "Accéder aux informations nécessaires avec efficience Dollara.fr - 2013."— Transcription de la présentation:

1 Accéder aux informations nécessaires avec efficience Dollara.fr

2 Mode de recherche : recherche par mots-clés Outils : moteurs et métamoteurs Dollara.fr

3 Principales sources utilisées Recherche éveillée sur Internet : mode d'emploi : outils et méthodes pour explorer le Web : Web visible, Web invisible, Web social, Web temps réel Foenix-Riou, Béatrice - Paris : Lavoisier : Bases publications, DL 2011 Dollara.fr

4 Principales sources utilisées Net recherche 2010 : le guide pratique pour mieux trouver l'information utile et surveiller le web Véronique Mesguich et Armelle Thomas. Préface d'Olivier Andrieu Collection : Sciences et techniques de l'information, Dollara.fr

5 Caractéristiques du contexte ce mode de recherche sest largement imposée devant les autres modes de recherche ; plébiscitée par les internautes pour sa simplicité ; démocratisation de la pratique de la recherche dinformation, réduction de la « fracture numérique » ; MAIS, baisse globale de la qualité des recherches : pour être efficace, cette méthode induit généralement un travail conséquent en amont décrit ci-dessous. Dollara.fr

6 De quoi sagit-il ?

7 De la recherche par mots-clés sur le texte intégral des pages Web via des moteurs ou métamoteurs de façon automatique. Lutilisateur saisit un ou plusieurs mots-clés dans le formulaire La requête est lancée sur le texte intégral des pages enregistrées par le moteur (La page de résultats affiche la liste et les extraits des (copies de) pages contenant le(s)mot(s)-clé(s) (à la date de lindexation) Un clic sur le titre affiche la page aujourdhui sur le Web Dollara.fr

8 Analyse de la présentation des résultats Dollara.fr

9

10 Quand utiliser ce mode de recherche ?

11 Résultats convaincants pour les questions factuelles (adresse, dates, etc.) OU pour des questions très générales (avoir une idée densemble sur un sujet) Dollara.fr

12 Comment fonctionne un moteur et quelles sont les incidences sur la recherche ?

13 Le moteur est constitué de trois éléments : un robot ou bot/crawler/spider qui parcourt le web de liens en liens. Il parcourt le contenu des sites Web à intervalles réguliers et de façon automatique. Il teste tous les liens hypertextes et fait une copie des pages visitées sur une base de données structurée. Dollara.fr

14 Il se connecte aussi à toutes les pages soumises par les éditeurs de sites (référencement) Le robot nindexera pas forcément toutes les pages dun site. Dollara.fr

15 Mise à jour de la base de données (délai de rafraîchissement) : - varie selon les moteurs et selon le type de pages - de quelques secondes à plusieurs mois - les pages issues de blogs ou de sites de microblogging sont indexés en temps quasi réel - une page régulièrement mise à jour et souvent consultée sera visitée beaucoup plus fréquemment.

16 un index Il soccupe de lindexation automatique des pages Web collectées par le robot pour construire lindex de la base de données ainsi constituée par exploration successive. Il contient tous les mots de toutes les pages rapatriées par le robot. Il contient la copie des pages telles quelles étaient le jour de la visite du robot. Il indexe donc: le texte intégral de la page, lURL et les différentes balises méta (titre, mot clé, etc.) Dollara.fr

17 une interface web Elle met en relation le système et lusager. Lusager peut lancer une requête par mots sur lindex du moteur, à laide dune syntaxe propre à chaque moteur. Dollara.fr

18 Google me permet-il de retrouver une page consultée il y a un an ? Je recherche la page Contenant des informations sur les établissements collaborateurs de lorganisme Dollara.fr

19 Google me permet-il de retrouver une page consultée il y a un an ? Les moteurs narchivent pas les documents qui ont été modifiés ou qui ont disparu. Ce nest pas parce que vous avez vu une page un jour sur le Web que vous la retrouverez forcément. La solution de recours pour retrouver une page disparue : la « Wayback Machine » sur le site Fondé en 1996, Internet Archive est un organisme à but non lucratif, dont lobjectif est de constituer une bibliothèque de pages web accessible de façon permanente. La bibliothèque regroupe plus de 150 milliards de pages web archivées depuis Dollara.fr

20 Fonctionnalités disponibles sur un moteur Consulter les aides en ligne. Les recherches sont-elles effectuées de manière anonyme sur les moteurs ? Les moteurs de recherche disposent de lhistorique des mots-clés recherchés par les usagers sur leur index ; linternaute est identifié par son adresse IP. Les données sont censées être détruites après un temps plus ou moins long. Dollara.fr

21 1.une requête par mots clés sur un moteur va chercher sur son index, qui contient le texte de toutes les pages rapatriées par le robot. Dollara.fr Incidences sur la recherche

22 Dollara.fr

23 2. la requête doit être formulée de manière très précise si lon ne veut pas avoir trop de bruit. Dollara.fr

24 3. La page actuelle peut être différente de celle indexées par le robot: effacée, mise à jour, déplacée on peut cliquer sur le titre dun résultat et avoir le message « Erreur 404 page not found » OU les snippets (extraits des pages copiés par le robot) ne sont pas trouvables sur la page actuelle Dollara.fr

25 => doù lintérêt de consulter les pages « En cache » : copie de la page dans lindex du moteur, cest- à-dire une reproduction de la page telle quelle était lors de la dernière visite du robot. Dollara.fr

26 4. il est nécessaire dinterroger plusieurs moteurs : - ils nont pas la même couverture du web - ils utilisent des algorithmes de classement différents - la recherche se fait sur lindex du moteur-sur la copie des pages telles quelles étaient lorsquil les a copiées Cf Fiche pratique algorithme de pertinence Dollara.fr

27 - Linterrogation de plusieurs moteurs à laide dune même requête donne des premières pages de résultats trèsdifférents. Essayez sur Google et Bing avec la requête: Pollution air Dollara.fr

28 Illustration avec Google Source: Amit Singhal, Technologies behind Google ranking, 7/16/2, Google explique en 2008 lévolution de ces critères de classification : les attentes des utilisateurs sont passées de « donnez-moi ce que je dis » à « donnez-moi ce que je veux ». Google a donc fait évoluer sa technologie autour de trois points : - comprendre le contenu des pages web : « We find the official homepage for Sprovieri Gallery in London for the Italian query [galleria sprovieri londra], even though the official page does not have either London or Londra on it. Sprovieri Gallerygalleria sprovieri londra Dollara.fr

29 Illustration avec Google Source: Amit Singhal, Technologies behind Google ranking, 7/16/2, - comprendre la requête de linternaute Correcteur orthographique: « [kofee annan] is really searching for Mr. Kofi Annan, and is prompted: Did you mean: kofi annan;kofee annankofi annan Synonymes: e.g., it knows that the word 'Dr' in the query [Dr Zhivago] stands for Doctor whereas in [Rodeo Dr] it means Drive.Dr ZhivagoRodeo Dr Dollara.fr

30 Illustration avec Google Source: Amit Singhal, Technologies behind Google ranking, 7/16/2, - Comprendre linternaute lui-même Système de localisation : la même question ne donnera pas la même réponse selon le pays doù elle est posée. Dollara.fr

31 5. Les moteurs ninterrogent quune partie de leur index : il ne faut absolument pas se fier aux premières estimations des moteurs - les moteurs ne communiquent plus sur la taille de leur index depuis 2005 : la performance dun moteur réside dans la qualité et non la quantité. - poursuite des efforts pour augmenter la couverture de leur index et réduire le délai de rafraîchissement des pages (certains moteurs travaillent sur le temps réel et indexent des documents dès leur mise en ligne sur le web). Dollara.fr

32 Exemple sur Google: Mettre les préférences de recherche à 100 résultats par page (! Désactiver la recherche instantanée) Requête: élasticimétrie Résultats annoncés: En page 6, on a: Dollara.fr

33 Si on relance la recherche, on a résultats au lieu de 15700: (la page 10 est la dernière page) 3 raisons justifiant cela: - la lutte contre le spam (filtrage des résultats) - loptimisation des temps de réponse - la réduction des coûts (Les serveurs informatiques, ogres énergivores, Fabrice Nodé-Langlois, 22/04/2010, Dollara.fr

34 Exercice sur la fonction "Pages en langue étrangère traduite "Comment localiser des associations dans le domaine de l'énergie en Espagne ?" Dollara.fr

35 Quel est le modèle économique ?

36 les moteurs de recherche proposent gratuitement leurs services aux internautes les revenus publicitaires représentent la plus grande source de financement des moteurs (98% pour Google). présence de liens sponsorisés ou liens commerciaux : les annonces sont contextualisées, cest-à-dire en rapport avec les mots-clés utilisés pour la recherche par linternaute. Lannonceur nest facturé que ci celui-ci clique sur le lien publicitaire selon le principe du « coût par clic » ou CPC. Dollara.fr

37 certains mots-clés étant plus demandés que dautres, un système denchères régule lensemble (des sociétés achètent aux enchères certains mots clés afin de se retrouver dans les premiers résultats d'une requête comprenant ce mot) Google va très loin dans ce principe de gratuité pour lutilisateur financée par les revenus publicitaires, en proposant de très nombreux produits et services à ses usagers. Dollara.fr

38 Quelles sont les statistiques ?

39 nette domination mondiale du moteur Google ; accord de partenariat sur 10 ans entre Yahoo! et Microsoft en été Bing est le nouveau moteur de recherche utilisé sur les sites de Yahoo! partout dans le monde ; de nombreux sites moteurs ou répertoires travaillent avec des bases de pages crawlées ou des répertoires de sites et des technologies appartenant à dautres. Exemple : Mozbot est développé à partir de lindex de Google - Dollara.fr

40 plusieurs moteurs dorigine américaine, comme Google, Yahoo!, Bing ou Ask existent également en version française ; lindex est sensiblement équivalent entre la version française et américaine, mais les réponses en français vont généralement être privilégiées ; « much ado about nothing » : plusieurs moteurs qui ont fait parler deux ont fermé leurs portes (Wikia Search) ou bien ont des audiences très marginales (Exalead, Cuil, Gigablast) ; émergence de moteurs spécialisés par pays : Baidu, moteur chinois, Yandex, moteur russe importance accrue de marchés spécifiques à la téléphonie mobile (contrats liant les fabricants de téléphones aux moteurs leaders) et aux réseaux sociaux (partenariat entre Bing et Facebook). Dollara.fr

41

42 Les moteurs disparus depuis 2001 Infoseek Ecila Excite (en tant que technologie moteur) ; il vivote sous la forme dun portail. Webtop (Dialog) Lokace et Northern Light Teoma (racheté en 2001 par Ask) Altavista et Alltheweb (en tant quentités développant leurs propres technologies) ; en 2003, Yahoo a racheté Overture, propriétaire du moteur Altavista et de la division Web Search de Fast, léditeur du moteur Alltheweb. Dollara.fr

43 Les moteurs disparus depuis 2001 Inktomi, racheté par Yahoo! en 2003 Ask (racheté en 2005 par InterActiveCorp) Wisenut en 2007 Accoona Powerset (spécialisé en « langage naturel ») racheté par Live Search en 2008 Arrêt en tant que moteur Web de la technologie Ask; Ask évolue vers des marchés de niche, développant son service de questions-réponses et laccès à des services structurés. Wikia Search en 2009 Alltheweb en avril 2011 Dollara.fr

44 Il existe de nombreux baromètres dont la vocation est de mesurer, au fil des mois, lévolution des parts de marché des principaux outils de recherche. AT Internet publiques/barometre-des-moteurs/ Permet de suivre les principales évolutions des parts de visites des moteurs en Allemagne, en Espagne, en France et au Royaume-Uni sur lensemble des visites provenant des moteurs de recherche. Dollara.fr

45 comScore Releases July 2012 U.S. Search Engine Rankings 012_U.S._Search_Engine_Rankings

46 Focus sur Google raisons du décollage : rapidité, simplicité, orientation pur moteur, tri de pertinence révolutionnaire raisons du maintien : avalanches dinnovations, de nouveaux produits et de nouveaux services, soit par création directe, soit par rachat dentreprises ; la société va toujours plus loin : achat dun satellite pour améliorer Google Earth, toujours plus de photographies des rues pour améliorer Google Street View ; fonctionnalités récentes : à partir de la page de résultats, options de filtrage des résultats et fonctionnalités supplémentaires Dollara.fr

47

48 Quelle méthodologie de recherche dans un moteur ? Deux approches et des outils daide à la formulation

49 Deux approches : - utiliser le moteur pour identifier des sources pertinentes, des sources susceptibles de répondre => les mots clés devront être relativement génériques (énergie renouvelable) Objectif : - repérer quelques sites à explorer Conseil : affichage de 100 documents par page. Pour ce type de requête, on pourrait interroger un répertoire. - se connecter à un site que lon connaît mais que lon na pas enregistré dans ses favoris. Dollara.fr

50 - utiliser le moteur pour localiser le document pertinent => les mots clés devront être relativement précis. Réfléchir aux mots susceptibles de se trouver dans le texte intégral des pages web. Selon le nombre de pages obtenues, on affinera la requête en ajoutant des mots clés, en utilisant des opérateurs avancés, en supprimant des mots clés et en ajoutant des synonymes, etc. => du choix des mots clés dépendra la pertinence des résultats Dollara.fr

51 Précisions sur cette deuxième approche : Étape 1 de la formulation: bien formuler sa requête: prendre garde aux guillemets, aux accents et aux diverses formes des mots-clés. Étape 2 de la formulation : analyse des résultats de recherche. Si trop de résultats : affiner sa requête en utilisant les différents opérateurs (recherche sur le titre, le nom de domaine, lURL, etc.). Dollara.fr

52 Conseils Pour affiner la recherche, entrer les opérateurs directement dans le champ de recherche du moteur et ne pas utiliser la formulaire de recherche avancée. Exemple : rechercher lexpression « bibliothèques numériques » dans le titre des pages et le mot France dans le reste de la page. => Impossible avec les formulaire de recherche avancée Dollara.fr

53 Des outils daide à la formulation - Fonction Did you mean? - Termes associés dExalead À la requête : « énergie des marées » Choix de cliquer sur le terme pour les rajouter à la requête ou au contraire lexclure : chaque ajout ou suppression génère laffichage dune nouvelle liste de termes associés. Dollara.fr

54 Des outils daide à la formulation pour les professionnels du référencement et pour les webmasters : - générateur de mots clés de Google bfr.li/fdl5ko - Kwmap - Google Trends Dollara.fr

55 Quelle syntaxe dinterrogation des moteurs ?

56 Syntaxe : règles définissant la manière dinterroger un moteur, la manière décrire les mots clés. - variable selon chaque moteur - mais on retrouve quelques constantes dans quasiment tous les outils. Dollara.fr

57 Conseils pour la recherche simple Utiliser des mots aussi PRECIS que possible, dans la langue des documents que lon recherche (se demander quels mots doivent être présents dans le document recherché) 1 ère recherche sans guillemets,en affichant 100 résultats / page; évaluer les résultats puis modifier la requête en conséquence Dollara.fr

58 Conseils pour la recherche simple Lors de lutilisation des guillemets, penser à «élargir» la recherche: « Daniel Arasse » OR « Arasse Daniel » OR « D Arasse » OR « Arasse D», etc. «textile technique » OR « textiles techniques » Ecrire de préférence les mots avec leurs accents Comparer les formes pluriels et singuliers (ex. pluriel OR singulier) Dollara.fr

59 Conseils pour la recherche avancée Si le nombre de résultat est trop grand : - Chercher dans le titre des pages web - Identifier des documents spécifiques - Restreindre à certains types de sites - Chercher dans lURL - Combiner les critères de recherche Dollara.fr

60 Fiche pratique moteurs Fiche pratique booléens Fiche pratique tableau comparatif Dollara.fr

61 Quentend-on par Web invisible ?

62 Terminologie : Web profond, Web caché par opposition au Web visible ou Web de surface Gary Price & Chris Sherman (July 2001). The Invisible Web : Uncovering Information Sources Search Engines Can't See. CyberAge Books. Le Web invisible désigne lensemble des pages non localisables et/ou non indexables par les moteurs ou métamoteurs. Dollara.fr

63 Gary Price & Chris Sherman distinguent quatre niveaux dinvisibilité: the Opaque Web: constitué des pages qui pourraient être indexées par les moteurs, mais qui ne le sont pas pour des raisons diverses : - limitation des pages indexées pour un même site - indice de popularité de la page est faible et le moteur ne la pas découverte, etc. Dollara.fr

64 the Private Web: pages interdites aux moteurs (volonté du webmestre) the Proprietary Web: pages nécessitant une identification de la part de linternaute (exemple de nombreux sites scientifiques) the Truly Invisible Web: constitue la majeure partie du web invisible. Il sagit des pages non indexées par les moteurs pour des raisons techniques (pages dynamiques essentiellement) Dollara.fr

65 Aucune étude récente ne permet destimer la taille du web. La dernière étude classait les sites du web profond dans 12 catégories : (Source: The Deep Web: Surfacing Hidden Value, by MICHAEL K. BERGMAN, Monday, September 24, 2001, - les bases de données spécialisées dans des domaines comme les brevets, la médecine, les informations financières sur les entreprises, appels doffres, informations juridiques, etc. (54% des sites du web invisible) - sites web construits autour dune base de données internes (13%) - banques de données de presse (11%) - sites de vente en ligne, sites de petites annonces, portails sectoriels, bibliothèques, annuaires du type « pages jaunes » ou « pages blanches », bases de CV, etc. Dollara.fr

66 Cinq pistes de recherche soffrent : - dans les répertoires de bases de données, de contenus de type livre blanc - dans les répertoires généralistes ou plus thématiques, voire listes de ressources très spécialisées proposées par des experts - sur des métamoteurs spécialisés (Scirus pour les sciences, Trabber pour les vols et les hôtels) - sur des moteurs ou métamoteurs classiques du Web en utilisant des mots-clés comme « base de données », database, preprint, « white paper », « livre blanc », etc. Dollara.fr

67 Cinq pistes de recherche soffrent : - sur des réservoirs dinformation particuliers comme les sites darchives ouvertes ou de dépôt de thèses. - interroger les moteurs internes de sites de presse, entreprises... la requête suivante dans un moteur : insulin site:www.thelancet.com ne ramène pas du tout les mêmes résultats que la requête insulin dans le moteur du site The Lancet lui-même. Dollara.fr

68 Les moteurs indexent de plus en plus de documents du web invisible - indexation de nouveaux formats de fichiers - partenariats avec les éditeurs de banques de données Dollara.fr

69 Exemple de lInist : accord signé avec Google en 2006, puis en 2007 avec Exalead. des références issues du catalogue de documents pour le chercheurs sont indexées (Refdoc.fr soit 17 millions de références bibliographiques (depuis 1973) issues des collections du fonds documentaire de l'Inist-Cnrs et couvrant l'ensemble des champs de la recherche mondiale en science, technologie, médecine, sciences humaines et sociales.http://cat.inist.fr Dollara.fr

70 Exemple de requête : "identité numérique" "procédures judiciaires« Cette référence napparait pas dans les premiers résultats de Bing Dollara.fr

71 Exemples de métamoteurs

72 Apparition à la fin des années Les métamoteurs interrogent simultanément plusieurs moteurs de recherche et/ou répertoires et compilent les résultats avant de les présenter en éliminant les éventuels doublons, et en calculant un nouveau tri de pertinence. Ils ne maintiennent donc pas de base de données, mais ne font que transmettre la requête aux outils utilisés. Dollara.fr

73 Ont connu leur âge dor au début des années 2000, lorsque les moteurs cherchaient tous à avoir lindex le plus grand. Plusieurs raisons expliquent la désaffection actuelle du public pour ce type doutil: - prédominance de Google - peu de de possibilités de recherche: la requête envoyée aux moteurs et annuaires doit être comprise par chacun; or, chacun a sa propre syntaxe. La requête est par conséquent réduite au plus petit dénominateur commun (souvent quelques mots reliés par AND et OR) Dollara.fr

74 - linterprétation des résultats est rendue plus difficile : comment interpréter labsence de résultats en provenance dun moteur? Ce dernier na aucune réponse, ou bien a-t-il pas répondu? - Google refuse de plus en plus dêtre interrogé par les métamoteurs qui utilisent les ressources informatiques du moteur et rapatrient les résultats sans cliquer sur les liens sponsorisés. Cela diminue donc lattrait pour les utilisateurs. Dollara.fr

75 - de façon générale, on obtient des résultats plus pertinents en tirant parti des fonctions avancées dun moteur quen interrogeant de façon basique un métamoteur. Dollara.fr

76 Les arguments en faveur des métamoteurs : - lorsquune requête est simple et génère peu de réponses sur un moteur, il convient dinterroger dautres outils (moteurs, répertoires, etc.), comparer et dédoublonner les résultats. On peut gagner du temps avec un métamoteur. - La consultation dun métamoteur peut être intéressante lorsque lon souhaite avoir un premier aperçu dun sujet, puisquil affichera les meilleurs résultats identifiés pour les différents outils. - Certains métamoteurs disposent de fonctionnalités particulières au niveau de lanalyse des résultats (clusterisation) et de la présentation des résultats. Dollara.fr

77 Quelques métamoteurs Interroge Bing et Yahoo! Pas de tri, ni de dédoublonnage des résultats. Dollara.fr

78 Développé par le Liebel-Lab de lInstitut de technologie de Karlsruhe Interroge une cinquantaine de banques de données et de moteurs spécialisés Pas de tri, ni de dédoublonnage des résultats. Dollara.fr

79 Origine suédoise. Interface innovante comportant des pages web, des images, des vidéos, etc. Collecte des données auprès de moteurs généralistes, de sites communautaires (Digg) et dautres sites. Dollara.fr


Télécharger ppt "Accéder aux informations nécessaires avec efficience Dollara.fr - 2013."

Présentations similaires


Annonces Google