La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La Recherche sur Internet

Présentations similaires


Présentation au sujet: "La Recherche sur Internet"— Transcription de la présentation:

1 La Recherche sur Internet
GEA 1ère année Méthodologie et Recherche Documentaire Septembre 2005 Lionel Maltese Maître de Conférences Unversité Paul Cézanne Aix-Marseille III

2 Typologie des informations disponibles sur le Web
Banques de données (voir cours sur la recherche documentaire) Sites institutionnels (universités, gouvernement (ministères), bibliothèques) Sites commerciaux Les pages personnelles (ex :

3 Comment identifier l’origine des données ?
L’URL – Uniform Resource Locator – est l’adresse Internet d’un document ; elle precise pour chacun le type de service (http:// pour le Web, news:// pour les forums) L’adresse d’une page Web se présente souvent sous la forme http//www.non-de-site.fr/nom-de-répertoire/nom-de-fichier.html sauf pour les sites FTP (File Transfer Protocol) où il n’y pas les « www » La fin de l’adresse (.com, .fr, .org…) correspond au « top level domain » qui peut indiquer soit un pays (.fr pour la France, .ca pour le Canada…) ou le type d’entreprise ou d’organisme (.com : entreprise à activité commerciale, .edy : université amériacaine…) Il peut également des informations sur les deux (.gouv.fr : organisme gouvernemental français, .asso.fr : association française. De nouveaux domaines sont régulièrement créés, pour faire face au développement des sites. De nombreux domaines sectoriels ont été ajoutés (.avocat.fr, .cci.fr, .chirurgiens-dentistes.fr, .experts-comptables.fr, .presse.fr…) ; ils apportenet immédiatement de la précision sur la source des informations. La charte du « nommage » française est disponible ici :

4 Les répertoires ou annuaires
Les annuaires, également appelés répertoires ou index, sont parmi les premiers outils de recherche à avoir fait leur apparition sur le Web. Les plus connu de ces outils est Yahoo!, créé en 1994 par David Filo et Jerry Wang, deux étudiants de l’université de Stanford aux Etats-Unis. Principe de fonctionnement : Le recensement d’un site par un annuaire implique, sauf exception, une démarche volontaire de son éditeur, c’est-à-dire de la personne ou de l’organisme propriétaire. Les sites retenus sont ensuite indexés dans les catégories, choisies dans l’arborescence thématique du répertoire Il existe divers types d’annuaires : généraliste (yahoo! Ou nomade par exemple) ou sélectifs et thématique (BNF bibliothèque Nationale de France ; webcity.fr, venere.com…) et enfin les portails (généralistes (wandaoo, aol, tiscali, club internet) ou spécifiques (mode (http://www.modefashion.net), mariage en Provence (http://www.cortege.fr), portail de l'administration française (http://www.service-public.fr/), portail du droit français (http://www.droit.org/)

5 Les répertoires ou annuaires
Modalités de recherche les annuaires offrent pour la plupart deux modes de consultation : La recherche par rubriques et sous rubriques : cette première méthode - la plus simple – consiste à choisir une rubrique parmi celles de l’écran d’accueil. Les thèmes offerts vont des plus larges aux plus précis, via divers menus successifs. La recherche par mots : en complément de la consultation par rubriques, les annuaires offrent souvent une zone de saisie qui permet de lancer une recherche par mots sur l’intégralité de leur base, c’est-à-dire sur les catégories et sur les descriptions des sites (titre, résumé….)

6 Les moteurs de recherche
Principe de fonctionnement Un moteur de recherche est constitué de 3 éléments : Un robot (appelé crawler ou spider) qui parcourt le Web de façon automatique, de liens en liens. En partant d’un certain nombre d’adresses définies au préalable, le robot va tester tous les liens hypertexte qu’il rencontre et va rapatrier le contenu des pages dans sa base. Il va également visiter toutes les pages soumises par les éditeurs de sites, dans le cadre du référencement. Un index, qui contient tous les mots de toutes les pages rapatriées par le robot. Le plus souvent, le texte intégral de la page ainsi que ses différentes balises méta (titres, mots-clés…) sont indexés, mais il peut y avoir des variantes selon les moteurs. Un serveur Web, qui offre une interface de recherche à l’utilisateur? Celle-ci lui permet de lancer une requête par mots sur l’index du moteur, avec des possibilités plus ou moins sophistiquées.

7 Les moteurs de recherche
Modalités de recherche : Pour simplifier la tâche de l’utilisateur, les moteurs offrent dès leur page d’accueil une zone de saisie, dans laquelle il suffit d’inscrire les termes de sa requête. Celle-ci est ensuite lancée sur l’index du moteur, qui peut contenir plusieurs centaines de millions de pages (plus d’un milliard pour google !) Pour ne pas être noyé sous le nombre de résultats, il est donc impératif de choisir des termes très précis et, selon les questions, d’indiquer plusieurs mots-clés. Il faut cependant savoir que tous les moteurs n’interprètent pas les requêtes de la même façon : certains outils utilisent implicitement l’opérateur ET ; ils sélectionneront uniquement les pages qui contiennent les deux mots. D’autres en revanche fonctionnent avec un OU implicite ; ces derniers retiendront les pages qui contiennent les deux mots, mais aussi celles qui contiennent l’un ou l’autre des mots. Les moteurs de recherche les plus connus et reconnus sont

8 Les moteurs de recherche
Google (www.google.fr) L’originalité de Google repose sur une technologie particulière, basée sur le calcul de la « popularité » des pages. Le classement d’une page dans les résultats se fait en effet selon le nombre de liens pointant vers elle sur le réseau. C’est ce que Google nomme « PageRank » : plus une page a de liens, mieux elle est classée. L’écran d’accueil, très dépouillée, permet d’inscrire sa requête dans la zone de saisie, en limitant éventuellement la recherche aux pages en français. Pour chaque résultat, Google indique son non, l’URL (adresse Internet du site), et un extrait de la page contenant les termes de la requête. Options Google (cliquer sur « Plus ») : L’option Web Caché donne accès à une copie de la page, telle qu’elle était le jour ou le robot du moteur l’a indexée. Cette fonctionnalité bien particulière – que Google est le seul à offrir – permet de retrouver facilement la copie d’une page aui a disparu ou qui a changé d’adresse. Le lien Pages similaires permet d’obtenir un nouvel écran de résultats, offrant une nouvelle sélection de page en rapport avec l’URL initiale. Cette fonctionnalité originale peut être utilisée pour retrouver par exemple les concurrents d’une entreprise, ou d’autres sites de même nature qu’un site donné. En complément des pages Web, Google indexe les documents dans différents formats : PDF, Word, Excel…. Ces documents s’affichent sur la liste des résultats, même titre que les pages web, mais leur format spécifique est signalé par une indication à gauche du titre : [PDF] pour les documents PDF, [DOC] pour les documents Word…. Pour limiter la requête aux fichiers d’un format donné, il faut ajouter aux termes de sa recherche l’opérateur filetype (Ex : filetype:pdf Philip Kotler) En langue anglaise (mais également certaines pages en français) Goole s’est diversifié en proposant un moteur de recherche spécifique à la recherche scientifique et universitaires : Schlar Google. Voir le site suivant : Il en est de même pour un outil spécifique à la cartographie de la planète et des plus garndes villes du mande pa images satellites avec Google Earth :

9 Les moteurs de recherche
Google : à savoir pour bien interroger : Opérateurs booléens : il est possible d’utiliser l’pérateur AND (c’est opérateur par défaut) et OR (en majuscules). Sinon, la grille de recherche avancées permet de spécifier que la requête peut se faire avec « tous les mots » (ET) ou « avec un des mots » (OU). Le symbole – peut être utilisé pour demander l’absence impérative d’un terme. La grille de recherche avancée permet de choisir de limiter à la recherche de mots dans l’URL, le titre, les pages, un domaine… L’opérateur related (Ex. : realted:www.bnf.fr) permet d’identifier les pages de même type que celle dont on a donné l’adresse. L’opérateur link –Ex. : link:www.bnf.fr) affiche les pages qui pointent vers une pages donnée. L’opérateur Filetype déjà vu (PDF, DOC, PPT, XLS, JPG, AVI, DIVX, XVID…) Il est important de comparer les résultats de recherche sur les formes voisines d’un mot (pluriel/singulier, masculin/féminin…) Caractère admis : interprète indifféremment les majuscules ou les minuscules. En revanche les résultats de Google varient selon l’accentuation des mots. Pour demander une recherche stricte sur un mot (avec ou sans accents), il faut saisir le symbole + immédiatement devant le mot.

10 Les métamoteurs et agents
Un métamoteur online est un site Web qui offre une interface de recherche unique, permettant à l’utilisateur de poser simultanément sa question à une sélection d’annuaires et de moteurs. Les principales limites concernent la faible précision de la recherche parmi le nombre de plus en plus importants de références : à consulter de préférence pour une recherche sur un sujet rare ou plutôt méconnu… Exemples métamoteurs : et Les agents ou métamoteurs offline sont en en fait des agents pour la recherche conçus sous la forme d’un logiciel dont le plus connu est Copernic. Ils ont fait la même fonction que les métamoteurs et permettent d’envoyer une même requête à plusieurs annuaires, moteurs et banque de données. Exemples : Copernic (la version de base est gratuite) ) ; Strategic Finder 2 (www.strategicfinder.com)

11 Conseils et méthode pour une recherche efficace
Délimiter le champ de recherche : types et nature de l’information, couverture géographique, historique, achats études de marché, acteurs impliqués (entreprises, institutions, consommateurs, universités, écoles, ministères…) Définir les types de sources susceptibles de répondre : Informatique (base de données, CDROM, Internet) ; Articles de presse, spécialisés, scientifiques ; données chiffrées (statistiques)… Choisir les outils de recherche à interroger : Internet (moteur, méta, annuaire, agents, sites connus, pages personnelles… (GOOGLE est LA référence !) Trouver les « bons » mots-clés : + utiliser les outils de formulations de requêtes (opérateurs booléens par exemple) Suivre l’actualité des outils de recherche pour optimiser les techniques personnelles Répertorier et classer les sites et pages référencés par exemple avec les « favoris » d’Internet Explorer ou par un « Cpoier/Coller » des adresse URL sur une pages word ou powerpoint = se constituer une bases de données exploitable d’adresse Internet (principe de la vielle Internet)


Télécharger ppt "La Recherche sur Internet"

Présentations similaires


Annonces Google