La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La Recherche sur Internet GEA 1 ère année Méthodologie et Recherche Documentaire Septembre 2005 Lionel Maltese Maître de Conférences Unversité Paul Cézanne.

Présentations similaires


Présentation au sujet: "La Recherche sur Internet GEA 1 ère année Méthodologie et Recherche Documentaire Septembre 2005 Lionel Maltese Maître de Conférences Unversité Paul Cézanne."— Transcription de la présentation:

1 La Recherche sur Internet GEA 1 ère année Méthodologie et Recherche Documentaire Septembre 2005 Lionel Maltese Maître de Conférences Unversité Paul Cézanne Aix-Marseille III

2 2 Typologie des informations disponibles sur le Web Banques de données (voir cours sur la recherche documentaire) Sites institutionnels (universités, gouvernement (ministères), bibliothèques) Sites commerciaux Les pages personnelles (ex :

3 3 Comment identifier lorigine des données ? LURL – Uniform Resource Locator – est ladresse Internet dun document ; elle precise pour chacun le type de service (http:// pour le Web, news:// pour les forums) Ladresse dune page Web se présente souvent sous la forme http//www.non-de-site.fr/nom-de-répertoire/nom-de-fichier.html sauf pour les sites FTP (File Transfer Protocol) où il ny pas les « www » La fin de ladresse (.com,.fr,.org…) correspond au « top level domain » qui peut indiquer soit un pays (.fr pour la France,.ca pour le Canada…) ou le type dentreprise ou dorganisme (.com : entreprise à activité commerciale,.edy : université amériacaine…) Il peut également des informations sur les deux (.gouv.fr : organisme gouvernemental français,.asso.fr : association française. De nouveaux domaines sont régulièrement créés, pour faire face au développement des sites. De nombreux domaines sectoriels ont été ajoutés (.avocat.fr,.cci.fr,.chirurgiens-dentistes.fr,.experts- comptables.fr,.presse.fr…) ; ils apportenet immédiatement de la précision sur la source des informations. La charte du « nommage » française est disponible ici :

4 4 Les répertoires ou annuaires Les annuaires, également appelés répertoires ou index, sont parmi les premiers outils de recherche à avoir fait leur apparition sur le Web. Les plus connu de ces outils est Yahoo!, créé en 1994 par David Filo et Jerry Wang, deux étudiants de luniversité de Stanford aux Etats-Unis. Principe de fonctionnement : –Le recensement dun site par un annuaire implique, sauf exception, une démarche volontaire de son éditeur, cest-à-dire de la personne ou de lorganisme propriétaire. –Les sites retenus sont ensuite indexés dans les catégories, choisies dans larborescence thématique du répertoire –Il existe divers types dannuaires : généraliste (yahoo! Ou nomade par exemple) ou sélectifs et thématique (BNF bibliothèque Nationale de France ; webcity.fr, venere.com…) et enfin les portails (généralistes (wandaoo, aol, tiscali, club internet) ou spécifiques (mode (http://www.modefashion.net), mariage en Provence (http://www.cortege.fr), portail de l'administration française (http://www.service-public.fr/), portail du droit français (http://www.droit.org/)http://www.modefashion.nethttp://www.cortege.frhttp://www.service-public.fr/http://www.droit.org/

5 5 Modalités de recherche les annuaires offrent pour la plupart deux modes de consultation : La recherche par rubriques et sous rubriques : cette première méthode - la plus simple – consiste à choisir une rubrique parmi celles de lécran daccueil. Les thèmes offerts vont des plus larges aux plus précis, via divers menus successifs. La recherche par mots : en complément de la consultation par rubriques, les annuaires offrent souvent une zone de saisie qui permet de lancer une recherche par mots sur lintégralité de leur base, cest-à-dire sur les catégories et sur les descriptions des sites (titre, résumé….) Les répertoires ou annuaires

6 6 Les moteurs de recherche Principe de fonctionnement Un moteur de recherche est constitué de 3 éléments : Un robot (appelé crawler ou spider) qui parcourt le Web de façon automatique, de liens en liens. En partant dun certain nombre dadresses définies au préalable, le robot va tester tous les liens hypertexte quil rencontre et va rapatrier le contenu des pages dans sa base. Il va également visiter toutes les pages soumises par les éditeurs de sites, dans le cadre du référencement. Un index, qui contient tous les mots de toutes les pages rapatriées par le robot. Le plus souvent, le texte intégral de la page ainsi que ses différentes balises méta (titres, mots-clés…) sont indexés, mais il peut y avoir des variantes selon les moteurs. Un serveur Web, qui offre une interface de recherche à lutilisateur? Celle-ci lui permet de lancer une requête par mots sur lindex du moteur, avec des possibilités plus ou moins sophistiquées.

7 7 Modalités de recherche : Pour simplifier la tâche de lutilisateur, les moteurs offrent dès leur page daccueil une zone de saisie, dans laquelle il suffit dinscrire les termes de sa requête. Celle-ci est ensuite lancée sur lindex du moteur, qui peut contenir plusieurs centaines de millions de pages (plus dun milliard pour google !) Pour ne pas être noyé sous le nombre de résultats, il est donc impératif de choisir des termes très précis et, selon les questions, dindiquer plusieurs mots-clés. Il faut cependant savoir que tous les moteurs ninterprètent pas les requêtes de la même façon : certains outils utilisent implicitement lopérateur ET ; ils sélectionneront uniquement les pages qui contiennent les deux mots. Dautres en revanche fonctionnent avec un OU implicite ; ces derniers retiendront les pages qui contiennent les deux mots, mais aussi celles qui contiennent lun ou lautre des mots. Les moteurs de recherche les plus connus et reconnus sont Les moteurs de recherche

8 8 Google (www.google.fr)www.google.fr Loriginalité de Google repose sur une technologie particulière, basée sur le calcul de la « popularité » des pages. Le classement dune page dans les résultats se fait en effet selon le nombre de liens pointant vers elle sur le réseau. Cest ce que Google nomme « PageRank » : plus une page a de liens, mieux elle est classée. Lécran daccueil, très dépouillée, permet dinscrire sa requête dans la zone de saisie, en limitant éventuellement la recherche aux pages en français. Pour chaque résultat, Google indique son non, lURL (adresse Internet du site), et un extrait de la page contenant les termes de la requête. Options Google (cliquer sur « Plus ») : –Loption Web Caché donne accès à une copie de la page, telle quelle était le jour ou le robot du moteur la indexée. Cette fonctionnalité bien particulière – que Google est le seul à offrir – permet de retrouver facilement la copie dune page aui a disparu ou qui a changé dadresse. –Le lien Pages similaires permet dobtenir un nouvel écran de résultats, offrant une nouvelle sélection de page en rapport avec lURL initiale. Cette fonctionnalité originale peut être utilisée pour retrouver par exemple les concurrents dune entreprise, ou dautres sites de même nature quun site donné. –En complément des pages Web, Google indexe les documents dans différents formats : PDF, Word, Excel…. Ces documents saffichent sur la liste des résultats, même titre que les pages web, mais leur format spécifique est signalé par une indication à gauche du titre : [PDF] pour les documents PDF, [DOC] pour les documents Word…. Pour limiter la requête aux fichiers dun format donné, il faut ajouter aux termes de sa recherche lopérateur filetype (Ex : filetype:pdf Philip Kotler) –En langue anglaise (mais également certaines pages en français) Goole sest diversifié en proposant un moteur de recherche spécifique à la recherche scientifique et universitaires : Schlar Google. Voir le site suivant : Il en est de même pour un outil spécifique à la cartographie de la planète et des plus garndes villes du mande pa images satellites avec Google Earth : Les moteurs de recherche

9 9 Google : à savoir pour bien interroger : Opérateurs booléens : il est possible dutiliser lpérateur AND (cest opérateur par défaut) et OR (en majuscules). Sinon, la grille de recherche avancées permet de spécifier que la requête peut se faire avec « tous les mots » (ET) ou « avec un des mots » (OU). Le symbole – peut être utilisé pour demander labsence impérative dun terme. La grille de recherche avancée permet de choisir de limiter à la recherche de mots dans lURL, le titre, les pages, un domaine… Lopérateur related (Ex. : realted:www.bnf.fr) permet didentifier les pages de même type que celle dont on a donné ladresse. Lopérateur link –Ex. : link:www.bnf.fr) affiche les pages qui pointent vers une pages donnée. Lopérateur Filetype déjà vu (PDF, DOC, PPT, XLS, JPG, AVI, DIVX, XVID…) Il est important de comparer les résultats de recherche sur les formes voisines dun mot (pluriel/singulier, masculin/féminin…) Caractère admis : interprète indifféremment les majuscules ou les minuscules. En revanche les résultats de Google varient selon laccentuation des mots. Pour demander une recherche stricte sur un mot (avec ou sans accents), il faut saisir le symbole + immédiatement devant le mot. Les moteurs de recherche

10 10 Les métamoteurs et agents Un métamoteur online est un site Web qui offre une interface de recherche unique, permettant à lutilisateur de poser simultanément sa question à une sélection dannuaires et de moteurs. Les principales limites concernent la faible précision de la recherche parmi le nombre de plus en plus importants de références : à consulter de préférence pour une recherche sur un sujet rare ou plutôt méconnu… Exemples métamoteurs : et Les agents ou métamoteurs offline sont en en fait des agents pour la recherche conçus sous la forme dun logiciel dont le plus connu est Copernic. Ils ont fait la même fonction que les métamoteurs et permettent denvoyer une même requête à plusieurs annuaires, moteurs et banque de données. Exemples : Copernic (la version de base est gratuite) ) ; Strategic Finder 2 (www.strategicfinder.com)

11 11 Conseils et méthode pour une recherche efficace 1.Délimiter le champ de recherche : types et nature de linformation, couverture géographique, historique, achats études de marché, acteurs impliqués (entreprises, institutions, consommateurs, universités, écoles, ministères…) 2.Définir les types de sources susceptibles de répondre : Informatique (base de données, CDROM, Internet) ; Articles de presse, spécialisés, scientifiques ; données chiffrées (statistiques)… 3.Choisir les outils de recherche à interroger : Internet (moteur, méta, annuaire, agents, sites connus, pages personnelles… (GOOGLE est LA référence !) 4.Trouver les « bons » mots-clés : + utiliser les outils de formulations de requêtes (opérateurs booléens par exemple) 5.Suivre lactualité des outils de recherche pour optimiser les techniques personnelles 6.Répertorier et classer les sites et pages référencés par exemple avec les « favoris » dInternet Explorer ou par un « Cpoier/Coller » des adresse URL sur une pages word ou powerpoint = se constituer une bases de données exploitable dadresse Internet (principe de la vielle Internet)


Télécharger ppt "La Recherche sur Internet GEA 1 ère année Méthodologie et Recherche Documentaire Septembre 2005 Lionel Maltese Maître de Conférences Unversité Paul Cézanne."

Présentations similaires


Annonces Google