La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La Recherche d’Information sur le Web

Présentations similaires


Présentation au sujet: "La Recherche d’Information sur le Web"— Transcription de la présentation:

1 La Recherche d’Information sur le Web
29/11/07 La Recherche d’Information sur le Web De la documentation électronique de votre université aux outils du Web Gabriel Gallezot - Urfist Paca-c ED avril 2008 Gallezot-at-unice.fr 29/11/07

2 Programme : Rappel sur la Recherche d’Information (RI)
29/11/07 Programme : Rappel sur la Recherche d’Information (RI) contexte de la RI, Usage de l’info, Appropriation des outils formulation des requêtes (des questions) l’Indexation : notion centrale Panorama et utilisation des outils de recherche du web les bases de données Dico & co OA & co Outils 2.0 Moteurs les répertoires

3 Le contexte de la Recherche d'Information
29/11/07 Le contexte de la Recherche d'Information

4 … Usage de l’information Rechercher: IR/épistémè Types de documents
29/11/07 Base Bibliographiques Banques de données Revues, ouvrages Colloques Site web, page perso, blog Liste de discussion Editeurs, agrégateurs Archives Ouvertes Bibliothèques Usage de l’information Rechercher: IR/épistémè Types de documents Formats de documents Accès aux documents

5 - différents contextes
29/11/07 La RI en contexte - différentes sources - différents outils - différents contextes Source :

6 Appropriation des outils
29/11/07 Appropriation des outils Introducing the book The Machine is Us/ing Us

7 La Recherche d’Information
29/11/07 La Recherche d’Information - Bien appréhender votre question - Bien appréhender ce que vous cherchez et où vous le cherchez - Comprendre l’envers du “décor” : l’indexation - Bien gérer ses requêtes

8 29/11/07 Quelques questions Quels documents sont d'intérêt pour moi (ma question) ? Est-ce que d'autres documents assez proches de mon intérêt peuvent être également considérés ? Les titres d'autres documents pourraient-ils déclencher des idées valables pour ma recherche d'information ? Comment mes mots-clés sont-ils réellement distribués dans un des document ? .... Trois notions à considérer : Relevance (correspondance a ma question)‏ Pertinence (ce qui m'intéresse vraiment) Serendipity (quelle chose que je ne recherchais pas mais qui pourrait également m'intéresser)

9 Aiguille(s) et botte(s) de foin
29/11/07 Chercher une aiguille dans une botte de foin c’est : trouver une aiguille connue dans une botte de foin connue trouver une aiguille connue dans une botte de foin inconnue trouver une aiguille inconnue dans une botte de foin inconnue trouver n'importe quelle aiguille dans une botte de foin trouver […] [Koll, 00] Aiguille(s) et botte(s) de foin => 3 façons de recherche l’information « chercher de l'information sur un objet bien défini ; chercher de l'information sur un objet incomplètement décrit mais qui sera reconnaissable dès qu'un le rencontrera ; trouver de l'information de manière fortuite. » (Toms)‏

10 Où chercher ? P2P Web invisible Web visible et Web 2.0 10 Milliards de
29/11/07 Où chercher ? Information contenue sur les ordinateurs individuels plusieurs millions d’ordinateurs inter-connectés P2P bases de données spécialisées Contenu dynamique Index partiel des sites Interdiction d’indexation Web invisible 10 Milliards de Pages web Forum de discussion Web visible et Web 2.0 Contenu indexable, contenu taggé À partir de Source : Eric Boutin

11 La notion d’indexation (une notion transversale et centrale)‏
29/11/07 La notion d’indexation (une notion transversale et centrale)‏ Indexer/classer pour retrouver (mots clés/répertoire, …)‏ Les métadonnées (entête)‏ La structuration du document (corps)‏ Classification : Index Thésaurus Taxonomie Facette Ontologie

12 Gestion du bruit et du silence
29/11/07 Gestion du bruit et du silence Documents relevants Documents non relevants Corpus Bien gérer VOS REQUETES !

13 Bien gérer VOS REQUETES !
29/11/07 Documents non retrouvés Documents retrouvés Bien gérer VOS REQUETES ! relevants non relevants (bruit)‏ Relevants (silence)‏ non relevants Documents retrouvés Document non retrouvés Optimiser sa recherche d'information

14 Les opérateurs booléens
29/11/07 Les opérateurs booléens Exemple Ensemble A cours tutorial Ensemble B gratuit Ensemble C Payant cours ou tutorial Cours OR Tutorial tutorial tutorial et gratuit AND gratuit Protection cours AND NOT cours sauf payant payant Les booléens sur GIRI :

15 29/11/07 Les types de recherche La recherche lexicale (+morphologique) : la recherche d'un mot ou d'un groupe de mots, notamment par le biais de requêtes booléennes (et, ou, etc.). Une fonction à laquelle s'ajoutent des opérateurs d'adjacence et de proximité. Tous des moteurs proposent en général ce type de possibilités. La recherche syntaxique : elle permet de retrouver un terme quelle que soit sa déclinaison (plurielle, conjuguée, etc.), et d'étendre la recherche aux mots synonymes ou de même racine étymologique. Cette recherche offre également des modules de recherche floue ou de phonétisation. La recherche statistique : lorsque la recherche s'effectue sur les mots, une analyse statistique permet de calculer la pertinence de ces mots par rapport au référentiel documentaire. La recherche sémantique : l'opération s'effectue à partir d'une analyse du sens de la requête, c'est-à-dire en recherchant les mots sémantiquement proches de ceux qu'elle utilise. La recherche s'appuie alors sur un dictionnaire sémantique qui, à chaque mot de la langue, associe leurs différents sens. La combinaison des recherches sémantique, syntaxique, lexicale et statistique permet aux éditeurs de proposer des fonctions avancées : résumé de documents, classement et sélection optimisés des réponses, jusqu'aux assistants de requêtes (conçus pour permettre à l'utilisateur d'affiner sa demande en lui proposant des requêtes connexes ou enrichies)

16 Exemples d’outils (panorama)
29/11/07 Exemples d’outils (panorama)

17 Les bases de données Worldcat : (catalogues http://worldcat.org/
29/11/07 Les bases de données Worldcat : (catalogues Article Inist : (catalogues : Images : ou Sons : L’encyclopedie Sonore, sonore/main.php?daj=search_small&sid=&ref=CAE92LEG08 Librairies en ligne (Amazon, chapitre.com, …)‏

18 Dico and Co Wikipedia : http://fr.wikipedia.org/wiki/Accueil
29/11/07 Dico and Co Wikipedia : Les dictionnaires : mediadico.com/ dictionnaires.com/ TermScience (lexiques, dictionnaires, thesaurus) : CNRTL : Centre National de Ressources Textuelles et (Morphologies, Lexicographie, Etymologie, Synonymie, Antonymie, Proxémie, Concordance)

19 OA & Co HAL : http://hal.archives-ouvertes.fr/
29/11/07 OA & Co HAL : Revues.org : OAIster :

20 Outils du web2.0 (fonction recherche uniquement)
29/11/07 Outils du web2.0 (fonction recherche uniquement) Signets : Del.ici.ous (http://del.icio.us/ ), digg (http://www.digg.com/ ), … : Ref biblio : CiteUlike (http://www.citeulike.org/ ), Bibsonomy (http://www.bibsonomy.org/ ), … : illustrations : Flickr (http://www.flickr.com/ ), youtube (http://www.youtube.com/ ), … : Présentations (PPT : )

21 Les outils de recherche du web (moteurs, annuaires et autres)
29/11/07 Les outils de recherche du web (moteurs, annuaires et autres) Google scholar : Google book : Lecdi : In extenso : Exalead Kvisu : Ixquick Wayback machine Wikio (blogs) : Yahoo (Mindset) : Open directory project

22 Les répertoires Répertoire critique en SHS http://album.revues.org/
29/11/07 Les répertoires Répertoire critique en SHS Répertoire de Bases de données en SHS, CALAME : Répertoire de revues Open Access, DOAJ : Répertoire d'Archive Ouverte, OpenDOAR : Répertoire du patrimoine numérique : Répertoire de ressources « academiques » : Bubl , Répertoire de BdD gratuites (Dadi) : Répertoire web2.0 : Search engines watch :

23 « Mon environnement de recherche »
29/11/07 « Mon environnement de recherche » Quelques exemples Mes extensions FF (“mes moteurs”, zotero,…) Mon moteur de recherche (co-op/customsearch)‏ Mon portail : Ning, netvibe, Igoogle, facebook, …

24 29/11/07 Vos questions ?

25 29/11/07 … et en plus

26 Moteurs (remarques)‏ Searchmash : http://www.searchmash.com/
29/11/07 Moteurs (remarques)‏ Interfaçage : Searchmash : Comprendre la relation entre les moteurs : this.com/search_engine_decoder.asp

27 Méthodologie de recherche
29/11/07 Méthodologie de recherche 2 guides CERISE : InfoSphere : ences_humaines/index1.html Et aussi REPERE :

28 Stratégie de requête (exemple)‏
29/11/07 Stratégie de requête (exemple)‏ Google Inurl:durand intitle « durand pierre » Site: durand inurl:durand  intitle: « durand pierre » « durand pierre » Durand pierre bruit silence Source : Eric boutin

29 Les deux aspects des outils de recherche
29/11/07 Les deux aspects des outils de recherche Base de données Propagation electrons : 1 2 Collecte et stockage Fournir à L’internaute 10 à 20 réponses pertinentes Source : Eric Boutin

30 Le point de départ de Google
29/11/07 Le point de départ de Google Comprendre le ranking : Analyse de la citation : SCI Eugène Garfield Article 1 Duchemin Bla bla bla Dugenet(89)‏ Article 2 Dugenet Bla bla bla Dumoulin(79)‏ PAGERANK ( PAGERANK ( Google Google )‏ )‏ C C F F Linux.org Linux.org « un article scientifique tire sa légitimité de la reconnaissance par ses pairs » A A B B Yahoo! Yahoo! E E Chaque page web a un poids appelé Pagerank A reçoit des liens émanant de A is linked to by more sites plus populaires que B popular sites than B ( whatever the query is )‏ quelle que soit la requête A est meilleur que B A better than B Source : Eric Boutin


Télécharger ppt "La Recherche d’Information sur le Web"

Présentations similaires


Annonces Google