La Recherche d’Information sur le Web 29/11/07 La Recherche d’Information sur le Web De la documentation électronique de votre université aux outils du Web Gabriel Gallezot - Urfist Paca-c ED avril 2008 Gallezot-at-unice.fr 29/11/07
Programme : Rappel sur la Recherche d’Information (RI) 29/11/07 Programme : Rappel sur la Recherche d’Information (RI) contexte de la RI, Usage de l’info, Appropriation des outils formulation des requêtes (des questions) l’Indexation : notion centrale Panorama et utilisation des outils de recherche du web les bases de données Dico & co OA & co Outils 2.0 Moteurs les répertoires
Le contexte de la Recherche d'Information 29/11/07 Le contexte de la Recherche d'Information
… Usage de l’information Rechercher: IR/épistémè Types de documents 29/11/07 Base Bibliographiques Banques de données Revues, ouvrages Colloques Site web, page perso, blog Liste de discussion Editeurs, agrégateurs Archives Ouvertes Bibliothèques Usage de l’information Rechercher: IR/épistémè … Types de documents Formats de documents Accès aux documents
- différents contextes 29/11/07 La RI en contexte - différentes sources - différents outils - différents contextes Source : Info@vis
Appropriation des outils 29/11/07 Appropriation des outils Introducing the book The Machine is Us/ing Us
La Recherche d’Information 29/11/07 La Recherche d’Information - Bien appréhender votre question - Bien appréhender ce que vous cherchez et où vous le cherchez - Comprendre l’envers du “décor” : l’indexation - Bien gérer ses requêtes
29/11/07 Quelques questions Quels documents sont d'intérêt pour moi (ma question) ? Est-ce que d'autres documents assez proches de mon intérêt peuvent être également considérés ? Les titres d'autres documents pourraient-ils déclencher des idées valables pour ma recherche d'information ? Comment mes mots-clés sont-ils réellement distribués dans un des document ? .... Trois notions à considérer : Relevance (correspondance a ma question) Pertinence (ce qui m'intéresse vraiment) Serendipity (quelle chose que je ne recherchais pas mais qui pourrait également m'intéresser)
Aiguille(s) et botte(s) de foin 29/11/07 Chercher une aiguille dans une botte de foin c’est : trouver une aiguille connue dans une botte de foin connue trouver une aiguille connue dans une botte de foin inconnue trouver une aiguille inconnue dans une botte de foin inconnue trouver n'importe quelle aiguille dans une botte de foin trouver […] [Koll, 00] Aiguille(s) et botte(s) de foin => 3 façons de recherche l’information « chercher de l'information sur un objet bien défini ; chercher de l'information sur un objet incomplètement décrit mais qui sera reconnaissable dès qu'un le rencontrera ; trouver de l'information de manière fortuite. » (Toms)
Où chercher ? P2P Web invisible Web visible et Web 2.0 10 Milliards de 29/11/07 Où chercher ? Information contenue sur les ordinateurs individuels plusieurs millions d’ordinateurs inter-connectés P2P bases de données spécialisées Contenu dynamique Index partiel des sites Interdiction d’indexation Web invisible 10 Milliards de Pages web Forum de discussion Web visible et Web 2.0 Contenu indexable, contenu taggé À partir de Source : Eric Boutin
La notion d’indexation (une notion transversale et centrale) 29/11/07 La notion d’indexation (une notion transversale et centrale) Indexer/classer pour retrouver (mots clés/répertoire, …) Les métadonnées (entête) La structuration du document (corps) Classification : Index Thésaurus Taxonomie Facette Ontologie
Gestion du bruit et du silence 29/11/07 Gestion du bruit et du silence Documents relevants Documents non relevants Corpus Bien gérer VOS REQUETES !
Bien gérer VOS REQUETES ! 29/11/07 Documents non retrouvés Documents retrouvés Bien gérer VOS REQUETES ! relevants non relevants (bruit) Relevants (silence) non relevants Documents retrouvés Document non retrouvés Optimiser sa recherche d'information
Les opérateurs booléens 29/11/07 Les opérateurs booléens Exemple Ensemble A cours tutorial Ensemble B gratuit Ensemble C Payant cours ou tutorial Cours OR Tutorial tutorial tutorial et gratuit AND gratuit Protection cours AND NOT cours sauf payant payant Les booléens sur GIRI : http://www.bibl.ulaval.ca/vitrine/giri/mod3/booleen.htm
29/11/07 Les types de recherche La recherche lexicale (+morphologique) : la recherche d'un mot ou d'un groupe de mots, notamment par le biais de requêtes booléennes (et, ou, etc.). Une fonction à laquelle s'ajoutent des opérateurs d'adjacence et de proximité. Tous des moteurs proposent en général ce type de possibilités. La recherche syntaxique : elle permet de retrouver un terme quelle que soit sa déclinaison (plurielle, conjuguée, etc.), et d'étendre la recherche aux mots synonymes ou de même racine étymologique. Cette recherche offre également des modules de recherche floue ou de phonétisation. La recherche statistique : lorsque la recherche s'effectue sur les mots, une analyse statistique permet de calculer la pertinence de ces mots par rapport au référentiel documentaire. La recherche sémantique : l'opération s'effectue à partir d'une analyse du sens de la requête, c'est-à-dire en recherchant les mots sémantiquement proches de ceux qu'elle utilise. La recherche s'appuie alors sur un dictionnaire sémantique qui, à chaque mot de la langue, associe leurs différents sens. La combinaison des recherches sémantique, syntaxique, lexicale et statistique permet aux éditeurs de proposer des fonctions avancées : résumé de documents, classement et sélection optimisés des réponses, jusqu'aux assistants de requêtes (conçus pour permettre à l'utilisateur d'affiner sa demande en lui proposant des requêtes connexes ou enrichies)
Exemples d’outils (panorama) 29/11/07 Exemples d’outils (panorama)
Les bases de données Worldcat : (catalogues http://worldcat.org/ 29/11/07 Les bases de données Worldcat : (catalogues http://worldcat.org/ Article Inist : (catalogues : http://services.inist.fr/public/fre/conslt.htm Images : http://cartelfr.louvre.fr, http://openclipart.org/ ou http://www.freefoto.com Sons : L’encyclopedie Sonore, http://e-sonore.u-paris10.fr/e- sonore/main.php?daj=search_small&sid=&ref=CAE92LEG08 Librairies en ligne (Amazon, chapitre.com, …)
Dico and Co Wikipedia : http://fr.wikipedia.org/wiki/Accueil 29/11/07 Dico and Co Wikipedia : http://fr.wikipedia.org/wiki/Accueil Les dictionnaires : http://www.dictionnaire- mediadico.com/ http://www.les- dictionnaires.com/ TermScience (lexiques, dictionnaires, thesaurus) : http://www.termsciences.fr CNRTL : Centre National de Ressources Textuelles et (Morphologies, Lexicographie, Etymologie, Synonymie, Antonymie, Proxémie, Concordance) http://www.cnrtl.fr/lexicographie/
OA & Co HAL : http://hal.archives-ouvertes.fr/ 29/11/07 OA & Co HAL : http://hal.archives-ouvertes.fr/ Revues.org : http://www.revues.org/ OAIster : http://www.oaister.org/
Outils du web2.0 (fonction recherche uniquement) 29/11/07 Outils du web2.0 (fonction recherche uniquement) Signets : Del.ici.ous (http://del.icio.us/ ), digg (http://www.digg.com/ ), … : Ref biblio : CiteUlike (http://www.citeulike.org/ ), Bibsonomy (http://www.bibsonomy.org/ ), … : illustrations : Flickr (http://www.flickr.com/ ), youtube (http://www.youtube.com/ ), … : Présentations (PPT : http://www.slideshare.net )
Les outils de recherche du web (moteurs, annuaires et autres) 29/11/07 Les outils de recherche du web (moteurs, annuaires et autres) Google scholar : http://scholar.google.com Google book : http://books.google.com/ Lecdi : http://www.lecdi.net/ In extenso : http://www.in-extenso.org/ Exalead http://www.exalead.fr Kvisu : http://beta.kvisu.com/ Ixquick http://www.eu.ixquick.com/fra/ Wayback machine http://www.archive.org/ Wikio (blogs) : http://www.wikio.fr/blogs Yahoo (Mindset) : http://mindset.research.yahoo.com/ Open directory project http://www.dmoz.org/
Les répertoires Répertoire critique en SHS http://album.revues.org/ 29/11/07 Les répertoires Répertoire critique en SHS http://album.revues.org/ Répertoire de Bases de données en SHS, CALAME : http://calame.ish-lyon.cnrs.fr/ Répertoire de revues Open Access, DOAJ : http://www.doaj.org/ Répertoire d'Archive Ouverte, OpenDOAR : http://www.opendoar.org/ Répertoire du patrimoine numérique : http://www.numerique.culture.fr/mpf/pub-fr/index.html Répertoire de ressources « academiques » : Bubl , http://bubl.ac.uk/ Répertoire de BdD gratuites (Dadi) : http://dadi.enssib.fr/ Répertoire web2.0 : http://www.go2web20.net/ Search engines watch : http://searchenginewatch.com/showPage.html?page=links
« Mon environnement de recherche » 29/11/07 « Mon environnement de recherche » Quelques exemples Mes extensions FF (“mes moteurs”, zotero,…) Mon moteur de recherche (co-op/customsearch) Mon portail : Ning, netvibe, Igoogle, facebook, …
29/11/07 Vos questions ?
29/11/07 … et en plus
Moteurs (remarques) Searchmash : http://www.searchmash.com/ 29/11/07 Moteurs (remarques) Interfaçage : http://www.touchgraph.com/TGGoogleBrowser.html Searchmash : http://www.searchmash.com/ Comprendre la relation entre les moteurs : http://www.search- this.com/search_engine_decoder.asp
Méthodologie de recherche 29/11/07 Méthodologie de recherche 2 guides CERISE : http://web.ccr.jussieu.fr/urfist/cerise/ InfoSphere : http://www.bibliotheques.uqam.ca/InfoSphere/sci ences_humaines/index1.html Et aussi REPERE : http://repere.enssib.fr/frontOffice/afficheArticle.asp?idTheme=13
Stratégie de requête (exemple) 29/11/07 Stratégie de requête (exemple) Google Inurl:durand intitle « durand pierre » Site: durand inurl:durand intitle: « durand pierre » « durand pierre » Durand pierre bruit silence Source : Eric boutin
Les deux aspects des outils de recherche 29/11/07 Les deux aspects des outils de recherche Base de données Propagation electrons : 1 2 Collecte et stockage Fournir à L’internaute 10 à 20 réponses pertinentes Source : Eric Boutin
Le point de départ de Google 29/11/07 Le point de départ de Google Comprendre le ranking : http://professeurs.esiea.fr/wassner/?2007/06/03/74-l-algorithme-pagerank-comment-ca-marche Analyse de la citation : SCI Eugène Garfield Article 1 Duchemin Bla bla bla Dugenet(89) Article 2 Dugenet Bla bla bla Dumoulin(79) PAGERANK ( PAGERANK ( Google Google ) ) C C F F Linux.org Linux.org « un article scientifique tire sa légitimité de la reconnaissance par ses pairs » A A B B Yahoo! Yahoo! E E Chaque page web a un poids appelé Pagerank A reçoit des liens émanant de A is linked to by more sites plus populaires que B popular sites than B ( whatever the query is ) quelle que soit la requête A est meilleur que B A better than B Source : Eric Boutin