La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Moteurs de recherche fédérée Florence Galand Bibliothèque Chevaleret-Jussieu Paris Centre Rencontres RNBM 2007 1er - 5 octobre 2007.

Présentations similaires


Présentation au sujet: "Moteurs de recherche fédérée Florence Galand Bibliothèque Chevaleret-Jussieu Paris Centre Rencontres RNBM 2007 1er - 5 octobre 2007."— Transcription de la présentation:

1 Moteurs de recherche fédérée Florence Galand Bibliothèque Chevaleret-Jussieu Paris Centre Rencontres RNBM er - 5 octobre 2007

2 Plan Contexte et enjeux Contexte et enjeux Quelques aspects techniques Quelques aspects techniques Illustrations Illustrations Perspectives Perspectives

3 Contexte de la recherche sur lInternet Hétérogénéité Hétérogénéité Des formats : texte, images, vidéos, sons Des formats : texte, images, vidéos, sons Des sources de diffusion dinformation scientifique: web institutionnels, éditeurs, archives ouvertes, sites perso, blogs, wikis, etc. Des sources de diffusion dinformation scientifique: web institutionnels, éditeurs, archives ouvertes, sites perso, blogs, wikis, etc. Des contenus : différents type de documents : article scientifiques, validés ou non par les pairs, de vulgarisation, etc. Des contenus : différents type de documents : article scientifiques, validés ou non par les pairs, de vulgarisation, etc. Tout nest pas indexé dans les principaux moteurs de recherche Tout nest pas indexé dans les principaux moteurs de recherche Web profond: nos catalogues, web dynamique, bases de données déditeurs Web profond: nos catalogues, web dynamique, bases de données déditeurs

4 Enjeux des moteurs de recherche web Enjeux des moteurs de recherche web « Recherche Universelle » : Google « Recherche Universelle » : Google Indexer le maximum de pages Indexer le maximum de pages Numériser le maximum de livres des bibliothèques Numériser le maximum de livres des bibliothèques Fidéliser les internautes : spécialisation et diversification (images, actualités, maps, blogs…), personnalisation, services, gadgets, etc. Fidéliser les internautes : spécialisation et diversification (images, actualités, maps, blogs…), personnalisation, services, gadgets, etc.

5 Google Scholar Google Scholar Classement par type de document : BOOK, CITATION, article Classement par type de document : BOOK, CITATION, article Référence darticle Référence darticle Toutes les versions dun même article Toutes les versions dun même article Citation = nb de fois où larticle ou louvrage en question est littéralement « cité » (et non plus simplement lié) par dautres Citation = nb de fois où larticle ou louvrage en question est littéralement « cité » (et non plus simplement lié) par dautres Localisation : par ex dans le SUDOC Localisation : par ex dans le SUDOC Limites Limites Recherche uniquement les articles et ouvrages scientifiques moissonnés dans les différentes sources (universités, éditeurs…) par le moteur de recherche. Recherche uniquement les articles et ouvrages scientifiques moissonnés dans les différentes sources (universités, éditeurs…) par le moteur de recherche.

6 Alternatives ? Moteurs avec dautres algorithmes, dautres présentations des résultats… Moteurs avec dautres algorithmes, dautres présentations des résultats… Yahoo Yahoo Recherche par facettes: Exalead, Vivissimo Recherche par facettes: Exalead, Vivissimo Moteurs de cartographie: Kartoon Moteurs de cartographie: Kartoon

7 En parallèle En parallèle Des moteurs développés par les éditeurs Des moteurs développés par les éditeurs Scopus (Elsevier, sur abonnement) Scopus (Elsevier, sur abonnement) Scirus (Elsevier, technologie FAST) Scirus (Elsevier, technologie FAST) Web sémantique Web sémantique Des moteurs propulsés par les usagers Des moteurs propulsés par les usagers Moteurs alternatifs dits « sociaux » du web 2.0 Moteurs alternatifs dits « sociaux » du web 2.0 centrés sur les réseaux, les communautés dintérêt centrés sur les réseaux, les communautés dintérêt Search Wikia, janvier 2007 par Jimmy Wales (Wikipédia) Search Wikia, janvier 2007 par Jimmy Wales (Wikipédia) + services (tags, digg, …) + services (tags, digg, …)

8 Quid des technologies web 2.0 ? Répercussion sur les moteurs Répercussion sur les moteurs Ajax = réduit les temps de requête/affichage des données Ajax = réduit les temps de requête/affichage des données Agrégation = Protocole RSS Agrégation = Protocole RSS Mashup = Mixage des services ou entre un moteur et des services dinfo (ex : Journal.info) Mashup = Mixage des services ou entre un moteur et des services dinfo (ex : Journal.info) Digg = Proposition de ressources et vote Digg = Proposition de ressources et vote Personnalisation Personnalisation fabriquer son propre moteur et le partager avec la communauté pour interaction = Do it yourself fabriquer son propre moteur et le partager avec la communauté pour interaction = Do it yourself Google Co-op : choix de ses sources Google Co-op : choix de ses sources LiveSearch (MSN): insérer ses propres macros LiveSearch (MSN): insérer ses propres macros

9 Limites du web 2.0 Limites du web 2.0 Susciter lintérêt des scientifiques pour le signalement des ressources dans un système interactif Susciter lintérêt des scientifiques pour le signalement des ressources dans un système interactif Limites de lindexation (folksonomie – ajouts de tags) par les usagers Limites de lindexation (folksonomie – ajouts de tags) par les usagers La recherche « médiée » par les utilisateurs ne sera jamais aussi exhaustive que la recherche « motorisée » par les algorithmes La recherche « médiée » par les utilisateurs ne sera jamais aussi exhaustive que la recherche « motorisée » par les algorithmes Web 2 vs web sémantique Web 2 vs web sémantique par rapport à la recherche scientifique ? par rapport à la recherche scientifique ? Processus de vulgarisation, cf.wikipédia Processus de vulgarisation, cf.wikipédia Mais, que cherche-t-on ? Mais, que cherche-t-on ? Exhaustivité ou pertinence ? Exhaustivité ou pertinence ?

10 Conclusion sur la recherche dinformation Les moteurs et les usages sont en train de changer de logique Les moteurs et les usages sont en train de changer de logique pageRank pageRank filtrage en amont des sources par les utilisateurs selon un principe de pertinence différent qui leur est propre filtrage en amont des sources par les utilisateurs selon un principe de pertinence différent qui leur est propre navigation facilitée avec des interfaces à facettes navigation facilitée avec des interfaces à facettes personnalisation personnalisation

11 Usages Problèmes de lusager Problèmes de lusager Trop de ressources éparpillées Trop de ressources éparpillées Difficultés pour identifier les ressources : Difficultés pour identifier les ressources : Un article/ouvrage ? Un article/ouvrage ? Ou/et une référence bibliographique ? Ou/et une référence bibliographique ? Difficultés pour accéder au document lui-même Difficultés pour accéder au document lui-même Passer de la phase « bibliographique » à la phase « localisation » Passer de la phase « bibliographique » à la phase « localisation » Et donc, changer de base de consultation Et donc, changer de base de consultation

12 Pratiques des mathématiciens Pratiques des mathématiciens Mathscinet ou / et Zentralblatt Mathscinet ou / et Zentralblatt Google et / ou Google Scholar Google et / ou Google Scholar Catalogue de la bibliothèque de leur institution Catalogue de la bibliothèque de leur institution Catalogue fusionné des ouvrages du RNBM Catalogue fusionné des ouvrages du RNBM Ressources de la Cellule Mathdoc Ressources de la Cellule Mathdoc Pratiques des professionnels des bibliothèques ? Pratiques des professionnels des bibliothèques ? Idem + autres catalogues comme Sudoc, Library of Congress, Worldcat, etc. Idem + autres catalogues comme Sudoc, Library of Congress, Worldcat, etc.

13 Autres constats : Autres constats : Liés aux usages de la consultation/recherche dans plusieurs bases de données ou moteurs de recherche Liés aux usages de la consultation/recherche dans plusieurs bases de données ou moteurs de recherche Longueur de lentreprise Longueur de lentreprise Requiert des compétences techniques : Requiert des compétences techniques : reposer les requêtes dans chaque outils reposer les requêtes dans chaque outils connaître la syntaxe si ressources spécialisées connaître la syntaxe si ressources spécialisées

14 Questions On sait que les chercheurs consultent ce quils utilisent le plus souvent et vice-versa On sait que les chercheurs consultent ce quils utilisent le plus souvent et vice-versa Mathscinet, Zentralblatt Mathscinet, Zentralblatt Google Google Catalogue de la bibliothèque (ouvrages) Catalogue de la bibliothèque (ouvrages) Voire les sites des revues scientifiques (nouveautés) Voire les sites des revues scientifiques (nouveautés) Pourquoi et dans quels cas, les chercheurs et les étudiants auraient-ils besoin dun outil de recherche fédérée ? Pourquoi et dans quels cas, les chercheurs et les étudiants auraient-ils besoin dun outil de recherche fédérée ? une interrogation en une seule fois sur les sources sélectionnées une interrogation en une seule fois sur les sources sélectionnées aide à la recherche à la marge de leur domaine de compétences aide à la recherche à la marge de leur domaine de compétences

15 Il existe une solution Une interface de recherche unique Une interface de recherche unique Une recherche simultanée vers toutes les ressources possédées / gérées par la bibliothèque et les consortiums Une recherche simultanée vers toutes les ressources possédées / gérées par la bibliothèque et les consortiums Une seule liste de résultats homogénéisés avec des liens directs sur le document lui-même Une seule liste de résultats homogénéisés avec des liens directs sur le document lui-même

16 …le moteur de recherche fédérée Outil intégré dans le système documentaire Outil intégré dans le système documentaire Objectifs : Objectifs : Pertinence Pertinence Rapidité Rapidité Services Services

17 2. Aspects techniques Principes du moteur fédéré : Principes du moteur fédéré : Repose sur des connecteurs qui font le lien entre la requête de lutilisateur et les sources extérieures Repose sur des connecteurs qui font le lien entre la requête de lutilisateur et les sources extérieures Connecteur : Connecteur : Traduit la requête de lusager en autant de langages quil existe de cibles Traduit la requête de lusager en autant de langages quil existe de cibles Traduit la réponse donnée par chaque source dans un format standardisé Traduit la réponse donnée par chaque source dans un format standardisé Cibles : Cibles : catalogues de bibliothèque catalogues de bibliothèque autres bases de données de la bibliothèque (GED, bibliothèques numériques, signets, etc.) autres bases de données de la bibliothèque (GED, bibliothèques numériques, signets, etc.) bases de données bibliographiques bases de données bibliographiques système de diffusion de lédition scientifique (plateforme des éditeurs) système de diffusion de lédition scientifique (plateforme des éditeurs) archives ouvertes archives ouvertes pages web pages web moteurs de recherche moteurs de recherche

18

19 Trois temps : Trois temps : Traduction de la requête Traduction de la requête Dédoublonnage des résultats Dédoublonnage des résultats Moulinage XML des résultats pour être intégrés dans linterface de recherche du portail Moulinage XML des résultats pour être intégrés dans linterface de recherche du portail

20 Différents types de connecteurs Différents types de connecteurs Z Z XML XML HTML HTML web services web services Autre façon de collecter linformation Autre façon de collecter linformation Moissonnage OAI Moissonnage OAI Réindexer certaines bases de données (SIGB ou lOPAC) Réindexer certaines bases de données (SIGB ou lOPAC)

21 Différentes fonctionnalités : Différentes fonctionnalités : Cibles de recherche (base de données bibliographique, texte intégral) Cibles de recherche (base de données bibliographique, texte intégral) Types de recherche (chaîne de mots, booléenne) Types de recherche (chaîne de mots, booléenne) Critères de recherche (auteur, titre, sujet…) Critères de recherche (auteur, titre, sujet…) Filtres de recherche (par date, type de doc, format, source) Filtres de recherche (par date, type de doc, format, source)

22 Services (options) autour du moteur OpenURL OpenURL gestion de liens dynamiques vers les textes intégraux gestion de liens dynamiques vers les textes intégraux limite les ruptures entre lutilisateur et le document lui-même limite les ruptures entre lutilisateur et le document lui-même Time-out sur une ressource qui ne répond pas Time-out sur une ressource qui ne répond pas Tri ou classement des réponses Tri ou classement des réponses Exploitation des résultats Exploitation des résultats Impressions Impressions Envoi par mail Envoi par mail Export dans un format bibliographique Export dans un format bibliographique Services personnalisés Services personnalisés Panier Panier PEB PEB

23 Limites des moteurs fédérés Limites des moteurs fédérés certains critères de recherche pointus ne peuvent être pris en charge par les connecteurs certains critères de recherche pointus ne peuvent être pris en charge par les connecteurs Ne permet pas toujours lexploitation fine dune ressource Ne permet pas toujours lexploitation fine dune ressource -> nécessité de se connecter directement à la source pour poser sa requête de façon précise -> nécessité de se connecter directement à la source pour poser sa requête de façon précise

24 Quelle est loffre du marché ? Trois catégories de moteurs de recherche fédérée Trois catégories de moteurs de recherche fédérée Commerciaux Commerciaux Commercial open source Commercial open source Open source universitaire Open source universitaire

25 Moteurs commerciaux Les « traditionnels » : Metalib dEx-Libris ( + résolveur de lien OpenUrl : SFX) Metalib dEx-Libris ( + résolveur de lien OpenUrl : SFX) SCD Strasbourg SCD Strasbourg Institut Max Planck Institut Max Planck Primo dExlibris Primo dExlibris Université de Vanderbildt Université de Vanderbildt Respons de Jouve Respons de Jouve BU Paris 6 BU Paris 6 BU Nantes BU Nantes Incipio dArchimed Incipio dArchimed Portail Sudoc Portail Sudoc

26 Les plus « innovants » : Exalead Exalead moteur sémantique moteur sémantique BAAGZ : réseau social basé sur la notion de centres dintérêts partagés BAAGZ : réseau social basé sur la notion de centres dintérêts partagés Vivissimo Vivissimo Fast, AlltheWeb Fast, AlltheWeb Deux exemples Deux exemples Moteur de recherche scientifique, Base-Search Moteur de recherche scientifique, Base-Search Catalogues des bibliothèques allemandes /autrichiennes /suisses Catalogues des bibliothèques allemandes /autrichiennes /suisses

27 Moteur commercial Open source MasterKey MasterKey Développé par Index Data au Danemark Développé par Index Data au Danemark Nouvelle génération (AJAX) : très rapide Nouvelle génération (AJAX) : très rapide Recherche à facettes (sources, auteurs, etc.) Recherche à facettes (sources, auteurs, etc.) openURL openURL Exemple : bibliothèque du Texas Exemple : bibliothèque du Texas

28 Moteurs open source dbWIZ dbWIZ Développé par Simon Fraser University Library, Canada Développé par Simon Fraser University Library, Canada LibraryFind LibraryFind Développé par Oregon State University Libraries Développé par Oregon State University Libraries

29 Illustrations - Exemples

30 SCD Strasbourg, Bibliothèque virtuelle,

31 Max Planck Virtual Library

32 Max Planck Virtual Library

33 Université de Vanderbilt,

34 Portail documentaire Jubil, Paris 6,

35 Nantilus, BU Nantes

36 Portail Sudoc,

37 Fast, Dreilaender

38 MasterKey, site de démo Trois catalogues Library of Congress Library of Congress MELVYL MELVYL Oxford University Oxford University Contenus en accès libre Contenus en accès libre Open Content Alliance Open Content Alliance OAISter OAISter Project Gutenberg Project Gutenberg Wikipedia Wikipedia Open Directory Open Directory

39

40 Library of Texas,

41 Oregon State University

42 Université Simon Fraser,

43 dbWiz : accès public à tester, bin/dbwiz/dbwiz2.pl?state=set_search_interface;interface=advanced

44 Trois démonstrations : 1. Test à la bibli de math Chevaleret h.jussieu.fr/jubil/ (accès réservé) h.jussieu.fr/jubil/ (accès réservé) h.jussieu.fr/jubil/ h.jussieu.fr/jubil/ Développé à partir du moteur de Jouve, personnalisation pour les maths de Jubil, portail documentaire de Paris 6 Développé à partir du moteur de Jouve, personnalisation pour les maths de Jubil, portail documentaire de Paris 6

45 8 sources : Jubil 1 8 sources : Jubil 1 Mathscinet Mathscinet Zentralblatt Zentralblatt Springer Springer ScienceDirect ScienceDirect Blackwell Blackwell Google Scholar Google Scholar Catalogue BIUSJ Catalogue BIUSJ 4 sources : Jubil 3 Mathscinet Zentralblatt Google Scholar Catalogue BIUSJ

46 Observations : Observations : Sur la rapidité Sur la rapidité Bouton « Disponibilité ? » Bouton « Disponibilité ? » Services Services Enregistrer dans un panier Enregistrer dans un panier Envoi par mail Envoi par mail Exporter (Zotero) Exporter (Zotero)

47 2. LibraryFind, Univ. Oregon LibraryFind

48 Recherche multifacettes Recherche multifacettes Par type de document : articles, livres Par type de document : articles, livres Par base de données : Ebsco, catalogue Par base de données : Ebsco, catalogue Thèmes associés Thèmes associés Auteurs Auteurs Possibilités de classement des résultats Possibilités de classement des résultats Sauvegarde Sauvegarde Pour les articles Pour les articles Affichage titre + résumé Affichage titre + résumé PEB PEB

49 3. Fast, ex. Projet Base-search Base-Search (Bielefeld Academic Search Engine), métamoteur de recherche scientifique, développé par lUniversité de Bielefeld Base-Search (Bielefeld Academic Search Engine), métamoteur de recherche scientifique, développé par lUniversité de Bielefeld Initiative allemande qui contribue également au projet européen "Digital Repository Infrastructure Vision for European Research" (DRIVER) depuis juin 2006 Initiative allemande qui contribue également au projet européen "Digital Repository Infrastructure Vision for European Research" (DRIVER) depuis juin 2006

50 Base-search, sources indexées Cibles internationales moissonnées Cibles internationales moissonnées serveurs de publication des universités serveurs de publication des universités serveurs darchives ouvertes serveurs darchives ouvertes Bases de données et catalogues allemandes et internationales Bases de données et catalogues allemandes et internationales Springer mathematics Springer mathematics Zentralblatt Zentralblatt BNF, Numdam BNF, Numdam EuclidProjet EuclidProjet Liste complète :

51 Recherche multilingue (21 langues en même temps) Recherche multilingue (21 langues en même temps) Consultation par répertoires Dewey Consultation par répertoires Dewey

52 Base-Search

53

54 Performances Performances Navigation Navigation Classement Classement Rapidité Rapidité Moissonnage Moissonnage Convivialité : pour chaque résultat Convivialité : pour chaque résultat Lien direct avec le texte intégral Lien direct avec le texte intégral Métadonnées des différents systèmes dinformation Métadonnées des différents systèmes dinformation Provenance (cible) Provenance (cible) Rebonds vers Google Scholar Rebonds vers Google Scholar

55 Conclusion sur les technologies et les outils Intérêts : Intérêts : Vers plus dintelligence et de pertinence Vers plus dintelligence et de pertinence Choix des sources Choix des sources Sélection scientifique et par les professionnels des bibliothèques Sélection scientifique et par les professionnels des bibliothèques Vers plus de services Vers plus de services Navigation par sources, mots clés, etc. grâce à la classification des sources et la catégorisation automatique (MasterKey, LibraryFind, Fast) Navigation par sources, mots clés, etc. grâce à la classification des sources et la catégorisation automatique (MasterKey, LibraryFind, Fast) Alerte, abonnement Alerte, abonnement

56 Limites Limites Lenteur de certains systèmes « traditionnels » (Métalib et Jouve) liés aux nombre de connecteurs demandés Lenteur de certains systèmes « traditionnels » (Métalib et Jouve) liés aux nombre de connecteurs demandés Moteurs « traditionnels » restent « pauvres » en matière dinterface Moteurs « traditionnels » restent « pauvres » en matière dinterface Résultats sous forme de liste à consulter Résultats sous forme de liste à consulter Pas de catégorisation Pas de catégorisation Cf la conclusion de lINIST Cf la conclusion de lINIST

57 Alors, que peut-on imaginer pour les math ? Un moteur de recherche fédérée qui serait basé sur Un moteur de recherche fédérée qui serait basé sur performance et services performance et services Laccès direct à larticle Laccès direct à larticle Recherche multifacette Recherche multifacette Exploitation des résultats Exploitation des résultats avec un minimum de connecteurs pour la rapidité avec un minimum de connecteurs pour la rapidité 2 bases de données bibliographiques auxquelles toutes les bibliothèques de math sont abonnées 2 bases de données bibliographiques auxquelles toutes les bibliothèques de math sont abonnées Mathscinet Mathscinet Zentralblatt Zentralblatt Google + Google Scholar Google + Google Scholar arXiv + HAL arXiv + HAL

58 Ports forts : Ports forts : on couvrirait à peu près lensemble de la production en math, éditoriale, open access et perso on couvrirait à peu près lensemble de la production en math, éditoriale, open access et perso Inconvénients : Inconvénients : risque dincomplétude et problème daccès universels risque dincomplétude et problème daccès universels Mathscinet et Zentralblatt : accès réservés aux matheux du réseau et des universités abonnées Mathscinet et Zentralblatt : accès réservés aux matheux du réseau et des universités abonnées Google Scholar ne moissonne pas toutes les ressources scientifiques Google Scholar ne moissonne pas toutes les ressources scientifiques Il manquerait quelques liens OpenURL vers certains articles Il manquerait quelques liens OpenURL vers certains articles Bruit Bruit

59 Et si on pensait à … … un projet résolument orienté web Sinspirer des initiatives intéressantes au niveau des bibliothèques scientifiques Sinspirer des initiatives intéressantes au niveau des bibliothèques scientifiques Base-Search, université Bielefied Base-Search, université Bielefied WorldWideScience, British Library, WorldWideScience, British Library, MiniDML, cellule MathDoc, MiniDML, cellule MathDoc,

60 Pour poursuivre : lire le résumé du « Rêve bleu » sur Figoblog Repose la question des missions des bibliothèques scientifiques à lheure de lInternet Repose la question des missions des bibliothèques scientifiques à lheure de lInternet Propose de Propose de Capitaliser la technique des moteurs de recherche pour donner à voir un autre Google Capitaliser la technique des moteurs de recherche pour donner à voir un autre Google Créer un web scientifique, non pas en Créer un web scientifique, non pas en faisant de la recherche fédérée ou des bases de données distribuées faisant de la recherche fédérée ou des bases de données distribuées ou en constituant des entrepôts de métadonnées OAI ou en constituant des entrepôts de métadonnées OAI

61 Mais, créer un web scientifique qui serait Mais, créer un web scientifique qui serait une sélection de ressources de qualité une sélection de ressources de qualité validées validées adaptés à la préservation à long terme adaptés à la préservation à long terme pourvues de métadonnées pourvues de métadonnées Web 2.0 scientifique, documenté et ouvert Web 2.0 scientifique, documenté et ouvert coopération internationale coopération internationale normes fiables et ouvertes, interopérables normes fiables et ouvertes, interopérables techniques actuelles des moteurs de recherche techniques actuelles des moteurs de recherche principes participatifs principes participatifs Web sémantique ? Web sémantique ?

62 Et pourquoi pas ? Et pourquoi pas ? Le projet Wikipédia existe bien Le projet Wikipédia existe bien Les archives ouvertes scientifiques existent bien Les archives ouvertes scientifiques existent bien … Si tous les bibliothécaires du monde sy mettaient … … Si tous les bibliothécaires du monde sy mettaient …


Télécharger ppt "Moteurs de recherche fédérée Florence Galand Bibliothèque Chevaleret-Jussieu Paris Centre Rencontres RNBM 2007 1er - 5 octobre 2007."

Présentations similaires


Annonces Google