La consultation des documents électroniques : statistiques de fournisseurs et statistiques locales
Plan 1. Couperin 1.1 Présentation de Couperin 1.2 Présentation du groupe de travail sur les statistiques d’utilisation des ressources électroniques 2. La mesure locale des statistiques d’utilisation des ressources électroniques 2.1 Les différentes étapes 2.2 Identification des utilisateurs 2.3 La mesure locale : avantages et inconvénients 2.4 L’expérience de l’INIST-CNRS 3. Le code Counter 3.1 Généralités 3.2 Les codes de bonne pratique COUNTER et les rapports 3.3 COUNTER: avantages et inconvénients 3.4 Biais et erreurs à éviter 4. Les projets en cours 5. Bibliographie et liens internet
1.1 Présentation de Couperin Couperin est une association loi 1901, créée en 1999 par quatre universités fondatrices (Strasbourg 1, Nancy 1, Marseille 2, Angers). L’association est ouverte à tous les établissements ou organismes publics ou privés exerçant des missions de service public d’enseignement supérieur et de recherche en France et le cas échéant en partenariat avec d'autres organismes au sein de l'Union Européenne. 206 membres en 2010 (universités (91), grandes écoles (80) organismes de recherche (24) et autres organismes (11)) Couperin se divise en deux départements : Le département de la Coordination des Négociations Documentaires (CND) Le département Etudes et Prospective (E&P) Fonctionnement : 3 personnels de bibliothèques + …bonne volonté des adhérents
Sciences de la vie et santé Guy Cobolet Paris V, BIUM LSH Pôle responsable établissement SVS Sciences de la vie et santé Guy Cobolet Paris V, BIUM LSH Lettres et sciences humaines Marie-Joëlle Tarin Paris I, Sorbonne STP Sciences, techniques et pluridisciplinaire Malotaux Sandrine INP Toulouse SJP Sciences juridiques et politiques Chevillotte Sylvie Paris I, Cujas Chapoy Elise Sciences Po SEG Sciences économiques et gestion Sabatier Isabelle Paris Dauphine GCO Grands comptes Etienne Catherine Bordeaux 1
1.2 Présentation du groupe de travail sur les statistiques d’utilisation des ressources électroniques groupe animé par Thierry Fournier de l'Université Rennes 1 et par Laurent Baudy du département CND de Couperin. Il comprend une trentaine de membres : universités, hôpitaux (hospices civils de Lyon), organismes de recherche (IFP, Institut Pasteur, INIST,CEA). Deux objectifs sont fixés au groupe de travail : dresser un état des pratiques et des expériences en terme de recueil et d'exploitation des statistiques d‘utilisation des ressources dans les établissements ; ces études serviront notamment à définir très précisément les attentes fonctionnelles du module statistique du futur ERMS élaborer les demandes du consortium en terme d'évolution de COUNTER afin de les faire remonter au niveau international Le groupe de travail pourra se saisir d'autres questions relatives à l‘utilisation des ressources et définir un programme de travail qui sera validé par le Bureau professionnel (BP).
Attention au vocabulaire Statistique : ensemble de données numériques concernant une catégorie de faits On parlera de statistique d’utilisation pour indiquer que l’on s’occupe des données numériques : aspect quantitatif (définitions, collecte, mise en forme) : c’est ce dont il sera question. Les statistiques d’usage s’occupent de l’interprétation de ces données. Cet aspect qualitatif est considéré dans les enquêtes sur le comportement des utilisateurs de ressources électroniques.
2. La mesure locale des statistiques d’utilisation des ressources électroniques C’est l’analyse du flux de données transitant des réseaux locaux des établissements vers les fournisseurs via l’internet. Plusieurs étapes sont nécessaires : Collecte des données avec la construction de fichiers journaux (fichiers « logs ») Extraction et stockage, parmi les journaux collectés, de ceux qui sont utiles pour les mesures Exploitation des données en fonction des items retenus Mise en forme des résultats
2.1 Les différentes étapes Un serveur mandataire est utilisé, à savoir un « proxy web», comme outil de production des fichiers journaux. Il supporte, entre autres, les accès à des bases construites selon le protocole http(s). Tous les utilisateurs doivent passer obligatoirement par cette machine sur laquelle sont disponibles les fichiers journaux correspondant au flux de requêtes vers tel ou tel fournisseur. Des filtres sélectionnant chaque nuit les seules données à conserver, à partir d’une suite d’URLs pré- établies caractérisant les plates-formes des éditeurs auxquelles on souhaite accéder, est nécessaire (sélection des actions dont on veux garder la trace). Le paramétrage des proxies comme les filtres installés peuvent suivre les directives du Code COUNTER, ceci afin de pouvoir comparer les résultats avec ceux des fournisseurs. A partir des logs, des compteurs sont créés par item mesuré (utilisation de script), par rapport à ce que l'on pourrait appeler des événements de consultation. Des tableaux finaux de résultats sont élaborés (généralement structurés en excel ou XML)
2.2 Identification des utilisateurs (1) Adresse IP : Si les établissements possèdent des tables de correspondance IP/catégorie d’usagers, des résultats par catégorie sont possibles. On peut identifier certains postes avec certitude (postes professionnels), voir certaines utilisations (postes dédiés à la formation), mais l’utilisation des postes publiques reste vague. Utilisateurs nomades : combinaison proxy / CAS (Central Authentication Service : système d’authentification) / annuaire LDAP (Lightweight Directory Access Protocol), avec un login / mot de passe pour identifier l’utilisateur. On peut aussi utiliser un VPN (Virtual Private Network). Shibboleth : protocole qui permet d’effectuer un contrôle d’accès ciblé pour chaque usager nomade. De façon concrète, pour accéder à une ressource électronique, un étudiant pourra se connecter sur le site d'un éditeur au moyen des codes personnels attribués par son établissement pour les autres services usuels (sans avoir à se connecter au préalable sur le site de sa bibliothèque, qui redirigeait ensuite sur le site de l'éditeur). Shibboleth est compatible aujourd’hui avec la présence d’un proxy et pourra aussi donner des statistiques locales sommaires.
2.2 Identification des utilisateurs (2) Identification par adresse IP … Le fournisseur vérifie les adresses IP Utilisateur 1 CAS / Annuaire LDAP Proxy Le fournisseur n’a qu’une seule adresse IP : celle du proxy de l’établissement Utilisateur 2 Utilisateur 3 établissement shibboleth Le fournisseur vérifie avec la liste des personnes autorisées de l’établissement Utilisateur Login / mot de passe Gérés par le fournisseur d’identité CAS / LDAP
2.3 La mesure locale : avantages et inconvénients Permet de cibler exactement ce que l’on recherche (actions effectuées, unités documentaires, types de collection) Mise en place d'un dispositif technique indispensable (Proxy paramétré selon directives, PCs configurés pour passer par le proxy pour la documentation électronique, etc.) Permet d’identifier l’utilisateur Mises à jour régulière des scripts (changements du côté du fournisseur : nouveau logiciel, nouvelle plateforme, mise à jour des ressources, nouveaux fournisseurs, etc.) Statistiques indépendantes des fournisseurs Ne mesure pas l’utilisation des ressources libres, car on ne peut contraindre l’accès via un proxy Homogénéité des tableaux de résultats Les données peuvent être codées dans les logs : coopération avec les éditeurs nécessaire Souplesse dans le choix des rapports (mise en forme des données) L’éditeur peut refuser de recevoir une seule adresse IP (le proxy)
2.4 L’expérience de l’INIST-CNRS 2.4.1 Choix technique : Mise en place de traitements réguliers des logs avec le langage PHP (table des logs); utilisation de la base de données MySql pour stocker les informations Utilisation de l’ERM Millenium pour identifier les revues : table des revues Utilisation d’une base de données propre pour identifier les laboratoires utilisateurs : table des utilisateurs Création de parseurs : analyseur syntaxique permettant d’identifier des événements de consultations (déchiffrage des URLs : détection d'accès à une page de résumé d'article, d'article HTML, PDF, login, ...) issus de la table des logs Validation des données : prise en compte des recommandations COUNTER et tests pour paramétrer correctement les parseurs (pour toutes les ressources) Les données sont ensuite utilisées et manipulées via Omniscope de Visokio, logiciel de visualisation interactive de données et d’analyse. 2.4.2 Résultats (2007->maintenant) A partir des chiffres obtenus pour 2007, parmi les 36 éditeurs comparés, 13 ont des chiffres proches (écart inférieur ou égal à 5%) des mesures locales, 2 sous-estiment leurs consultations et 21 les surestiment (bien qu’ils se déclarent conformes à COUNTER). Pour de plus amples explications, se reporter à l’article « Mesure des consultations des ressources électroniques des portails du CNRS. Lien avec les utilisateurs » de Magali Colin et Dominique Lechaudel dans « L’information scientifique et technique dans l’univers numérique : mesure et usages », cf. bibliographie
3. COUNTER (Counting Online Usage of Networked Electronic Resources) Créé en 2002, Counter Online Metrics est une entreprise non commerciale immatriculée en Angleterre. L’entreprise a un Conseil d'administration (Board of Directors) qui a délégué la gestion globale et la direction de COUNTER à un Comité de direction (Executive Committee), présidé par Richard Gedye des Oxford University Press. La gestion quotidienne de COUNTER reste du ressort du directeur du projet, Peter Shepherd. Le Comité consultatif international (International Advisory Board) de COUNTER est composé de grands experts du monde de l’édition, des bibliothèques et des intermédiaires qui apportent leur soutien et leurs recommandations à la direction du projet. La liste des membres du Conseil d'administration (Board of Directors), du Comité de direction (Executive Committee) et du Comité consultatif international (International Advisory Board) figure ci-dessous : Conseil d’administration (Board of Directors) Olaf Ernst Springer Science+Business Media, Allemagne Cliff Morgan Wiley, Royaume-Uni Ann Okerson Yale University, Etats-Unis Carol Tenopir University of Tennessee, Etats-Unis Hazel Woodward Cranfield University, Royaume-Uni (Président) Secrétaire Général : Peter Shepherd
3.1 Généralités Objectif L'objectif du Code de bonnes pratiques COUNTER est de faciliter l'enregistrement, l'échange et l'interprétation des données d'utilisation en ligne ; il établit pour ce faire des normes et des protocoles ouverts et internationaux permettant aux fournisseurs d'informations de produire des statistiques d'utilisation, qui sont cohérentes, crédibles et compatibles. COUNTER s'appuie sur un certain nombre d'initiatives, normes, standards et protocoles actuels importants. Champ d'application Ce Code de bonnes pratiques COUNTER fournit un cadre pour l'enregistrement et l'échange de statistiques d'utilisation en ligne pour des revues, des bases de données et des publications assimilées, à un niveau international. Ce faisant, il couvre les domaines suivants : éléments de données à mesurer ; définitions de ces éléments de données ; contenu et format des rapports d'utilisation ; les conditions nécessaires pour le traitement des données ; les conditions nécessaires pour l'audit ; des directives pour éviter un calcul en double quand les portails d'un intermédiaire et des agrégateurs sont utilisés.
3.1 Généralités – suite Application COUNTER s'adresse aux bibliothécaires, éditeurs et autres fournisseurs d'informations. Les orientations proposées dans le Code de bonnes pratiques permettent aux bibliothécaires de comparer les statistiques provenant de différents fournisseurs, de prendre des décisions d'acquisition en étant plus éclairés et de planifier les infrastructures de manière plus efficace. COUNTER donne aussi aux fournisseurs et intermédiaires les spécifications précises dont ils ont besoin pour produire les données dans un format qui convienne à leurs clients, pour comparer les utilisations en fonction des différents modes de transmission de l'information et pour recueillir des informations sur les profils d'utilisation en ligne. COUNTER fournit aussi à d'autres acteurs intéressés par le domaine de l'information des orientations sur les statistiques d'utilisation en ligne. Stratégie COUNTER est un Code de bonnes pratiques ouvert qui évolue en fonction de la demande des communautés internationales des bibliothécaires, des éditeurs et autres fournisseurs d'informations. Une décision délibérée a été prise pour restreindre cette version à fournir un ensemble de rapports d'utilisation relativement simples, fiables. Le Code de bonnes pratiques est révisé en permanence et les différents acteurs concernés sont vivement invités à nous faire part de leurs commentaires sur la portée et l'application du Code.
3.2 Les codes de bonne pratique COUNTER et les rapports 3.2.1 Le code de bonne pratique des e-books et des ouvrages de référence (version 1 – 2006) 3.2.2 Le code de bonne pratique des revues et des bases de donnée (version 3 – 2008) 3.2.3 Les rapports pour les consortiums et les rapports optionnels (version 3 – 2008)
3.2.1 Le code de bonne pratique des e-books et des ouvrages de référence BR1= Book Report 1: Number of Successful Title Requests by Month and Title Nombre de requêtes réussies de titre par mois et titre BR2= Book Report 2: Number of Successful Section Requests by Month and Title Nombre de requêtes réussies de section par mois et titre BR3= Book Report 3: Turnaways by Month and Title Nombre de refus de connexion par mois et titre BR4= Book Report 4: Turnaways by Month and Service Nombre de refus de connexion par mois et service BR5= Book Report 5: Total Searches and Sessions by Month and Title Nombre d’interrogations et de sessions par mois et titre BR6= Book Report 6: Total Searches and Sessions by Month and Service Nombre d’interrogations et sessions par mois et service
Quelques définitions Successful Request : requête réussie : Pour les fichiers de connexion des serveurs web, une requête réussie est une requête qui génère des codes de retour spécifiques. Section : Une subdivision de premier niveau d’un livre ou d’un ouvrage de référence (Chapitre, entrée). Turnaway : Refus de connexion (session rejetée) : Un refus est défini comme une tentative infructueuse de connexion à un service électronique, en raison du dépassement du nombre d’utilisateurs simultanés autorisé par la licence. Search : Une requête intellectuelle spécifique, revenant classiquement à soumettre au serveur le formulaire d’interrogation du service en ligne. Session : Une requête réussie sur un service en ligne. Il s’agit d’un cycle d’activité de l’utilisateur qui classiquement débute lorsque l’utilisateur se connecte au service ou à la base de données et qui se termine de façon explicite (en quittant le service par le menu quitter ou bien par une déconnexion), ou implicite (déconnexion automatique après une période de non utilisation). Service : Un groupe de produits d’information en ligne protégé par une marque provenant d’un ou plusieurs fournisseurs, pour lequel on peut prendre un abonnement ou une licence et dont tout ou partie de la collection peut être interrogé p. ex. une collection, Science Direct, Academic Universe…).
3.2.2 Le code de bonne pratique des revues et des bases de données JR1 = Journal Report 1: Number of Successful Full-Text Article Requests by Month and Journal Nombre de requêtes réussies d’article en texte intégral par mois et par revue JR1a = Journal Report 1a : Number of Successful Full-Text Article Requests from an Archive by Month and Journal Nombre de requêtes réussies d’article en texte intégral d’une archive par mois et par revue JR2 = Journal Report 2 : Turnaways by Month and Journal Nombre de refus de connexion par mois et revue JR5 = Journal Report 5: Number of Successful Full-Text Article Requests by Year-of-Publication and Journal Nombre de requêtes réussies d’article en texte intégral par année de publication et par revue DB1 = Database Report 1: Total Searches and Sessions by Month and Database Nombre d’interrogations et de sessions par mois et base de données DB2 = Database Report 2: Turnaways by Month and Database Nombre de refus de connexion par mois et base de données DB3 = Database Report 3: Total Searches and Sessions by Month and Service Nombre d’interrogations et de sessions par mois et service
3.2.3 Les rapports pour les consortiums et les rapports optionnels CR1 = Consortium Report 1: Number of Successful Full-Text Journal Article or Book Chapter Requests by Month (XML only) Nombre de requêtes réussies d’article de revue ou de chapitre de livre en texte intégral par mois (seulement en XML) CR2 = Consortium Report 2: Total Searches by Month and Database (XML only) Nombre d’interrogations par mois et base de données (seulement en XML) JB1 = Journal/Book Report 1: Number of Full-Text item Requests by Month and Title (XML only) -optional Nombre de requêtes réussies d’items par mois et par titre (seulement en XML) JR3 = Journal Report 3: Number of Successful Item Requests and Turnaways by Month, Journal and Page-Type - optional Nombre de requêtes réussies d’articles en texte intégral par année de publication et par revue JR4 = Journal Report 4: Total Searches Run by Month and Service - optional Nombre d’interrogations et de sessions par mois et base de données Item : Une partie identifiable de manière unique d’une œuvre publiée qui peut être : un article en texte intégral (œuvre originale ou une révision d'un travail publié) ; un résumé ou un abrégé d'un article en texte intégral ; une page HTML modulaire ; un matériel supplémentaire associé avec un article en texte intégral (par exemple, un ensemble de données supplémentaires), ou des ressources non textuelles, telles qu'une image, une vidéo ou un audio). Full-text item : Une catégorie d'« item » tel qu'un article de revue en texte intégral, un chapitre de livre, ou une entrée d'encyclopédie.
Quelques précisions Format Html : deux clicks sur la même requête doivent être séparés de 10 secondes Format PdF : deux clicks sur la même requête doivent être séparés de 30 secondes Bases de données : deux clicks sur la même requête doivent être séparés de 10 secondes Audit réussi si les résultats des fournisseurs sont compris entre -8% et +2% des totaux des auditeurs Fermeture automatique de session, généralement, au bout de 30 minutes Les interrogations fédérées et automatiques sont isolées des recherches bona fide par des utilisateurs humains, et sont rapportées séparemment dans les rapports de base de données 1 et 3 L’activité générée par les robots internet et les robots d'indexation, tout comme par LOCKSS ou des systèmes similaires de caches, sont exclus des rapports COUNTER (liste mise à jour)
SUSHI Le protocole SUSHI (Standardized Usage Statistics Harvesting Initiative) a été introduit dans le Code de bonnes pratiques COUNTER version 3. SUSHI a été mis au point par NISO (Organisation des Normes d'Information Nationale : organisme de normalisation américain ) en coopération avec COUNTER et est devenu en 2007 une norme de NISO (Z39.93). La mise en œuvre du protocole SUSHI basé sur le XML par les fournisseurs permettra l'accès automatique aux rapports d'utilisation de COUNTER aux systèmes locaux, rendant ce processus encore plus rapide pour le bibliothécaire ou l'administrateur des consortia de bibliothèques.
3.3 COUNTER: avantages et inconvénients Homogénéité des données statistiques Ne distingue pas les différents utilisateurs Implication des éditeurs Ne distingue pas les requêtes des mêmes articles Initiative internationale On doit faire confiance aux éditeurs Contrôle des statistiques via des audits Manque de souplesse dans ce que l’on mesure (imposé) Pas d’entretien technique (proxy, scripts, etc.) Pas d’éditeur français officiellement labellisé Travaux en cours avec l’UKSG et le JISC Nécessité de nettoyer les données des fournisseurs
3.4 Biais et erreurs à éviter (1) Quand on a x requêtes réussies d’article (ou autre), on doit parler de « requêtes réussies » pas de « consultation d’article » : on ne connaît pas l’usage qui en est fait derrière. Quand on a x requêtes réussies d’article (ou autre), on ne doit pas parler du «nombre d’articles téléchargé s» : on aurait tendance à penser que seuls les articles en PdF sont pris en compte. Or, à moins que cela ne soit précisé, il peut aussi s’agir d’articles en HTML (ou autre). Il vaut mieux parler « nombre d’articles envoyés ». On ne connaît les méthodes de travail des chercheurs : un tel peut enregistrer un article en PdF sur son ordinateur; un autre reviendra dix fois sur le site consulter le même article (de chez lui, du laboratoire, de la bibliothèque…). « Un autre biais que nous avons constaté, est que lorsque nous calculons le coût « à l'article » (ou à l'utilisation) d'un bouquet de revues, et que nous le comparons au coût d'un prêt entre bibliothèques, nous comparons en réalité deux choses totalement différentes :- un coût par couple « demandeur-article » unique dans le cas du prêt-inter (il est rare que le même demandeur fasse venir plusieurs fois le même article, et, vu que le service est payant pour le demandeur, la probabilité que l'article soit au moins parcouru est forte) avec - un coût par requête ! (et une probabilité moins forte que l'article soit parcouru) » - Dominique Rouger (Cf. bibliographie) Attention aux comparaisons hâtives entre ressources électroniques différentes : même si la typologie est la même (BDD, ebooks, revues), le contenu diffère : périodicité des revues, nombres d’articles nouveaux, masse d’information différente…L’accès et la manipulation particulière d’une ressource peut justifier la mise en avant d’une mesure particulière : si une ressource ouvre automatiquement le document en HTML et propose ensuite le PdF, il y aura un compte double; il vaut alors mieux ne compter que le PdF.
Biais et erreurs à éviter (2) Quand on divise le prix total payé par le nombre de requêtes d’article (ou autre) réussies, il ne faut pas parler de « prix payé à l’article », mais du « prix de la requête réussie » : on ne connaît pas le nombre d’articles distincts. Si on veut diviser le prix payé par une mesure (comme le JR1), c’est une construction d’un indicateur dont il faut mesurer le flou. Le prix payé pour une ressource inclut plusieurs services (accès, mise à jour, conservation des données…). Il est fixe quelque soit le nombre de requêtes réussies. Décider de choisir une mesure plus significative qu’une autre, c’est négliger les autres. Diviser le prix total de la ressource par une mesure, c’est faire la construction d’un indice à postériori, alors que le prix initial n’est pas basé sur le nombre de requêtes réussies (à l’exception de certaines ressources, comme ACS). C’est surestimer le prix d’une action sur les autres. Et enfin, c’est un indice extrêmement fluctuant, si on ne connaît pas l’utilisation qui en est faîte. En résumé : attention quand on ne connaît pas les utilisateurs distincts, les articles distincts et l’utilisation qui est faîte des requêtes.
4. Projets en cours 4.1 avec l’UKSG (United Kingdom Serials Group) : organisation réunissant universités et fournisseurs de ressources électroniques JUF : Journal Usage Factor = Total usage (COUNTER JR1 data for a specified period)/Total number of articles published online (during a specified period) 4.2 avec le JISC (Joint Information Systems Committee) PIRUS: Publisher and institutional repository usage statistics
5. Bibliographie et liens internet Boukacem-Zeghmouri C., Schöpfel J., « Statistiques d’utilisations des ressources électroniques en ligne : le projet COUNTER », Bulletin des bibliothèques de France, 2005, vol. 50,n°4, p. 62-66. Disponible en ligne : http://bbf.enssib.fr/consulter/bbf-2005-04-0062-001 Shepherd P., « COUNTER: current developments and future plans », in « The E-Resources Management Handbook », publication d’UKSG en accès libre Disponible en ligne : http://uksg.metapress.com/app/home/contribution.asp?referrer=parent&backto=issue,4,31;journal,1,1;homemainpublications,1,2; Boukacem-Zeghmouri C. (sous la direction de), « L’information scientifique et technique dans l’univers du numérique : mesure et usage », actes du colloque « ressources électroniques académiques : mesure et usage », Lille, 26-27 novembre 2009 Et en particuliers : Rouger D., « « Don’t let me be Miss Understood » ou les bibliothécaires lisent-ils le COUNTER dans le chiffre? », p. 113-128. Colin M., Lechaudel D., « Mesure des consultations des ressources électroniques des portails du CNRS. Lien avec les utilisateurs », p. 129-144.
5.2 Liens internet COUPERIN : http://www.couperin.org/ COUNTER : http://www.projectcounter.org/ COUNTER en français : http://counter.inist.fr/ UKSG : http://www.uksg.org/ JUF : http://www.uksg.org/usagefactors JISC : http://www.jisc.ac.uk/ PIRUS : http://www.jisc.ac.uk/whatwedo/programmes/pals3/pirus.aspx EPEF (Évaluation des périodiques électroniques dans le réseau universitaire français) : http://epef.anr.free.fr/ Rapport de Sabine Barral sur les indicateurs d’usages des ressources électroniques (2007) : https://www.sup.adc.education.fr/bib/Acti/electro/mission_barral.pdf