La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Bibliothèques numériques

Présentations similaires


Présentation au sujet: "Bibliothèques numériques"— Transcription de la présentation:

1 Bibliothèques numériques
L’évolution des ressources numériques en bibliothèques Formation CNFPT Pays de Loire : Octobre 2007 Olivier Ertzscheid. Maître de Conférences en sciences de l’information. Université de Nantes. IUT de la Roche sur Yon Support de formation sous licence creative commons : Réutilisable et modifiable en dehors de tout cadre commercial en citant la source originale.

2

3 Préambule : Star Wars Obi-Wan Kenobi : Je suis à la recherche d'une galaxie de planète appelé Kamino. Et je ne l'a retrouve sur aucun carte ni archive. JOCASTA NU : Kamino ? Ca ne m'est pas un système familier. Etes-vous sûr d'avoir les bonnes coordonnées ? Obi-Wan Kenobi : Selon mes informations, elle devrait se trouver dans cette zone. Juste au sud de RISHI MAZE JOCASTA NU : Pas de coordonnées ? C'est comme chercher une aiguille dans une botte de foin. (…) Vous êtes sûr qu'elle existe ? Obi-Wan Kenobi : Certain JOCASTA NU : Peut-être que la planète que vous cherchez a été détruite. Obi-Wan Kenobi : Ca ne serait pas consigné dans un rapport ? JOCASTA NU: Ca devrait l'être. Sauf si c'est très récent. (Elle secoue sa tête) Je n'aime pas dire ca, mais le système que vous recherchez n'existe pas ! Obi-Wan Kenobi : C'est impossible.peut-être les archives sont-elles incomplètes ? JOCASTA NU : Les archives sont complètes et totalement sécurisé, mon jeune Jedi. C'est une chose dont je suis absolument sûre - si quelque chose n'apparaît pas dans nos archives, c'est qu'il n'existe pas ! Moralité : Question de la BibNum : Ambition ? Collection ? Usages ? Accès ? Repérage ?

4 Thématiques abordées Bibliothèques "numériques, électroniques, virtuelles" tour d'horizon "sémantique" bibliothèques numériques et services aux usagers blogs, fils rss bibliothéconomiques, interfaces de navigation et de visualisation, bibliothèques numériques, recherche d'information et moteurs de recherche la question de l'accès au texte intégral, les nouveaux acteurs (l'exemple de Google Scholar) bibliothèques numériques et accès aux savoirs la question des archives ouvertes et institutionnelles les enjeux en termes de coûts (abonnements aux éditeurs de revues), de politique d'acquisition, position des GateKeepers bibliothèques numériques et techniques documentaires pratique des signets collaboratifs / partagés. les outils de "tag" et les folksonomies ("indexation sociale") bibliothèques numériques et numérisation les grands projets de numérisation. La place des bibliothèques. L'exemple de l'opposition Google Print / BNF / La question des droits

5 Au programme Chronologie et contexte Définition, enjeux et ambitions
La trilogie de l’indexation (prélude aux bibliothèques numériques) La course aux contenus Bibliothèque numérique ou Googliothèque universelle ? Carte des acteurs : bibliothèques, moteurs, alliances. Les 3 modèles de l’universalité numérique Professionnels et usagers : usages du numérique

6 Fil Rouge Evolution des missions des bibliothèques
Au regard … dans un contexte … De numérisation massive des biens culturels. Prenant en compte l’arrivée : de nouveaux « entrants » Moteurs de recherche Archives ouvertes. de nouvelles alliances Public / privé Bibliothèques / moteurs De nouveaux « positionnements »

7 1. Chronologie et contexte

8 Chronologie "Where is the Life we have lost in living?
Where is the wisdom we have lost in knowledge? Where is the knowledge we have lost in information?" T.S. Eliott, in Choruses from The Rock (1934)

9 (petite) Chronologie (de l’informatisation)
1900 : Bib. Congrès centralise catalogage 1935 : premières machines mécanographiques pour recherche documentaire 1959 : Conférence Unesco : traitement numérique de l’information 1963 : premières recherches en texte intégral 1969 : ARPANET Années 70 : informatisation bibliothèques Accès aux documents extérieurs devient une fonction importante Années 80 : nouveaux systèmes de gestion informatisée (prêt, catalogage, enregistrement …) Apparition CD-ROM : documents numériques objets d’acquisition et d’intégration dans les collections. Années 90 : Internet. 1995 : premiers programmes de numérisation de fonds d’ouvrages, en mode image. 2005 : année de la bibliothèque numérique (Google, BnF, BNUE, etc …)

10 Contexte Informationnel
P U T Explosion documentaire Sélection / Acquisition / Enregistrement Constitution de « fonds » Description documentaire Identification <=> Signalement Maîtrise Signalétique contenants Maîtrise Analytique contenus INDEXATION / CATALOGAGE / BIBLIOGRAPHIE / CLASSIFICATIONS / « Mémoires » Papier / Informatique O U T P Recherche / Récupération

11 L’existant : les bibliothèques dans le monde
Plus de bibliothèques, km de rayonnages de bibliothèques, Plus de connections à Internet dans les bibliothèques, 1,5 trillions de prêts chaque année 2,5 milliards de lecteurs inscrits. Source : manifeste IFLA :

12 L’existant français Bibliothèques publiques
Combien ? 3,067desservant 65 % de la population Pour qui ? 31 % of the population use municipal libraries (17 % of subscribers), 12 public libraries have a regional vocation, Ressources humaines : 39,000 staff members of which 34 % volunteers, Surface combinée : 2 million m2 Fonds 95.2 million non-heritage printed documents, 7.6 million sound recordings and 1.3 million videos recordings, 13.2 million heritage printed documents, Informatisation : 2,377 public libraries are computerized, Accès Internet dans 1,239 libraries (représente 4,771 terminaux soit une moyenne de 4 ordinateurs par bibliothèque) Source : ministère de la culture. Juin 2005

13 L’existant français Bibliothèques universitaires
110 bibliothèques universitaires et interuniversitaires. 1.179 million d’usagers 5,000 employés (un peu plus de 3 pour 1000 étudiants), they spend over 70 M€ on document acquisitions, their combined capacity is 106,000 seats, their collections, some 27 million books and 466,000 series titles, increased for example by 1.2 million books in 2002. Documentation électronique 4,800 electronic documents Abonnement à 179,000 e-journals et 2,900 databases. Source : ministère de la culture. Juin 2005

14 Charte des bibliothèques
4 missions Accumulation : construction des collections. Savoir cumulatif Diffusion de culture livresque (ouverture des docs au publics) : tous publics et tous documents Aide aux études : formation scolaire, universitaire, professionnelle ET personnelle Documentation récente (actualité) Source

15 Charte des bibliothèques
Article 3 La bibliothèque est un service public nécessaire à l’exercice de la démocratie. Elle doit assurer l’égalité d’accès à la lecture et aux sources documentaires pour permettre l’indépendance intellectuelle de chaque individu et contribuer au progrès de la société. Article 4 Les bibliothèques qui dépendent des collectivités publiques sont ouvertes à tous. Aucun citoyen ne doit en être exclu du fait de sa situation personnelle Article 5 D’une manière générale, toute bibliothèque doit s’inscrire dans un ensemble organisé dont l’objectif est de fonctionner en réseau. Article 6 La consultation sur place des catalogues et des collections doit être gratuite pour l’usager. Article 7 Les collections des bibliothèques des collectivités publiques doivent être représentatives, chacune à son niveau ou dans sa spécialité, de l’ensemble des connaissances, des courants d’opinion et des productions éditoriales. Raison d’être des plans de classement et de l’accès raisonné

16 Contexte Internet : diffusion & normalisation
Explosion du web et de ses usages Google … Explosion des standards numériques Dublin Core OAI-PMH ( Explosion des plateformes de dépôt et de conservation ArXiv ( Dspace (

17 How Much Information in the world ?
Papier + numérique (Information imprimée, films, stockage optique et magnétique) = 5 exabits Sachant que 17 millions de livres (bibliothèque congrès) = 137 TB 5 exabits = bibliothèques de 17 millions de livres = 629 milliards de livres Internet le web "de surface" (= indexé ou susceptible de l'être par les moteurs) représente 167 TéraBits d'information les données des bibliothèques : 2,000 TB le web profond ("invisible" ou "deep web") : 91,850 TB (Pour mémoire 1 TB = 1000 GigaBits, 1 Cédérom = 700 mégas, 1 disque dur = 20 à 500 Gigas) Google = 8 milliards de pages = 0,005 % de l'information mondiale. Source :

18 Le travail … en Europe … Grandes bibliothèques européennes :
2,5 milliards de documents (livres et périodiques) (incluant des doublons) Projet Google Books Bibliothèque : 15 millions de documents. Archives européennes : 80 millions d’heures d’enregistrement vidéo 100 millions audio La plupart originale et analogique. 70% de ces archives en danger : chaque année, heures perdues.

19 France et numérisation
Appel à projets (April 2005) 170 propositions (131 en 2003) from institutions of various patrimonial sectors (budget : 2,7 M€ in 2005). Site portail « digitization of the cultural heritage » : ( Secteur bibliothèques : Source : ministère de la culture. Juin 2005

20 Utopies documentaires
Bibliothèques numériques perçues comme entités globalisantes d’un accès unique à l’ensemble des savoirs sont constitutives de l’histoire de la documentation dans toutes ses modalités (bibliothéconomie, classifications, catalogage, recherche documentaire …) Utopies documentaires Wells : World Brain Bush : Memex Nelson : Xanadu Otlet : Mundaneum

21 2. Définition, enjeux et ambitions

22 Bibliothèque numérique ?
Savoirs, connaissances (pas information) Meilleure diffusion Nouvelle forme de transmission Années 90 : bibliothèques sur Internet Mise en ligne des catalogues (sudoc) Puis documents numérisés Faciliter l’accès Quantitatif : supra-national Qualitatif : recherche texte intégral ou non.

23 Intérêt des Bibliothèques numériques
Rendre accessible Livres rares, épuisés, confidentiels, anciens, difficiles d’accès … ex : Rendre « cherchable » (searchable) Capacité à « entrer » dans le texte Outils de la linguistique de corpus, dispositifs de lecture « augmentée », etc … Démocratisation … Des savoirs ? Des accès aux savoirs ? Des parcours de connaissance ? « Rétrécir le temps et élargir l’espace. » J.F. de la Vega.

24 Intérêt des Bibliothèques numériques
Confronter le lecteur avec de nouveaux codes (écrit => multimedia) Réservoir de documents (traçabilité ?) Conservation de documents (patrimoine du temporaire ?) Organisation des connaissances (logiques classificatoires ou dictature du mot-clé) Mise en ligne de services (ask a librarian) Promotion de fonds patrimoniaux

25 Les bibliothèques ne sauraient être « que » numériques
Documents imprimés et numériques UNIVERS CONTINU Bibliothèques hybrides.

26 (premiers) Eléments de définition
Bibliothèques … Numériques, Electroniques, Virtuelles : « concept organisationnel basé sur une alliance de l’informatisation de la bibliothèque, de l’accès aux télécommunications et d’une nouvelle gamme d’outils directement utilisables par le lecteur et le dispensant de recourir à un intermédiaire humain. » Corrado Petenatti. Différences entre bibliothèque physique et virtuelle : Conditions d’accès aux documents (lecteur n’a plus à se déplacer) Étendue ou nature des services offerts (aide à la lecture par exemple) ET NON ampleur ou couverture du fonds. Il existe de très petites bibliothèques numériques !

27 Classique, Electronique, Virtuelle
Les mutations des bibliothèques sont de deux ordres : organisation des savoirs qu’elles permettent de conserver, traces, des supports sur lesquels sont inscrits ces savoirs. Permet de distinguer la bibliothèque classique => changement de support bibliothèque électronique (« l’informatisation de la bibliothèque classique et la numérisation des textes ») => dynamique plus générale liée aux nvlles formes d’organisation du savoir sur les réseaux la bibliothèque virtuelle (« la bibliothèque électronique plus le réseau, plus l’appropriation individuelle. » [Giffard 96]).

28 Classique, Electronique, Virtuelle
Enjeux « technologique » et ambitions « intellectuelles » constitutifs de l’histoire des bibliothèques : dès 1576, « Alde Manuce réussit à fusionner le programme intellectuel de l’édition humaniste et le programme technologique de la typographie. » [Giffard 96] Avènement du numérique : nouveaux problèmes. bibliothèques « reçoivent de l’information et non seulement des œuvres » [Bougnoux 93 p.658], ce qui, deuxièmement, « (...) conduit à poser en d’autres termes la dialectique du « périssable » et du « conservable ». Il nous permettra peut-être de constituer et de transmettre un « patrimoine du temporaire ». » [BPI 01]. « La technologie permettant de délivrer d’immenses quantités de données ne délivre pas simultanément une raison légitime d’accumuler ces informations. » [Friedlander 95 p.75]

29 Bibliothèque « calque »
Du physique vers le virtuel Modèle d’organisation de l’offre électronique calqué sur l’organisation physique des bibliothèques traditionnelles Accueil à travers page principale des services offerts Outils et moyens d’accès : catalogues, bdd bibliographiques, plans de classification, typologie des collections, moteur de recherche … Accès à des usuels (dict, encyclo), annuaires, répertoires Accès aux collections Accès aux supports d’accompagnement de cours, exercices, etc … Services : guide méthodologique, ask a librarian, service d’alerte …

30 Le Cadre « les bibliothèques doivent redéfinir les principes mêmes de leur action, dans deux directions : le patrimoine et la diffusion. » JNJ, 20/06/2005, Fonction patrimoniale demeure même avec dispersion physique des lieux de conservation L’introduction de l’électronique modifie profondément chacun des trois pôles de la chaîne de production réception du livre : auteur, éditeur, lecteur.

31 Définitions « Organisations qui offrent des ressources, y compris en personnel, pour sélectionner, structurer, offrir un accès intellectuel, interpréter, distribuer et conserver l’intégrité de documents sous forme numérique. Une bibliothèque numérique garantit également un accès sur la durée aux œuvres électroniques dans le but d’être aisément et à un moindre coût disponibles à un ou plusieurs publics spécifiques. » Gary Cleveland

32 Définitions « Une collection numérique devient une bibliothèque numérique lorsqu’elle répond aux 4 conditions suivantes : a) elle peut être créée et produite dans un certain nombre d’endroits différents, mais elle doit être accessible en tant qu’entité unique ; b) elle doit être organisée et indexée pour permettre un accès aussi facile que possible ; c) elle doit être stockée et gérée de manière à avoir une existence assez longue après sa création ; d) elle doit trouver un équilibre entre le respect du droit d’auteur et la diffusion libre du savoir. » DADVSI : fin de l’exception culturelle et aux fins d’enseignement des droits de copie, droits de citation ? Pour chaque ressource numérisée : spécifier l’utilisation autorisée : usage privé, enseignement et recherche, usage commercial …

33 Quels corpus ? Quelles collections ?
3 types de ressources pour BibNum : produites et mises en ligne par la bibliothèque elle-même en tant qu’institution Ex : Gallica, BNF Archives institutionnelles Ressources commerciales auxquelles la bibliothèque est abonnée Ex : périodiques scientifiques pour BU Ressources extérieures mises à disposition de l’usager Ex : liste de signets thématiques, etc …

34 Comment ?? Numérisation : Rétablir le lien avec le document matériel :
Mode image Mode texte (OCR) Rétablir le lien avec le document matériel : Métadonnées (Dublin Core) Question des coûts $$$$ Google welcome :-)

35 Et pourquoi ?? Numériser n’est pas tout : Objectifs ? Public ?
Collections ? Services ?

36 Bibliothèque & CONSERVATION numérique
« Avec le papier électronique, lisible sans souris, sans clavier, sans stylet (…) la numérithèque du futur ne possèderait plus alors que des livres blancs où chaque lecteur pourrait tout inscrire. » Michel Fingerhut (directeur médiathèque IRCAM) Problématique de la trace, de l’IN-scription Conserver des ouvrages n’est pas (que) conserver des écrits ==> bibliothèque sans livres ?? Or ces écrits numériques ont des problématiques de conservation spécifiques …

37 Bibliothèque & CONSERVATION numérique
Les atouts du support numérique : Capacité de stockage Mais … Les problèmes : Altération des supports => obsolescence des supports et des dispositifs de lecture … Evolution des formats : Propriétaires ou non … multipliée par spécificités des médias numériques (image, son, vidéo, etc …) ==> exemple du PDF Peu de chance que le phénomène ralentisse Innovation technologique + stratégie industrielle Alberto Manguel : « Au musée de Naples, on peut encore lire sur les cendres d’un papyrus sauvé de Pompéi. En revanche, beaucoup de mes disquettes vieilles de 5 ans sont déjà inutilisables. Les technologies modernes nous condamnent à nous occuper d’elles en permanence. » in Internet, le cauchemar de Babel, L’express 28/03/05

38 Bibliothèque & CONSERVATION numérique
DIFFUSION numérique : OUI CONSERVATION numérique : A VOIR …

39 « Révolution volumétrique » (Christian Lupovici)
Traitement de flux énormes d’informations Exemple des volumes des collectes de l’Internet Nouvelles unités documentaires Application de techniques archivistiques aux sites web Des techniques bibliothéconomiques industrielles traitements documentaires automatiques échantillonnage des contrôles qualité et alertes automatiques protocoles de recyclage des problèmes

40 3. Star Dex : la trilogie de l’indexation (Prélude au numérique)
Episode 1 : L’alliance des usagers Episode 2 : La revanche des bibliothécaires Episode 3 : Le côté obscur de l’indexation payante

41 Episode 1 : Indexons l’internet
Et si les usagers devenaient bibliothécaires ? On sait ranger sa bibliothèque … rangeons l’Internet balises Meta, Spamdexing … => plus personne ne s’y retrouve …

42 Episode II : Bibliothécaire : le retour
Grand n’importe quoi, Internet = big bazar Côté public : Tout type d’information Tout type d’indexation Côté institutions et bibliothèques : De plus en plus d’informations (numérisation des collections) = savoirs validés Impensable de n’être pas présent SUR internet Impensable de s’y trouver « mélangé » avec des blagues carambar ou télé Z Nécessiter d’archivage : Dépôt légal des sites Internet Déplacement des savoirs-faire : Dublin Core.

43 Indexation & internet : DublinCore
Acteurs initiaux : bibliothécaires et informaticiens OCLC (Online Computer Library Center, Dublin, Ohio) NCSA (National Center for Supercomputing Applications, Champaing, Illinois) site officiel Mars 1995: 1ère conférence sur les métadonnées ( = « données relatives à d’autres données », Priscilla Caplan, 1995) ; Objectif : établir un consensus sur les éléments essentiels des métadonnées pour une description adéquate des ressources accessibles dans Internet (Weibel et al., 1995).

44 Indexation & internet : DublinCore
Caractéristiques Le DC peut-être vu comme le plus petit dénominateur commun des formats de description (Roland Dachelet, 1998). Le DC doit pouvoir être utilisé par les auteurs des documents eux-mêmes, d’où seulement 15 éléments, optionnels, répétables, comportant des sous-éléments dix fondamentaux DC : auteur, date, description, éditeur, format, identifiant de la ressource, langue, mots clés, titre, type de ressource. (liste en français mise en ligne par Anne-Marie Vercoustre sur le site de l ’INRIA) Deux utilisations possibles du DC : description des ressources à partir d’un lien externe ou inclusion dans les ressources.

45 Indexation & internet : DublinCore
Exemple de métadonnées <meta name="DC.language" content="fr"> <meta name="DC.title" content="Répertoire des bibliothèques médicales francophones"> <meta name="DC.type" content="(SCHEME=CISMeF)texte.répertoire"> <meta name="DC.subject.keywords" content="(SCHEME=MeSH)bibliothèque médicale; medical library"> <link rel="schema.mesh" href" <link rel="schema.cismef" href="

46 DC : exemple <dc:creator>De Fraysseix, Hubert</dc:creator>
<dc:title>Intersection Graphs of Jordan Arcs</dc:title> <dc:creator>De Fraysseix, Hubert</dc:creator> <dc:creator>Ossona De Mendez, Patrice</dc:creator> <dc:subject>Mathematics/Combinatorics</dc:subject> <dc:description>A family of Jordan arcs, such that two arcs are nowhere tangent….</dc:description> <dc:publisher>HAL - CCSd - CNRS</dc:publisher> <dc:contributor>Patrice Ossona De Mendez <dc:date>1999</dc:date> <dc:type>ARTJOURNAL</dc:type> <dc:format/> <dc:identifier>ccsd (version 1)</dc:identifier> <dc:source> <dc:language>EN</dc:language> <dc:relation/> <dc:coverage>graph drawing; intersection representation</dc:coverage> <dc:rights/>

47 Indexation & internet : DublinCore
Deux tendances au sein de la communauté DC minimaliste (en rester là) structuraliste (développement des «qualifiers ») la tendance structuraliste semble maintenant majoritaire

48 Episode 3 : l’arrivée de l’indexation payante.
Le casse-tête des moteurs Ont (dans l’absolu) besoin des usagers pour les aider à mieux classer (aujourd’hui : social search à la Yahoo! : MyWeb, Del.icio.us, etc …) Mais les usagers détournent les logiques d’indexation Solution trouvée : Ne pas ou plus prendre en compte ces balises méta Faire payer le positionnement achat de mots clés pour affichage en tête de page de résultat Principe : obtenir une page web d'un site dans les premières positions proposées par l'outil de recherche pour un mot clé donné. Premières « dérives » : achat de mots-clé par l’UMP … exemple du CPE …

49 4. La course aux contenus

50 Qui numérise ? Qui thésaurise ?
Bibliothèques Moteurs Auteurs / Editeurs : OAI & Archives ouvertes

51 OAI (Open Access Initiative)
Initiative du Budapest ( " Par "Open Access" nous entendons la mise à disposition gratuite sur Internet des articles scientifiques, autorisant tout utilisateur à lire, télécharger, copier, distribuer, imprimer, exploiter grâce à des outils de recherche, établir des liens hypertextes vers ces articles et matériaux, traiter automatiquement à des fins d'indexation, les réutiliser grâce à la mobilisation de leur contenus par des logiciels spécialisés ou à toute autre fin légale et c,e sans autre barrière financière, juridique ou technique que celles qui sont intrinsèquement liées à l'accès sur Internet. Les seules contraintes pesant sur la reproduction et la distribution, et le seul impact des règles de la propriété intellectuelle en ce domaine, sont de donner aux auteurs un droit de contrôle sur l'intégrité de leur œuvres dans le cadre de ces réutilisations libres et que leur qualité d'auteur soit clairement mentionnée et reconnue dans le cadre de celles-ci".

52 OAI-PMH L'OAI-PMH (Open Archives Initiative’s Protocol for Metadata Harvesting) ou protocole OAI facilite l’échange de données entre des fournisseurs de données et de service permet de créer, d’alimenter et de tenir à jour, par des procédures automatisées, des réservoirs d’enregistrements qui signalent, décrivent et rendent accessibles des documents, sans les dupliquer ni modifier leur localisation d’origine. visibilité accrue à des documents Interopérabilité : collecte (moissonnage) les données descriptives de ressources et documents de tous types, accessibles sur l’Internet dans des entrepôts OAI. Peut fonctionner en « surcouche » du Dublin Core Sites de références sur le document :

53 5. Bibliothèque numérique et/ou Googliothèque universelle ?

54 L’origine d’un intérêt : les « 3C » Coûts, Connaissance & COnfiance
Savez vous sur quoi travaillaient Brin et Page pour leur doctorat ?????? Symptômes : 72 % des universitaires utilisent le moteur Google pour leurs recherches d’articles scientifiques (SWA 05). L’INIST, premier fournisseur français de documents de recherche a fait de Google Scholar son moteur d’accès Même la BNF dont on sait les positions de son président, utilise Google comme moteur de recherche interne au sein de sa propre interface … Explication de l’intérêt de Google pour la diffusion scientifique et la numérisation : logique capitalistique, le marché mondial de l’IST en 2005 : 14 milliards de dollars (croissance de 8% sur 2004). l'édition scientifique est avec l'édition juridique l'un des compartiments les plus rentables de l'édition professionnelle, avec des taux de marge de l'ordre de 18 à 24% du CA chez les plus grands éditeurs. (Source GFII) Logique positionnement : « rendre universellement accessible l’ensemble des connaissances disponibles. » Si l’on peut la bataille de l’information (aussi bien en termes d’accès, de diffusion que de modèle économique – publicitaire – associé) gagnée par Google : next : bataille de la connaissance. Image de la marque ternie : censure (en Chine) et protection de la vie privée. gagner la confiance des prescripteurs (chercheurs et autres bibliothécaires) = acquérir une salutaire légitimation.

55 Projet OCEAN A l’origine : projet « ocean »
Google passe un accord avec 16 grandes universités pour référencer les contenus de leurs "dépôts électroniques de documents" MIT (Massachussets Institute of Technology) et 16 autres universités (Cornell University, Hong Kong University of Science and Technology, University of Toronto et University of Washington) pour indexer et rendre systématiquement accessible les contenus des "archives numériques ouvertes" ("digital repositories") créées par ces institutions

56 GOOGLE SCHOLAR http://scholar.google.com/ Lancé fin 2004
Filtre : uniquement documents scientifiques et universitaires Corpus : articles scientifiques, de thèses, de pré-publications, de rapports ainsi que de monographies. Sources : éditeurs, sociétés savantes, répertoires et archives de pré et post-prints et autres serveurs universitaires. Bibliométrie : nombre de liens pointant vers le fichier, les différentes sources où il est disponible ainsi que les versions successives existant sur le Web. Mais : technique de calcul reste pour l’instant opaque dans la mesure où le taux de couverture de l’outil Google Scholar, les critères d’inclusion ou d’exclusion des documents indexés ne sont pas fournis. Fiche Google Scholar :

57 Google Library Annonce partenariat avec bibliothèques pour numériser gratuitement leur fonds et les rendre accessibles en texte intégral si copyright dépassé. Problème : Google Library et Google Print : même adresse, même service La clé aux marchands du temple ? Pourquoi ? Evolution des missions mais pas des fonds financiers … faux-problèmes : hégémonie américaine Modèle marchand de la bibliothèque ? Financé par publicité Que devient l’accès raisonné ? « laisser les utilisateurs et les chercheurs décider par eux-mêmes, par leurs choix, de la hiérarchie. » Mein Kampf au rayon jeunesse ?? Risques : ouvrages les plus consultés, pas de roulement du fonds, ouvrages oubliés, nouvelle forme d’enfer ?

58 Projet bibliothèque GOOGLE
Estimation : 230 millions de dollars. Partenariat avec : NYPL, BU Stanford, BU Harvard, University of Michigan, Oxford. Etat des « collections » Janvier 2006 (source Rapport préliminaire BNUE) : Avant 1700 : non significatif 18ème s : 1013 ouvrages : environ 75 livres / an soit 4500 livres (numérisés par Google) : numérisation en cours. Stanford university press : 100 livres. Editeurs francophones : DE Boexk university (B) : 300 livres Eclat (F) : 90 livres Brill academic publishers (NL) : 270

59 « Bugbliothèque universelle »
… … … … … … … … … … … En résumé : ( ) : pages affichées pour … 124 ouvrages ... soit des ouvrages de pages. Chacun. Epilogue :

60 Google : ce qui fait débat
Ainsi dans le cadre des mesures et des indicateurs délivrés par l’ISI c’est l’autorité qui prévaut alors que l’algorithmie du moteur Google ne peut s’établir que sur la notoriété d’un document. (BIL 06) : « Trust, authority, and reputation are central to scholarly publishing, but the model of the Internet is almost antithetical to the trust model of academia. » Des logiques d’usage, s’effaçant elles-même de plus en plus devant des logiques marchandes (liens sponsorisés notamment), peuvent elles prendre le pas sur des logiques classificatoires raisonnées dans le contexte de la diffusion et de l’accès aux connaissances scientifiques ? Obliger les acteurs universitaires à se repositionner en reprenant la main sur la maintenance et l’archivage de leurs fonds scientifiques pour ne pas prendre le risque d’une dépossession ou d’un détournement des logiques de consultation qui ne se feront plus que sur le site de la compagnie américaine avec en toile de fond l’application de logiques non plus classificatoires mais majoritairement marchandes. « All players – open-access and subscription publishers, managers of open-access repositories, and librarians – should collaborate to find a way to identify high academic quality in search engine world. » (FRI 06)

61 GOOGLE PRINT / BOOKS octobre 07, 2004, Google Print
Editeur : vous envoyez (gratuitement) un exemplaire de vos livres chez Google. Ils scannent tout ça (gratuitement) et l'indexe. Recherche full text Feuilletage en ligne de quelques pages de l'ouvrage (la table des matières) L’actualité du projet … Livres Hebdo : 20 Janvier : « Google aurait numérisé des centaines d’ouvrages français, sans aucune autorisation des maisons d’éditions. » « Les oeuvres "pillées" appartiendraient aux éditeurs Gallimard, Grasset, Hachette ou Fayard, et antérieures à 1970, les auteurs étant Albert Camus, Paul Valéry, André Malraux, André Gide ou André Breton. » « Le service juridique de Gallimard compte bien poursuivre Google, "nous allons réagir, c’est de la contrefaçon. Nous n’allons pas en rester là", des oeuvres impliquées et imprimés par Gallimard étant toujours soumis à des droits d’auteur. le SNE (Syndicat national de l’édition) risque lui aussi de se poursuivre Google. » Google pourrait avoir lancé la numérisation des oeuvres françaises avant que le projet de la BNE (Bibliothèque numérique européenne) ne prenne trop d’envergure...

62 Google Print / Books : quelques chiffres
Corpus : 18 millions d’ouvrages 16 % : Domaine public Accès texte intégral 9 % : Copyright. In Print Accès selon desiderata des auteurs/éditeurs 75 % : Copyright (USA : 1923) Mais « out of print » Extraits (4 pages autour du mot-clé cherché) Aucun enregistrement, ni impression, ni sauvegarde pour l’usager.

63 Le dilemme des éditeurs
Question n’est pas de savoir s’il faut en être ou non. IL LE FAUT Si vous avez quelque chose à vendre : vous refuseriez un spot de pub gratuit dans le media de masse le plus consulté chaque jour ? Question est de savoir comment y être …

64 Le dilemme des éditeurs
Sept 2005 : procès Authors Guild Oct 2005 : procès AAP Argument officiel : « massive copyright infringement » Opt-In : « si vous voulez copier l’œuvre de quelqu’un vous devez obtenir sa permission » Position Google (vrai) : si la copie est soumise au « fair-use », pas besoin de permission : « fair-use of a copyrighted work is not an infringement » La question est donc bien celle des USAGES : Google Book Search : fair-use or not fair-use ?

65 Les vraies raisons de la colère
Et demain … $ ? « Livres à la demande ? » Rejoint paradoxalement le projet bibliothèque : livres numérisés, un exemplaire reversé à la bibliothèque. Edition : livres scannés, google constitue sa base, ne donne pas d’exemplaire aux éditeurs

66 Vaincre sans péril … Corpus : 18 millions d’ouvrages
16 % : Domaine public 9 % : Copyright. In Print Négociations en cours avec les mêmes avec qui Google est en procès (éditeurs) 75 % : Copyright (USA) Mais « out of print » Loi sur ayants-droits inapplicable : aucun moyen de vérifier ou de les connaître : on peut pas demander permission Bataille gagnée pour Google : en mélangeant ainsi son « fonds » s’est offert la garantie et le soutien des usages majoritaires. Chantage affectif : si éditeurs gagnent, le modèle s’appliquant au 9% devra s’appliquer au 75% en on stoppera les frais. « Perte » de toute une partie de la littérature en terme « d’accès. » Perte de traffic pour les éditeurs et libraires en ligne.

67 Ce que le débat Google apporte aux bibliothèques …
interroge simultanément les 3 facettes qui font, de manière constitutive, la part irréductible du livre dans son appréhension à savoir : Son rapport avec l’individualité consciente qui le feuillette d’une part : lecture fragmentaire. Son rapport avec l’inscription qu’il recueille et dont il est la trace d’autre part : lecture numérique Le rapport de cette inscription à un héritage culturel partagé : économie des savoirs du livre.

68 Ce que le débat Google apporte aux bibliothèques …
Un moteur de recherche (qui se double d’un modèle économique entre agence média et régie publicitaire) n’est NI une librairie, NI une bibliothèque, NI un éditeur. MAIS … Le point commun de ces trois là, leur trésor de guerre, leur thésaurus, c’est leur CATALOGUE. Or Google s’attaque de manière sans équivalente dans l’histoire du livre et de la diffusion, de la conservation et de l’accès aux connaissances AU CATALOGUE. 2 dessis : blbiio, édition, librairie : pt commun catalogue Conservation diffusion, accès, recherche : pt commun catalogue Ahjourd’hui Google c’est : Le catalogue Le fonds numérisé Le public captif + L’adéquation aux nouveaux usages Les outis de monétisation de services à l’usager (et aux partenaires : adwords, adsense, Payment Corp) L’infrastructure et la technologie de recherche And the question is : qu’est-ce qui l’empêche de devenir libraire ? Editeur ? Bibliothécaire ?

69 6. Des bibliothèques … des moteurs … et des alliances …
Carte de (quelques) acteurs

70 « DES » Bibliothèques Numériques
Tous les niveaux d’échelle Initiatives locales, régionales, nationales, supra-nationales ou … individuelles Tous les types de mise à disposition Texte intégral Notices catalographiques Tous les types de fonds, de collections, de catalogues … Universitaires, littérature grise, iconographie … Tous les acteurs de l’Internet culturel et scientifique Etats, Union (européenne), bibliothèques, moteurs, éditeurs …

71 « DES » Bibliothèques Numériques
Quelques exemples : Opac / Sudoc : (plus de 5 millions de « références ») Grisemine : Open content alliance Bibliothèque électronique de lisieux : Juin 1996 par Olivier Bogros Bibliothèque Universelle : Avril 1993 : première bibliothèque électronique francophone Projet Gutenberg : 1971. Fondé par Michael Hart aux EU (Université Illinois). Alimenté depuis par milliers de volontaires. Google Books : Persee : + tout le reste :

72 Gallica Gallica : http://gallica.bnf.fr/Presentation.htm
Fondée en Octobre 1997, 80000 ouvrages numérisés 80% monographies, 20% revues Fonds : Antiquité : 3%, MA : 5%, 16ème : 7%, 17ème : 6%, 18ème : 21%, 19ème : 40%, 20ème : 18% (droits d’auteur 1935) PROBLEMES : choix techniques de numérisation numérisation en mode image. Pas ou très peu d’OCRisation (1,5 %) Recherche plein texte possible seulement sur table des matières Pas ou mal indexé par moteurs de recherche (pas d’URN fixe). Gallica travaille à intégrer protocole OAI) SOLUTION : Depuis 2005 : nouvelles numérisation en OCR avec rétronumérisation OCR des fonds existants.

73 Gallica (enquête 2002 sur usages)
QUI ? Une population très spécifique d’internautes : utilisateurs expérimentés du web, Usage régulier et intensif, haut niveau d’éducation, CSP+, Gros utilisateurs de Gallica fréquentent peu salles de lecture Utilisateurs de Gallica fréquentent aussi régulièrement les sites de e-commerce de biens culturels (amazon, alapage, fnac, chapitre.com, livre-rare-book.com, …) COMMENT ? Consultation majoritaire à partir du domicile Sessions longues (1h en moyenne) POURQUOI ? activité de recherche très organisée (n’est pas un loisir) Pratique majoritairement consacrée à des fins personnelles. Faible usage de la “ lecture à l’écran ” téléchargement est massivement utilisé pour : la consultation ultérieure le stockage des documents intéressants la constitution d’archives personnelles

74 BNUE (Bib Num de l’Union Européenne)
Origine : « réplique » de JNJ à Google Print Avril-Mai 2005 : 23 bibliothèques nationales signataires 6 états pour financement de numérisation (All, France, Italie, Espagne, Hongrie, Pologne) Soutien commission européenne (déblocage de 60 millions d’euros) euros sur budget culture français pour 2006 Objectifs : « Bibliothèque des savoirs » orienté grand public (et non bibliothèque recherche) Interface de recherche commune aux contenus patrimoniaux ou sous droits OCRisation (recherche plein texte) Pertinence dans le choix des contenus non OCRisables Devenir un site portail Associer public/privé (= tirer enseignements de Google Print) Mise en ligne de contenus sous droits, « à discrétion de chaque maison d’édition ») Traduire : proposer des partenariats AVANT que Google n’ait constitué son catalogue en surfant sur les dernières « affaires » et « procès » sur l’opt-in

75 BNUE 2 maquettes sur des bases de test : (Thompson) … inaccessible (Isako) … minimaliste Calendrier (prévu) : Ouverture au public (du portail et non des fonds) annoncée pour Juin 2006 Mise en place archives européennes prévue d’ici 2008 Apport français : à documents (Provenance Gallica) + Nouveaux fonds numérisés. Le nerf de la guerre : une bataille perdue d’avance ? Pour la numérisation (Réponse de JNJ à une question sur le « budget » au sénat) : "3,5 millions d'euros pour la transposition de « Gallica » en mode texte et à son extension à quelques grands journaux ou périodiques, et 6 ou 7 millions d'euros (à raison de euros par an à compter de 2007) pour la poursuite de la numérisation du fonds." Même en multipliant par les 22 bibliothèques européenne qui ont donné leur accord (de principe) … "capex" annuel de Google : 1 milliard de $. + d’infos :

76 BNUE

77 www.theeuropeanlibrary.org 1999 : 13 bibliothèques participaient.
Aujourd’hui hébergé par bibliothèque royale Pays-Bas Confidentiel, aucune comm, pas orienté vers internautes. 17 Mars 2005 : lancement du site portail opérationnel par la CENL (Conference of European National Librarians) Portail multilingue vers sites nationaux. Interfaçage unique Voir page “à propos” & “collections” Cohérence & Redondance : BNUE ???

78 OCA : www.openlibrary.org
Open Content Alliance / Lancement 3 octobre Nature consortiale Universités & Archives publiques : Toronto, Californie, archives nationales britanniques : amènent des fonds Fournisseurs de technologie : indexation (YAHOO!), de numérisation (HP) de traitement (Adobe) Non profit institutions : Internet archive ( Principe : Institutions fournissent collections numérisées. OCA les met en ligne. « build a permanent archive of multilingual digitized text and multimedia content. » « accessible through Internet Archive & Yahoo! » Ajouter à cela Yahoo content acquisition program auprès de nombre d’institutions ( OCA n’est pas Google Books Accès universel et ouvert. Opt-in et non Opt-out Indexable par tout le monde (y compris par … Google)

79 MSN / British Library 7 novembre 05 : Numériser sur un an 25 millions de pages, soit ouvrages, 2,5 M$, 10 c la page Sans exclusivité : indexable par autres moteurs. MSN Book Search ? Rien n’est visible pour l’instant Options choisies identiques à l’OCA (à l’opposé de Google donc) Quelle analyse ? stratégie d'isolement de Google ? Impossibilité (ou inutilité) de rattraper l'avance pris par les deux autres projets ? « Dissuasion » numérique : ne pas « en être » c’est laisser carte blanche à Google. Course aux contact (bibliothèques, éditeurs, et plus globalement tous les « producteurs » de contenus) Renforcer les crispations pour ralentir l’avancée de Google.

80 Google Scholar / British library
Accord permettant à Google d’établir des liens directs vers les 9 millions d’articles issus de périodiques proposés sur BLDirect ( (service payant) BLD : un des principaux entrepôts d’articles numérisés au monde. Avantages : Pour Google : thésaurise Pour BLD : effet vortex d’audience. Pour l’instant : Google ne demande pas de commission … jusqu’à quand ?

81 Google / Library of Congress
Projet World Digital Library (WDL) Numériser et rendre accessibles cartes, manuscrits, journaux personnels, correspondances, photos, cartes … etc … (10 millions de doc uniques ) LoC par ailleurs partenaire privilégie BnF :-(( Programme de mécénat, 3 M$. Google finance études de faisabilité. Nota Bene : LoC ne fait pas partie du volet bibliothèques de Google Bibliothèques …

82 Google et l’INIST INIST : premier fournisseur français de documentation scientifique. Développe portails thématiques sur plusieurs milliers de revues scientifiques. Ex : Accord avec Google pour un lien de renvoi vers portails INIST contenant textes intégraux.

83 OAISter http://oaister.umdl.umich.edu Plus gros moissonneur OAI
Moissonneur moissonné (par moteurs de recherche) depuis mars 2004

84 Google et l’OAI Initiatives Open Access ont besoin d’un moteur :
À audience internationale Avec un fort enracinement dans communautés de recherche = google (scholar) Système des open URL : gestion de liens dynamiques vers des documents primaires Passerelle entre moteur et collections numérisées ou physiques

85 7. Les 3 modèles de l’universalité

86 Les 3 modèles Modèle « bibliothéconomique » Modèle « marchand »
Celui de la bibliothèque européenne. Le modèle standard et interopérable. Dont la rigueur bibliothéconomique fait la force, et le manque d'espace collaboratif la faiblesse. Modèle « marchand » Celui de la bibliothèque (ou plus exactement du catalogue) marchand. Où l'on thésaurise à Wall Street autour de thésaurii parfois bien mal acquis. Modèle « ouvert-collaboratif » : vers une troisième voie ? (cf diapo suivante) On n'arrêtera pas la marchandisation du catalogue. Il faudra du temps et l'oubli de bien des lourdeurs techniques, administratives, politiques et culturelles pour que le premier modèle couvre le spectre de connaissances et de savoirs qu'il s'est fixé. L'alternative, sinon la solution est peut-être alors à chercher du côté du troisième modèle. Une troisième voie idéale à construire dans l'ouverture collaborative du premier modèle. Mais là encore, une culture-métier (celle des bibliothécaires) n'est pas, loin s'en faut, une culture d'usage (et encore moins "la" culture des usagers).

87 Les 3 modèles : le collaboratif
offre à ses usagers la possibilité de "cataloguer », chacun peut "entrer" tout ou partie de sa bibliothèque. Une bibliothèque d'usagers ( Déjà livres. Et pour chacun d'entre eux : le nombre d'usagers qui en possèdent une copie ou d'autres oeuvres du même auteur des données "sociales » ( : la possibilité de le "tagguer", de lui ajouter des mots-clés donc, ou si l'on préfère, des "entrées", ou si l'on aime mieux, des "vedettes", matière, auteur, sujet, etc. La possibilité de "voter" (j'ai aimé, un peu, beaucoup, etc.) La possibilité de "recommander" (ceux qui ont aimé celui-ci ont aussi aimé celui-là). La possibilité de "découvrir" d'autres livres avec un même coeur de "tags" La possibilité d'en faire une fiche de lecture (review). Possibilités également catalographiques ( : auteur / titre / autres mentions de responsabilité / Editeur et ville de publication / ISBN / vedettes sujet de la bibliothèque du congrès / correspondance Dewey / plus vos "tags" personnels. Le tout renvoyant au final, vers des sites d'éditeurs/grossistes/libraires en ligne (mais on doit pouvoir aussi renvoyer vers des sites de bibliothèques).

88 Les défis juridiques Numérisation = fabrication d’une copie
Exception pour actes de reproduction spécifiques effectuée par bibliothèques accessibles au public, établissements d’enseignement, musées et archives. DADVSI … la bataille de l’exception bibliothèque …

89 Moteurs et bibliothèques
Bibliothèque : la collection Collection limitées Coordonnées (en réseau) Catégorisées (métadonnées, interopérabilité) Indexation raisonnée Un public à (re)conquérir Opt-in professionnel : sélection et choix raisonné. Moteurs : la thésaurisation ($) Aggrégations illimitées Non-coordonnées Non-catégorisées (syndrôme « tête de gondole ») Indexation marchande Immense public « captif » => effet de masse. Vortex numériques. Opt-Out usager : on prend tout, l’usager fera le tri.

90 Bibliothèques et moteurs
"On cherche partout à la fois. métacollection contre collection On cherche avec ses propres mots langage naturel contre langages documentaires classifications post-coordonnées (clusterisation, social bookmarking) contre classifications pré-coordonnées On veut de l'information primaire bibliothèque contre catalogue On fait tout avec le même outil le flou contre la frontière généralisme contre spécialisation On veut accéder de chez soi, de partout atopisme contre lieu dédié (Source :

91 3 logiques : marchandes, classificatoires, d’usage
Bibliothèque : ORGANISER et LOCALISER : proposer un accès raisonné au savoir (Pour le reste : bouquinistes, les vide-greniers, le bookcrossing …) Moteur de recherche : LISTER & DONNER ACCES n’est pas ORGANISER ATTENTION … Réduire l'objectivité à une mesure statistique quand ladite objectivité concerne des contenus sémantiques et non simplement des données factuelles est une aberration.

92 Bibliothèques et bibliothèques
Classique : problématique de la trace, de l’In-scription Numériques : problématique de la traçabilité, de la de-scription => d’où vient le contenu ?

93 8. Professionnels & Usagers
Usages du numérique

94 Bibliothèques et bibliothécaires
Médiation au cœur du numérique : « ASK A LIBRARIAN » SINDBAD à la BNF. Guichet du savoir à la BM de Lyon. Radis de la BPI Renseignements en ligne du SCD Nancy Sesame du SCD de Toulouse 2 (basé sur Askal) Une liste de services de type "Ask a ... »

95 Bibliothèques et bibliothécaires
Accompagnement Médiation Acculturation aux outils (re)Devenir PRESCRIPTEUR Écologie de l’info Maîtrise d’une bibliothéconomie « augmentée ».

96 Bibliothéconomie « enrichie »
Bibliothéconomie : « l'ensemble des techniques de gestion et d'organisation des bibliothèques. » savoir-faire relatifs à la construction, à l'organisation, à la gestion du personnel et des finances ainsi qu'aux relations avec les usagers. « Bibliothéconomie enrichie » : «  l'ensemble des techniques de gestion et d'organisation des bibliothèques » ET DE LEUR ENVIRONNEMENT NUMERIQUE. IMPACT SUR : fonctions bibliothéconomiques : acquisitions (collecte et dépôts), catalogage (balisage et métadonnées), stockage, conservation, recherche (stratégie et hyperliens) conception de l’information rôle de la structure des documents balisé et des métadonnées intégrées rôle de la pondération et de la « notoriété » la diffusion (effet multiplicateur) la protection intellectuelle (authentification et contrôles d’accès) l’économie de l’information (coûts et droits)

97 Economie(s) numérique(s) ou Politique(s) de numérisation
« L’utilité de la mise en ligne d’ouvrages libres de droits qui ne sont jamais demandés en salle n’est pas évidente ; certes l’offre peut créer la demande, mais aller au-delà d’un certain seuil pourrait correspondre à une dilapidation de ressources qui seraient sans doute mieux placées pour permettre une meilleure connaissance de ces ressources par le grand public, voire pour soutenir dans l’optique d’une mise en ligne la numérisation d’ouvrages sous droits par leurs ayants droits. » BNUE, Rapport de synthèse et plan d’actions, Janvier 2006.

98 Numérique : bibliothèques et usages
Blogs & RSS Anglophones *** Francophones Blog : forme idéale du catalogue ? Cœur de navigation : Catalogues / OPAC / Moteurs :

99 Blogs, RSS et bibliothèques :
Services “RSS-isables” Pour tous publics Rubrique “nouveautés” Valoriser services existants Liste des acquisitions Fiches de lecture, revues d’ouvrages Calendrier d’événements Recommandation de lectures quand votre périodique préféré est arrivé à la bibliothèque bulletinage public Pour les « professionnels » Appels à communication Congrès … Communication interne et/ou intra-réseau TOC et l’application en bib : *** *** Oxford University Press passe au RSS *** => agrégation de services sur site de votre bibliothèque Mais aussi … Connotea :

100 9 … Perspectives …

101 La meilleure bibliothèque universelle du monde (entier).
En tout cas la mienne … Elle aurait cette philosophie : Cette approche métier : Cette seule ambition (le titre du billet uniquement). Et cette interface (cliquez sur une page d'ouvrage). ? Et la vôtre ?

102 A méditer … "From Libraries to Libratories"
« Au catalogue actuel, ne faut-il pas substituer ou au moins adjoindre un système de cartographie intelligente qui permette de restituer chaque donnée dans son « arbre de savoir » ? (...) On observera que c’est aussi le chemin obligé d’une redéfinition de l’encyclopédisme, question qui est aujourd’hui massivement posée. » [BPI 01] "From Libraries to Libratories" qui indique que "Libraries are set to metamorphose into ‘libratories’, an imaginary word to express their combined functions of library, repository and collaboratory." Les bibliothèques comme « collaboratoires »

103 Plus d’info à suivre sur …
Catégories : « Biblio-tech » et « Google Print/Books » À propos des livres électroniques et autres dispositifs de lecture. + Blogosphère bibliothéconomique …

104 Merci à … Dépêche du GFII Jean-Michel Salaün Alain Giffard Nicolas Morin et Marlène Delahaye


Télécharger ppt "Bibliothèques numériques"

Présentations similaires


Annonces Google