Rencontres Mondiales du Logiciel Libre 2007 Amiens, 13 juillet 2007 Projet ORI-OAI Outil de Référencement et d’Indexation Réseau de portails OAI Rencontres Mondiales du Logiciel Libre 2007 Amiens, 13 juillet 2007
Sommaire Introduction - contexte Les fonctions du système Concepts - principes Implémentation - architecture Démonstration François Jannin ENSEEIHT – INP de Toulouse Amiens, 13 juillet 2007 RMLL 2007
Introduction Amiens, 13 juillet 2007 RMLL 2007
Contexte Croissance de la création numérique institutionnelle (documents scientifiques, pédagogiques, administratifs, ressources documentaires..) Mise en place d’une démarche « Système Global d’Information » à l’échelle d’un établissement Organisation des services numériques au moyen de l’ENT, s’appuyant sur le SI En introduction, je vous parlerais du contexte dans lequel le projet ORI-OAI a pris naissance : Les documents numériques dans les universités, allant des productions scientifiques aux ressources documentaires, en passant par les ressources pédagogiques ou administratives, connaissent un tel essor, qu’il est devenu indispensable, au niveau des établissements, d’engager une démarche les regroupant au sein d’un Système Global d’Information. Un autre élément majeur de ce contexte est l’organisation des services numériques au moyen d’Environnement Numerique de Travail, en interaction avec le système d’information, qui en propose un accès unifié depuis un navigateur web. Amiens, 13 juillet 2007 RMLL 2007
Contexte Besoin d’un référentiel unique de documents et d’une indexation professionnelle Demande croissante d’accessibilité aux ressources numériques dans différents contextes La structuration importante initiée par les projets nationaux (UNT, UNR, SI d’établissement) Ces éléments font apparaitre le besoin d’un référentiel unique de documents et d’une indexation de qualité, qui doit permettre une accessibilité dans différentes situations. Un autre facteur est la structuration d’établissement à travers les Universités Numériques Thématiques ou Regionales. Amiens, 13 juillet 2007 RMLL 2007
But Répondre aux besoins de stockage, de référencement, d’indexation et d’accès aux documents Assurer la valorisation et la gestion pérenne des contenus numériques Développer un SGI en lien avec les ressources numériques d’un référentiel unique de documents Partager les ressources numériques avec d’autres établissements Donner l’accès à distance et selon les droits ORI-OAI a donc été conçu afin de répondre à ces différents besoins de stockage, de référencement, d’indexation et d’accès aux documents, afin d’en assurer la valorisation et la pérennité, à travers le développement d’un Système Global d’Information s’appuyant sur un référentiel unique, permettant le partage de ces ressources avec d’autres établissements ainsi que leur accès à distance selon les droits qui relèvent de chacune de ces ressources. Amiens, 13 juillet 2007 RMLL 2007
Le partage dans ORI-OAI Patrimoine pérenne pouvant se partager Avec les acteurs de l’établissement Avec les partenaires des réseaux locaux , nationaux et internationaux de l’établissement Avec les internautes En respectant les règles du numérique et les standards Droits d’auteur Interopérabilité des systèmes (OAI / SOAP) Normes d’échange (schémas XML) Vocabulaire commun On voit donc se dessiner un patrimoine pérenne partagé aussi bien par tous les acteurs d’un établissement, que les partenaires des différents réseaux auquel il appartient, mais également avec une communauté beaucoup plus large que sont les internautes en général. Tout ceci ne peut se faire bien entendu que dans le respect des règles du numérique et des standards… ainsi que des droits d’auteurs le cas échéant. Amiens, 13 juillet 2007 RMLL 2007
Un système de gestion de documents Mise en place d’un système de gestion de documents Système de gestion et de publication des ressources numériques (gestion des droits, indexation LOM-FR, DC, TEF.., indexation classification des UNT) Système de production impliquant les acteurs concernés (workflows) Systèmes de partage (échange de métadonnées /OAI-PMH) Système de recherche avancé (métadonnées, texte intégral), accès thématiques Utilisation de vocabulaires provenant de référentiels communs ou spécifiques [issus du SI] à chaque étape du processus de référencement/consultation Tout ceci aboutit à un système de gestion et de publication, assez souple pour prendre en compte la diversité des ressources ainsi que les modalités de leur production. Le partage des ressources est quant à lui assuré par un échange de métadonnées, utilisant le protocole OAI, qui permet aux utilisateurs de bénéficier d’un système de recherche avancé, dont la qualité est renforcée par l’utilisation d’un ensemble de vocabulaires modulables et partageables entre les établissements d’un même réseau. Amiens, 13 juillet 2007 RMLL 2007
Les acteurs Établissements UNT Avec le soutien du MENESR Parmis les acteurs impliqués dans ce projet, on trouve aussi bien des établissement de l’enseignement supérieur que des universités thématiques, ainsi que le soutien du ministère. Amiens, 13 juillet 2007 RMLL 2007
Les fonctions du système Amiens, 13 juillet 2007 RMLL 2007
ORI-OAI – Points clés Gérer et publier les documents numériques de l’établissement Référentiel unique connecté au SI Accès thématique aux ressources Système de recherche avancée Faisons maintenant un récapitulatif des points-clés d’ORI-OAI : il s’agit de gérer et de publier les documents numériques d’un établissement, à travers un référentiel unique connecté au SI, permettant ainsi l’accès aux ressources de façon thématique ou par recherche avancée… Amiens, 13 juillet 2007 RMLL 2007
ORI-OAI – Points clés Partager les ressources numériques avec d’autres établissements enrichir l’offre numérique augmenter la visibilité des ressources mutualiser les coûts Valoriser la production scientifique et pédagogique par une indexation de qualité Accéder aux ressources numériques à distance en fonction des droits d’accès … de partager ces ressources avec d’autres établissements afin d’enrichir l’offre numérique, d’augmenter la visibilité, et de mutualiser les couts (Ce qui entraine la valorisation la production scientifique et pédagogique) Enfin, le tout permet d’accéder aux ressources à distances en fonction des droits d’accès définis par les auteurs. Amiens, 13 juillet 2007 RMLL 2007
Ressources d’enseignement Types de documents Ressources d’enseignement polycopiés numériques, exercices, ressources pédagogiques multimédia (format LOM, LOM-fr) Travaux d’étudiants rapports de stage synthèses bibliographiques Travaux de recherche publications, pré-publications, rapports techniques mémoires de Master, mémoires de Thèse (format TEF) Ressources documentaires éditoriales revues, livres électroniques (format Dublin Core) Voici les différents types de ressources rencontrées, la liste est extensible Amiens, 13 juillet 2007 RMLL 2007
Concepts Amiens, 13 juillet 2007 RMLL 2007
principe du référencement Projet ORI-OAI principe du référencement Amiens, 13 juillet 2007 RMLL 2007
Workflow simple (étape auteur) Workflow simple (auteur) Auteur Doc Titre Description Auteur Document Upload Métadonnées L’auteur dépose un document et renseigne les métadonnées propres au type de document, et quand tout est prêt, il demande à le publier. Entrepôt de données ORI-OAI A publier Amiens, 13 juillet 2007 RMLL 2007
Workflow Simple (étape documentaliste) Workflow simple (documentaliste) Document Documentaliste Titre Description Auteur Publier Publier Rejeter Rejeter Un modérateur est notifié qu’un document est en attente de publication : il en valide le contenu et décide de le publier ou de le refuser. Entrepôt de données ORI-OAI Publié Métadonnées Doc Amiens, 13 juillet 2007 RMLL 2007
Principes de ori-oai-workflow créer [tous] Diagramme Etats / Transitions Positionner permissions Privé Envoi mail propriétaire Demander à publier rejeter [propriétaire] Envoi mail modérateur Etats En attente de publication retirer Transitions [propriétaire, modérateur] Conditions désindexer publier [modérateur] Actions Les workflows dans ORI-OAI se basent sur des diagrammes d’états-transitions, avec pour chaque transition des conditions et des actions entièrement paramétrables. indexer Publié Amiens, 13 juillet 2007 RMLL 2007 18
Gestion des vocabulaires Centralisation et automatisation des vocabulaires Répartition en réseau des vocabulaires avec tolérance à la panne (cache intelligent) Utilisés en amont (workflow) et en aval (recherche, OAI) Chaque vocabulaire est partageable par x établissements, UNT/UNR Vocabulaires de référence fermés et statiques avec peu de fluctuations (taxonomies, liste de mots-clés fermés) Vocabulaires dynamiques générés automatiquement depuis une annuaire LDAP ou Active Directory d’après les valeurs déjà indexées (auteurs, mots-clés libres) d’après des référentiels existants (bases de données…) Dans le cas d’une UNT ou d’une UNR, qui rassemblent différents établissements, on peut avoir des vocabulaires qui soient communs à tous les établissements (classification, liste d’établissement) et d’autres propres à chaque établissement. ORI-OAI offre donc la possibilité de répartir ces vocabulaires en réseau, et pour éviter tout inconvénient, un cache intelligent permet de garder une copie locale des vocabulaires distants en cas de problème de connexion à l’un ou l’autre des serveurs. Amiens, 13 juillet 2007 RMLL 2007
Projet ORI-OAI principe des échanges Amiens, 13 juillet 2007 RMLL 2007
Entrepôt ORI-OAI Entrepôt ORI-OAI Stockage des ressources numériques Métadonnées sur les documents Dublin Core LOM-fr Etc. Document Métadonnées L’entrepôt ORI-OAI C’est çà ! Il permet de stocker les documents. Sur ces documents on offre la possibilité d’adjoindre des métadonnées qui vont qualifier les documents Ces métadonnées peuvent être de différents type. Par exemple, DC ou LOM et sa déclinaison française LOM-fr. Les produits ORI-OAI sont pensés afin de ne pas être lié à un jeu de métadonnées particulier. Amiens, 13 juillet 2007 RMLL 2007
Open Archive Initiative (OAI) Etablissement A Etablissement B Entrepôt Entrepôt OAI OAI OAI Je vais maintenant vous présenter succinctement le principe OAI (Open Archive Initialive) Nous avons dans un établissement A un entrepôt tel que je viens de vous le décrire Cet entrepôt est compatible OAI Cette compatibilité va lui permettre de dialoguer avec ce que l’on appel un moissonneur qui va, par exemple, pouvoir être installé dans le cadre d’une UNT, une UNR ou, nous le verrons plus tard, au sein même d’un établissement Bien sûr ce moissonneur parle aussi OAI ce qui va lui permettre d’échanger avec l’entrepôt de l’établissement A Le moissonneur va alors faire une requête OAI en direction de l’entrepôt de l’établissement et ainsi récupérer l’ensemble des métadonnées caractérisants les documents de l’établissement A. Ces métadonnées sont beaucoup plus légères à stocker sur le moissonneurs que les documents eux-mêmes et surtout permettent de laisser le document source où il a été produit. Un tel moissonneur n’a d’intérêt que s’il est utiliser dans le cadre d’un ensemble d’établissements. Prenons exemple ici d’un établissement B qui dispose de son propre entrepôt (également compatible OAI) Le moissonneur va, via une requêtes OAI, rapatrier les métadonnées caractérisants les documents de l’établissement B Au final le moissonneur dispose de toutes les métadonnées des différents établissements Moissonneur UNT, UNR, … Amiens, 13 juillet 2007 RMLL 2007
OAI pour l’utilisateur internaute Entrepôt Entrepôt Accès au site Lancement de la recherche Résultat de la recherche Accès au 1er document Accès au 2ème document Site Web UNT Recherche Moissonneur OAI UNT Voyons maintenant comment cela ce concrétise pour l’utilisateur final Nous allons, dans ce premier exemple, prendre le cas d’une UNT Cette UNT dispose d’un moissonneur qui a collecté l’ensemble des métadonnées caractérisant les documents de ces établissements membres L’UNT dispose aussi d’un site Web L’internaute consulte ce site Web Grâce au moteur de recherche ORI-OAI l’internaute peut lancer des recherches sur les données collectées par le moissonneur Le résultat de sa recherche lui donne des métadonnées mais aussi des pointeurs vers les documents Il peut ainsi accéder au document présent dans l’établissement A et le visualiser Il peut ensuite accéder au document présent dans l’établissement B et le visualiser Amiens, 13 juillet 2007 RMLL 2007
OAI pour l’utilisateur d’un établissement Entrepôt Entrepôt ? Moissonneur OAI Etablissement Recherche ENT Accès à l’ENT(authentifié) Lancement de la recherche Résultat de la recherche Accès au 1er document Accès au 2ème document Prenons maintenant un autre exemple. Celui d’un étudiant (ce pourrait être un personnel ou un enseignant) dans un établissement qui a un partenariat avec un autre établissement Faisons un zoom sur cette établissement L’établissement dispose aussi d’un moissonneur OAI ayant collecté des informations sur ses propres documents mais aussi sur les documents de ses établissements partenaires L’étudiant a, à sa disposition, un Environnement Numérique de Travail qui lui offre un ensemble de services qui lui sont spécialement destinés Parmi ces services il va disposer d’un canal lui permettant de lancer des recherches sur les données collectées par le moissonneur Le résultat de sa recherche lui donne des métadonnées mais aussi des pointeurs vers les documents Il peut ainsi accéder au document présent dans son établissement et le visualiser Il peut ensuite accéder au document présent dans l’établissement partenaire et le visualiser On peut ici se poser la question de l’accès à ce document présent dans l’établissement partenaire. Ce dernier n’est peut-être pas en accès public. Il y a peut-être nécessité de faire un contrôle d’accès. C’est là qu’intervient la notion de fédération d’identités Amiens, 13 juillet 2007 RMLL 2007
Fédération d’identités (Shibboleth) Entrepôt Qui est-ce ? Un étudiant en médecine 2ème année Je vous propose maintenant de vous parler très rapidement de fédération d’identités et notamment des mécanismes shibbolteh (shib, pour les intimes, est une implémentation des concepts de fédération d’identités qui se généralise dans le milieu universitaire) Que se passe-t-il ? L’étudiant accède à l’entrepôt de l’établissement partenaire Les mécanismes shibboleth entre en jeu et une demande est faite à l’établissement « fournisseur d’identités » pour lui demander « Qui est-ce ? » L’établissement d’appartenance de l’étudiant répond à l’établissement « fournisseur de services » par un ensemble d’attributs caractérisant l’utilisateur. Ici étudiant en médecine 2ème année. Ces informations, comme c’est le cas ici, ne sont pas obligatoirement nominatives et permettent une anonymisation des échanges. L’établissement détenteur de la ressource vérifie que cela correspond bien aux termes du partenariat entre les deux établissements et donne accès au document Tentative d’accès au document Requête à l’établissement « fournisseur d’identités » Réponse à l’établissement « fournisseur de services » Accès au document Amiens, 13 juillet 2007 RMLL 2007
Vue Consortium UNIT UVED Etc… Moissonneur Moissonneur Site Web UVED Je vous ai parlé les composants du projet ORI-OAI Je vous ai brièvement présenté les mécanismes OAI et de fédération d’identités Je vous propose, avant de passer à la démonstrations, de vous présenter des cas d’utilisation Dans cet exemple, une UNT, par exemple UNIT, dispose d’un site Web Ce site Web permet d’accéder au moissonneur OAI UNIT et par ce biais, permet de retrouver des documents disséminés sur l’ensemble des entrepôts de ses établissements membres Une autre UNT, par exemple UVED, dispose d’un site Web Ce site Web permet d’accéder au moissonneur OAI UVED et par ce biais, permet de retrouver des documents disséminés sur l’ensemble des entrepôts de ses établissements membres Etc. Site Web UVED Site Web UNIT Amiens, 13 juillet 2007 RMLL 2007
Vue établissement UNR UVED .eu UNIT Shib OAI ENT Entrepôt Moissonneur Dans ce nouvel exemple un établissement dispose de son propre entrepôt compatible OAI et fédération d’identités Mais cet établissement fait parti d’une UNT, d’une UNR, d’une deuxième UNT et, pourquoi pas, d’un consortium internationale L’établissement met à disposition de ses utilisateurs un ENT qui permet d’accéder, entre autres, au moissonneur de l’établissement Il est alors possible pour l’utilisateur d’accéder de façon unifiée aux documents présents dans son établissement mais aussi présents dans tous les établissements partenaires de son établissement d’appartenance ENT Amiens, 13 juillet 2007 RMLL 2007
Implémentation Amiens, 13 juillet 2007 RMLL 2007
Projet ORI-OAI acteurs impliqués Amiens, 13 juillet 2007 RMLL 2007
Acteurs du développement Équipe de pilotage avec des représentants des établissements des UNT des SCD Équipe fonctionnelle 1 coordinatrice 10 membres du groupe « Ressources pédagogiques » 8 membres du groupe « Thèses » 7 membres du groupe « Archives ouvertes » Amiens, 13 juillet 2007 RMLL 2007
Acteurs du développement Équipe technique 1 coordinateur 1 conseiller technique 5 développeurs 2 Université de Rennes 1 1 INP Toulouse - ENSEEIHT 2 Université de Valenciennes Amiens, 13 juillet 2007 RMLL 2007
Projet ORI-OAI développement Amiens, 13 juillet 2007 RMLL 2007
Généralités ORI-OAI est composé de 7 modules Composants interopérables avec des outils existants Utilisation de standards comme OAI, XML-RPC, SOAP, WEBDAV Différentes versions des composants Portlet à intégrer dans un moteur type ENT(JSR 168) Standalone: application indépendante Plusieurs distributions prévues Les modules peuvent être associés les uns aux autres suivant le cas d’utilisation (UNT, UNR, établissement, …) Le projet ORI-OAi vise à mettre à disposition de notre communauté un ensemble d’outils. On trouvera des outils de productions destinés aux personnels des établissement permettant de saisir des métadonnées et de gérer les documents (dépôt et gestion des versions de ces documents) On trouvera l’entrepôt qui offre des services de stockage de documents mais aussi une base de données des métadonnées. Cet entrepôt sera compatible OAI et fédération d’identités. On trouvera aussi le moissonneur OAI Et enfin, la partie visible de l’iceberg, le moteur d’indexation et de recherche Je vais donc maintenant vous parler OAI et fédération d’identités. Pour cela je vais appuyer sur discourt sur les seuls produits ORI-OAI. Mais Yohan vous fera ensuite une démonstration du moteur de recherche et vous montrera comment les produits ORI-AOI peuvent interopérer avec des outils existants. Ce notamment grâce à l’utilisation de standards comme OAI Amiens, 13 juillet 2007 RMLL 2007
Technologies Java J2EE Spring : Inversion de Contrôle, injection de dépendance Hibernate : Liaison facilitée aux bases relationnelles XFire : Web services SOAP simplifiés et efficaces AOP/AspectJ : Gestion transversale non-intrusive des transactions et des permissions Lucene et LIUS : indexation XML, plein-texte et de formats binaires (PDF, Word, RTF…) par Apache et l’université Laval (Québec) OAICat : implémentation Java populaire de OAI-PMH par OCLC OSWorkflow : Framework pour workflow très souple et paramétrable Orbeon / OPS : Puissant framework de formulaires Web basé sur Xforms I18N : localisation des IHM Amiens, 13 juillet 2007 RMLL 2007
Projet ORI-OAI architecture Amiens, 13 juillet 2007 RMLL 2007
Architecture globale ESUP-serveur-WebDAV ORI-OAI-repository stockage des documents et gestion des authentifications ORI-OAI-repository entrepôt d’exposition des métadonnées ORI-OAI-harvesting moissonneur de métadonnées Internet ORI-OAI-workflow gestionnaire du workflow de saisie des métadonnées ORI-OAI-indexing moteur d’indexation SSO LDAP ORI-OAI-vocabulary gestionnaire de vocabulaires ORI-OAI-search moteur de recherche Amiens, 13 juillet 2007 RMLL 2007
Gestion des documents locaux ESUP-serveur-WebDAV ORI-OAI-repository ORI-OAI-workflow ORI-OAI-indexing SSO Utilisateurs ORI-OAI-vocabulary Saisie du lien vers le(s) document(s) Saisie des métadonnées via vocabulaires Indexation des métadonnées Exposition OAI (optionnelle) Exposition des fiches par requêtes sur l’index Génération de sets OAI via le vocabulaire Amiens, 13 juillet 2007 RMLL 2007
Moissonnage par OAI ORI-OAI-repository ORI-OAI-harvesting Internet ORI-OAI-indexing ORI-OAI-vocabulary Moissonnage des fiches de métadonnées via OAI Indexation des métadonnées Exposition OAI (optionnelle) Exposition des fiches par requêtes sur l’index Génération de sets OAI via le vocabulaire Amiens, 13 juillet 2007 RMLL 2007
Recherche de documents locaux Génération des interfaces à partir du vocabulaire Recherche dans l’index Récupération de la fiche pour l’affichage Traduction de certains résultats via vocabulaire ORI-OAI-workflow ORI-OAI-indexing ORI-OAI-vocabulary ORI-OAI-search Amiens, 13 juillet 2007 RMLL 2007
Recherche de documents distants ORI-OAI-harvesting Génération des interfaces à partir du vocabulaire Recherche dans l’index Récupération de la fiche pour l’affichage Traduction de certains résultats via vocabulaire ORI-OAI-indexing ORI-OAI-vocabulary ORI-OAI-search Amiens, 13 juillet 2007 RMLL 2007
Projet ORI-OAI calendrier Amiens, 13 juillet 2007 RMLL 2007
Calendrier Version BETA Version 1.0 Distribuée fin juin 2007 à 7 établissements Tests juillet et août Retours fin août Version 1.0 Finalisation septembre 2007 Après retours des BETA-testeurs Amiens, 13 juillet 2007 RMLL 2007
Repères Site du projet Contacts Sources http://www.ori-oai.org http://sourcesup.cru.fr/softwaremap/trove_list.php?form_cat=318 Contacts Liste de diffusion publique ori-oai-utilisateurs http://listes.univ-rennes1.fr/wws/subscribe/ori-oai-utilisateurs Amiens, 13 juillet 2007 RMLL 2007
Démonstrations Amiens, 13 juillet 2007 RMLL 2007
Demonstrations Dépôt d’un document LOM, workflow : http://cas.enseeiht.fr/ori-oai-workflow Recherche thématique & avancée http://cas.enseeiht.fr/ori-oai-search Recherche relookée http://cas.enseeiht.fr/moodle-web Moissonneur moissonneur ENSEEIHT Amiens, 13 juillet 2007 RMLL 2007
Merci ! francois.jannin@enseeiht.fr Amiens, 13 juillet 2007 RMLL 2007
Licence Ce travail est mis à disposition sous une licence Creative Commons Vous êtes libres De reproduire, distribuer et communiquer cette création au public De modifier cette création Cette création est mise à disposition selon le Contrat Paternité-NonCommercial-ShareAlike 2.5 disponible en ligne http://creativecommons.org/licenses/by-nc-sa/2.5/ Remarque : Les transparents présentés ici ont été réalisés par : Rosa-Maria Gomez (INSA de Lyon) Yohan Colmant (Université de Valenciennes) Raymond Bourges (Université de Rennes 1) Monique Joly (INSA de Lyon) Alain Mayeur (Université de Valenciennes) François Jannin (INP Toulouse – ENSEEIHT) Amiens, 13 juillet 2007 RMLL 2007