Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010
ENJEUX
3 L E PROJET – L ES ENJEUX Enjeux stratégiques Un point daccès aux données numériques des SHS Un socle : une infrastructure applicative Un outil : des usages multiples
4 L E PROJET – L ES ENJEUX Enjeux technologiques Des besoins « forts » en traitement des données Prendre en compte la diversité Un outil industriel et évolutif
5 L E PROJET – L ES ENJEUX Enjeux organisationnels Une maîtrise dœuvre plurielle publique-privée Méthode agile
6 M ÉTHODE PROJET Plateforme dintégration Frontaux (proxy) Démonstrateur Gestion des référentiels Enrichissement des données Moteur de recherche Intégration et IHM
UN PROJET CLASSIQUE ?
8 P RINCIPE DU PROJET Un projet classique en apparence Collecter Traiter Diffuser
9 V ISION DE LA VALORISATION DE L INFORMATION Contenu Texte … Captation / Extraction AnnotationAnnotationInférenceInférence Bases dindexation RDF Endpoint SparQL RDF PublicationPublication WebWeb xhtml+RDFa Linked Data robots
10 L ES PARTICULARITÉS DU PROJET Collecter des données hétérogènes primaires, secondaires annuaires, bases de données, référentiels Points durs : diversité, volumétrie Exploiter les métadonnées et le texte intégral
11 L ES PARTICULARITÉS DU PROJET Traiter Normaliser les données (qualité, forme, alignement) Enrichir (classification, URI pérenne, vignettes, extraction…)
12 L ES PARTICULARITÉS DU PROJET Diffuser avec le moteur de recherche recherches plein texte, multicritères et à facettes autocomplétion, correction orthographique traitements linguistiques avancés
13 L ES PARTICULARITÉS DU PROJET Diffuser dans le Web de données Se préparer au Linked/Open Data Permettre lémergence de nouveaux outils exploitant les données Rendre accessible à lécosystème les données enrichies
14 A RCHITECTURE FONCTIONNELLE GLOBALE Sources de données Web : sites, flux Entrepôts OAI Applications, Web Services Collecte, traitement, indexationDiffusionApplications Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Service de recherche AFS Capter Normaliser, dédoublonner Annoter, filtrer indexation génération du RDF UI de démo rechercheisidore COLLECTER TRANSFORMER ENRICHIR INDEXER GENERER ADMINISTRER Moteur de recherche Web des données
COLLECTER, TRANSFORMER, ENRICHIR
16 L A RÉPONSE AFS-PaF : Pipes and Filters industrialise la chaîne de captation et de traitement des données introduit un modèle dUnité Documentaire évolutif et souple fournit un cadre de développement et de configuration de haut niveau
17 C HAINES DE TRAITEMENT Créer des chaines de traitement par assemblage de modules Sources de données Module connecteur Modules de transformation et enrichissement
18 D ES FILTRES Un framework qui permet de construire des modules 50+ filtres prêts à lemploi Un environnement dexécution
19 L E DOCUMENT Le document est composite est dynamique évolue dans le temps est un objet à gérer à accéder de façon unifiée
20 L E D OCUMENT Document Manager abstrait le stockage et laccès aux documents : stockage « cloud » créer / lire / écrire les couches
PAF ISIDORE PRINCIPES GÉNÉRAUX
22 Sites Web (sitemap) Entrepôts OAI Calenda Sources de données Flux RSS Connecteurs Modules Pipes&Filters spécifiques aux sources … … … … V UE GÉNÉRALE DE LA CHAÎNE « P A F » I SIDORE Fichiers XML de configuration des connecteurs AFS et des modules de normalisation Référentiels SKOS Modules Pipes&Filters communs Liens pérennesAnnotation … Des sources multiples et des traitements ad-hoc Sites Web collecte par sitemap extraction des données RDFa Flux RSS capitalisation « illimitée » Entrepôts de publications : articles, revues, thèses, … captation structurée : OAI-PMH, OAI-ORE extraction des métadonnées : DC Diverses sources structurées annuaires de personnes, ressources, sources conférences, séminaires, …
C HAÎNE DE COLLECTE ET DE TRAITEMENT Une chaîne dédiée à la normalisation : 12 filtres Récupération de chaque ressource listée dans le Sitemap Extraction du RDFa Sérialisation du RDFa Passage dans un format pivot Normalisation de la date Normalisation de lauteur Récupération Handle et imagette Ajout des informations sources/document Sérialisation du XML pivot
24 C HAINE D ENRICHISSEMENT Une chaîne dédiée à lenrichissement : 14 filtres Classification sur la taxonomie HAL Classification sur la taxonomie Sujets Calenda Classification sur la taxonomie Temps Calenda Classification sur la taxonomie Géo Calenda Alignement des types de document Alignement des dates sur Thésaurus W (SIAF) Alignement des langues sur Lexvo Enrichissement des auteurs sur HAL Extraction des sujets sur Rameau, Pactols, Geonames Fusion des annotations
PAF ISIDORE FOCUS SUR CERTAINS POINTS
26 M AINTENABILITÉ - EXEMPLE Configuration des sources Isidore (application dédiée) Interface Utilisateur Fichiers XML de définition des sources 745 sources de données PaF des sources … PaF des données Moteur de recherche dans les sources
27 L A CLASSIFICATION AUTOMATIQUE Classification par entrainement le moteur utilise les documents déjà classés pour apprendre puis utilise la base dindicateurs statistiques pour catégoriser les documents du corpus
28 L ALIGNEMENT Alignement des contenus sur des référentiels fr FR francais Français français en eng EN anglais english Français Anglais
29 LE XTRACTION Extraction sur des référentiels Une ressource documentaire Mots clefs Est décrit par Un thésaurus Concept Organise Pour lier le mot-clé au concept Chaîne de caractères Est exprimé par Étiquette Est décrit par Le moteur effectue une comparaison morphologique Chaîne de caractères Est exprimé par Est décrit par A noter quun algorithme permet de limiter le nombre dannotations par contextualisation
30 A RCHITECTURE FONCTIONNELLE GLOBALE Sources de données Web : sites, flux Entrepôts OAI Applications, Web Services Collecte, traitement, indexationDiffusionApplications Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Service de recherche AFS Capter Normaliser, dédoublonner Annoter, filtrer indexation génération du RDF UI de démo rechercheisidore INDEXER GENERER Moteur de recherche Web des données
GÉNÉRER, DIFFUSER
32 P UBLICATION DU RDF Les données et enrichissements sont exportés en RDF en bout de chaine Les triplets générés sont exploités pour retour vers les sources sous forme normalisée pour traiter des requêtes complexes pour une exposition dans le Web de données Corpus Génération Fichiers de triplets Entrepôt RDF Chargement de lentrepôt
33 N ÉGOCIATION DE CONTENU AFS et SPARQL sont des Web Service techniques Ils sont enrobés dans une couche métier un Web Service applicatif qui permet la négociation de contenu Description XML Description RDF Document
34 F AVORISER L UTILISATION Pas de code spécifique de la « configuration » : XSL et SPARQL au plus limiter les coûts de développement / test disposer dune solution simple à faire évoluer
35 U NE AIDE À L INTÉGRATION
ARCHITECTURE
37 A RCHITECTURE FONCTIONNELLE GLOBALE Sources de données Web : sites, flux Entrepôts OAI Applications, Web Services Collecte, traitement, indexationDiffuserApplications Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Service de recherche AFS Capter Normaliser, dédoublonner Annoter, filtrer indexation génération du RDF UI de démo rechercheisidore
38 A RCHITECTURE LOGIQUE
39 A RCHITECTURE PHYSIQUE 6 serveurs : haute disponibilité 2 frontaux : Web Services 2 répondeurs, 1 indexeur 1 triplestore et back-office
MERCI DE VOTRE ATTENTION