Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

Slides:



Advertisements
Présentations similaires
Bratec Martin ..
Advertisements

NOTIFICATION ÉLECTRONIQUE
Fragilité : une notion fragile ?
SEMINAIRE DU 10 AVRIL 2010 programmation du futur Hôtel de Ville
Phono-sémantique différentielle des monosyllabes italiens
MAGGIO 1967 BOLOGNA - CERVIA ANOMALIES DU SOMMEIL CHEZ L'HOMME
droit + pub = ? vincent gautrais professeur agrégé – avocat
Transcription de la présentation:

Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010

ENJEUX

3 L E PROJET – L ES ENJEUX Enjeux stratégiques Un point daccès aux données numériques des SHS Un socle : une infrastructure applicative Un outil : des usages multiples

4 L E PROJET – L ES ENJEUX Enjeux technologiques Des besoins « forts » en traitement des données Prendre en compte la diversité Un outil industriel et évolutif

5 L E PROJET – L ES ENJEUX Enjeux organisationnels Une maîtrise dœuvre plurielle publique-privée Méthode agile

6 M ÉTHODE PROJET Plateforme dintégration Frontaux (proxy) Démonstrateur Gestion des référentiels Enrichissement des données Moteur de recherche Intégration et IHM

UN PROJET CLASSIQUE ?

8 P RINCIPE DU PROJET Un projet classique en apparence Collecter Traiter Diffuser

9 V ISION DE LA VALORISATION DE L INFORMATION Contenu Texte … Captation / Extraction AnnotationAnnotationInférenceInférence Bases dindexation RDF Endpoint SparQL RDF PublicationPublication WebWeb xhtml+RDFa Linked Data robots

10 L ES PARTICULARITÉS DU PROJET Collecter des données hétérogènes primaires, secondaires annuaires, bases de données, référentiels Points durs : diversité, volumétrie Exploiter les métadonnées et le texte intégral

11 L ES PARTICULARITÉS DU PROJET Traiter Normaliser les données (qualité, forme, alignement) Enrichir (classification, URI pérenne, vignettes, extraction…)

12 L ES PARTICULARITÉS DU PROJET Diffuser avec le moteur de recherche recherches plein texte, multicritères et à facettes autocomplétion, correction orthographique traitements linguistiques avancés

13 L ES PARTICULARITÉS DU PROJET Diffuser dans le Web de données Se préparer au Linked/Open Data Permettre lémergence de nouveaux outils exploitant les données Rendre accessible à lécosystème les données enrichies

14 A RCHITECTURE FONCTIONNELLE GLOBALE Sources de données Web : sites, flux Entrepôts OAI Applications, Web Services Collecte, traitement, indexationDiffusionApplications Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Service de recherche AFS Capter Normaliser, dédoublonner Annoter, filtrer indexation génération du RDF UI de démo rechercheisidore COLLECTER TRANSFORMER ENRICHIR INDEXER GENERER ADMINISTRER Moteur de recherche Web des données

COLLECTER, TRANSFORMER, ENRICHIR

16 L A RÉPONSE AFS-PaF : Pipes and Filters industrialise la chaîne de captation et de traitement des données introduit un modèle dUnité Documentaire évolutif et souple fournit un cadre de développement et de configuration de haut niveau

17 C HAINES DE TRAITEMENT Créer des chaines de traitement par assemblage de modules Sources de données Module connecteur Modules de transformation et enrichissement

18 D ES FILTRES Un framework qui permet de construire des modules 50+ filtres prêts à lemploi Un environnement dexécution

19 L E DOCUMENT Le document est composite est dynamique évolue dans le temps est un objet à gérer à accéder de façon unifiée

20 L E D OCUMENT Document Manager abstrait le stockage et laccès aux documents : stockage « cloud » créer / lire / écrire les couches

PAF ISIDORE PRINCIPES GÉNÉRAUX

22 Sites Web (sitemap) Entrepôts OAI Calenda Sources de données Flux RSS Connecteurs Modules Pipes&Filters spécifiques aux sources … … … … V UE GÉNÉRALE DE LA CHAÎNE « P A F » I SIDORE Fichiers XML de configuration des connecteurs AFS et des modules de normalisation Référentiels SKOS Modules Pipes&Filters communs Liens pérennesAnnotation … Des sources multiples et des traitements ad-hoc Sites Web collecte par sitemap extraction des données RDFa Flux RSS capitalisation « illimitée » Entrepôts de publications : articles, revues, thèses, … captation structurée : OAI-PMH, OAI-ORE extraction des métadonnées : DC Diverses sources structurées annuaires de personnes, ressources, sources conférences, séminaires, …

C HAÎNE DE COLLECTE ET DE TRAITEMENT Une chaîne dédiée à la normalisation : 12 filtres Récupération de chaque ressource listée dans le Sitemap Extraction du RDFa Sérialisation du RDFa Passage dans un format pivot Normalisation de la date Normalisation de lauteur Récupération Handle et imagette Ajout des informations sources/document Sérialisation du XML pivot

24 C HAINE D ENRICHISSEMENT Une chaîne dédiée à lenrichissement : 14 filtres Classification sur la taxonomie HAL Classification sur la taxonomie Sujets Calenda Classification sur la taxonomie Temps Calenda Classification sur la taxonomie Géo Calenda Alignement des types de document Alignement des dates sur Thésaurus W (SIAF) Alignement des langues sur Lexvo Enrichissement des auteurs sur HAL Extraction des sujets sur Rameau, Pactols, Geonames Fusion des annotations

PAF ISIDORE FOCUS SUR CERTAINS POINTS

26 M AINTENABILITÉ - EXEMPLE Configuration des sources Isidore (application dédiée) Interface Utilisateur Fichiers XML de définition des sources 745 sources de données PaF des sources … PaF des données Moteur de recherche dans les sources

27 L A CLASSIFICATION AUTOMATIQUE Classification par entrainement le moteur utilise les documents déjà classés pour apprendre puis utilise la base dindicateurs statistiques pour catégoriser les documents du corpus

28 L ALIGNEMENT Alignement des contenus sur des référentiels fr FR francais Français français en eng EN anglais english Français Anglais

29 LE XTRACTION Extraction sur des référentiels Une ressource documentaire Mots clefs Est décrit par Un thésaurus Concept Organise Pour lier le mot-clé au concept Chaîne de caractères Est exprimé par Étiquette Est décrit par Le moteur effectue une comparaison morphologique Chaîne de caractères Est exprimé par Est décrit par A noter quun algorithme permet de limiter le nombre dannotations par contextualisation

30 A RCHITECTURE FONCTIONNELLE GLOBALE Sources de données Web : sites, flux Entrepôts OAI Applications, Web Services Collecte, traitement, indexationDiffusionApplications Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Service de recherche AFS Capter Normaliser, dédoublonner Annoter, filtrer indexation génération du RDF UI de démo rechercheisidore INDEXER GENERER Moteur de recherche Web des données

GÉNÉRER, DIFFUSER

32 P UBLICATION DU RDF Les données et enrichissements sont exportés en RDF en bout de chaine Les triplets générés sont exploités pour retour vers les sources sous forme normalisée pour traiter des requêtes complexes pour une exposition dans le Web de données Corpus Génération Fichiers de triplets Entrepôt RDF Chargement de lentrepôt

33 N ÉGOCIATION DE CONTENU AFS et SPARQL sont des Web Service techniques Ils sont enrobés dans une couche métier un Web Service applicatif qui permet la négociation de contenu Description XML Description RDF Document

34 F AVORISER L UTILISATION Pas de code spécifique de la « configuration » : XSL et SPARQL au plus limiter les coûts de développement / test disposer dune solution simple à faire évoluer

35 U NE AIDE À L INTÉGRATION

ARCHITECTURE

37 A RCHITECTURE FONCTIONNELLE GLOBALE Sources de données Web : sites, flux Entrepôts OAI Applications, Web Services Collecte, traitement, indexationDiffuserApplications Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Service de recherche AFS Capter Normaliser, dédoublonner Annoter, filtrer indexation génération du RDF UI de démo rechercheisidore

38 A RCHITECTURE LOGIQUE

39 A RCHITECTURE PHYSIQUE 6 serveurs : haute disponibilité 2 frontaux : Web Services 2 répondeurs, 1 indexeur 1 triplestore et back-office

MERCI DE VOTRE ATTENTION