Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parChrétien Teyssier Modifié depuis plus de 10 années
1
Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010
2
ENJEUX
3
3 L E PROJET – L ES ENJEUX Enjeux stratégiques Un point daccès aux données numériques des SHS Un socle : une infrastructure applicative Un outil : des usages multiples
4
4 L E PROJET – L ES ENJEUX Enjeux technologiques Des besoins « forts » en traitement des données Prendre en compte la diversité Un outil industriel et évolutif
5
5 L E PROJET – L ES ENJEUX Enjeux organisationnels Une maîtrise dœuvre plurielle publique-privée Méthode agile
6
6 M ÉTHODE PROJET Plateforme dintégration Frontaux (proxy) Démonstrateur Gestion des référentiels Enrichissement des données Moteur de recherche Intégration et IHM
7
UN PROJET CLASSIQUE ?
8
8 P RINCIPE DU PROJET Un projet classique en apparence Collecter Traiter Diffuser
9
9 V ISION DE LA VALORISATION DE L INFORMATION Contenu Texte … Captation / Extraction AnnotationAnnotationInférenceInférence Bases dindexation RDF Endpoint SparQL RDF PublicationPublication WebWeb 2.0 3.0xhtml+RDFa Linked Data robots
10
10 L ES PARTICULARITÉS DU PROJET Collecter des données hétérogènes primaires, secondaires annuaires, bases de données, référentiels Points durs : diversité, volumétrie Exploiter les métadonnées et le texte intégral
11
11 L ES PARTICULARITÉS DU PROJET Traiter Normaliser les données (qualité, forme, alignement) Enrichir (classification, URI pérenne, vignettes, extraction…)
12
12 L ES PARTICULARITÉS DU PROJET Diffuser avec le moteur de recherche recherches plein texte, multicritères et à facettes autocomplétion, correction orthographique traitements linguistiques avancés
13
13 L ES PARTICULARITÉS DU PROJET Diffuser dans le Web de données Se préparer au Linked/Open Data Permettre lémergence de nouveaux outils exploitant les données Rendre accessible à lécosystème les données enrichies
14
14 A RCHITECTURE FONCTIONNELLE GLOBALE Sources de données Web : sites, flux Entrepôts OAI Applications, Web Services Collecte, traitement, indexationDiffusionApplications Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Service de recherche AFS Capter Normaliser, dédoublonner Annoter, filtrer indexation génération du RDF UI de démo rechercheisidore COLLECTER TRANSFORMER ENRICHIR INDEXER GENERER ADMINISTRER Moteur de recherche Web des données
15
COLLECTER, TRANSFORMER, ENRICHIR
16
16 L A RÉPONSE AFS-PaF : Pipes and Filters industrialise la chaîne de captation et de traitement des données introduit un modèle dUnité Documentaire évolutif et souple fournit un cadre de développement et de configuration de haut niveau
17
17 C HAINES DE TRAITEMENT Créer des chaines de traitement par assemblage de modules Sources de données Module connecteur Modules de transformation et enrichissement
18
18 D ES FILTRES Un framework qui permet de construire des modules 50+ filtres prêts à lemploi Un environnement dexécution
19
19 L E DOCUMENT Le document est composite est dynamique évolue dans le temps est un objet à gérer à accéder de façon unifiée
20
20 L E D OCUMENT Document Manager abstrait le stockage et laccès aux documents : stockage « cloud » créer / lire / écrire les couches
21
PAF ISIDORE PRINCIPES GÉNÉRAUX
22
22 Sites Web (sitemap) Entrepôts OAI Calenda Sources de données Flux RSS Connecteurs Modules Pipes&Filters spécifiques aux sources … … … … V UE GÉNÉRALE DE LA CHAÎNE « P A F » I SIDORE Fichiers XML de configuration des connecteurs AFS et des modules de normalisation Référentiels SKOS Modules Pipes&Filters communs Liens pérennesAnnotation … Des sources multiples et des traitements ad-hoc Sites Web collecte par sitemap extraction des données RDFa Flux RSS capitalisation « illimitée » Entrepôts de publications : articles, revues, thèses, … captation structurée : OAI-PMH, OAI-ORE extraction des métadonnées : DC Diverses sources structurées annuaires de personnes, ressources, sources conférences, séminaires, …
23
C HAÎNE DE COLLECTE ET DE TRAITEMENT Une chaîne dédiée à la normalisation : 12 filtres Récupération de chaque ressource listée dans le Sitemap Extraction du RDFa Sérialisation du RDFa Passage dans un format pivot Normalisation de la date Normalisation de lauteur Récupération Handle et imagette Ajout des informations sources/document Sérialisation du XML pivot
24
24 C HAINE D ENRICHISSEMENT Une chaîne dédiée à lenrichissement : 14 filtres Classification sur la taxonomie HAL Classification sur la taxonomie Sujets Calenda Classification sur la taxonomie Temps Calenda Classification sur la taxonomie Géo Calenda Alignement des types de document Alignement des dates sur Thésaurus W (SIAF) Alignement des langues sur Lexvo Enrichissement des auteurs sur HAL Extraction des sujets sur Rameau, Pactols, Geonames Fusion des annotations
25
PAF ISIDORE FOCUS SUR CERTAINS POINTS
26
26 M AINTENABILITÉ - EXEMPLE Configuration des sources Isidore (application dédiée) Interface Utilisateur Fichiers XML de définition des sources 745 sources de données PaF des sources … PaF des données Moteur de recherche dans les sources
27
27 L A CLASSIFICATION AUTOMATIQUE Classification par entrainement le moteur utilise les documents déjà classés pour apprendre puis utilise la base dindicateurs statistiques pour catégoriser les 900 000 documents du corpus
28
28 L ALIGNEMENT Alignement des contenus sur des référentiels fr FR francais Français français en eng EN anglais english Français Anglais
29
29 LE XTRACTION Extraction sur des référentiels Une ressource documentaire Mots clefs Est décrit par Un thésaurus Concept Organise Pour lier le mot-clé au concept Chaîne de caractères Est exprimé par Étiquette Est décrit par Le moteur effectue une comparaison morphologique Chaîne de caractères Est exprimé par Est décrit par A noter quun algorithme permet de limiter le nombre dannotations par contextualisation
30
30 A RCHITECTURE FONCTIONNELLE GLOBALE Sources de données Web : sites, flux Entrepôts OAI Applications, Web Services Collecte, traitement, indexationDiffusionApplications Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Service de recherche AFS Capter Normaliser, dédoublonner Annoter, filtrer indexation génération du RDF UI de démo rechercheisidore INDEXER GENERER Moteur de recherche Web des données
31
GÉNÉRER, DIFFUSER
32
32 P UBLICATION DU RDF Les données et enrichissements sont exportés en RDF en bout de chaine Les triplets générés sont exploités pour retour vers les sources sous forme normalisée pour traiter des requêtes complexes pour une exposition dans le Web de données Corpus Génération Fichiers de triplets Entrepôt RDF Chargement de lentrepôt
33
33 N ÉGOCIATION DE CONTENU AFS et SPARQL sont des Web Service techniques Ils sont enrobés dans une couche métier un Web Service applicatif qui permet la négociation de contenu Description XML Description RDF Document
34
34 F AVORISER L UTILISATION Pas de code spécifique de la « configuration » : XSL et SPARQL au plus limiter les coûts de développement / test disposer dune solution simple à faire évoluer
35
35 U NE AIDE À L INTÉGRATION
36
ARCHITECTURE
37
37 A RCHITECTURE FONCTIONNELLE GLOBALE Sources de données Web : sites, flux Entrepôts OAI Applications, Web Services Collecte, traitement, indexationDiffuserApplications Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Service de recherche AFS Capter Normaliser, dédoublonner Annoter, filtrer indexation génération du RDF UI de démo rechercheisidore
38
38 A RCHITECTURE LOGIQUE
39
39 A RCHITECTURE PHYSIQUE 6 serveurs : haute disponibilité 2 frontaux : Web Services 2 répondeurs, 1 indexeur 1 triplestore et back-office
40
MERCI DE VOTRE ATTENTION
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.