La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010.

Présentations similaires


Présentation au sujet: "Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010."— Transcription de la présentation:

1 Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010

2 ENJEUX

3 3 L E PROJET – L ES ENJEUX Enjeux stratégiques Un point daccès aux données numériques des SHS Un socle : une infrastructure applicative Un outil : des usages multiples

4 4 L E PROJET – L ES ENJEUX Enjeux technologiques Des besoins « forts » en traitement des données Prendre en compte la diversité Un outil industriel et évolutif

5 5 L E PROJET – L ES ENJEUX Enjeux organisationnels Une maîtrise dœuvre plurielle publique-privée Méthode agile

6 6 M ÉTHODE PROJET Plateforme dintégration Frontaux (proxy) Démonstrateur Gestion des référentiels Enrichissement des données Moteur de recherche Intégration et IHM

7 UN PROJET CLASSIQUE ?

8 8 P RINCIPE DU PROJET Un projet classique en apparence Collecter Traiter Diffuser

9 9 V ISION DE LA VALORISATION DE L INFORMATION Contenu Texte … Captation / Extraction AnnotationAnnotationInférenceInférence Bases dindexation RDF Endpoint SparQL RDF PublicationPublication WebWeb 2.0 3.0xhtml+RDFa Linked Data robots

10 10 L ES PARTICULARITÉS DU PROJET Collecter des données hétérogènes primaires, secondaires annuaires, bases de données, référentiels Points durs : diversité, volumétrie Exploiter les métadonnées et le texte intégral

11 11 L ES PARTICULARITÉS DU PROJET Traiter Normaliser les données (qualité, forme, alignement) Enrichir (classification, URI pérenne, vignettes, extraction…)

12 12 L ES PARTICULARITÉS DU PROJET Diffuser avec le moteur de recherche recherches plein texte, multicritères et à facettes autocomplétion, correction orthographique traitements linguistiques avancés

13 13 L ES PARTICULARITÉS DU PROJET Diffuser dans le Web de données Se préparer au Linked/Open Data Permettre lémergence de nouveaux outils exploitant les données Rendre accessible à lécosystème les données enrichies

14 14 A RCHITECTURE FONCTIONNELLE GLOBALE Sources de données Web : sites, flux Entrepôts OAI Applications, Web Services Collecte, traitement, indexationDiffusionApplications Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Service de recherche AFS Capter Normaliser, dédoublonner Annoter, filtrer indexation génération du RDF UI de démo rechercheisidore COLLECTER TRANSFORMER ENRICHIR INDEXER GENERER ADMINISTRER Moteur de recherche Web des données

15 COLLECTER, TRANSFORMER, ENRICHIR

16 16 L A RÉPONSE AFS-PaF : Pipes and Filters industrialise la chaîne de captation et de traitement des données introduit un modèle dUnité Documentaire évolutif et souple fournit un cadre de développement et de configuration de haut niveau

17 17 C HAINES DE TRAITEMENT Créer des chaines de traitement par assemblage de modules Sources de données Module connecteur Modules de transformation et enrichissement

18 18 D ES FILTRES Un framework qui permet de construire des modules 50+ filtres prêts à lemploi Un environnement dexécution

19 19 L E DOCUMENT Le document est composite est dynamique évolue dans le temps est un objet à gérer à accéder de façon unifiée

20 20 L E D OCUMENT Document Manager abstrait le stockage et laccès aux documents : stockage « cloud » créer / lire / écrire les couches

21 PAF ISIDORE PRINCIPES GÉNÉRAUX

22 22 Sites Web (sitemap) Entrepôts OAI Calenda Sources de données Flux RSS Connecteurs Modules Pipes&Filters spécifiques aux sources … … … … V UE GÉNÉRALE DE LA CHAÎNE « P A F » I SIDORE Fichiers XML de configuration des connecteurs AFS et des modules de normalisation Référentiels SKOS Modules Pipes&Filters communs Liens pérennesAnnotation … Des sources multiples et des traitements ad-hoc Sites Web collecte par sitemap extraction des données RDFa Flux RSS capitalisation « illimitée » Entrepôts de publications : articles, revues, thèses, … captation structurée : OAI-PMH, OAI-ORE extraction des métadonnées : DC Diverses sources structurées annuaires de personnes, ressources, sources conférences, séminaires, …

23 C HAÎNE DE COLLECTE ET DE TRAITEMENT Une chaîne dédiée à la normalisation : 12 filtres Récupération de chaque ressource listée dans le Sitemap Extraction du RDFa Sérialisation du RDFa Passage dans un format pivot Normalisation de la date Normalisation de lauteur Récupération Handle et imagette Ajout des informations sources/document Sérialisation du XML pivot

24 24 C HAINE D ENRICHISSEMENT Une chaîne dédiée à lenrichissement : 14 filtres Classification sur la taxonomie HAL Classification sur la taxonomie Sujets Calenda Classification sur la taxonomie Temps Calenda Classification sur la taxonomie Géo Calenda Alignement des types de document Alignement des dates sur Thésaurus W (SIAF) Alignement des langues sur Lexvo Enrichissement des auteurs sur HAL Extraction des sujets sur Rameau, Pactols, Geonames Fusion des annotations

25 PAF ISIDORE FOCUS SUR CERTAINS POINTS

26 26 M AINTENABILITÉ - EXEMPLE Configuration des sources Isidore (application dédiée) Interface Utilisateur Fichiers XML de définition des sources 745 sources de données PaF des sources … PaF des données Moteur de recherche dans les sources

27 27 L A CLASSIFICATION AUTOMATIQUE Classification par entrainement le moteur utilise les documents déjà classés pour apprendre puis utilise la base dindicateurs statistiques pour catégoriser les 900 000 documents du corpus

28 28 L ALIGNEMENT Alignement des contenus sur des référentiels fr FR francais Français français en eng EN anglais english Français Anglais

29 29 LE XTRACTION Extraction sur des référentiels Une ressource documentaire Mots clefs Est décrit par Un thésaurus Concept Organise Pour lier le mot-clé au concept Chaîne de caractères Est exprimé par Étiquette Est décrit par Le moteur effectue une comparaison morphologique Chaîne de caractères Est exprimé par Est décrit par A noter quun algorithme permet de limiter le nombre dannotations par contextualisation

30 30 A RCHITECTURE FONCTIONNELLE GLOBALE Sources de données Web : sites, flux Entrepôts OAI Applications, Web Services Collecte, traitement, indexationDiffusionApplications Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Service de recherche AFS Capter Normaliser, dédoublonner Annoter, filtrer indexation génération du RDF UI de démo rechercheisidore INDEXER GENERER Moteur de recherche Web des données

31 GÉNÉRER, DIFFUSER

32 32 P UBLICATION DU RDF Les données et enrichissements sont exportés en RDF en bout de chaine Les triplets générés sont exploités pour retour vers les sources sous forme normalisée pour traiter des requêtes complexes pour une exposition dans le Web de données Corpus Génération Fichiers de triplets Entrepôt RDF Chargement de lentrepôt

33 33 N ÉGOCIATION DE CONTENU AFS et SPARQL sont des Web Service techniques Ils sont enrobés dans une couche métier un Web Service applicatif qui permet la négociation de contenu Description XML Description RDF Document

34 34 F AVORISER L UTILISATION Pas de code spécifique de la « configuration » : XSL et SPARQL au plus limiter les coûts de développement / test disposer dune solution simple à faire évoluer

35 35 U NE AIDE À L INTÉGRATION

36 ARCHITECTURE

37 37 A RCHITECTURE FONCTIONNELLE GLOBALE Sources de données Web : sites, flux Entrepôts OAI Applications, Web Services Collecte, traitement, indexationDiffuserApplications Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Service de recherche AFS Capter Normaliser, dédoublonner Annoter, filtrer indexation génération du RDF UI de démo rechercheisidore

38 38 A RCHITECTURE LOGIQUE

39 39 A RCHITECTURE PHYSIQUE 6 serveurs : haute disponibilité 2 frontaux : Web Services 2 répondeurs, 1 indexeur 1 triplestore et back-office

40 MERCI DE VOTRE ATTENTION


Télécharger ppt "Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010."

Présentations similaires


Annonces Google