Projet ANR e-WOK_HUB (Environmental Web Ontology Knowledge Hub) Partenaires : BRGM, EADS, ENSMP, IFP, INRIA, LISI/ENSMA/CRITT Colloque STIC 2007
Projet ANR E-WoK_HUB Objectifs scientifiques Mettre en place un ensemble de portails communicants (les Hubs e-WOK), proposant à la fois : des applications web accessibles aux utilisateurs finaux à travers des IHM en ligne et des services webs accessibles aux applications à travers des interfaces programmatiques
Projet ANR E-WoK_HUB Objectifs applicatifs Gestion de la mémoire de plusieurs projets sur la capture et le stockage du CO2, avec exploitation des résultats de la veille technologique sur le domaine Intégration d’informations issues de bases différentes et de logiciels métiers
Projet ANR E-WoK_HUB Les Hubs e-WOK Hub e-WOK = serveur web sémantique et portail offrant un accès sémantique à des ressources documentaires, des données métiers et des services (génériques ou métiers) en utilisant des ontologies adéquates Fonctionnalités de mise en réseau des portails pour accéder les uns aux autres et mutualiser leurs ressources Intégration d’interfaces homme machine pour gérer les échanges entre utilisateurs et le réseau de portails Boîte à outils pour générer les annotations des ressources et les interfaces programmatiques des services utiles pour le domaine considéré Indexation des contenus textuels des documents et des données Accès aux entités sémantiques et gestion de leur persistance
Au niveau scientifique : • Éditeurs coopératifs et contextuels, Projet ANR E-WoK_HUB Résultats attendus du projet Au niveau scientifique : • Éditeurs coopératifs et contextuels, • Connexion entre les standards : RDF(S)/OWL et EXPRESS/PLIB, SPARQL et OntoQL • Prise en compte de multiples points de vue dans les annotations et lors de la recherche d’information, • Exploitation de techniques linguistiques et probabilistes pour la création / enrichissement des annotations à partir de textes, • Prise en compte de l’influence de l’évolution de l’ontologie sur les annotations, Géolocalisation associée à la sémantique, • Lien entre la gestion de la mémoire de projet et les résultats de la veille technologique.
Au niveau exploitation : CRITT : outils développés autour de PLIB Projet ANR E-WoK_HUB Résultats attendus du projet Au niveau applicatif : Veille technologique sur la caractérisation des sites de stockage du CO2 Application à d’autres domaines thématiques dans le domaine des géosciences (risques naturels, eau souterraine…) ou dans des domaines en ingénierie nécessitant mémoire inter-projets ou veille technologique Au niveau exploitation : CRITT : outils développés autour de PLIB IFP et BRGM : exploitation des résultats
Résultats scientifiques et industriels Projet ANR E-WoK_HUB Résultats scientifiques et industriels
Vision globale du projet Projet ANR E-WOK_HUB Vision globale du projet Besoins (cas d’utilisation) Expériences & background BESOINS & SPECIFICATION LOT 1 (1/2) EVALUA TION LOT 1 (2/2) K-repository et applications Applications existantes Leader BRGM MISE EN PLACE DU E-WOK_HUB LOT 4 Besoins & Specs PERSISTANCE DES ONTOLOGIES ET DES REGLES LOT 3 Leader EADS Démos & analyse des résultats Outils spécifiques à la persistance Leader BRGM Leader LISI Outils génériques Outils génériques OUTILS ET METHODES GENERIQUES LOT 2 Leader INRIA
une annotation automatique un moteur de recherche performant Projet ANR E-WoK_HUB Résultats industriels – Lot 1 Use cases - Besoins une annotation automatique Pas de charge de travail supplémentaire, succès de l’utilisation un moteur de recherche performant une amélioration dans le principe de recherche : sémantique + géo-localisation un outil central pour la démarche de recherche élargir le périmètre des ressources actuelles (ressources du centre de documentation) en incluant des images, des services cartographiques, services web , des références de base de données collaboration entre organismes pour les données l’amélioration de la connaissance une collaboration de ses agents pour parfaire la définition de la connaissance un outil de gestion des ressources, des requêtes et de leurs résultats, des différents projets une capitalisation des démarches intellectuelles un outil d’aide dans le suivi d’un projet de consultation des référentiels de ressources.
Use case amont (BRGM) : Use case aval (IFP) : Projet ANR E-WoK_HUB Résultats industriels – Lot 1 Use cases On porte une attention particulière aux aspects géologiques et géographiques et on l’applique sur le projet PICOREF. Use case amont (BRGM) : Mémoire des projets CO2 Annotations Edition d’ontologies Exemples de requêtes dans le projet PICOREF Use case aval (IFP) : Cas d’étude IFP
2/ Retrouver les entités géologiques citées dans chaque document. Projet ANR E-WoK_HUB Résultats industriels – Lot 1 Use Case amont : à partir du corpus de documents "BRGM/PICOREF" 1/ Retrouver les infos de localisation géographiques "globales" de chaque document. 2/ Retrouver les entités géologiques citées dans chaque document. 3/ Dater les entités géologiques repérées dans les documents. 4/ Localiser les entités géologiques repérées dans les documents 5/ Etendre la recherche des entités géologiques aux publications référencées dans le corpus de documents. 6/ Extraire des documents les "sections" " segments" et "fragments" qui décrivent les hypothèses chrono stratigraphiques associées aux entités géologiques et les présenter à l'utilisateur lors de la phase d'interprétation pour annoter ces interprétations ( Geological Knowledge Editor).
Projet ANR E-WoK_HUB Résultats industriels – Lot 1 Use-cases et ontologies obtenues – Exemples de questions Question d’opérateur: Je recherche les lignes sismiques qui ont été étudiées dans le cadre du projet PICOREF Question d’expert: Le Callovo-Oxfordien est-il une bonne couverture ? Question d’usager: Existe-t-il des sites potentiels de stockage de CO2 à moins de 25 km de mon usine ? Dans un premier temps, les réponses seront fournies sous forme d’une liste de documents permettant à l’usager de répondre à la question posée. Plus d’une centaine de questions identifiées
Projet ANR E-WoK_HUB Résultats industriels – Lot 1 Use-cases et ontologies obtenues – Analyse du contenu d’un document On vise à mettre en œuvre une méthodologie plus performante que la recherche habituelle par mots-clés. La méthode repose sur l’analyse du contenu de documents entiers sans définition préalable de mots-clés. Extraction automatique de mots ou groupes de mots signifiants (plate-forme linguistique, INRIA) Annotation des termes extraits en référence à des ontologies de domaine définies préalablement. Traitement statistique éventuel des termes annotés en vue de déterminer les éléments-clés du document considéré
une ontologie des termes géographiques (INSEE, BRGM) Projet ANR E-WoK_HUB Résultats industriels – Lot 1 Use-cases et ontologies obtenues On part d’un corpus de textes de référence (une dizaine de documents: articles, rapports, thèse etc.) que les experts annotent à la main. Ce travail de départ permet de définir les diverses ontologies de domaine qui devront être construites et de leur associer une première liste de concepts et de propriétés. On a défini: une ontologie des termes géographiques (INSEE, BRGM) une ontologie de la chronologie géologique (ENSMP) 5 ontologies relatives aux différentes sous-disciplines géologiques à prendre en compte (ENSMP)
Projet ANR E-WoK_HUB Résultats industriels – Lot 1 Use-cases et ontologies obtenues – Ontologies définies pour la géologie
Projet ANR E-WoK_HUB Résultats industriels – Lot 1 Use-cases et ontologies obtenues – Chronologie géologique
étape1 étape3 étape2 étape4 Projet ANR E-WoK_HUB Résultats industriels – Lot 1 Use Case AVAL " IFP" : Schéma simplifié La Vue Utilisateur INCOMPLETE Extraire les données Stockage des données serveur IFP/BRGM étape1 COMPLETED Compléter la connaissance étape3 Reconstitution d'une archive numérique EXPERTISE du GEOLOGUE Archives Numériques (ex : fichiers RESCUE) SYSTEMES D'INFORMATION des COMPAGNIES Rapports /textes /ppt Extraire la connaissance Stockage de la connaissance serveur e-wok_HUB étape2 RESULTS mise à jour de données ou de connaissance geo modelisation étape4 Création d'une nouvelle archive numérique MISE A JOUR
Vision globale du projet Projet ANR E-WOK_HUB Vision globale du projet Besoins (cas d’utilisation) Expériences & background BESOINS & SPECIFICATION LOT 1 (1/2) EVALUA TION LOT 1 (2/2) K-repository et applications Applications existantes Leader BRGM MISE EN PLACE DU E-WOK_HUB LOT 4 Besoins & Specs PERSISTANCE DES ONTOLOGIES ET DES REGLES LOT 3 Leader EADS Démos & analyse des résultats Outils spécifiques à la persistance Leader BRGM Leader LISI Outils génériques Outils génériques OUTILS ET METHODES GENERIQUES LOT 2 Leader INRIA
⇒ ARCHITECTURE ORIENTEE SERVICES Projet ANR E-WoK_HUB Résultats scientifiques – Lot 4 Architecture des hubs : Approche de conception Les tâches des utilisateurs d’e_Wok_Hub sont organisées en projets Les connaissances « métier » constituent des ressources pour les projets Les partenaires « techniques » fournissent des services qui exploitent les ressources disponibles et produisent de nouvelles ressources Les applications opérationnelles sont construites par composition de services Les portails e-Wok donnent accès aux ressources et aux services disponibles pour conduire les projets ⇒ ARCHITECTURE ORIENTEE SERVICES
Annotation Sémantique Persistance d’ontologies Projet ANR E-WoK_HUB Résultats scientifiques – Lot 4 Architecture proposée Interface utilisateur Web Service XML WSDL WS-BPEL SOAP SPARQL OWL/RDFS RDF PLIB Analyse linguistique eWok Client Éditeur d’ontologies Annotation Sémantique Formatage de données Persistance d’ontologies ESB Petals Portail Conception de Work-Flow Monitoring Applications Configuration administration Orchestration Sécurité Supervision Distribution et messaging Services "Métier" Génériques Spécifiques Services Techniques documents données sémantiques données techniques
⇒ Évaluation des ESB disponibles en open source : Petals Projet ANR E-WoK_HUB Résultats scientifiques – Lot 4 Architecture des hubs : l’infrastructure d’intégration ESB = infrastructure conçue pour exposer, accéder, orchestrer, administrer les services Messagerie asynchrone RPC synchrone Échange de fichiers Publication/ Abonnement Web Services Orchestration de services Enterprise Service Bus XML HTML Oracle ACORD Word/Excel txt PostgreSQL PDF ODT Multiples langages de programmation Plates-formes hétérogènes Modèles et Formats de données disparates ⇒ Évaluation des ESB disponibles en open source : Petals
Projet ANR E-WoK_HUB Résultats scientifiques – Lot 4 Réseau de Hubs ESB Réseau e-Wok Hub 1 Hub 2 Hub 3
Vision globale du projet Projet ANR E-WOK_HUB Vision globale du projet Besoins (cas d’utilisation) Expériences & background BESOINS & SPECIFICATION LOT 1 (1/2) EVALUA TION LOT 1 (2/2) K-repository et applications Applications existantes Leader BRGM MISE EN PLACE DU E-WOK_HUB LOT 4 Besoins & Specs PERSISTANCE DES ONTOLOGIES ET DES REGLES LOT 3 Leader EADS Démos & analyse des résultats Outils spécifiques à la persistance Leader BRGM Leader LISI Outils génériques Outils génériques OUTILS ET METHODES GENERIQUES LOT 2 Leader INRIA
Editeur contextuel et collaboratif ECCO Projet ANR E-WoK_HUB Résultats scientifiques – Lot 2 Rapport sur les services pour les ontologies Editeur contextuel et collaboratif ECCO Approche d’analyse de corpus et de techniques linguistiques Spécifications de techniques d’enrichissement sémantique semi-automatique à partir de textes en reposant sur la « kernelisation » de champs aléatoires conditionnels Techniques basées sur des règles de détection d’incohérence et restauration de cohérence pour traiter l’influence de l’évolution d’ontologies Transformation entre le modèle d’ontologies RDF(S) / OWL Lite et le modèle PLIB
ECCO (Editeur Collaboratif et Contextuel d’Ontologies) Projet ANR E-WoK_HUB Résultats scientifiques – Lot 2 Service d’ontologies – ECCO ECCO (Editeur Collaboratif et Contextuel d’Ontologies) Méthodologie: suivre les phases de conception d’une ontologie À partir de l’extraction de termes dans des sources de données … Jusqu’à l’édition fine de l’ontologie
ECCO (Editeur Collaboratif et Contextuel d’Ontologies) Projet ANR E-WoK_HUB Résultats scientifiques – Lot 2 Service d’ontologies – ECCO (2) ECCO (Editeur Collaboratif et Contextuel d’Ontologies) Extraction collaborative de termes : chaque utilisateur visualise ses propres termes + ceux extraits par les autres utilisateurs. Extraction contextuelle: le contexte du terme extrait est attaché à celui-ci.
ECCO (Editeur Collaboratif et Contextuel d’Ontologies) Projet ANR E-WoK_HUB Résultats scientifiques – Lot 2 Service d’ontologies – ECCO (3) ECCO (Editeur Collaboratif et Contextuel d’Ontologies) (Méta) annotation des termes : représenter le statut de chacun des termes.
ECCO (Editeur Collaboratif et Contextuel d’Ontologies) Projet ANR E-WoK_HUB Résultats scientifiques – Lot 2 Service d’ontologies – ECCO (4) ECCO (Editeur Collaboratif et Contextuel d’Ontologies) (Méta) annotation des termes : permettre aux utilisateurs d’avoir un historique des discussions sur un terme donné.
ECCO (Editeur Collaboratif et Contextuel d’Ontologies) Projet ANR E-WoK_HUB Résultats scientifiques – Lot 2 Service d’ontologies – ECCO (6) ECCO (Editeur Collaboratif et Contextuel d’Ontologies) Technos utilisées: J2EE / Web 2.0 / Web sémantique Dépendances: pour les aspects web sémantique : Corese Semtags pour les aspects web : JSTL (Java Standard Tag Lib) pour les aspects graphiques: Yahoo UI, Extjs (future version)
Processus d’évolution Avec trace d’évolution des ontologies Projet ANR E-WoK_HUB Résultats scientifiques – Lot 2 Service d’ontologies – Evolution des ontologies Approche suivie: Gestion des annotations inconsistantes après évolution de l’ontologie. Processus d’évolution Avec trace d’évolution des ontologies ontologie O1 Représentation des changements dans trace (O1, O2) trace (O1, O2) ontologie O2 Base d’annotations concernée Application des Stratégies d’évolution Base d’annotations mise à jour Sans trace d’évolution des ontologies ontologie O1 Détection des annotations inconsistantes Règles de détection ontologie O2 Base d’annotations concernée Correction des annotations Règles de correction Base d’annotations mise à jour
1er cas : Evolution des ontologies avec traces existantes Projet ANR E-WoK_HUB Résultats scientifiques – Lot 2 Service d’ontologies – Evolution des ontologies (3) 1er cas : Evolution des ontologies avec traces existantes Générateur de traces d’évolution: ECCO Résolution à l’aide des stratégies: COSWEM
Vision globale du projet Projet ANR E-WOK_HUB Vision globale du projet Besoins (cas d’utilisation) Expériences & background BESOINS & SPECIFICATION LOT 1 (1/2) EVALUA TION LOT 1 (2/2) K-repository et applications Applications existantes Leader BRGM MISE EN PLACE DU E-WOK_HUB LOT 4 Besoins & Specs PERSISTANCE DES ONTOLOGIES ET DES REGLES LOT 3 Leader EADS Démos & analyse des résultats Outils spécifiques à la persistance Leader BRGM Leader LISI Outils génériques Outils génériques OUTILS ET METHODES GENERIQUES LOT 2 Leader INRIA
Proposition d’un modèle de persistance autour de la plate-forme OntoDB Projet ANR E-WoK_HUB Résultats scientifiques – Lot 3 Service de persistance – Introduction Proposition d’un modèle de persistance autour de la plate-forme OntoDB Modélisation d’ontologies de domaine Connexion à l’architecture E-Wok-HUB
ONTODB Base de données à base ontologique pour PLIB Projet ANR E-WoK_HUB Résultats scientifiques – Lot 3 Modèle de persistance (1) ONTODB Base de données à base ontologique pour PLIB Structure de persistance pour les ontologies et leurs instances Extension d’une classe = une relation (une vue) Ontology Meta-Schema System Catalog Logical model
ONTODB pour E-Wok-Hub Extension proposées Mise en œuvre Projet ANR E-WoK_HUB Résultats scientifiques – Lot 3 Modèle de persistance (2) ONTODB pour E-Wok-Hub Extension proposées Représentation des données, ontologies et raisonnements spatiaux Prise en compte des modèles, langages et formats du web sémantique Représentation XML des données natives de ONTODB (OntoML) Mise en œuvre Définition d’un noyau commun des langages et des modèles d’ontologies Expressions d’équivalences : vues et opérateurs de logique de description Caractéristiques de symétrie, inverse, contraintes, etc...
Indexation de bases de données existantes Projet ANR E-WoK_HUB Résultats scientifiques – Lot 3 Service de persistance – Modélisation à base ontologique Construction de nouvelles ontologies et de bases de données à base ontologique Représentation des données spatiales Validation avec ONTODB EarthModel, GeoTimeScale, Petrographer Indexation de bases de données existantes Rétro-conception de bases de données Approche d’annotation sémantique de bases de données existantes Application aux données fournies par le BRGM avec prise en compte de données géographiques
Connexion au Hub Utilisation de SPARQL comme langage d’accès à la BDBO Projet ANR E-WoK_HUB Résultats scientifiques – Lot 3 Service de persistance – Intégration dans l ’architecture E-Wok-Hub Connexion au Hub Utilisation de SPARQL comme langage d’accès à la BDBO Interprétateur OntoQL Spécification des modules d’import/export ONTOML/RDF-S Meta-Schema System Catalog SPARQL OntoQL Ontology Logical model Ontologie RDF-S
1er prototype sur le scénario 1 établi par IFP-BRGM Projet ANR E-WoK_HUB Plan de travail Travail en cours : Prototype 1er prototype sur le scénario 1 établi par IFP-BRGM format e-wok .doc, .pdf Filtrage sur la langue Processus d’annotation géographique linguistique SIG KCRF géométrique XML Phase 2: consultation Phase 1: annotation
Projet ANR E-WoK_HUB Plan de travail Prototype : Recherche sur critères géographiques Scénario opérationnel et annotation manuelle du corpus (ENSMP) Socle technique (EADS) Services métiers Acquisition de documents Ewok Hub (IFP) Analyse linguistiques (INRIA) Annotation géographique par apprentissage (EADS) Annotation toponymique et géométrique (IFP, BRGM, INRIA) Stockage & Indexation dans un entrepôt sémantique (LISI) Interfaces Homme-Machine (BRGM): E-Wok Client
Projet ANR E-WoK_HUB Plan de travail Prototype : EWC - Ewok Client Techno: Web 2.0
Projet ANR E-WoK_HUB Plan de travail Prototype : EWC - Ewok Client
projet pluridisciplinaire informatique et géosciences Projet ANR E-WoK_HUB Plan de travail Prototype : Recherche sur critères géographiques E-WOK_HUB : projet pluridisciplinaire informatique et géosciences http://www-sop.inria.fr/edelweiss/projects/ewok Questions?