1 e.dot – septembre e.dot Entrepôts de Données Ouverts sur la Toile RNTL
2 e.dot – septembre Organisation Introduction Objectifs de e.dot Retombées techniques et commerciales Partenaires Principes de base Organisation Financement
3 e.dot – septembre Introduction: le contexte
4 e.dot – septembre De plus en plus d’informations utiles pour les entreprises Milliards de pages et millions de serveurs Que trouve-t-on sur le Web public et privé ? –Des documents (HTML, doc, pdf…), des données semi structurées (XML, formats exotiques), des données structurées (« hidden Web » -- accès BD via formulaires, services Web), Qualité médiocre: spamming, données pas à jour Requêtes par mot clé pour obtenir des pages Intégration d’information: basées sur des adapteurs (wrappers) La toile aujourd’hui
5 e.dot – septembre Ce qui est en train de changer Format d’échange universel (XML) –Mariage entre documents et bases de données –Standard de langage de requêtes: XQuery Services Web (SOAP, WSDL) –Format pour exporter des services sur le Web –Format pour encapsuler des requêtes Web sémantique (RDF, etc.) –Indispensable pour pouvoir trouver et utiliser l’information Le projet e.dot est fondé sur ces technologies
6 e.dot – septembre Objectifs de e.dot
7 e.dot – septembre Objectifs Génériques: Outils pour construire des entrepôts de données thématiques en découvrant des données sur le Web et en enrichissant des systèmes d’information existants par intégration automatiques de ces données Particulier: Développer un entrepôt de données XML intégrant de manière automatique des informations liées au risque de contamination des aliments, qu’elles soient issues du Web, privées ou obtenues sous licence Appel d’offre: étendre les systèmes d’information collectifs ou individuels via Internet
8 e.dot – septembre Principes de base Surveillance continue du Web : – Crawling du Web HTML et XML – Classification automatique des pages d’intérêt Intégration simple dans l’entrepôt : – Récupération automatique des données (en particulier XML) traitant du risque de contamination des aliments – Possibilité d’enrichir les documents XML Interrogation très fine des données stockées : – Ecrans intuitifs et spécifiques – Navigation dans le corpus via des hyperliens. – Mise en place de thésaurus agro-alimentaire Fourniture rapide de réponses précises : – Liste triée de réponses – Calcul original de la pertinence – Accès direct aux éléments du document – Granularité des réponses – Gestion de liens vers des documents PDF, photos…
9 e.dot – septembre Architecture simplifiée + BD relationnelles
10 e.dot – septembre Innovations et points forts Un projet en rupture avec l’existant : vers le « tout- XML » Surveillance automatique du Web (XML, HTML…) Extraction automatique de données de sources hétérogènes Classification thématiques des informations récupérées Intégration sémantique de données hétérogènes Stockage des données dans un entrepôt natif XML Utilisation du langage de requêtes Xquery
11 e.dot – septembre Retombées
12 e.dot – septembre Retombées directes La création de nouveaux outils logiciels et de services dans l’offre de Xyleme La construction d’un entrepôt de données sur le « risque de contamination des aliments » directement opérationnel pour les industriels de l’agro-alimentaire Des avancées technologiques en matière d’intégration de données et de recherche d’informations sur le web
13 e.dot – septembre Retombées commerciales Patrick Ferran
14 e.dot – septembre Retombées dans le domaine du risque de contamination des aliments Passer de bases de données disparates existantes à un entrepôt uniforme, facilitant l'évaluation du risque de contamination des aliments La connaissance sur le risque des aliments étant un domaine émergeant, fort intérêt des industriels pour les résultats et les connaissances les plus récents (amélioration de leur réactivité face au risque) Diffusion à tous les industriels, y compris les PME de l'agro-alimentaire qui ont peu de moyens d'accès à l'information
15 e.dot – septembre Partenaires
16 e.dot – septembre Partenaires Une entreprise experte des technologies liées à XML : Xyleme –Guy Ferran (Directeur Technique) Trois équipes de recherche en informatique : –BIA/INRA-INAPG: O. Haemmerlé et P. Buche (MDC) –Verso/INRIA: B. Amann (MDC) et S. Abiteboul (DR) –IASI/Paris11: M.-C. Rousset (Prof) et N. Pernelle (MDC)
17 e.dot – septembre Xyleme SA Xyleme, spécialisée dans la recherche et l’intégration de larges volumes de contenus XML hétérogènes et multi sources. Xyleme a développé un entrepôt de données XML très performant + un crawler puissant qui permet de surveiller le Web de façon très pointue Xyleme a été créée en 2000 à partir de travaux de Verso/INRIA Aujourd’hui: environ 30 personnes (20 techniques), capitaux de DB, Viventure, SGAM
18 e.dot – septembre BIA/INRA – INA P-G –BIA est spécialisée dans la représentation et l'interrogation de connaissances incomplètes, imprécises et faiblement structurées –Le domaine d'application est l'évaluation du risque lié à la contamination des aliments –BIA participe au projet national Sym'Previus (mise en place d'un système d'information sur le risque microbiologique des aliments) –5 enseignants-chercheurs et chercheurs de l'équipe sont concernés par le projet e.dot
19 e.dot – septembre Verso/INRIA Projet de Recherche de l’INRIA-Rocquencourt; transfert prochain à INRIA-Futurs/Saclay Equipe spécialisée dans les bases de données XML et le Web –Projet Européen DbGlobe (mi-parcours) –Travaux ayant conduit à la création de Xyleme –Projet GAEL (RNRT) Devient début 2003 composante de Gemo/INRIA-Futurs
20 e.dot – septembre IASI/Paris11 –Laboratoire de Recherche en Informatique –Equipe spécialisée dans la représentation de connaissances et la médiation de données via des ontologies Projet PICSEL et PICSEL2 (avec France Télécom R&D) Projet GAEL (RNRT) Action spécifique du CNRS sur le Web sémantique –Devient début 2003 composante de Gemo
21 e.dot – septembre Organisation de e.dot
22 e.dot – septembre Organisation du projet Tous les partenaires participent à tous les sous projets Sous projet 1 (BIA): spécification d’un entrepôt de données pour le risque de contamination des aliments Sous projet 2 (Xyleme): acquisition de données du Web Sous projet 3 (IASI): organisation et structuration de l’entrepôt Sous projet 4 (BIA): validation auprès des utilisateurs Durée 2 ans
23 e.dot – septembre Sous projet 1: Spécification de l’entrepôt Analyse des besoins –Avec l’aide de biologistes et d’industriels, analyse des manques dans la base existante Sym’Previus –Analyse du contenu d’autres bases nationales ou internationales –Analyse de sites du Web qui pourraient contenir des informations intéressantes
24 e.dot – septembre Sous projet 2: Acquisition A partir de bases de données structurées ou de bases documentaires Spécification déclarative de la recherche et de l’intégration de données Import et stockage dans un entrepôt XML Découverte de données sur le Web Exploration du « hidden Web » Pré validation par BIA des données
25 e.dot – septembre Sous projet 3: Organisation de l’entrepôt Extraction des méta données Définition du schéma global de l’entrepôt Réalisation d’un environnement de spécification d’entrepôt Maquette
26 e.dot – septembre Sous projet 4: Validation De l’architecture Des différents modules De l’information obtenue Dans cette dernière phase, on incitera les partenaires de Sym’Previus à diffuser leurs informations sur le Web via ce nouveau média
27 e.dot – septembre Financement original demandé XylemeINRIABIALRITotal Coût Auto Aide demandée
28 e.dot – septembre Conclusion Présentations complémentaire possibles –Xyleme SA (G. Ferran) –Active XML: intégration de services Web dans des documents XML (B. Amann) –TreeFinder: Fouille de données XML (M.-C. Rousset) –Entrepôt de données sur le risque de contamination des aliments (O. Haemmerlé)
29 e.dot – septembre Merci