Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parBlancheflor Lebreton Modifié depuis plus de 9 années
1
1 e.dot – septembre 2002 1 e.dot Entrepôts de Données Ouverts sur la Toile RNTL
2
2 e.dot – septembre 2002 2 Organisation Introduction Objectifs de e.dot Retombées techniques et commerciales Partenaires Principes de base Organisation Financement
3
3 e.dot – septembre 2002 3 Introduction: le contexte
4
4 e.dot – septembre 2002 4 De plus en plus d’informations utiles pour les entreprises Milliards de pages et millions de serveurs Que trouve-t-on sur le Web public et privé ? –Des documents (HTML, doc, pdf…), des données semi structurées (XML, formats exotiques), des données structurées (« hidden Web » -- accès BD via formulaires, services Web), Qualité médiocre: spamming, données pas à jour Requêtes par mot clé pour obtenir des pages Intégration d’information: basées sur des adapteurs (wrappers) La toile aujourd’hui
5
5 e.dot – septembre 2002 5 Ce qui est en train de changer Format d’échange universel (XML) –Mariage entre documents et bases de données –Standard de langage de requêtes: XQuery Services Web (SOAP, WSDL) –Format pour exporter des services sur le Web –Format pour encapsuler des requêtes Web sémantique (RDF, etc.) –Indispensable pour pouvoir trouver et utiliser l’information Le projet e.dot est fondé sur ces technologies
6
6 e.dot – septembre 2002 6 Objectifs de e.dot
7
7 e.dot – septembre 2002 7 Objectifs Génériques: Outils pour construire des entrepôts de données thématiques en découvrant des données sur le Web et en enrichissant des systèmes d’information existants par intégration automatiques de ces données Particulier: Développer un entrepôt de données XML intégrant de manière automatique des informations liées au risque de contamination des aliments, qu’elles soient issues du Web, privées ou obtenues sous licence Appel d’offre: étendre les systèmes d’information collectifs ou individuels via Internet
8
8 e.dot – septembre 2002 8 Principes de base Surveillance continue du Web : – Crawling du Web HTML et XML – Classification automatique des pages d’intérêt Intégration simple dans l’entrepôt : – Récupération automatique des données (en particulier XML) traitant du risque de contamination des aliments – Possibilité d’enrichir les documents XML Interrogation très fine des données stockées : – Ecrans intuitifs et spécifiques – Navigation dans le corpus via des hyperliens. – Mise en place de thésaurus agro-alimentaire Fourniture rapide de réponses précises : – Liste triée de réponses – Calcul original de la pertinence – Accès direct aux éléments du document – Granularité des réponses – Gestion de liens vers des documents PDF, photos…
9
9 e.dot – septembre 2002 9 Architecture simplifiée + BD relationnelles
10
10 e.dot – septembre 2002 10 Innovations et points forts Un projet en rupture avec l’existant : vers le « tout- XML » Surveillance automatique du Web (XML, HTML…) Extraction automatique de données de sources hétérogènes Classification thématiques des informations récupérées Intégration sémantique de données hétérogènes Stockage des données dans un entrepôt natif XML Utilisation du langage de requêtes Xquery
11
11 e.dot – septembre 2002 11 Retombées
12
12 e.dot – septembre 2002 12 Retombées directes La création de nouveaux outils logiciels et de services dans l’offre de Xyleme La construction d’un entrepôt de données sur le « risque de contamination des aliments » directement opérationnel pour les industriels de l’agro-alimentaire Des avancées technologiques en matière d’intégration de données et de recherche d’informations sur le web
13
13 e.dot – septembre 2002 13 Retombées commerciales Patrick Ferran
14
14 e.dot – septembre 2002 14 Retombées dans le domaine du risque de contamination des aliments Passer de bases de données disparates existantes à un entrepôt uniforme, facilitant l'évaluation du risque de contamination des aliments La connaissance sur le risque des aliments étant un domaine émergeant, fort intérêt des industriels pour les résultats et les connaissances les plus récents (amélioration de leur réactivité face au risque) Diffusion à tous les industriels, y compris les PME de l'agro-alimentaire qui ont peu de moyens d'accès à l'information
15
15 e.dot – septembre 2002 15 Partenaires
16
16 e.dot – septembre 2002 16 Partenaires Une entreprise experte des technologies liées à XML : Xyleme –Guy Ferran (Directeur Technique) Trois équipes de recherche en informatique : –BIA/INRA-INAPG: O. Haemmerlé et P. Buche (MDC) –Verso/INRIA: B. Amann (MDC) et S. Abiteboul (DR) –IASI/Paris11: M.-C. Rousset (Prof) et N. Pernelle (MDC)
17
17 e.dot – septembre 2002 17 Xyleme SA Xyleme, spécialisée dans la recherche et l’intégration de larges volumes de contenus XML hétérogènes et multi sources. Xyleme a développé un entrepôt de données XML très performant + un crawler puissant qui permet de surveiller le Web de façon très pointue Xyleme a été créée en 2000 à partir de travaux de Verso/INRIA Aujourd’hui: environ 30 personnes (20 techniques), capitaux de DB, Viventure, SGAM
18
18 e.dot – septembre 2002 18 BIA/INRA – INA P-G –BIA est spécialisée dans la représentation et l'interrogation de connaissances incomplètes, imprécises et faiblement structurées –Le domaine d'application est l'évaluation du risque lié à la contamination des aliments –BIA participe au projet national Sym'Previus (mise en place d'un système d'information sur le risque microbiologique des aliments) –5 enseignants-chercheurs et chercheurs de l'équipe sont concernés par le projet e.dot
19
19 e.dot – septembre 2002 19 Verso/INRIA Projet de Recherche de l’INRIA-Rocquencourt; transfert prochain à INRIA-Futurs/Saclay Equipe spécialisée dans les bases de données XML et le Web –Projet Européen DbGlobe (mi-parcours) –Travaux ayant conduit à la création de Xyleme –Projet GAEL (RNRT) Devient début 2003 composante de Gemo/INRIA-Futurs
20
20 e.dot – septembre 2002 20 IASI/Paris11 –Laboratoire de Recherche en Informatique –Equipe spécialisée dans la représentation de connaissances et la médiation de données via des ontologies Projet PICSEL et PICSEL2 (avec France Télécom R&D) Projet GAEL (RNRT) Action spécifique du CNRS sur le Web sémantique –Devient début 2003 composante de Gemo
21
21 e.dot – septembre 2002 21 Organisation de e.dot
22
22 e.dot – septembre 2002 22 Organisation du projet Tous les partenaires participent à tous les sous projets Sous projet 1 (BIA): spécification d’un entrepôt de données pour le risque de contamination des aliments Sous projet 2 (Xyleme): acquisition de données du Web Sous projet 3 (IASI): organisation et structuration de l’entrepôt Sous projet 4 (BIA): validation auprès des utilisateurs Durée 2 ans 1 2 3 4
23
23 e.dot – septembre 2002 23 Sous projet 1: Spécification de l’entrepôt Analyse des besoins –Avec l’aide de biologistes et d’industriels, analyse des manques dans la base existante Sym’Previus –Analyse du contenu d’autres bases nationales ou internationales –Analyse de sites du Web qui pourraient contenir des informations intéressantes
24
24 e.dot – septembre 2002 24 Sous projet 2: Acquisition A partir de bases de données structurées ou de bases documentaires Spécification déclarative de la recherche et de l’intégration de données Import et stockage dans un entrepôt XML Découverte de données sur le Web Exploration du « hidden Web » Pré validation par BIA des données
25
25 e.dot – septembre 2002 25 Sous projet 3: Organisation de l’entrepôt Extraction des méta données Définition du schéma global de l’entrepôt Réalisation d’un environnement de spécification d’entrepôt Maquette
26
26 e.dot – septembre 2002 26 Sous projet 4: Validation De l’architecture Des différents modules De l’information obtenue Dans cette dernière phase, on incitera les partenaires de Sym’Previus à diffuser leurs informations sur le Web via ce nouveau média
27
27 e.dot – septembre 2002 27 Financement original demandé XylemeINRIABIALRITotal Coût295807780533 Auto147834190363 Aide demandée 147807780386
28
28 e.dot – septembre 2002 28 Conclusion Présentations complémentaire possibles –Xyleme SA (G. Ferran) –Active XML: intégration de services Web dans des documents XML (B. Amann) –TreeFinder: Fouille de données XML (M.-C. Rousset) –Entrepôt de données sur le risque de contamination des aliments (O. Haemmerlé)
29
29 e.dot – septembre 2002 29 Merci
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.