La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.

Présentations similaires


Présentation au sujet: "Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité."— Transcription de la présentation:

1 Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

2 Sommaire Rappel sur le XML Présentation des standards de connexion

3 Sommaire Présentation de lIPT (Integrated Publishing Toolkit) Démonstration de lIPT

4 XML

5 Sommaire Présentation Mise en page du XML Structure des documents XML Avantages Utilisation du XML

6 Présentation XML : eXtensible Markup Language Format universel pour représenter les données et les documents. Format déchange de données Méta-Langage à balises Même principe que le HTML Information ajoutée au contenu pour marquer la structure logique

7 Présentation ENTÊTE et ENCODAGE BDI ELEMENT BoBO - Botanic Garden Berlin BDI Observations 2004-09-27 COMMENTAIRE BALISE OUVRANTE 2 Observation... animalia ATTRIBUT BALISE FERMANTE

8 Présentation Séparation du fond et de la forme Forme : présentation à partir de la structure (style) Fond : structure + données (contenu) Langage multi-support

9 Mise en page du XML La représentation des données est assuré par un langage de mise en page tiers: CSS (Cascading StyleSheet) XSLT (eXtensible StyleSheet Language Transformation)

10 Mise en page du XML XSLT : Transforme un document XML en tout autre format textuel Principe : XML XSLT PDF HTML … RTF

11 Structure des documents XML DTD (Document Type Definition) : Décrit la structure des documents

12 Hugo Victor Charles 01120243 Paris Structure des documents XML

13 Un document XML suivant les règles XML est un document bien formé Un document XML conforme à une DTD est un document valide

14 Avantages Lisibilité : simple à comprendre Autodescriptif et extensible Structure arborescente Facilement déployable Intégrabilité

15 Utilisation du XML Standardise linformation indépendamment de la structure de la base de données source Principe de « wrapping » : permet une mise en correspondance des colonnes et les tables d'une base de données avec un ou plusieurs éléments d'un schéma XML donné

16 Utilisation du XML Au niveau du wrapper: Standards XML : ABCD et DarwinCore Logiciels : Biocase, TAPIR, DIGIR et IPT

17 Standards

18 Standards Standard : document qui fournit des règles pour des procédés et méthodes de production. Utilisé pour la conception des collections et bases de données de gestion de l'information.

19 Standards Standards déchange de données : Protocoles de transfert utilisés pour organiser et formater linformation pour échange. ABCD et Darwin Core : standards déchange les plus connus pour les données de collection.

20 Standards Pourquoi des standards? Fournir le medium, les règles et les protocoles pour échanger linformation. Permer linteroperatibilité des données avec dautres données. Homogeneise linformation en vue de son intégration à un système mondial

21 Darwin Core Facilite léchange dinformation à propos des occurrences géographiques des espèces et lexistence des spécimens dans les collections. Pertinent pour les collections dhistoire naturelle.

22 Darwin Core Schéma simple, adapté aux données sur fichiers plats. 46 éléments regroupés dans 7 catégories : Record level, taxonomic, identification, locality, collecting event, biological, reference. Liste des champs sur : http://wiki.tdwg.org/twiki/bin/view/DarwinCore/Darwi nCoreDraftStandard http://wiki.tdwg.org/twiki/bin/view/DarwinCore/Darwi nCoreDraftStandard

23 ABCD Projet BIOCASE Standard déchange de données sur les spécimens et les données dobservation. Plus complexe que Darwin Core (1200 élements). Site internet : http://wiki.tdwg.org/activities/ABCDhttp://wiki.tdwg.org/activities/ABCD

24 Biocase Logiciel mettant en correspondance une source de données avec un standard choisi. Produit : Fichier XML formaté et exploitable

25 Démonstration Base de données Biocase / ABCD XML

26 Integrated Publishing Toolkit (1.0)

27 Présentation générale de lIPT Introduction Fonction dans le réseau GBIF Resources Caractéristiques Fonctionnalités Une plate-forme pour faciliter la décentralisation Sommaire

28 Démonstration Configuration Publication de métadonnées Publication de données Web application, interfaces Sommaire

29 Une web application Java open-source : Connecter et publier 3 types de données de biodiversité : - Données primaires - Information sur les espèces - Métadonnées sur les ressources À partir dune source de données - Base de données - Fichier plat Pour rendre ces données visibles sur le réseau distribué du GBIF LIPT est…

30 Un composant du réseau GBIF

31 Ressources Documentation et téléchargement http://code.google.com/p/gbif-providertoolkit/ Demo site http://ipt.gbif.org Version 1.0 disponible depuis le 31/03/2009 Lead developer Markus Döring, Senior Software Engineer, GBIF

32 Caractéristiques Web application multilingue Contient un serveur de géolocalisation Gestion de rôles Base de données embarquée Supporte lutilisation de fichiers texte (.csv) Utilisation de vocabulaire pour limiter les termes Utilisation dextension pour Darwin Core Vérification de la qualité de données basique Utilisation didentifiant unique (uuid)

33 Utilisation des wrappeurs Scénario original Les wrappeurs exposent les bases de données aux requêtes

34 Utilisation des wrappeurs Scénario fréquent Une copie de base est utilisée pour la publication des données Souvent sur une machine de moins bonne qualité (perte de performance) Souvent non mise à jour (fraîcheur des données)

35

36 Récolte avec les protocoles existants Le fournisseur a un wrappeur TAPIR Ce wrappeur permet de récuperer 200 enregistrements par requete. Si la base contient 260,000 enregistrements à récuperer : 1300 request / responses 9 heures au total 500MB de transfert XML Seulement 32MB utiles à lindex Compressées en 3MB

37 Une fois définies, les vocabulaires sont accessibles à tous les utilisateurs de lIPT Contrôle du vocabulaire

38 Schéma extensible

39 Page daccueil paramétrable (1)

40 Page daccueil paramétrable (2)

41 Gestion de rôles Les users ne peuvent quexplorer les données Les managers ne gèrent que leurs données Possibilité de partager une même instance IPT

42 Senregistrer au GBIF

43 Gestion des extensions

44 Gestion des vocabulaires

45 Créer des métadonnées

46 Catégories de métadonnées Basic metadata Resource originator Geographic coverage Taxonomic coverage Temporal coverage IP Rights Research project information Methods Keywords

47 Mapping

48 Chargement des données Pendant le chargement, les données sont importées de la source (fichier plat ou base de données) Des statistiques sont calculés

49 Vue sur les ressources disponibles

50 Exploration taxonomique La taxonomie provient de la source de données Un premier niveau de contrôle de qualité de données est effectué

51 Résumé statistique

52 Graphiques

53 Contrôle de la qualité de données

54 Sortie XML

55 Web site: http://www.gbif.org http://www.gbif.org Data portal: http://data.gbif.org http://data.gbif.org GBIF Secretariat Universitetsparken 15 2100 Copenhagen Denmark E-mail: trobertson@gbif.orgtrobertson@gbif.org Phone: +45 3532 1487 Contact


Télécharger ppt "Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité."

Présentations similaires


Annonces Google