Responsable : Serge Hamon

Slides:



Advertisements
Présentations similaires
Master SIR (M2) Année Développement en environnement J2EE de Web services pour l'interopérabilité du projet CASTORE ce stage de fin d’étude a.
Advertisements

« Les Mercredis du développement » Introduction Office « 12 » Présenté par Bernard Fedotoff Microsoft Regional Director Agilcom.
ACubeOLAP Client Olap en ACube.
Architecture Technique de la plate-forme CASTORE
Interface Esup-Portail Onglets Classification des contenus –Onglets –Colonnes –Canaux Onglets : définition de rubriques spécifiques de contenu Les contenusPréférencesSkins.
Interface Esup-Portail Onglets Classification des contenus –Onglets –Colonnes –Canaux Onglets : définition de rubriques spécifiques de contenu Les contenusPréférencesSkins.
Les Web Services Schéma Directeur des Espaces numériques de Travail
Introduction Pour concrétiser l’enseignement assisté par ordinateur
INTRODUCTION INTRODUCTION ERGONOMIE Tri par cartes Formulaires Interface Installation Lanceur Documentation TECHNOLOGIES XML + XSL CSS Formulaires génériques.
A L I M E N T A T I O N A G R I C U L T U R E E N V I R O N N E M E N T PhpMyGI une interface générique mysql Interface générique ? Pourquoi une interface.
TP 3-4 BD21.
Utilisation du CMS WordPress
API Présentation Comment ajouter des pages. Vous voici dans notre site « laboratoire » pour la démonstration RAJOUTER UNE PAGE.
Septembre Interconnexion entre HAL et dautres systèmes dinformation.
Université de La Rochelle Saisie et Mise à jour des fiches ECTS le 05/12/2001.
XML-Family Web Services Description Language W.S.D.L.
IUT2 de Grenoble Université Pierre Mendès France
INTRANET au service du système d’information
COPIL SINP 28/03/2014 PRÉSENTATION DES APPLICATIONS OGAM (WEB ET NOMADE)
Université de La Rochelle Saisie et Mise à jour des fiches ECTS le 01/12/2000.
RDF(S)
Séminaire Normes et Standards 10 octobre 2003 L'école du futur dès aujourd'hui.
Présentation des outils de recherche dinformations scientifiques.
Rachid El Boussarghini
Une chaîne éditoriale développée dans le cadre du CIRM François Dagorn Journées pédagogiques de lIFSIC.
La problématique de la recherche de document Journée de formation 29 février 2008.
Projet Génie Logiciel & UML, Bases de Données & Interfaces
Conception, création et animation d’une classe virtuelle
Genèse du projet. Contexte : Université dAvignon Contexte : Université dAvignon Correspondant Informatique et Liberté (CIL) Correspondant Informatique.
Vers une génération automatique du mapping de sources biomédicales
La veille numérique : un outil pour s'informer intelligemment &
Présentation du projet edot Revue intermédiaire - 29 Juin 2004.
Organisation de l’entrepôt edot
Comment introduire des données dans la base de données « recherche » des FUNDP © Collège des scientifiques - Faculté de Droit.
Présentation du produit
Institut français des sciences et technologies des transports, de l’aménagement et des réseaux Projet site web institutionnel Ouverture.
Représentation de l’IRD au Sénégal DIC décentralisée
1 A llier R elations et O bjets pour M odéliser Projet Sherpa INRIA Rhône-Alpes Visite Schneider 15/09/99.
05/02/98WEB ESNIG Introduction Oracle Designer/2000 & Oracle Web Server.
Le Poste de Travail Présentation du poste de travail - Division informatique - Ousmane SOW - DI-8.
Yonel GRUSSON.
Visualisation d’un entrepôt de données Pré soutenance technique
© WYNIWYG / Communication, reproduction interdite sauf autorisation.
Les espaces numériques de travail Définition : Un espace numérique de travail est un ensemble intégré de services numériques (de communication, de gestion.
G.KEMBELLEC - UP81 Master 2 THYP Cas pratique d’utilisation De simpleXML Un lecteur de RSS Novembre 2009.
N.Mellouli-Nauwynck & M.Lamolle1 Intégration de bases de données hétérogènes N.Mellouli-Nauwynck M.Lamolle.
Présentation de la taxonomie XBRL BE-fr-pfs-ci Bruxelles, le 25 janvier 2006 Camille Dümm Pascal Rodrique Centrale des bilans.
INDATA Ingénierie Les secteurs d’activités d’INDATA :
1 Initiation aux bases de données et à la programmation événementielle Responsable : Souheib BAARIR. (le sujet de votre .
Edot Groupe de travail sur l’intégration. Le problème Intégration de nouvelles données avec les données existantes dans l’entrepôt Les données existantes:
G ROUPE IRIUM ™ N°1 européen des PGI pour Distributeurs, Loueurs & Importateurs de Machines Les Bases de Connaissances Knowledge Base Maxime HILAIRE 07/05/2008.
Plan de la présentation
LES SIMULATEURS RÉSEAU
♣ Définitions ♣ Propriété d’un page web ♣ Types d’hébergement internet Hébergement mutualisé Hébergement dédié Hébergement VPS ♣ Conclusion.
Les systèmes de gestion de contenu
Objectifs du développement Des agendas culturels et services quotidiens de La Libre Belgique et de La Dernière Heure et proposera des services d’informations.
SOAP et les RPC XML SOAP WSDL RPC. Rappels sur le XML Langage avec des balises Très lisible Pour stocker des données Séparation entre contenu et présentation.
Vous voici dans notre site « laboratoire » pour la démonstration AJOUTER UNE PAGE Cliquez sur ENTREZ ICI pour accéder à la partie administration.
Initiation aux bases de données et à la programmation événementielle
Genèse de BasExp Patrice Pruvost MNHN, 28 janvier 2015 expeditions.mnhn.fr.
Formation « Administrateur ATRIUM ». 1.Un accompagnement technique par la Région Formation des « administrateurs » Support technique 2.Un accompagnement.
E-lyco le cahier de textes numérique. Cahier de textes Le classeur pédagogique Messagerie Outils pour la classe Blog, forum…dossiers Gestion de ressources.
1 Master Data Management au SANDRE. GPA 17/10/ Une philosophie de diffusion des référentiels 3 grands blocs dans les systèmes d’information environnementaux:
Atelier n°3 : Schéma de diffusion des données sur l’eau dans les bassins 24 mars 2011.
KOSMOS 1 Outils transversaux Module 7 1.L’annuaire 2.La recherche d’informations 3.La réservation de ressources.
ARIANE : Interopérabilité sémantique et accès aux sources d'information sur Internet Sylvain Aymard, Michel Joubert, Dominique Fieschi, Marius Fieschi.
1 Master Data Management au SANDRE. ADD 27/11/ Une philosophie de diffusion des référentiels 3 grands blocs dans les systèmes d’information environnementaux:
KOSMOS 1 Les activités de l’enseignant Module 6 1.Le cahier de textes des classes 2.Le travail à faire et les corrections 3.Le classeur pédagogique 4.Les.
module SIE depuis 2011 et IAMD depuis l’an dernier ! Gestion de Masse de Données (GMD) Introduction Adrien Coulet
Présentation KOBLIX Ludo Rousseau – KOBLIX. KOBLIX Expertises Références Informations KROKODIL Avril 2004OVIDENTIA : le Portail d'Entreprise de CANTICO2.
Transcription de la présentation:

Conception d’un portail Web dédié à la génomique du caféier pour une mutualisation des ressources Responsable : Serge Hamon Suivi du projet : Christine Dubreuil-Tranchant, Valérie Poncet

Conception du portail Web Sommaire Définition et objectif d’un portail Plan du site et charte graphique retenus Architecture globale du portail Intégration de données Schéma fonctionnel de l’intégration Extraction des données sources et stockage Consultation des données à partir du portail Bilan & perspectives

Définition et objectif du portail Portail web Site Web de référence dans un domaine précis ou pour une communauté particulière. Site internet ou intranet ensemble de pages web hyperliées. Porte d'entrée unique sur un large panel de : ressources (pages de description, des liens externes, des données intégrées) de services (messagerie, forum, moteur de recherche). Portail des bibliothèque référencent l’ensemble des ouvrage disponibles au niveau national Portail pour une communauté hospitalière

Plan du site et chartes Home Scientific program Genomic resources Bioinformatic resources Links Moteur de recherche Informations légales Lien site IRD Genetic Chartes graphique et éditoriale retenues Charte graphique plutôt sobre Un menu a un seul niveau pour le moment : Scientific program : thématiques de recherche des équipes Genomic resources : description des ressources génomiques produites au sein ou en collaboration ds les équipes respectives Bioinformatic resources : description des BD avec des liens vers les appli dédiées Genetic resourses : doit permettre l’accès à des fiches décri_vant du matériel issu de collections ou de prospection ainsi que les références biblio associées. Links : liste de liens vers des sites partenaires…

Architecture globale du portail { extérieurs : scientifiques du domaine… agents : producteurs de données, utilisateurs, … Administrateur Utilisateurs Portail Web Schéma global: Données intégrées Description Liens Il concerne de informations publiques Site web spécifique Site web autres ... MoccaDB CoffeeGD Autres bases...

Architecture globale du portail Portail Web Schéma global: Données intégrées Je vais m’intéressé plus spécifiquement à l’intégration de données MoccaDB CoffeeGD Autres bases...

L’intégration de données “hétérogènes” Entrepôt vs Médiation Portail Requête Réponse Schéma local Source Requête Réponse Portail Schéma Global Médiateur Schéma Global Entrepôt D’une façon générale, on peut définir deux types d’infrastructure permettant l’intégration de données de plusieurs sources : l’infrastructure basée sur un entrepôt de données. Il s’agit d’une infrastructure matérialisée en ce sens que l’entrepôt va regrouper l’ensemble des informations des sources que ‘lon souhaite intégrer. L’infrastructure basée sur un système de médiation. On parle aussi d’infrastructure virtuelle puisque les données sont conservées dans chacune des sources. Avantages et inconvénients traitements (nettoyage, annotation…) indépendamment des sources mais problème de rafraîchissement des sources Dernière version tjrs disponible, pas de besoin en capacité de stockage mais possibilité de traitements limités, sources tjrs disponibles Rq : il existe des système hybrides Outre son architecture , un système d’intégration est caractérisé par son modèle d’intégration qui va décrire le schéma global et son intégration avec les schémas des sources.. (GAV=Global as view) LAV=Local as view Intégrateur DONNEES DONNEES Schéma local Source Schéma local Source

L’intégration de données => Intégration de schémas à partir de sources (BD) hétérogènes. Obtenir une homogénéité de schémas Rechercher les correspondances Des éléments Des valeurs simple sequence repeat, single sequence repeat, SSR, microsatellite… Article Journaliste Ecrivain Personne L’intégration de schémas( en un schéma global) à partir de sources hétérogène,implique d’obtenir une homogénéité de schéma Rechercher les correspondances, convention de nommages différents entre base. Article.BD2 name: Article.BD1 titre: Ξ

L’intégration de données Taxon Sequence Domaine Plante Marker/Molecular marker name String primer String Tm String Décrit (est_decrite_par) Possède (appartient_a) se_rapporte (s'applique) latin_name String rang String sequence_name String n0 accession Integer Nom String Génomique, protéomique,... Type/Categorie/classe/nature appartient_au (spécifie/caractérise) type_name String DNA Sequence defini_comme (est issu de) Possede (caracterise) Microsatellite, RFLP,... Pour obtenir cette homogénéisation j’ai définit un schéma Fichier d’instances Schéma du domaine

Schéma fonctionnel de l’intégration Nom de la séquence Type de la séquence Nom d’espèce Moteur de recherche Fichier de correspondances d'une partie des schémas sources Module d'extraction (étapes) 1 : génération de requêtes (fichier de correspondances en entrée) 2 : interrogation BD sources + récupération données 3 : nettoyage et transformation données (fichier thesaurus en entrée) 4 : stockage données (fichier Instances en sortie) Requête HTTP avec paramètres MoccaDB ou CoffeeGD Module de consultation (étapes) interrogation du fichier d'Instances + récupération des résultats (fichier d'Instances en entrée) Thesaurus Feuille de style (XSLT) Rq: Le fichier d'instances est basé sur un schéma conceptuel du domaine préalablement défini Fichier d'instances correspondant à l'entrepôt Etape1 : Extraction des données sources et stockage Etape2 : Consultation des données à partir du portail

Schéma fonctionnel de l’intégration (…) <source name="coffeadb" type="BD"> <class name="TMarker" thesaurus_class="Sequence«  table="marker" alias="Ma"> <id name="Id" type="varchar" column="resource_name" /> <property thesaurus_property="name" column="resource_name" type="varchar" not-null="true" length="50" />(…) <foreign_key thesaurus_class="Vegetal" class="TPlant" table="plant_resource" alias="Pl_r" key="name" /> </class>(…) </source> <source name="moccadb" type="BD"> <class name="TMarker" thesaurus_class="Sequence" table="Marker" alias="Ma"> <id name="Id" type="varchar" column="m_id" /> column="m_name" length="15" Fichier de correspondances d'une partie des schémas sources Module d'extraction (étapes) 1 : génération de requêtes (fichier de correspondances en entrée) 2 : interrogation BD sources + récupération données 3 : nettoyage et transformation données (fichier thesaurus en entrée) 4 : stockage données (fichier Instances en sortie) MoccaDB ou CoffeeGD Thesaurus Comme je vous l’ai indiqué précédemment avec l’exemple journaliste/article et écrivain/article il est nécessaire d’obtenir une homogénéisation des schéma des différentes sources. J’ai utilisé un formalisme XML (langage à balises) pour décrire et homogénéiser les tables contenant l’information/les données que l’on souhaitait visualiser au niveau du portail. Dans cette extrait, j’ai ainsi représenté pour chaque base (moccadb ici) les tables correspondant à des « séquences ». Pour MoccaDb la table porte le nom de marker. Les éléments a faire remonter au niveau du portail sont l’élément resource_name et name_marker_type. En plus, cette table est lié à la table plant_resource qui nous permettra de récupérer le nom d’espèce. Il faut mettre au même niveau : Marker avec écrivain/journaliste Resource_name avec titre/name Et sequence avec personne, le terme utilisé pour homogénéiser Les balises/éléments que j’ai utilisées sont décrites dans un autre fichier qui sert de grammaire. On parle de DTD (document type définition). Fichier d'instances correspondant à l'entrepôt DTD Module d’extraction Le fichier de correspondances

Schéma fonctionnel de l’intégration Fichier de correspondances d'une partie des schémas sources (…) <!ELEMENT class ( id*, (property,foreign_key)* )> <!ATTLIST class name CDATA #REQUIRED> <!ATTLIST class thesaurus_class CDATA #REQUIRED> <!ATTLIST class table CDATA #REQUIRED> <!ATTLIST class alias CDATA #REQUIRED> <!ELEMENT property> <!ATTLIST property thesaurus_property CDATA #REQUIRED> <!ATTLIST property column CDATA #REQUIRED> <!ATTLIST property type CDATA #IMPLIED> <!ATTLIST property not-null (true|false) #IMPLIED> <!ATTLIST property length #IMPLIED> Module d'extraction (étapes) 1 : génération de requêtes (fichier de correspondances en entrée) 2 : interrogation BD sources + récupération données 3 : nettoyage et transformation données (fichier thesaurus en entrée) 4 : stockage données (fichier Instances en sortie) MoccaDB ou CoffeeGD Thesaurus Fichier d'instances correspondant à l'entrepôt Module d’extraction Le fichier de correspondance

Schéma fonctionnel de l’intégration Fichier de correspondances d'une partie des schémas sources Module d'extraction (étapes) 1 : génération de requêtes (fichier de correspondances en entrée) 2 : interrogation BD sources + récupération données 3 : nettoyage et transformation données (fichier thesaurus en entrée) 4 : stockage données (fichier Instances en sortie) <o:term rdf:about="http://bio-info/o#O.0010021"> <o:id>O.0010021</o:id> <o:name>SSR</o:name> <o:synonym>single sequence repeat</o:synonym> <o:synonym>simple sequence repeat</o:synonym> <o:synonym>microsatellite</o:synonym> <o:synonym>microsatellites</o:synonym> <o:synonym>STR</o:synonym> <o:synonym>simple tandem repeats</o:synonym> <o:synonym>SS</o:synonym> <o:synonym>simple sequences</o:synonym> <o:definition>A very short unit sequence of DNA (2 to 4 bp) that is repeated multiple times in tandem. [http://www.informatics.jax.org/silver/glossary.shtml]</o:definition> <o:is_a rdf:resource="http://bio-info/o#O.0010015" /><!--tandem_repeat --> <o:dbxref rdf:parseType="Resource"> <o:database_symbol>SO_id</o:database_symbol> <o:reference>0000289</o:reference> </o:dbxref> </o:term> MoccaDB ou CoffeeGD Thesaurus Fichier d'instances correspondant à l'entrepôt DTD Module d’extraction Le Thesaurus

Schéma fonctionnel de l’intégration Fichier de correspondances d'une partie des schémas sources (…) <!ELEMENT o:term ( o:id, o:name, o:synonym*, o:definition?, (o:is_a , o:part_of , o:derives_from)*, o:dbxref*, )> <!ELEMENT o:id (#PCDATA)> <!ELEMENT o:name (#PCDATA)> <!ELEMENT o:synonym (#PCDATA)> <!ELEMENT o:definition (#PCDATA)> <!ELEMENT o:is_a (#PCDATA)> <!ATTLIST o:is_a rdf:resource CDATA #REQUIRED> <!ELEMENT o:part_of (#PCDATA)> <!ATTLIST o:part_of rdf:resource CDATA #REQUIRED> <!ELEMENT o:derives_from (#PCDATA)> <!ATTLIST o:derives_from rdf:resource CDATA #REQUIRED> <!ELEMENT o:dbxref ( o:database_symbol,o:reference)> Module d'extraction (étapes) 1 : génération de requêtes (fichier de correspondances en entrée) 2 : interrogation BD sources + récupération données 3 : nettoyage et transformation données (fichier thesaurus en entrée) 4 : stockage données (fichier Instances en sortie) MoccaDB ou CoffeeGD Thesaurus Fichier d'instances correspondant à l'entrepôt Module d’extraction Le Thesaurus

Schéma fonctionnel de l’intégration <schema:Sequence rdf:about="urn:Sequence:item1"> <schema:sequence_name rdf:datatype="&xsd;string">SSR222</schema:sequence_name> <schema:bd_name rdf:datatype="&xsd;string">moccadb</schema:bd_name> <schema:appartient_a> <schema:Plante> <schema:est_decrite_par> <schema:Taxon rdf:about="urn:Taxon:item1"> <schema:latin_name rdf:datatype="&xsd;string">SOLANUM LYCOPERSICUM</schema:latin_name> </schema:Taxon> </schema:est_decrite_par> </schema:Plante> </schema:appartient_a> <schema:defini_comme> <schema:Marker> <schema:appartient_au> <schema:Type rdf:about="urn:Type:item1"> <schema:type_name rdf:datatype="&xsd;string">SSR</schema:type_name> </schema:Type> </schema:appartient_au> </schema:Marker> </schema:defini_comme> </schema:Sequence> Fichier de correspondances d'une partie des schémas sources Module d'extraction (étapes) 1 : génération de requêtes (fichier de correspondances en entrée) 2 : interrogation BD sources + récupération données 3 : nettoyage et transformation données (fichier thesaurus en entrée) 4 : stockage données (fichier Instances en sortie) MoccaDB ou CoffeeGD Thesaurus Fichier d'instances correspondant à l'entrepôt Schéma domaine Module d’extraction Le fichier d’instances

Bilan & Perspectives Ajout d’une interface d’administration du site Contenus à ajouter (Création d’une base de données) Données sur les collections/prospections Bibliographie photothèque Moteur de recherche Accéder aux séquences uniquement publics Liens direct vers des fiches complètes (sites sources) Ajouter une autre source (ESTdb) Fichiers à plat vs BD / entrepôt vs médiation

Exemple pour la rubrique Genetic resources