La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Responsable : Serge Hamon

Présentations similaires


Présentation au sujet: "Responsable : Serge Hamon"— Transcription de la présentation:

1 Conception d’un portail Web dédié à la génomique du caféier pour une mutualisation des ressources
Responsable : Serge Hamon Suivi du projet : Christine Dubreuil-Tranchant, Valérie Poncet

2 Conception du portail Web
Sommaire Définition et objectif d’un portail Plan du site et charte graphique retenus Architecture globale du portail Intégration de données Schéma fonctionnel de l’intégration Extraction des données sources et stockage Consultation des données à partir du portail Bilan & perspectives

3 Définition et objectif du portail
Portail web Site Web de référence dans un domaine précis ou pour une communauté particulière. Site internet ou intranet ensemble de pages web hyperliées. Porte d'entrée unique sur un large panel de : ressources (pages de description, des liens externes, des données intégrées) de services (messagerie, forum, moteur de recherche). Portail des bibliothèque référencent l’ensemble des ouvrage disponibles au niveau national Portail pour une communauté hospitalière

4 Plan du site et chartes Home Scientific program Genomic resources
Bioinformatic resources Links Moteur de recherche Informations légales Lien site IRD Genetic Chartes graphique et éditoriale retenues Charte graphique plutôt sobre Un menu a un seul niveau pour le moment : Scientific program : thématiques de recherche des équipes Genomic resources : description des ressources génomiques produites au sein ou en collaboration ds les équipes respectives Bioinformatic resources : description des BD avec des liens vers les appli dédiées Genetic resourses : doit permettre l’accès à des fiches décri_vant du matériel issu de collections ou de prospection ainsi que les références biblio associées. Links : liste de liens vers des sites partenaires…

5 Architecture globale du portail
{ extérieurs : scientifiques du domaine… agents : producteurs de données, utilisateurs, … Administrateur Utilisateurs Portail Web Schéma global: Données intégrées Description Liens Il concerne de informations publiques Site web spécifique Site web autres ... MoccaDB CoffeeGD Autres bases...

6 Architecture globale du portail
Portail Web Schéma global: Données intégrées Je vais m’intéressé plus spécifiquement à l’intégration de données MoccaDB CoffeeGD Autres bases...

7 L’intégration de données “hétérogènes”
Entrepôt vs Médiation Portail Requête Réponse Schéma local Source Requête Réponse Portail Schéma Global Médiateur Schéma Global Entrepôt D’une façon générale, on peut définir deux types d’infrastructure permettant l’intégration de données de plusieurs sources : l’infrastructure basée sur un entrepôt de données. Il s’agit d’une infrastructure matérialisée en ce sens que l’entrepôt va regrouper l’ensemble des informations des sources que ‘lon souhaite intégrer. L’infrastructure basée sur un système de médiation. On parle aussi d’infrastructure virtuelle puisque les données sont conservées dans chacune des sources. Avantages et inconvénients traitements (nettoyage, annotation…) indépendamment des sources mais problème de rafraîchissement des sources Dernière version tjrs disponible, pas de besoin en capacité de stockage mais possibilité de traitements limités, sources tjrs disponibles Rq : il existe des système hybrides Outre son architecture , un système d’intégration est caractérisé par son modèle d’intégration qui va décrire le schéma global et son intégration avec les schémas des sources.. (GAV=Global as view) LAV=Local as view Intégrateur DONNEES DONNEES Schéma local Source Schéma local Source

8 L’intégration de données
=> Intégration de schémas à partir de sources (BD) hétérogènes. Obtenir une homogénéité de schémas Rechercher les correspondances Des éléments Des valeurs simple sequence repeat, single sequence repeat, SSR, microsatellite… Article Journaliste Ecrivain Personne L’intégration de schémas( en un schéma global) à partir de sources hétérogène,implique d’obtenir une homogénéité de schéma Rechercher les correspondances, convention de nommages différents entre base. Article.BD2 name: Article.BD1 titre: Ξ

9 L’intégration de données
Taxon Sequence Domaine Plante Marker/Molecular marker name String primer String Tm String Décrit (est_decrite_par) Possède (appartient_a) se_rapporte (s'applique) latin_name String rang String sequence_name String n0 accession Integer Nom String Génomique, protéomique,... Type/Categorie/classe/nature appartient_au (spécifie/caractérise) type_name String DNA Sequence defini_comme (est issu de) Possede (caracterise) Microsatellite, RFLP,... Pour obtenir cette homogénéisation j’ai définit un schéma Fichier d’instances Schéma du domaine

10 Schéma fonctionnel de l’intégration
Nom de la séquence Type de la séquence Nom d’espèce Moteur de recherche Fichier de correspondances d'une partie des schémas sources Module d'extraction (étapes) 1 : génération de requêtes (fichier de correspondances en entrée) 2 : interrogation BD sources + récupération données 3 : nettoyage et transformation données (fichier thesaurus en entrée) 4 : stockage données (fichier Instances en sortie) Requête HTTP avec paramètres MoccaDB ou CoffeeGD Module de consultation (étapes) interrogation du fichier d'Instances + récupération des résultats (fichier d'Instances en entrée) Thesaurus Feuille de style (XSLT) Rq: Le fichier d'instances est basé sur un schéma conceptuel du domaine préalablement défini Fichier d'instances correspondant à l'entrepôt Etape1 : Extraction des données sources et stockage Etape2 : Consultation des données à partir du portail

11 Schéma fonctionnel de l’intégration
(…) <source name="coffeadb" type="BD"> <class name="TMarker" thesaurus_class="Sequence«  table="marker" alias="Ma"> <id name="Id" type="varchar" column="resource_name" /> <property thesaurus_property="name" column="resource_name" type="varchar" not-null="true" length="50" />(…) <foreign_key thesaurus_class="Vegetal" class="TPlant" table="plant_resource" alias="Pl_r" key="name" /> </class>(…) </source> <source name="moccadb" type="BD"> <class name="TMarker" thesaurus_class="Sequence" table="Marker" alias="Ma"> <id name="Id" type="varchar" column="m_id" /> column="m_name" length="15" Fichier de correspondances d'une partie des schémas sources Module d'extraction (étapes) 1 : génération de requêtes (fichier de correspondances en entrée) 2 : interrogation BD sources + récupération données 3 : nettoyage et transformation données (fichier thesaurus en entrée) 4 : stockage données (fichier Instances en sortie) MoccaDB ou CoffeeGD Thesaurus Comme je vous l’ai indiqué précédemment avec l’exemple journaliste/article et écrivain/article il est nécessaire d’obtenir une homogénéisation des schéma des différentes sources. J’ai utilisé un formalisme XML (langage à balises) pour décrire et homogénéiser les tables contenant l’information/les données que l’on souhaitait visualiser au niveau du portail. Dans cette extrait, j’ai ainsi représenté pour chaque base (moccadb ici) les tables correspondant à des « séquences ». Pour MoccaDb la table porte le nom de marker. Les éléments a faire remonter au niveau du portail sont l’élément resource_name et name_marker_type. En plus, cette table est lié à la table plant_resource qui nous permettra de récupérer le nom d’espèce. Il faut mettre au même niveau : Marker avec écrivain/journaliste Resource_name avec titre/name Et sequence avec personne, le terme utilisé pour homogénéiser Les balises/éléments que j’ai utilisées sont décrites dans un autre fichier qui sert de grammaire. On parle de DTD (document type définition). Fichier d'instances correspondant à l'entrepôt DTD Module d’extraction Le fichier de correspondances

12 Schéma fonctionnel de l’intégration
Fichier de correspondances d'une partie des schémas sources (…) <!ELEMENT class ( id*, (property,foreign_key)* )> <!ATTLIST class name CDATA #REQUIRED> <!ATTLIST class thesaurus_class CDATA #REQUIRED> <!ATTLIST class table CDATA #REQUIRED> <!ATTLIST class alias CDATA #REQUIRED> <!ELEMENT property> <!ATTLIST property thesaurus_property CDATA #REQUIRED> <!ATTLIST property column CDATA #REQUIRED> <!ATTLIST property type CDATA #IMPLIED> <!ATTLIST property not-null (true|false) #IMPLIED> <!ATTLIST property length #IMPLIED> Module d'extraction (étapes) 1 : génération de requêtes (fichier de correspondances en entrée) 2 : interrogation BD sources + récupération données 3 : nettoyage et transformation données (fichier thesaurus en entrée) 4 : stockage données (fichier Instances en sortie) MoccaDB ou CoffeeGD Thesaurus Fichier d'instances correspondant à l'entrepôt Module d’extraction Le fichier de correspondance

13 Schéma fonctionnel de l’intégration
Fichier de correspondances d'une partie des schémas sources Module d'extraction (étapes) 1 : génération de requêtes (fichier de correspondances en entrée) 2 : interrogation BD sources + récupération données 3 : nettoyage et transformation données (fichier thesaurus en entrée) 4 : stockage données (fichier Instances en sortie) <o:term rdf:about=" <o:id>O </o:id> <o:name>SSR</o:name> <o:synonym>single sequence repeat</o:synonym> <o:synonym>simple sequence repeat</o:synonym> <o:synonym>microsatellite</o:synonym> <o:synonym>microsatellites</o:synonym> <o:synonym>STR</o:synonym> <o:synonym>simple tandem repeats</o:synonym> <o:synonym>SS</o:synonym> <o:synonym>simple sequences</o:synonym> <o:definition>A very short unit sequence of DNA (2 to 4 bp) that is repeated multiple times in tandem. [ <o:is_a rdf:resource=" /><!--tandem_repeat --> <o:dbxref rdf:parseType="Resource"> <o:database_symbol>SO_id</o:database_symbol> <o:reference> </o:reference> </o:dbxref> </o:term> MoccaDB ou CoffeeGD Thesaurus Fichier d'instances correspondant à l'entrepôt DTD Module d’extraction Le Thesaurus

14 Schéma fonctionnel de l’intégration
Fichier de correspondances d'une partie des schémas sources (…) <!ELEMENT o:term ( o:id, o:name, o:synonym*, o:definition?, (o:is_a , o:part_of , o:derives_from)*, o:dbxref*, )> <!ELEMENT o:id (#PCDATA)> <!ELEMENT o:name (#PCDATA)> <!ELEMENT o:synonym (#PCDATA)> <!ELEMENT o:definition (#PCDATA)> <!ELEMENT o:is_a (#PCDATA)> <!ATTLIST o:is_a rdf:resource CDATA #REQUIRED> <!ELEMENT o:part_of (#PCDATA)> <!ATTLIST o:part_of rdf:resource CDATA #REQUIRED> <!ELEMENT o:derives_from (#PCDATA)> <!ATTLIST o:derives_from rdf:resource CDATA #REQUIRED> <!ELEMENT o:dbxref ( o:database_symbol,o:reference)> Module d'extraction (étapes) 1 : génération de requêtes (fichier de correspondances en entrée) 2 : interrogation BD sources + récupération données 3 : nettoyage et transformation données (fichier thesaurus en entrée) 4 : stockage données (fichier Instances en sortie) MoccaDB ou CoffeeGD Thesaurus Fichier d'instances correspondant à l'entrepôt Module d’extraction Le Thesaurus

15 Schéma fonctionnel de l’intégration
<schema:Sequence rdf:about="urn:Sequence:item1"> <schema:sequence_name rdf:datatype="&xsd;string">SSR222</schema:sequence_name> <schema:bd_name rdf:datatype="&xsd;string">moccadb</schema:bd_name> <schema:appartient_a> <schema:Plante> <schema:est_decrite_par> <schema:Taxon rdf:about="urn:Taxon:item1"> <schema:latin_name rdf:datatype="&xsd;string">SOLANUM LYCOPERSICUM</schema:latin_name> </schema:Taxon> </schema:est_decrite_par> </schema:Plante> </schema:appartient_a> <schema:defini_comme> <schema:Marker> <schema:appartient_au> <schema:Type rdf:about="urn:Type:item1"> <schema:type_name rdf:datatype="&xsd;string">SSR</schema:type_name> </schema:Type> </schema:appartient_au> </schema:Marker> </schema:defini_comme> </schema:Sequence> Fichier de correspondances d'une partie des schémas sources Module d'extraction (étapes) 1 : génération de requêtes (fichier de correspondances en entrée) 2 : interrogation BD sources + récupération données 3 : nettoyage et transformation données (fichier thesaurus en entrée) 4 : stockage données (fichier Instances en sortie) MoccaDB ou CoffeeGD Thesaurus Fichier d'instances correspondant à l'entrepôt Schéma domaine Module d’extraction Le fichier d’instances

16 Bilan & Perspectives Ajout d’une interface d’administration du site
Contenus à ajouter (Création d’une base de données) Données sur les collections/prospections Bibliographie photothèque Moteur de recherche Accéder aux séquences uniquement publics Liens direct vers des fiches complètes (sites sources) Ajouter une autre source (ESTdb) Fichiers à plat vs BD / entrepôt vs médiation

17 Exemple pour la rubrique Genetic resources


Télécharger ppt "Responsable : Serge Hamon"

Présentations similaires


Annonces Google