La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Banques et bases de données en biologie moléculaire : de la donnée à la structure Eric Viara CRI INFOBIOGEN / SYSRA Conférence BDA02.

Présentations similaires


Présentation au sujet: "Banques et bases de données en biologie moléculaire : de la donnée à la structure Eric Viara CRI INFOBIOGEN / SYSRA Conférence BDA02."— Transcription de la présentation:

1 Banques et bases de données en biologie moléculaire : de la donnée à la structure Eric Viara CRI INFOBIOGEN / SYSRA Conférence BDA02

2 Objet de la présentation (1) Quelques mots de biologie La situation actuelle en bioinformatique : au travers d'un panorama des banques de données et traitements exploités par le CRI INFOBIOGEN un système d'intégration de données

3 Objet de la présentation (2) Une approche fédérative et orientée objet développée par SYSRA et INFOBIOGEN dans le cadre d'un projet d'intégration et de manipulation de données génomiques et protéomiques basé sur le SGBDO E YE DBSYSRA INFOBIOGEN E YE DB

4 Le CRI INFOBIOGEN (1) Centre National de Ressources bioinformatique (Genopole/Université d'Evry) Informatique appliquée à la biologie Mise à disposition des banques de données et codes de calcul Accès anonymes WEB (4 000 visites/jour) et authentifiés (5 000 comptes) Assistance technique aux utilisateurs

5 Le CRI INFOBIOGEN (2) Recherche & Développement : bases de données, intégration de données interfaces homme/machine traitement intensifs génomiques (TERAPROT avec le CEA/DAM) Equipement serveurs SUN E10K (48 CPU, 26 Go mémoire, 4 To) Evolution SF15K en cours Connectique Internet Renater 155 Mbps

6 SYSRA Société créée en 1993 par Eric Viara Activités de service : CNRS, INSERM, GENOPLANTE, INFOBIOGEN, GENE-IT, GENETHON, UNIVERSITE DEVRY … Activités R&D : développement du SGBDO E YE DB,E YE DB intégration de données en biologie moléculaire. Collaboration avec INFOBIOGEN depuis 1994 Collaboration avec GENE-IT

7 Quelques mots de bio (1) La grande majorité des êtres vivants contient une ou plusieurs cellules Une cellule contient : procaryotes : une molécule dADN (acide désoxyribonucléique) eucaryotes : plusieurs molécules dADN présentes dans les chromosomes situés dans un compartiment cellulaire : le noyau LADN est constitué de nucléotides : T A G C

8 Quelques mots de bio (2) Une partie de lADN est transcrite en ARN (acide ribonucléique) => transcription LARN est constitué de nucléotides : U A G C LARN est traduite en protéines => traduction Les protéines sont constituées dacides aminés : 20 acides aminés Les protéines confèrent à chaque organisme son originalité spécifique et individuelle

9 Quelques mots de bio (3) LADN : constitue le matériel génétique des êtres vivants : les segments dADN situés sur un chromosome porteurs dune information génétique (i.e. utilisés dans le processus de transcription) sont les gènes confèrent aux êtres vivants leur proprieté la plus remarquable : celle de se reproduire en transmettant leurs caractères dune génération à lautre

10 Ordres de grandeur Arabidopsis Thaliana : ADN : ~ 100 millions de nucléotides Gènes : ~ Protéines : ~ à Portion de lADN codant : ~ 5 % Homo sapiens : ADN : ~ 3,4 milliards de nucléotides Gènes : ~ à Protéines : ~ à Portion de lADN codant : ~ 5 %

11 La synthèse dune protéine (1) ADN [ATGC] ARN [AUGC] Protéine [FLIMVSPTAYH QNKDECWRG] Alphabet : TranscriptionTraduction

12 La synthèse dune protéine (2) ADN préARNm ARNm Protéine TRADUCTION MATURATION TRANSCRIPTION intronsexons

13 Le code génétique Chaque ensemble de 3 nucléotides (codons) code un acide aminé ou le codon Stop AUGC x AUGC x AUGC = 64 combinaisons possibles 20 acides aminés => code dégénéré Exemples : UAU : Tyr (Y) UAC : Tyr (Y) CAU : His (H) UGA : Stop

14 Le code génétique standard UCAG U UUU Phe F UUC Phe F UUA Leu L UUG Leu L UCU Ser S UCC Ser S UCA Ser S UCG Ser S UAU Tyr Y UAC Tyr Y UAA Stop UAG Stop UGU Cys C UGC Cys C UGA Stop UGG Trp W U C CUU Leu L CUC Leu L CUA Leu L CUG Leu L CCU Pro P CCC Pro P CCA Pro P CCG Pro P CAU His H CAC His H CAA Gln Q CAG Gln Q CGU Arg R CGC Arg R CGA Arg R CGG Arg R C A AUU Ile I AUC Ile I AUA Ile I AUG Met M ACU Thr T ACC Thr T ACA Thr T ACG Thr T AAU Asn N AAC Asn N AAA Lys K AAG Lys K AGU Ser S AGC Ser S AGA Arg R AGG Arg R A G GUU Val V GUC Val V GUA Val V GUG Val V GCU Ala A GCC Ala A GCA Ala A GCG Ala A GAU Asp D GAC Asp D GAA Glu E GAG Glu E GGU Gly G GGC Gly G GGA Gly G GGG Gly G G

15 Le séquencage Le séquencage dun être vivant consiste à déterminer la suite de nucléotides constituant son ADN La technique du séquencage nautorise que la lecture de séquences relativement courtes => découpage de lADN en fragments clonages des fragments séquencage de chacun des fragments Carte physique : ordonnancement des fragments clonés chevauchant reconstituant la molécule dADN de départ

16 Lannotation du génome Lannotation du génome consiste à : prédire et localiser l'ensemble des séquences codantes (gènes) du génome, déterminer et identifier leur structure (annotation syntaxique), leur fonction (annotation fonctionnelle), les relations entre les entités biologiques relatives au génome (annotation relationnelle).

17 Glossaire bio (1) Génétique : Science de lhérédité. La génétique étudie les caractères héréditaires des individus, leur transmission au fil des générations et leurs variations (mutations) Gène : Segment dADN ou dARN situé sur un chromosome et porteur dune information génétique

18 Glossaire bio (2) Génome : Ensemble du matériel génétique dun individu ou dune espèce. Il est constitué de molécules dacides nucléiques (ADN ou ARN). Les gènes c-a-d les parties dADN porteuses dune information génétique, ne constituent quune partie du génome Protéine : produit du gène issu de la synthèse protéique via le code génétique Protéome : complément protéique total du génome, c-a-d lensemble des protéines exprimé par le génome dune espèce donnée

19 Les types de données (1) Les séquences nucléiques : alphabet de 4 lettres : A T G C protéiques : alphabet de 20 lettres correspondant aux 20 acides aminés Les annotations prédiction expérimentation

20 Les types de données (2) Nombreux types Forte corrélation entre les types, en perpétuelle évolution : des nouveaux types émergent (résultats d'expériences de puces à ADN, par exemple) et des nouveaux liens entre les types apparaissent, les deux grâce aux progrès des biotechnologies (automatisation, miniaturisation) Multiplicité des points de vue sur le schéma : sémantiques différentes selon les biologistes

21 La quantité de données (1) Les projets de génomiques ont produit ces dernières années des volumes considérables de données : séquençage massif de gros génomes complets : levure, arabidopsis thaliana (première plante séquencée), riz, drosophile, souris, homme... Les volumes augmentent exponentiellement : doublent tous les 18 mois Transcriptomique, protéomique, génotypage

22 La quantité de données (2)

23 Les traitements Calcul intensif : Comparaison de séquences (2 a 2) Alignements multiples (n séquences) Prédictions intro-exon sur des génomes complets, Analyse de liaison pour la cartographie Analyse de la structure des protéines Analyse du transcriptome

24 Les banques de données (1) Plusieurs centaines de banques de données biologiques disponibles Catalogues de banques de données : La base DBCAT (gérée à INFOBIOGEN) est un catalogue des bases de données en biologie moléculaire (509 bases répertoriées)DBCAT Numéro spécial annuel de Nucleic Acid Research Plus de 150 banques disponibles à INFOBIOGEN : 2 tera-octets

25 Les banques de données (2) Les banques généralistes : Les banques de séquences nucléiques Les banques de séquences protéiques Les banques thématiques : Les banques de motifs ou de domaines protéiques Les banques de familles Les banques de structure moléculaire Les banques spécifiques à un organisme, les banques génomiques

26 Les banques de données (3) La redondance : il est fréquent de trouver plusieurs fois la même séquence ou des séquences extrèmement similaires dans des entrées différentes (surtout dans les banques généralistes) : polymorphisme, gènes dupliqués ou erreurs ? Erreurs de sequences : erreurs de séquençage ou de saisie Erreurs dannotation : méthodes informatiques automatiques pour lanalyse des données du séquençage systématique

27 Des banques généralistes Banques généralistes de séquences nucléiques : EMBL : EBI GENBANK : NCBI Banques généralistes de séquences protéiques : PIR SWISSPROT TREMBL

28 Une entrée GenBank LOCUS R bp mRNA linear EST 11-APR-1995 DEFINITION yf40c12.s1 Soares fetal liver spleen 1NFLS Homo sapiens cDNA clone IMAGE: ', mRNA sequence. ACCESSION R11659 VERSION R GI: KEYWORDS EST. SOURCE human. ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 415) AUTHORS Hillier,L., Clark,N., Dubuque,T., Elliston,K., Hawkins,M., Holman,M., Hultman,M., Kucaba,T., Le,M., Lennon,G., Marra,M., Parsons,J., Rifkin,L., Rohlfing,T., Soares,M., Tan,F., Trevaskis,E., Waterston,R., Williamson,A., Wohldmann,P. and Wilson,R. TITLE The WashU-Merck EST Project JOURNAL Unpublished (1995) COMMENT Contact: Wilson RK Washington University School of Medicine 4444 Forest Park Parkway, Box 8501, St. Louis, MO Tel: Fax: Insert Size: 706 High quality sequence stops: 274 Source: IMAGE Consortium, LLNL This clone is available royalty-free through LLNL ; contact the IMAGE Consortium for further information. Insert Length: 706 Std Error: 0.00 Seq primer: -21m13 High quality sequence stop: 274.

29 ... une entrée GenBank FEATURES Location/Qualifiers source /organism="Homo sapiens" /db_xref="GDB:481495" /db_xref="taxon:9606" /clone="IMAGE:129334" /clone_lib="Soares fetal liver spleen 1NFLS" /sex="male" /dev_stage="20 week-post conception fetus" /lab_host="DH10B (ampicillin resistant)" /note="Organ: Liver and Spleen; Vector: pT7T3D (Pharmacia) with a modified polylinker; Site_1: Pac I; Site_2: Eco RI; 1st strand cDNA was primed with a Pac I - oligo(dT) primer [5' AACTGGAAGAATTAATTAAAGATCTTTTTTTTTTTTTTTTTTT 3'], double-stranded cDNA was ligated to Eco RI adaptors (Pharmacia), digested with Pac I and cloned into the Pac I and Eco RI sites of the modified pT7T3 vector. Library went through one round of normalization. Library constructed by Bento Soares and M.Fatima Bonaldo." BASE COUNT 96 a 93 c 127 g 91 t 8 others ORIGIN 1 tttgtacatt tatttgcatg tttattggtt taacacaggg gtcgcaaact caaatgccca 61 cagaggccag gttaggttag cggctgaagc agtctgggga gaggcaaaaa gcaatggcag 121 ggaggtggga cagaggaatn tgggccccaa actatggggg cagctgctac tcagtgccag 181 ctnttcgtcg ccatgggggg aagcgggacc agagccgccg ggtcttcggc tttttcaaga 241 ggacgcataa ctccggattg ttatttgaac tgtcctgact ttggtaagac tctntgacgg 301 tnacagtnaa ggaggccgac tcatcgtcaa tttcacacaa gtactcgccg gagtcctcga 361 gctgggacaa ccgggcagca ccaggcggng ggacagtgtc ttccttntgc angag //

30 Une entrée EMBL ID HS65975 standard; RNA; EST; 415 BP. XX AC R11659; XX SV R XX DT 21-APR-1995 (Rel. 43, Created) DT 04-MAR-2000 (Rel. 63, Last updated, Version 2) XX DE yf40c12.s1 Soares fetal liver spleen 1NFLS Homo sapiens cDNA clone DE IMAGE: ', mRNA sequence. XX KW EST. XX OS Homo sapiens (human) OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; OC Eutheria; Primates; Catarrhini; Hominidae; Homo. XX RN [1] RP RA Hillier L., Clark N., Dubuque T., Elliston K., Hawkins M., Holman M., RA Hultman M., Kucaba T., Le M., Lennon G., Marra M., Parsons J., Rifkin L., RA Rohlfing T., Soares M., Tan F., Trevaskis E., Waterston R., Williamson A., RA Wohldmann P., Wilson R.; RT "The WashU-Merck EST Project"; RL Unpublished. XX DR RZPD; IMAGp998B23135; IMAGp998B DR UNILIB; 262; 262. XX

31 ... une entrée EMBL FH Key Location/Qualifiers FH FT source FT /db_xref="taxon:9606" FT /db_xref="RZPD:IMAGp998B23135" FT /db_xref="UNILIB:262" FT /note="Organ: Liver and Spleen; Vector: pT7T3D (Pharmacia) FT with a modified polylinker; Site_1: Pac I; Site_2: Eco RI; FT 1st strand cDNA was primed with a Pac I - oligo(dT) primer FT [5' AACTGGAAGAATTAATTAAAGATCTTTTTTTTTTTTTTTTTTT 3'], FT double-stranded cDNA was ligated to Eco RI adaptors FT (Pharmacia), digested with Pac I and cloned into the Pac I FT and Eco RI sites of the modified pT7T3 vector. Library FT went through one round of normalization. Library FT constructed by Bento Soares and M.Fatima Bonaldo." FT /sex="male" FT /organism="Homo sapiens" FT /clone="IMAGE:129334" FT /clone_lib="Soares fetal liver spleen 1NFLS" FT /dev_stage="20 week-post conception fetus" FT /lab_host="DH10B (ampicillin resistant)" XX SQ Sequence 415 BP; 96 A; 93 C; 127 G; 91 T; 8 other; tttgtacatt tatttgcatg tttattggtt taacacaggg gtcgcaaact caaatgccca 60 cagaggccag gttaggttag cggctgaagc agtctgggga gaggcaaaaa gcaatggcag 120 ggaggtggga cagaggaatn tgggccccaa actatggggg cagctgctac tcagtgccag 180 ctnttcgtcg ccatgggggg aagcgggacc agagccgccg ggtcttcggc tttttcaaga 240 ggacgcataa ctccggattg ttatttgaac tgtcctgact ttggtaagac tctntgacgg 300 tnacagtnaa ggaggccgac tcatcgtcaa tttcacacaa gtactcgccg gagtcctcga 360 gctgggacaa ccgggcagca ccaggcggng ggacagtgtc ttccttntgc angag 415 //

32 Le contexte technique (1) La situation actuelle en bioinformatique ont été marqués par les approches qui ont prévalu dans le passé lorsque : le volume d'information était réduit les types de données peu diversifiés moins de corrélation entre les types

33 Le contexte technique (2) L'information est aujourd'hui : disséminée dans une multitude de banques de données stockée sous des formats syntaxiquement hétérogènes en général non disponible dans des systèmes de gestion de bases de données (SGDB) mais distribuée sous forme de fichiers plats modélisée dans ces différentes banques selon des sémantiques hétérogènes et difficiles à mettre en relation

34 Le système SRS : la référence SRS (Sequence Retrieval System) est un système européen relativement générique permettant d'intégrer des dizaines de bases génomiques et qui offre des outils de navigation et de recherche orientés WEB SRS C'est la référence européenne en matière d'intégration de données génomiques SRS repose sur une technologie de fichiers plats ASCII et de fichiers d'index qui pointent directement vers des entrées dans les fichiers plats

35 Limites structurelles de SRS SRS n'est pas basé sur un SGDB La technologie sur laquelle repose SRS (pointeurs directs vers des fichiers de données) n'est pas adaptée aux mises à jour incrémentales : c'est un système essentiellement read only Données peu structurées Pas d'API permettant d'accéder aux données structurées => données non facilement manipulables par programmes

36 SRS : exemples Le serveur SRS du CRI INFOBIOGENSRS Lentrée GENBANK-ACC:R11659GENBANK-ACC:R11659 Lentrée EMBL-ACC:R11659EMBL-ACC:R11659 Lentrée SWISSPROT:PHYA_ARATHSWISSPROT:PHYA_ARATH

37 Le projet GIX Le projet Environnement d'intégration et de manipulation de données génomiques et protéomiques (nom de code: GIX pour GenomiCS) propose de remédier à ces problèmes en intégrant dans un même environnement les principales bases de données d'intérêt de la génomique Projet de collaboration SYSRA / INFOBIOGEN en partie subventionné par le ministère de la recherche (décision 00 H 0348)

38 GIX : points clés (1) Une modélisation objet globale et extensible pour lensemble des banques du domaine : modélisation objet : fort pouvoir expressif (héritage, méthodes, aggrégations, références...) globale : les utilisateurs (humains et programmes) dispose d'une sémantique unique pour l'ensemble des bases de données facilite l'accès, la manipulation et l'analyse croisée des données extensible : permet dintégrer de nouvelles banques

39 GIX : points clés (2) Un SGBD O pour le stockage des données : SGBD : système read write, concurrent, transactionnel, langage de requête... adapté aux mises à jour incrémentales API permettant daccéder aux données structurées O : supporte nativement la modélisation objet

40 GIX : points clés (3) Un mécanisme dimportation et de mise à jour des données des principales banques publiques Une bibliothèque pour limportation et la mise à jour de données privées Une boîte à outils pour le développement d'interfaces graphiques orientées WEB

41 Un SGBDO : lequel ? Versant ? Objectivity ? O2 ? MATISSE ? POET ? ORIENT ? E YE DB ? autre ?

42 Le SGBDO E YE DB Un premier prototype, IDB, a été développé dans les laboratoires Généthon dans le cadre du projet Genome View Ce projet a été initié en 1992 pour stocker et faciliter l'accès aux données du génome humain produites par Généthon (cartes physique et génétique) Depuis 1994, SYSRA développe une nouvelle version avec diverses collaborations : cette nouvelle version, E YE DB, est une réécriture complète

43 E YE DB et ODMG 3.0 E YE DB est basé sur les spécifications ODMG 3.0 : E YE DBODMG 3.0 E YE DB Object Query Language est un sur- ensemble strict de l'ODMG OQL E YE DB E YE DB Object Definition Language est un sous- ensemble étendu de l'ODMG ODL E YE DB Les bindings C++ et Java ne sont pas ODMG compliant

44 E YE DB : caractéristiques clés (1) Caractéristiques standards des SGBDO : Gestion de données typées persistantes Modèle Client/Serveur Services Transactionnels Système de recouvrement Orienté langage : Langage de définition des types : ODL Langage de requêtes : OQL Bindings C++ & Java Bindings PHP & PERL

45 E YE DB : caractéristiques clés (2) Généricité et orthogonalité du modèle objet : Chaque classe dérive de la classe object Polymorphisme Relations binaires : 1:1, 1:N, N:N Types littéraux et objets Surcharge de méthodes et late binding Services de triggers Contraintes dintégrité : unique, not null Collections template : set, bag & array Tableaux multi-dimensionnel et de taille variable Flexibilité du schéma

46 E YE DB : caractéristiques clés (3) Support pour les données distribuées : Binding CORBA Objets multi-databases Efficacité : Storage manager performant Mode daccès local Scalability : Collections et index paramétrables Localisation et clusterisation Les programmes peuvent gérer des centaines de millions dobjets sans perte de performance

47 La modélisation objet (1) La modélisation objet est issue de la structure des banques à intégrer Une partie commune à l'ensemble de ces banques a été isolée : le modèle canonique Des extensions tenant compte des spécificités de chaque banque ont ensuite été ajoutées à la modélisation objet par héritage.

48 La modélisation objet (2) Cette approche garantit suffisamment d'extensibilité pour pouvoir intégrer dans l'avenir des données provenant de sources variées dans le domaine La modélisation objet a été representée sous forme de diagramme UML à l'aide de l'outil Objecteering. Une passerelle bidirectionnelle entre E YE DB et cet outil a été réaliséeE YE DB

49 Implémentation dans E YE DB (1) Pour implémenter cette modélisation objet dans E YE DB pour un ensemble de banques génomiques, deux architectures possibles : centralisée ou fédérée :E YE DB l'architecture centralisée consiste en une seule base E YE DB avec un schéma unique l'architecture fédérée consiste en la séparation des données provenant de banques génomiques différentes dans des bases de données E YE DB distinctes avec des schémas qui peuvent être éventuellement légèrement distincts

50 Implémentation dans E YE DB (2) L'approche fédérée a été retenue : l'import des données est plus facilement parallèlisable : limitations uniquement au niveau des accès concurrents au disque les mises à jour non incrémentales sont plus simples à effectuer pour une nouvelle version d'une banque génomique il sera possible de réaliser des distributions partielles du produit à la demande une modification mineure du schéma n'entraîne pas nécessairement la migration de l'ensemble des données

51 Implémentation dans E YE DB (3) Une couche logicielle au dessus E YE DB permet l'accès aux différentes bases constituant la fédération comme s'il s'agissait d'une seule base physique. Cette couche logicielle supporte :E YE DB les requêtes multi-bases : exécution d'une même requête sur plusieurs bases et fusion des résultats les requêtes inter-bases: il s'agit d'exécuter une requête contenant des critères de recherches dans des bases distinctes et croiser les résultats la navigation inter-bases: il faut un moyen pour suivre des liens d'une base vers une autre

52 Intégration des données (1) Des spécifications pour des programmes d'import ont été réalisés pour 11 banques génomiques (essentiellement de séquences) : SWISSPROT, SPTREMBL, EMBL, PROSITE, PRODOM, PFAM, BLOCKS, RHDB, UNIGENE, ENZYME et GENBANK Une bibliothèque logicielle regroupant des fonctionnalités communes aux programmes d'import a été réalisée

53 Intégration des données (2) Ces banques (sauf GENBANK) ont été importées et leur programme de mise à jour incrémentale réalisés Environ 300 Gb de données dont 260 Gb pour EMBL (17 millions d'entrées)

54 Intégration des données (3) Banque de données Nombre dentrées Taille de la base (Go) Nombre dobjets bio Durée dimport PROSITE1,5 K0,8108 K6 min SWISSPROT100 K2,92,4 M5h30 SPTREMBL660 K138,4 M20h33 EMBL17 M M25j PRODOM305 K3,12,5 M3h50 PFAM85 K1,91,6 M10h04 BLOCKS12 K0,6690 K1h40 ENZYME4 K0,242 K5 min RHDB133 K1,91,34 M1h58

55 Boîte à outils L'objectif est de permettre aux biologistes d'enrichir l'environnement de leur propres données et de réaliser à moindre coût leurs propres logiciels de consultation ou d'analyse

56 Particularités des applications dédiées à la génomique 1. En général spécifications sommaires et très évolutives dans le temps 2. Les données manipulées sont souvent sujettes à des interprétations qui peuvent aboutir à une remise en cause de leur structure et en conséquence des schémas des bases de données 3. Les biologistes ont besoin d'outils de navigation qui intègrent des données publiques avec leurs propres données et aussi d'annoter ces données 4. Les nouvelles applications doivent intégrer ou être interopérables avec des applications existantes 5. Du fait de la dispersion géographique, le WEB est un environnement de prédilection

57 Composants de la boîte à outils La boîte à outils comporte trois composants : Un serveur dapplication WEB Un système de définition de vues Un langage de manipulation des vues

58 Le serveur dapplications L'orientation des interfaces graphiques vers les techniques du WEB est une nécessité. Les particularités des applications bases de données dans le monde du WEB engendre les besoins particuliers et récurrents : les scénarios complexes nécessitent des mécanismes de suivi de sessions certains scénarios de mise à jour nécessitent des sessions transactionnelles dans un environnement qui n'a pas été prévu pour cela à l'origine le coût des connexions aux bases de données rend les techniques classiques (CGI) inefficaces

59 Le système de définition de vues (1) Il est raisonnable de penser les applications pour la génomique comme des applications en changement permanent; changements dictés davantage par une évolution des structures de données que par une évolution des besoins de visualisation; deux règles de conception : bon découplage entre les objets graphiques et les objets sémantiques interfaces qui s'adaptent dynamiquement aux changements

60 Le système de définition de vues (2) La solution proposée repose sur la notion de vue : les vues sont représentées dans un langage de définition dédié (View Definition Markup Language : VDML) basé sur XML et ensuite importées sous la forme d'objets E YE DB dans un référentiel spécifiqueE YE DB

61 Le langage de manipulation de vues Un second langage (Framework Markup Language : FWML) permet de manipuler les vues pour générer des représentations HTML ou XML exploitables par les navigateurs

62 Démonstration click here

63 Travaux futurs Optimisation : des durées dimportation de lencombrement disque de la recherche en expression régulière Intégration de nouvelles banques Enrichissement de la boîte à outils Développement dIHMs spécifiques

64 Crédits Lenvironnement dintégration et de manipulation des données génomiques et protéomiques a été développé à laide dun financement du Ministère de la Recherche (décision 00 H 0348) Le SGBDO E YE DB a été développé par SYSRA en collaboration avec le CRI INFOBIOGEN, lAgence Nationale de la Valorisation de la Recherche (ANVAR) et le Conseil Régional de lÎle de FranceE YE DB


Télécharger ppt "Banques et bases de données en biologie moléculaire : de la donnée à la structure Eric Viara CRI INFOBIOGEN / SYSRA Conférence BDA02."

Présentations similaires


Annonces Google