La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Bases de données en biologie (suite) G. Almouzni (I. Curie)

Présentations similaires


Présentation au sujet: "Bases de données en biologie (suite) G. Almouzni (I. Curie)"— Transcription de la présentation:

1 Bases de données en biologie (suite) G. Almouzni (I. Curie)

2 Bases de données en biologie BD séquences généralistes - séquences nucléotidiques - séquences protéiques BD bibliographiques Historique Plan du cours (1) Rappels de BIO BD spécialisées - par organisme - par thématique (problématique bio) Violaine Pillet + Extraction d information à partir de textes Des bases de données aux bases de connaissances

3 Banques de séquences généralistes PIR-NBRF Banques de séquences protéiques données expérimentales isolation, séquençage données in silico déduction à partir de la séquence nucléique par simple traduction Séquences protéiques Swissprot

4 PIR-NBRF création 1984 données NBRF (National Biomedical Research Foundation) MIPS (Martinsried Institute for Protein Sequences, Munich) JIPID (Japan International Protein Information Database)

5

6

7

8

9 Swissprot création 1986 données Université de Genève Séquences banque PIR-NBRF Séquences banque EMBL (traduction) Chaque entrée de la base a été expertisée par un annotateur Amos Bairoch SIB: Swiss Institute of Bioinformatics Collaboration : SIB + EBI

10

11 Bases de données en biologie BD séquences généralistes - séquences nucléotidiques - séquences protéiques Historique Plan du cours Rappels de BIO BD spécialisées - par organisme - par thématique (problématique bio) Des bases de données aux bases de connaissances

12 Forte croissance + hétérogénéité des séquences des banques généralistes constitution de bases de données par thématique par organisme espace de connaissances de références Des banques aux bases de séquences (1)

13 bases de séquences dédiées –à un organisme –à des objets biologiques communs à plusieurs organismes travail important –correction des erreurs –élimination des doublons –annotations Des banques aux bases de séquences (2)

14 Bases de séquences spécialisées

15

16 Génomes procaryotes

17 Mais les données ne se limitent pas aux séquences...

18 BD biologie moléculaire

19 Données structurales : PDB

20 Navigation dans les bases

21 BD spécialisées - par organisme - par thématique (problématique bio) Bases de données en biologie BD séquences généralistes - séquences nucléotidiques - séquences protéiques Historique Plan du cours Rappels de BIO Des bases de données aux bases de connaissances

22 Illusoire de penser construire un jour le système dinformations biologiques universel pluralité des problématiques pluralité des bases de données > 1000 BDs Ces BDs sont conçues pour répondre à des objectifs différents. Même si leurs contenues se recouvrent, leurs schémas conceptuels peuvent différer Schéma conceptuel = modèle dont la conception est pilotée par les questions quil doit permettre daborder Une multiplicité de bases de données hétérogènes Mais, conséquences pratiques facheuses...

23 Une multiplicité de BDs hétérogènes : conséquences (1) Recherche d informations Interroger plusieurs bases Relier entre elles les données extraites = Intégrer les données merci Internet Démarche fastidieuse Démarche inenvisageable Analyse d un petit nombre de séquences Analyse de résultats à grande échelle (génome, protéome, transcriptome,…)

24 Problème technique : Diversité des modèles et des formats des bases concernées. Cas favorable : sadapter au modèle de chacune des bases. Cas moins favorable (mais plus fréquent) : les dites bases de données sont constituées de simples fichiers munis dun langage dinterrogation et de manipulation ad hoc. Activité majeure des bioinformaticiens: Ecriture de scripts de lecture et de reformatage de données Une multiplicité de BDs hétérogènes : conséquences (2) Pour formuler de bonnes requêtes : Connaître la structure et le schéma conceptuel des bases Souvent: schéma indisponible, inexistant,… Pb :connaître le nom d un champ ou d un enregistrement est insuffisant

25 Une multiplicité de BDs hétérogènes Problème majeur: HETEROGENEITE des données ( nature, formats) Volume de données : non limitant Comment intégrer ces données biologiques, hétérogènes et distribuées, afin quelles soient accessibles et exploitables aussi facilement que si elles figuraient dans une seule et même base ? INTEGRATION

26 2 grandes catégories de solutions Entrepôts de données (data warehousing) 2 = restructurer les données au sein d un schéma unique les données des différentes bases concernées sont copiées de leurs bases dorigine (+) temps de traitement des requêtes (-) mises à jours Intégration de données hétérogènes = ajouter, au-dessus des bases existantes, une couche logicielle offre les interfaces nécessaires entre les bases fait apparaître lensemble comme une seule base virtuelle Approche fédérative 1 (+) assure daccéder à tout instant à des données qui sont à jour Résoudre les problèmes d incompatibilité syntaxique et sémantique

27 SRS - Sequence Retrieval System Rajouter l URL 1

28 SRS permet d accéder à différentes BDs via une interface unique Exemple: ExPASy: SWISS-PROT, TrEMBL (SPTR) SRS - Sequence Retrieval System 1

29 ENTREZ ENTREZ (NCBI) 1

30 Mise en correspondance des entités modélisées dans différents schémas conceptuels Rappel: la seule connaissance des noms est insuffisante schéma conceptuel accessible et correctement documenté Cependant, dans un schéma conceptuel, description minimale des entités (traitement des requêtes, administration de la base) Parfois, description sous forme de textes dans la documentation associée Expliciter et formaliser les entités manipulées Entrepôt de données 2 = restructurer les données au sein d un schéma unique

31 Représentation de connaissances François Rechenmann Danielle Ziébelin : AROM Des bases de données aux bases de connaissances...

32 Modéliser plus finement les classes dentités, ainsi que les relations quelles entretiennent non plus seulement à des fins de requêtes et de gestion mais pour expliciter formellement leurs définitions Des bases de données aux bases de connaissances Ontologie : formalisation des concepts dun domaine et des relations quils entretiennent Une ontologie nest pas réductible à la constitution dun vocabulaire En pratique, le schéma dune base de connaissance correspond = mise en œuvre de lontologie retenue bases de données base de connaissances

33 Les modèles de connaissances offrent une capacité d expression permettant daborder la représentation de données plus complexes que celles qui apparaissent traditionnellement dans les bases Champs texte (langage naturel) Lisible et interprétable par un humain Exploitation automatique très délicate Ex: champ fonction Bases de connaissances

34 Syntactic Annotation Feature detection by content Genome annotation DNA sequence CDSs, RNAs Regulation signals Repeats... etc Functional Annotation « function » attribution Objects Seq Relational / Context Annotation ? gene products operator families Sequence similarity

35 Comparative genomics Genetic networks Molecular assemblies ABC tranporters Fichant et al. Metabolic pathways relation Relational Annotation

36 Panoramix KBs gene polypeptide Chromosome B Chromosome A biochemical reactions compounds (e.g. sugar...) molecular assembly EC Metabolix Proteix Genomix EC enzyme

37 Fini pour aujourdhui...

38 ENTREZ - BLAST

39 Les limites des bases de séquences... Hétérogénéité dans la nature des séquences Variabilité de l état des connaissances sur les séquences Erreurs dans les séquences Biais d échantillonage A voir ???

40 Databases: nombreuses erreurs (annotation automatique) ! Toutes les BDs ne sont pas disponibles sur tous les serveurs Problème de synchronisation des mises à jour Références croisées BDs: ATTENTION ! Compatibilité syntaxique Format Compatibilité sémantique Biologiste + bio-informaticien

41 Analyse de séquences Données de bonne qualité Complète, détaillée Remise à jour Peu redondante Indexée pour pouvoir poser des requêtes compliquées Quel site répond le plus rapidement …….?????? Prolifération de BDs Recherche de la BD idéale


Télécharger ppt "Bases de données en biologie (suite) G. Almouzni (I. Curie)"

Présentations similaires


Annonces Google