Interopérabilité et qualité dans le contexte de Swiss-Prot

1 Interopérabilité et qualité dans le contexte de Swiss-Prot
Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire IN’Tech; 23 Octobre 2003

2 Swiss-Prot Created in July 1986; since 1987, a collaboration of the SIB and the EMBL/EBI; from 2003 onward it is the central part of the UniProt project; Annotated, non-redundant, cross-referenced, documented protein sequence knowledge resource; 136’000 sequences; 125’000 references; 1’200’000 cross-references; ~320 Mb of annotations; About 935’000 sequences in TrEMBL, the Swiss-Prot computer-annotated supplement; Weekly releases; available from about 50 servers, the main source being ExPASy.

3 The ExPASy WWW server
10 years of continuous service to the user community First molecular biology server on the Web (August 1993); ~320 million access since; Dedicated to proteomics: Databases: Swiss-Prot, PROSITE, Swiss-2DPAGE, etc.; Many 2D/MS protein identification/characterization and sequence analysis tools; Mirror sites in Australia, Bolivia, Canada, China, Korea, Taiwan and USA. Soon in Brazil.

4 The contents of the Swiss-Prot protein knowledgebase
Sequences! ANNOTATIONS References Taxonomic data Keywords Cross-references Documentation Function(s); role(s) Post-translational modifications Domains Subcellular location Protein/protein interactions Similarities Diseases, mutagenesis Conflicts and variants

5 AC P00001; Q96BV4; ID CYC_HUMAN STANDARD; PRT; AA. DT 21-JUL-1986 (Rel. 01, Created) DT 21-JUL-1986 (Rel. 01, Last sequence update) DT 15-JUN-2002 (Rel. 41, Last annotation update) DE Cytochrome c. GN CYC. OS Homo sapiens (Human), and OS Pan troglodytes (Chimpanzee). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606, 9598; RN [1] RP SEQUENCE. RC SPECIES=Human; TISSUE=Heart; RA Matsubara H., Smith E.L.; RT "The amino acid sequence of human heart cytochrome c."; RL J. Biol. Chem. 237: (1962). RN [2] RT "Human heart cytochrome c. Chymotryptic peptides, tryptic peptides, RT and the complete amino acid sequence."; RL J. Biol. Chem. 238: (1963). RN [3] RP SEQUENCE FROM N.A. RC SPECIES=Human; RX MEDLINE= ; PubMed= ; RA Evans M.J., Scarpulla R.C.; RT "The human somatic cytochrome c gene: two classes of processed RT pseudogenes demarcate a period of rapid molecular evolution."; RL Proc. Natl. Acad. Sci. U.S.A. 85: (1988). RN [4] RC SPECIES=Human; TISSUE=Amygdala; RA Ansorge W., Wirkner U., Mewes H.-W., Weil B., Wiemann S.; RL Submitted (MAR-2002) to the EMBL/GenBank/DDBJ databases. RN [5] RC TISSUE=Bone marrow, Brain, Skeletal muscle, Skin, and Urinary bladder; RA Strausberg R.; RL Submitted (FEB-2002) to the EMBL/GenBank/DDBJ databases. RN [6] RP SEQUENCE, AND COMPOSITION OF CHYMOTRYPTIC PEPTIDES. RC SPECIES=P.troglodytes; RX MEDLINE= ; PubMed= ; RA Needleman S.B., Margoliash E.; RL Unpublished results, cited by: RL Margoliash E., Fitch W.M.; RL Ann. N.Y. Acad. Sci. 151: (1968). RN [7] RP REVIEW ON ROLE IN APOPTOSIS. RX PubMed= ; RA Skulachev V.P.; RT "Cytochrome c in the apoptotic and antioxidant cascades."; RL FEBS Lett. 423: (1998). CC cytochrome c heme group can accept an electron from the heme group CC -!- FUNCTION: Electron carrier protein. The oxidized form of the CC of the cytochrome c1 subunit of cytochrome reductase. Cytochrome c CC then transfers this electron to the cytochrome oxidase complex, CC the final protein carrier in the mitochondrial electron-transport CC chain. CC -!- FUNCTION: Play a role in apoptosis. Suppression of the anti- CC apoptotic members or activation of the pro-apoptotic members of CC the Bcl-2 family leads to altered mitochondrial membrane CC permeability resulting in release of cytochrome c into the CC cytosol. Binding of cytochrome c to Apaf-1 triggers the activation CC of caspase-9, which then accelerates apoptosis by activating other CC caspases. CC -!- SUBCELLULAR LOCATION: Mitochondrial matrix. CC -!- PTM: Binds one heme group per molecule. CC -!- SIMILARITY: Belongs to the cytochrome c family. DR EMBL; M22877; AAA ; -. DR EMBL; AL713681; CAD ; -. DR EMBL; BC005299; AAH ; -. DR EMBL; BC008475; AAH ; -. DR EMBL; BC008477; AAH ; -. DR EMBL; BC009578; AAH ; -. DR EMBL; BC009579; AAH ; -. DR EMBL; BC009582; AAH ; -. DR EMBL; BC009587; AAH ; -. DR EMBL; BC009602; AAH ; -. DR EMBL; BC009607; AAH ; -. DR EMBL; BC014359; AAH ; -. DR EMBL; BC014361; AAH ; -. DR EMBL; BC015130; AAH ; -. DR EMBL; BC016006; AAH ; -. DR EMBL; BC021994; AAH ; -. DR EMBL; BC022330; AAH ; -. DR PIR; A31764; CCHU. DR PIR; A00002; CCCZ. DR HSSP; P00004; 1WEJ. DR MIM; ; -. DR InterPro; IPR000345; CytC_heme_bind. DR InterPro; IPR003088; Cyt_CI. DR InterPro; IPR002327; Cyt_CIAB. DR Pfam; PF00034; cytochrome_c; 2. DR PRINTS; PR00604; CYTCHRMECIAB. DR ProDom; PD000375; Cyt_CIAB; 1. DR PROSITE; PS00190; CYTOCHROME_C; 1. KW Mitochondrion; Electron transport; Respiratory chain; Heme; KW Acetylation; Polymorphism; Apoptosis. FT INIT_MET FT MOD_RES ACETYLATION. FT BINDING HEME (COVALENT). FT BINDING HEME (COVALENT). FT METAL IRON (HEME AXIAL LIGAND). FT METAL IRON (HEME AXIAL LIGAND). FT VARIANT M -> L (IN 10% OF HUMAN). FT /FTId=VAR_ FT CONFLICT C -> Y (IN REF. 5; AAH15130). SQ SEQUENCE AA; MW; D47C9B513DF1C5C2 CRC64; GDVEKGKKIF IMKCSQCHTV EKGGKHKTGP NLHGLFGRKT GQAPGYSYTA ANKNKGIIWG EDTLMEYLEN PKKYIPGTKM IFVGIKKKEE RADLIAYLKK ATNE //

6 Names, gene names, species, taxonomy

7 References

8 Comments annotations

9 Cross -references Keywords

10 Features annotation

11 Sequence

12 The golden goals of Swiss-Prot
Annotated; Complete; Non-redundant; Highly cross-referenced; Available from a variety of servers and through sequence analysis software tools; Associated with a wide-range of documentation.

13 TrEMBL: a platform for the improvement of automatic annotion tools
Two important factors: It is not possible to «manually» cope with the speed with which new data is coming out; We do not want to dilute the quality of Swiss-Prot The solution: TrEMBL (TRanslation of EMBL): contains all what is not yet in Swiss-Prot; TrEMBL is automatically generated and annotated; After a lot of testing; some sequence analysis tools will be applied systematically: SignalP, TMHMM, REP, InterPro domain assignement, etc.; Rule based annotation expert systems are being developed and will be applied to TrEMBL starting in early 2004; EVIDENCE TAGS are added to any part of a TrEMBL entry not derived from the original EMBL entry.

14 Cross-references Explicitly cross-referenced to 53 databases. Such as DNA (EMBL/GenBank/DDBJ), 3D-structure (PDB), domain/families (PROSITE, InterPro, Pfam, etc.), genomic (MIM, MGD, FlyBase, SGD, SubtiList, etc.), 2D-gel (Swiss-2DPAGE), specialized db (REBASE, TRANSFAC, etc.); Implicitly cross-referenced to 30 additional db on the WWW (DIP, Ensembl, GeneCards, etc.); Additional links at the level of the taxonomy (NCBI taxonomy browser and NewT); references (PubMed and journal full texts); comments (specialized Web pages) and features (dbSNP).

15 Swiss-Prot explicit links
PTM GlycoSuiteDB PhosSite Sequence EMBL PIR Domains, sites, families HAMAP InterPro PIRSF Pfam PRINTS ProDom PROSITE SMART TIGRFAMs Organism-specific dbSNP DictyDb EcoGene FlyBase GeneDB_SPombe Genew GK Gramene HIV Leproma ListiList MaizeDB MGD MypuList OMIM SagaList SGD StyGene SubtiList TIGR TubercuList WormPep ZFIN Swiss-Prot explicit links 2D-gel electrophoresis ANU-2DPAGE Aarhus/Ghent-2DPAGE COMPLUYEAST-2DPAGE ECO2DBASE HSC-2DPAGE MAIZE-2DPAGE PHCI-2DPAGE PMMA-2DPAGE Siena-2DPAGE SWISS-2DPAGE Swiss-Prot currently acts as the main index for the 15 federated 2D-PAGE databases. DNA (EMBL); 3D-structure (PDB); Littérature scientifique (Medline/Pubmed); Génomique (MIM, MGD, FlyBase, SGD, SubtiList, etc.); 2D-gel (SWISS-2DPAGE, etc.); Domaines / familles (PROSITE, Pfam, etc.); db spécialisées (TRANSFAC, etc.). Miscellaneous GermOnline GO MEROPS REBASE TRANSFAC Structure HSSP PDB

16 Controlled vocabularies in Swiss-Prot
Taxonomy (species names and classification); Strain names; Plasmid names; Tissues; Protein names and synonyms; Catalytic activity (ENZYME db); Gene names; Human(HUGO/Genew), Mouse(MGD), Yeast(SGD), Drosophila(Flybase) Bacterial (EcoGene/SubtiList); Keywords (list -> dictionary); Author names!; Journal abbreviations; Feature keys and some descriptions (PTM); CC similarity statements (BELONGS/CONTAINS); In the near future: COFACTOR, PATHWAY, SUBUNIT.

17 Certains problèmes Un manque de rigueur de la part de la communauté des sciences de la vie à utiliser et à faire évoluer des règles de nomenclature; L’extraordinaire hétérogénéité de l’information biologique, que ce soit au niveau de la qualité, du type de données ou de leur représentation; Les ontologies telles que GO (Gene Ontology) sont une aide précieuse pour permettre de représenter des processus biologiques, mais malheureusement elles sont souvent utilisées hors de leur contexte et souvent mal appliquées.

18 La qualité (1/3) La qualité de l’information “primaire”: séquence et structure va en augmentant grâce aux avancées technologiques; La qualité de l’information “secondaire”: l’interprétation des résultats expérimentaux est en constante baisse. La pression “publish or perish” devient de plus en plus forte et par conséquent: Ne permet pas aux chercheurs de prendre le temps de réfléchir; La compétition étant féroce, il est difficile de bénéficier de l’expertise de collègues travaillant dans le même domaine; Comme il est presque impossible de décrire des résultats négatifs, ceux-ci sont mis à la trappe; Il faut savoir se “vendre” et donc tirer les conclusions vers ce qui est le plus porteur et ceci souvent au mépris du bon sens.

19 La qualité (2/3) Paradoxalement:
Les auteurs des informations collectées par Swiss-Prot ne sont pas toujours les mieux à même d’assurer une qualité et une consistence maximum; La qualité des informations ne dépend que très peu du «prestige» de la source primaire de l’information. En d’autres termes il y a autant d’erreurs dans «Nature» ou «Science» que dans un journal bien moins loti en «impact factor»:

20 La qualité (3/3) Formation des annotatrices/annotateurs. Deux ans pour devenir «indépendent», mais un apprentissage constant; Chaque entrée de Swiss-Prot est toujours vue par deux personnes et vérifiée par des logiciels qui contrôlent le contenu et la consistence de l’information; Nous développons des systèmes experts pour aider à trouver les erreurs possibles. C’est loin d’être trivial car une exception n’est souvent pas une erreur, mais la conséquence de l’extraordinaire variété du monde vivant.

21 Le contraulle de kallité
Est essentiel pour toute banque de données, il est crucial dans le domaine des sciences de la vie. Dans Swiss-Prot nous passons une partie importante de notre temps à cette activité

22 The Swiss-Prot staff at SIB and EBI
Group leaders: Amos Bairoch, Rolf Apweiler Annotators/curators: Andrea Auchincloss, Kristian Axelsen, Kirsty Bates, Margaret Biswas, Marie-Claude Blatter Garin, Brigitte Boeckmann, Silvia Braconi Quintaje, Paul Browne, Eveyl Camon, Danielle Coral, Elisabeth Coudert, Tania de Oliveira Lima, Kirill Degtyarenko, Sylvie Dethiollaz, Anne Estreicher, Livia Famiglietti, Nathalie Farriol-Mathis, Stephanie Federico, Serenella Ferro, Gill Fraser, John Garavelli, Raffaella Gatto, Vivienne Gerritsen, Arnaud Gos, Nadine Gruaz-Gumowski, Ursula Hinz, Chantal Hulo, Nicolas Hulo, Janet James, Florence Jungo, Vivien Junker, Youla Karavidopoulou, Maria Krestyaninova, Kati Laiho, Minna Lehvaslaiho, Michele Magrane, Karine Michoud, Virginie Mittard, Madelaine Moinat, Nicola Mulder, Claire O'Donovan, Sandra Orchard, Sandrine Pilbout, Sylvain Poux, Manuela Prüss, Sorogini Reynaud, Catherine Rivoire, Bernd Röchert, Michel Schneider, Christian Sigrist, André Stutz, Shyamala Sundaram, Michael Tognoli, Sandra van den Broek, Eleanor Whitfield Programmers and system administrators: Daniel Barrell, David Binns, Laurent Bollondi, Sergio Contrino, Michael Darsow, Edouard deCastro, Séverine Duvaud, Alexander Fedetov, Astrid Fleischmann, Wolfgang Fleischmann, Elisabeth Gasteiger, Alain Gateau, Andre Hackmann, Henning Hermjakob, Ivan Ivanyi, Eric Jain , Alexander Kanapin, Paul Kersey, Ernst Kretschmann, Corinne Lachaize, Maria-Jesus Martin, Xavier Martin, John O ’Rourke, Tom Oinn, Isabelle Phan, Astrid Rakow, Nicole Redaschi, Kai Runte, Florence Servant, Allyson Williams, Dan Wu Research staff: Pavel Dobrokhotov, Alexandre Gattiker, Margus Luk, Anne Morgat, Anne-Lise Veuthey Clerical and secretarial assistance: Veronique Mangold, Claudia Sapsezian, Margaret Shore-Nye, Laure Verbregue

