Protein Data Bank La banque de données sur les protéines du Research Collaboratory for Structural Bioinformatics, plus communément appelée Protein Data Bank ou PDB est une collection mondiale de données sur la structure tridimensionnelle (ou structure 3D) de macromolécules biologiques : protéines , essentiellement acides nucléiques. Ces structures sont essentiellement déterminées par: cristallographie aux rayons X ou spectroscopie RMN Ces données expérimentales sont déposées dans la PDB par des biologistes et des biochimistes du monde entier et appartiennent au domaine public. Leur consultation est gratuite et peut se faire directement depuis le site web [1] de la banque. La PDB est la principale source de données de biologie structurale et permet en particulier d’accéder à des structures 3D de protéines d’intérêt pharmaceutique. D'après Wikipédia, l'encyclopédie libre
Historique: les années 60 Début de la structure 3D 1ère structure 3D: prix Nobel pour myoglobine et l'hémoglobine The Nobel Prize in Chemistry 1962 "for their studies of the structures of globular proteins" Max Ferdinand Perutz John Cowdery Kendrew
Historique: les années 60 Début de la structure 3D 1937 Max Perutz performed some experiments in Cambridge to find out whether it might be possible to determine the structure of haemoglobin by X-ray diffraction 1947 John Kendrew joined Perutz' research group, Perutz succeeded in incorporating heavy atoms, namely those of mercury, into definite positions in the haemoglobin molecule 1953 1957 production of a three-dimensional model of myoglobin at 6Å resolution 1960 an almost complete structure of myoglobin at 2.0 Å resolution
Historique: les années 60 an almost complete structure at 2.0 Å resolution production of a three-dimensional model of myoglobin at 6Å resolution
Historique: les années 60 Représentation 3D John Kendrew with his model of myoglobin in 1959. Photograph from Max Perutz
Historique: les années 60 Repliement des protéines: Expérience d'Anfinsen Nobel Prize in Chemistry 1972 "for his work on ribonuclease, especially concerning the connection between the amino acid sequence and the biologically active conformation"
Historique: les années 70 Fondée par le Laboratoire national de Brookhaven, La PDB contient à l’origine 7 structures 1971 1975 financement assuré par la National Science Foundation 32 structures 1977 Bernstein FC, Koetzle TF, Williams GJ, Meyer Jr EF, Brice MD, Rodgers JR, Kennard O, Shimanouchi T, Tasumi M. The Protein Data Bank: a computer-based archival file for macromolecular structures. J Mol Biol 1977; 112:535-542. PMID 875032. 1979 environ 120 structures
Historique: les années 80 Décollage technologique Biologie moléculaire Informatique (matériel et logiciel) instrumentation Promouvoir le partage des données Parution des normes ("guidelines") IUCr pour les données destinées à la PDB
Historique: les années 90 Dépôt des données Double publication (la majorité des journaux demandent un code PDB) Une agence de financement, le NIST, exigeait le dépôt de toutes les données structurales. Diffusion La PDB est également devenu accessible par le réseau Internet Communauté d'utilisateurs augmente Biologie structurale Nombre de structures augmente exponentiellement Apparition de nouvelles banques de données Stockage des données Création du format mmCIF
Historique: les années 90 en 1998 Transfert au Research Collaboratory for Structural Bioinformatics (RCSB): de l'Université de Rutgers, de l'Université du Wisconsin à Madison, du National Institute of Standards and Technology (NIST) et du "San Diego Supercomputer Center". Le financement est assuré par la National Science Foundation, le Department of Energy, la National Library of Medicine et le National Institute of General Medical Sciences. Autres organismes traitant les données structurales L’European Bioinformatics Institute, (EBI), au Royaume-Uni [banque MSD] L' Institute for Protein Research, au Japon [banque PDBj]
création de la Worlwide Protein Data Bank (wwPDB) Historique: les années 2000 En 2003 création de la Worlwide Protein Data Bank (wwPDB) Trois organisations membres RCSB (USA), MSD-EBI (Macromolecular Structure Database - EBI, Europe) PDBj (Protein Data Bank Japan, Japon). Rôles centres de dépôt centres de traitement centres de distribution des données de la PDB. Mission de la wwPDB maintenir à jour une archive PDB unique de données structurales macromoléculaires, accessible gratuitement et publiquement pour l’ensemble de la communauté.
Historique: les années 2000
Historique: les années 2000 Avènement génomique structurale compréhension structure/fonction programmes de détermination de structures de tous les génomes Progrès technologiques Grosses structures résolues : Ribosome Virus Création d'un volet Microscopie électronique dans la PDB banque EMDB
Contenu La PDB contient, au 01/05/2006, 36247 structures. Format des données - Fichiers plats depuis l’origine au format pdb, et sont depuis quelques années également au format mmCif, spécifiquement développé pour les données structurales de la PDB. en préparation PDBML, XML pour PDB - 2000 à 3000 structures sont ajoutées chaque année. - La banque contient des fichiers pour chaque modèle moléculaire. - Ces fichiers décrivent la localisation exacte de chaque atome de la macromolécule étudiée, c'est-à-dire les coordonnées cartésiennes de l’atome dans un repère à trois dimensions.
Format PDB Annotations Coordonnées 3D
Format PDB: présentation générale HEADER HORMONE 23-SEP-97 1ZNI TITLE INSULIN COMPND MOL_ID: 1; COMPND 2 MOLECULE: INSULIN; COMPND 3 CHAIN: A, B, C, D COMPND 4 BIOLOGICAL_UNIT: HETERODIMER; SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: SUS SCROFA; SOURCE 3 ORGANISM_COMMON: PORCINE KEYWDS HORMONE, GLUCOSE METABOLISM EXPDTA X-RAY DIFFRACTION AUTHOR M.G.W.TURKENBURG,J.L.WHITTINGHAM,G.G.DODSON,E.J.DODSON, AUTHOR 2 B.XIAO,G.A.BENTLEY REVDAT 1 28-JAN-98 1ZNI 0 JRNL AUTH G.BENTLEY,E.DODSON,G.DODSON,D.HODGKIN,D.MERCOLA JRNL TITL STRUCTURE OF INSULIN IN 4-ZINC INSULIN JRNL REF NATURE V. 261 166 1976 JRNL REFN ASTM NATUAS UK ISSN 0028-0836 0006
Format PDB: remarques REMARK 1 REMARK 1 REFERENCE 1 REMARK 1 AUTH G.D.SMITH,G.G.DODSON REMARK 1 TITL THE STRUCTURE OF A RHOMBOHEDRAL R6 INSULIN HEXAMER REMARK 1 TITL 2 THAT BINDS PHENOL REMARK 1 REF BIOPOLYMERS V. 32 441 1992 REMARK 1 REFN ASTM BIPMAA US ISSN 0006-3525 0161 .................. REMARK 1 REFERENCE 8 REMARK 1 AUTH G.BENTLEY,G.DODSON,A.LEWITOVA REMARK 1 TITL RHOMBOHEDRAL INSULIN CRYSTAL TRANSFORMATION REMARK 1 REF J.MOL.BIOL. V. 126 871 1978 REMARK 1 REFN ASTM JMOBAK UK ISSN 0022-2836 0070 REMARK 2 REMARK 2 RESOLUTION. 1.5 ANGSTROMS. REMARK 3 REMARK 3 REFINEMENT. REMARK 4 REMARK 4 1ZNI COMPLIES WITH FORMAT V. 2.2, 16-DEC-1996 REMARK 6 REMARK 6 SOLVENT MOLECULES ARE INCLUDED IN THE REFINEMENT REMARK 7 REMARK 7 IN 2ZN INSULIN (ENTRY 4INS) THE FOLLOWING APPLIES: REMARK 8 REMARK 8 ENTRY 4INS WILL BE UPDATED TO BE CONSISTENT WITH THE NEW REMARK 10 SOME RESIDUES ARE APPARENTLY DISORDERED AND CERTAINLY REMARK 11 REMARK 200 REMARK 200 EXPERIMENTAL DETAILS REMARK 500 REMARK 500 GEOMETRY AND STEREOCHEMISTRY REMARK 999 1ZNI D SWS P01315 31 - 84 NOT IN ATOMS LIST
Format PDB: Géométrie, struct II DBREF 1ZNI A 1 21 SWS P01315 INS_PIG 64 84 DBREF 1ZNI B 1 30 SWS P01315 INS_PIG 1 30 DBREF 1ZNI C 1 21 SWS P01315 INS_PIG 64 84 DBREF 1ZNI D 1 30 SWS P01315 INS_PIG 1 30 SEQRES 1 A 21 GLY ILE VAL GLU GLN CYS CYS THR SER ILE CYS SER LEU SEQRES 2 A 21 TYR GLN LEU GLU ASN TYR CYS ASN .......... SEQRES 3 B 30 THR PRO LYS ALA SEQRES 1 C 21 GLY ILE VAL GLU GLN CYS CYS THR SER ILE CYS SER LEU HET ZN 1 1 HET ZN 2 1 HET ZN 3 1 HET CL 4 1 HET CL 5 1 HET CL 6 1 HETNAM ZN ZINC ION HETNAM CL CHLORIDE ION FORMUL 5 ZN 3(ZN1 2+) FORMUL 6 CL 3(CL1 1-) FORMUL 7 HOH *103(H2 O1) HELIX 1 1 ILE A 2 CYS A 6 1 5 ......... SHEET 1 A 2 PHE B 24 TYR B 26 0 TURN 1 1B1 CYS B 19 ARG B 22 SSBOND 1 CYS A 6 CYS A 11 LINK ZN ZN 1 NE2 HIS D 10 LINK ZN ZN 2 NE2BHIS B 10 LINK ZN ZN 2 CL CL 4 LINK ZN ZN 3 NE2AHIS B 10 CRYST1 80.700 80.700 37.600 90.00 90.00 120.00 H 3 18 ORIGX1 1.000000 0.000000 0.000000 0.00000 ORIGX2 0.000000 1.000000 0.000000 0.00000 ORIGX3 0.000000 0.000000 1.000000 0.00000 SCALE1 0.012392 0.007154 0.000000 0.00000 SCALE2 0.000000 0.014309 0.000000 0.00000 SCALE3 0.000000 0.000000 0.026596 0.00000 MTRIX1 1 -0.888980 -0.452310 -0.071630 0.00000 1 MTRIX2 1 -0.451680 0.891810 -0.025700 0.00000 1 MTRIX3 1 0.075500 0.009500 -0.997100 0.00000 1
structures II MULTISTRAND SHEET PARALLEL/ANTIPARALLEL SHEET 1 S1 5 GLN 31 ASP 32 0 7TLN 185 SHEET 2 S1 5 ILE 39 ASP 43 -1 N ILE 39 O ASP 32 7TLN 186 SHEET 3 S1 5 ILE 100 TYR 106 1 N SER 102 O PHE 40 7TLN 187 SHEET 4 S1 5 GLU 119 TYR 122 1 N TYR 122 O SER 103 7TLN 188 SHEET 5 S1 5 ASN 112 TRP 115 -1 N PHE 114 O VAL 121 7TLN 189 SHEET 1 S2 5 GLY 52 LEU 54 0 7TLN 190 SHEET 2 S2 5 ILE 39 ASP 43 -1 N ASP 43 O SER 53 7TLN 191 SHEET 3 S2 5 ILE 100 TYR 106 1 N SER 102 O PHE 40 7TLN 192 SHEET 4 S2 5 GLU 119 TYR 122 1 N TYR 122 O SER 103 7TLN 193 SHEET 5 S2 5 ASN 112 TRP 115 -1 N PHE 114 O VAL 121 7TLN 194 SHEET 1 S3 5 TRP 55 ASP 57 0 7TLN 195 SHEET 2 S3 5 TYR 27 TYR 29 -1 O TYR 28 N ASP 57 7TLN 196 SHEET 3 S3 5 ASP 16 SER 25 -1 O THR 23 N TYR 29 7TLN 197 SHEET 4 S3 5 THR 2 ARG 11 -1 O THR 6 N THR 22 7TLN 198 SHEET 5 S3 5 GLN 61 PHE 62 1 O VAL 9 N PHE 62 7TLN 199
Format PDB: Atomes ATOM 20 N GLU A 4 -6.621 12.553 14.777 1.00 40.46 N ATOM 21 CA GLU A 4 -7.270 12.417 16.070 1.00 45.20 C ATOM 22 C GLU A 4 -8.610 11.701 15.969 1.00 44.29 C ATOM 23 O GLU A 4 -9.034 10.966 16.866 1.00 49.84 O ATOM 24 CB GLU A 4 -7.563 13.802 16.697 1.00 54.07 C ATOM 25 CG GLU A 4 -6.732 14.140 17.918 1.00 62.04 C ATOM 26 CD GLU A 4 -7.383 13.707 19.227 1.00 73.67 C ATOM 27 OE1 GLU A 4 -8.267 14.434 19.747 1.00 70.14 O ATOM 28 OE2 GLU A 4 -7.009 12.624 19.747 1.00 72.08 O ATOM 29 N GLN A 5 -9.300 11.958 14.857 1.00 43.15 N ATOM 30 CA GLN A 5 -10.652 11.426 14.707 1.00 34.91 C ATOM 31 C GLN A 5 -10.633 10.018 14.187 1.00 34.47 C ATOM 32 O GLN A 5 -11.582 9.244 14.413 1.00 39.38 O ATOM 33 CB GLN A 5 -11.432 12.372 13.811 1.00 40.38 C ATOM 34 CG GLN A 5 -12.778 11.895 13.296 1.00 40.16 C ATOM 35 CD GLN A 5 -13.523 13.075 12.697 1.00 55.05 C ATOM 36 OE1 GLN A 5 -14.000 13.970 13.408 1.00 70.86 O ATOM 37 NE2 GLN A 5 -13.596 13.146 11.380 1.00 51.18 N
Format PDB Record Format COLUMNS DATA TYPE FIELD DEFINITION --------------------------------------------------------------------------------- 1 - 6 Record name "ATOM " 7 - 11 Integer serial Atom serial number. 13 - 16 Atom name Atom name. 17 Character altLoc Alternate location indicator. 18 - 20 Residue name resName Residue name. 22 Character chainID Chain identifier. 23 - 26 Integer resSeq Residue sequence number. 27 AChar iCode Code for insertion of residues. 31 - 38 Real(8.3) x Orthogonal coordinates for X in Angstroms. 39 - 46 Real(8.3) y Orthogonal coordinates for Y in 47 - 54 Real(8.3) z Orthogonal coordinates for Z in 55 - 60 Real(6.2) occupancy Occupancy. 61 - 66 Real(6.2) tempFactor Temperature factor. 73 - 76 LString(4) segID Segment identifier, left-justified. 77 - 78 LString(2) element Element symbol, right-justified. 79 - 80 LString(2) charge Charge on the atom.
Format PDB: Hétéroatomes... et fin. HETATM 924 O HOH 94 18.630 13.469 -9.307 1.00 62.22 O HETATM 925 O HOH 95 12.482 18.199 4.566 1.00 59.87 O HETATM 926 O HOH 96 14.641 4.689 -10.069 1.00 40.77 O HETATM 927 O HOH 97 -13.188 11.426 -8.887 1.00 36.69 O HETATM 928 O HOH 98 11.550 15.703 7.081 1.00 53.44 O HETATM 929 O HOH 99 -4.752 16.257 11.352 1.00 59.83 O HETATM 930 O HOH 100 -14.838 10.066 14.429 1.00 48.02 O HETATM 931 O HOH 101 10.662 14.062 -17.129 1.00 60.32 O HETATM 932 O HOH 102 -1.989 -0.149 0.952 1.00 41.45 O HETATM 933 O HOH 103 -10.95 12.514 -12.677 1.00 59.24 O CONECT 43 42 76 CONECT 49 48 223 .......... CONECT 830 827 MASTER 368 0 6 6 2 4 0 9 929 4 21 10 END
Format mmCIF devient : HEADER PLANT SEED PROTEIN 11-OCT-91 1CBN _struct.entry_id '1CBN' _struct.title 'PLANT SEED PROTEIN' _struct_keywords.entry_id '1CBN' _struct_keywords.text 'plant seed protein' _database_2.database_id 'PDB' _database_2.database_code '1CBN' _database_PDB_rev.rev_num 1 _database_PDB_rev.date_original '1991-10-11' appariement nom-valeur est la différence majeure par rapport au format pdb. Il présente l’avantage de fournir une référence explicite pour chaque élément des données du fichier, plutôt que de librement laisser l’interprétation au programme qui lit le fichier.
Protein Data Bank Markup Language (PDBML) Traduction du format mmCIF <?xml version="1.0" encoding="UTF-8" ?> <PDBx:datablock datablockName="1ZNI" xmlns:PDBx="http://deposit.pdb.org/pdbML/pdbx.xsd" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://deposit.pdb.org/pdbML/pdbx.xsd pdbx.xsd"> <PDBx:audit_authorCategory> <PDBx:audit_author name="Turkenburg, M.G.W."></PDBx:audit_author> <PDBx:audit_author name="Whittingham, J.L."></PDBx:audit_author> <PDBx:audit_author name="Dodson, G.G."></PDBx:audit_author> <PDBx:audit_author name="Dodson, E.J."></PDBx:audit_author> <PDBx:audit_author name="Xiao, B."></PDBx:audit_author> <PDBx:audit_author name="Bentley, G.A."></PDBx:audit_author> </PDBx:audit_authorCategory>