Protein Data Bank

Příklad struktury v PDB databázi. Na obrázku molekula měsíce (březen 2000) DNA polymeráza

Protein Data Bank (zkráceně PDB) je primární databáze 3-D struktur makromolekul jako např. proteinů, nukleových kyselin. PDB je důležitý zdroj bioinformatických dat pro molekulární biologii, medicínu a farmacii. Všechny uložené struktury a data jsou volně dostupné. Může je vkládat kdokoliv, není tedy zajištěna bezchybnost uveřejněných záznamů. Zdrojem dat bývá experimentální měření metodami NMR a X-ray krystalografie. V roce 2003 byla založena organizace wwPDB (Worldwide Protein Data Bank), která zajišťuje chod celé online databáze, její anotaci a sleduje její vývoj.[1] Financování databáze je umožněno díky vládním příspěvkům a uživatelským poplatkům.

Historie

PDB byla založena v roce 1971 doktorem Walterem Hamiltonem na podnět Americké krystalografické společnosti (ACA).[2] Na začátku obsahovala databáze pouhých 7 struktur, které byly distribuovány na magnetických páscích. V této době záznamy přibývaly s rychlostí zhruba 25 struktur za rok. Až teprve po zdokonalení technik krystalografie začaly data přibývat exponencionálně, od roku 1987 je to až 50 struktur týdně.
Po vzniku wwPDB v roce 2003 se stala PDB databáze mezinárodním projektem. Sdružuje PDBe[3] (Evropa), PDBj[4] (Japonsko), RCSB[5] (USA) a od roku 2005 také BMRB (Biological magnetic resonance bank). Za management PDB je zodpovědná RCSB, a to od roku 1998 až do současnosti.

Počet struktur

Každá struktura má přiřazené své PDB ID. Je to individuální 4 místný kód. Na prvním místě je vždy číslice od 1-9, na druhém až čtvrtém místě je libovolné číslo od 0-9 nebo písmeno z anglické abecedy A-Z. Možných ID je tedy 419 904. Počet struktur lze vypočítat dle:

n = exp(0,19y)
n – počet struktur za rok
y – počet roků od roku 1960

Tento vzorec byl odvozen v roce 1978 Richardem E. Dickersonem, který předpovídal exponenciální růst počtu vložených struktur.[6] Na konci roku 2012 mělo být dle tohoto vzorce 112 891 struktur v databázi, ve skutečnosti jich ale v PDB bylo méně- 87 030. Dickersonův předpoklad exponencionálního růstu dnes již neplatí. Graf počtu struktur je k dispozici na stránce PDB.

Vyhledávání v PDB

V databázi PDB lze struktury vyhledávat podle ID, názvu molekuly, autora, který strukturu nahrál nebo dle sekvence. V pokročilém vyhledávání lze blíže specifikovat i např. datum nahrání, experimentální metodu nebo biologický původ molekuly. Zajímavostí PDB je, že je pravidelně vybírána molekula měsíce Archivováno 24. 9. 2011 na Wayback Machine.. Její struktura, funkce a význam pro lidské zdraví je presentováno srozumitelným způsobem, vhodným pro kohokoliv.

Formát PDB

Výsledek hledání je textový soubor ve formátu PDB, který popisuje 3D strukturu pomocí interpretace elektronové hustoty atomů molekuly. Formát obsahuje základní údaje o molekule a autorovi. Experimentální údaje jsou zapsány do sloupců, které udávají číslo atomu, jeho druh, typ aminokyselinového zbytku a jeho pořadí. Také jsou uvedeny X, Y a Z souřadnice, které udávají polohu daného atomu v molekule. Poslední dva sloupce udávají počet možných konformací a teplotní flexibilitu. Výsledný zápis vypadá takto:

HEADER    EXTRACELLULAR MATRIX                    22-JAN-98   1A3I
TITLE     X-RAY CRYSTALLOGRAPHIC DETERMINATION OF A COLLAGEN-LIKE
TITLE    2 PEPTIDE WITH THE REPEATING SEQUENCE (PRO-PRO-GLY)
...
EXPDTA    X-RAY DIFFRACTION
AUTHOR    R.Z.KRAMER,L.VITAGLIANO,J.BELLA,R.BERISIO,L.MAZZARELLA,
AUTHOR   2 B.BRODSKY,A.ZAGARI,H.M.BERMAN
...
REMARK 350 BIOMOLECULE: 1
REMARK 350 APPLY THE FOLLOWING TO CHAINS: A, B, C
REMARK 350   BIOMT1   1  1.000000  0.000000  0.000000        0.00000
REMARK 350   BIOMT2   1  0.000000  1.000000  0.000000        0.00000
...
SEQRES   1 A 9  PRO PRO GLY PRO PRO GLY PRO PRO GLY
SEQRES   1 B 6  PRO PRO GLY PRO PRO GLY
SEQRES   1 C 6  PRO PRO GLY PRO PRO GLY
...
ATOM      1  N   PRO A 1       8.316  21.206  21.530  1.00 17.44           N
ATOM      2  CA  PRO A 1       7.608  20.729  20.336  1.00 17.44           C
ATOM      3  C   PRO A 1       8.487  20.707  19.092  1.00 17.44           C
ATOM      4  O   PRO A 1       9.466  21.457  19.005  1.00 17.44           O
ATOM      5  CB  PRO A 1       6.460  21.723  20.211  1.00 22.26           C
...
HETATM  130  C   ACY   401       3.682  22.541  11.236  1.00 21.19           C
HETATM  131  O   ACY   401       2.807  23.097  10.553  1.00 21.19           O
HETATM  132  OXT ACY   401       4.306  23.101  12.291  1.00 21.19           O
...


PDB formát má koncovku .pdb. Lze ho otevřít v mnoha programech, např. Discovery Studio, PyMOL, Jmol, UCSF, Cn3D. Některé z těchto programů lze zdarma stáhnout z internetu.

Reference

V tomto článku byl použit překlad textu z článku Protein Data Bank na anglické Wikipedii.

  1. Berman, H. M., Henrick, K. & Nakamura, H. Announcing the worldwide Protein Data Bank. Nat Struct Biol. 10(12), 980 (2003)
  2. http://link.springer.com/chapter/10.1007%2F978-94-011-4631-9_16#
  3. PDBe Protein Data Bank in Europe
  4. Welcome to PDBj – Home
  5. http://www.rcsb.org/
  6. Archivovaná kopie. www.sdsc.edu [online]. [cit. 2013-05-16]. Dostupné v archivu pořízeném z originálu dne 2020-07-16. 

Související články

Externí odkazy

Média použitá na této stránce

DNA polymerase.png
Autor: Yikrazuul, Licence: CC BY-SA 3.0
structure of Homo sapiens DNA polymerase beta, pdb file 7ICG. A bound DNA is also indicated