Biologická databáze
Biologické databáze jsou knihovny biologických dat získaných z vědeckých experimentů, publikované literatury, experimentálních technologií a počítačových analýz.[1] Obsahují informace z různých vědeckých oblastí, zejména se jedná o genomiku, proteomiku, metabolomiku, microarray a fylogenetiku.[2] Biologické databáze obsahují informace o funkcích genů, struktuře, lokalizaci (buněčné i chromozomální), klinickém efektu mutací a podobnosti biologických sekvencí a struktur. Biologické databáze představují pro vědce nepostradatelnou pomůcku při jejich vyhodnocování a plánování experimentů. Pomáhají jim k porozumění a vysvětlení velkého množství biologických jevů ze struktury biomolekul a jejich interakcí, metabolismu organismů a porozumění evoluci druhů. Tyto znalosti pomáhají v boji proti nemocem, ve vývoji léků a objevení základních vztahů mezi druhy v průběhu evoluce. Biologická data jsou skladována v různých všeobecných i specializovaných databázích.
Biologická data
Biologická data jsou data nebo výsledky různých měření shromážděná z biologických zdrojů. Tato data jsou běžně uchovávána v digitální formě v celé řadě souborů nebo databází. Věda zabývající se hledáním a interpretací biologických dat se nazývá bioinformatika.[3] Jako příklady biologických dat lze uvést:
- Sekvence (DNA, RNA, proteiny)
- Struktury biologických molekul
- Biochemické dráhy
- Genové expresní profily
- Mapování chromozomů
- Genomická data
- Bibliografická data
- Fylogenetická data
- EST (expressed sequence tag)
- SNP (single nucleotide polymorphisms) a jiné variace
Využití biologických dat ve výzkumu
Biologická data mohou být velmi různorodá. Týkají se prakticky všech vědeckých oborů, např. genetiky, strukturální biologie, microarrays, farmakologie. Každý z těchto oborů má svou vlastní terminologii, nomenklaturu, pravidla a také biologická data. Je důležité si uvědomit, že laboratorní experimenty v mnoha případech produkují podobná a blízce související, ale ne identická data. Typy dat se mohou lišit ve formátech, ve kterých jsou ukládána. Nejčastěji se biologická data uchovávají jako obrázky, kresby, grafické struktury, nestrukturalizovaný text, sekvence, 3D proteinové struktury apod.
Nejčastější typy biologických dat
- Experimentální data – data, která byla získána jako výsledky laboratorních experimentů, např. digitální obrázky, výsledky pozorování.
- Fylogenetická data – data o evoluční příbuznosti mezi různými skupinami organismů. Informace jsou získávány prostřednictvím molekulárních sekvenčních dat (multiple sequence alignmenty) a morfologických dat.
- Metabolická data – data o metabolických drahách organismů (enzymatické reakce v živých organismech apod.).
- Nezpracovaná data – data, která nikdy nebyla předmětem manipulace nebo zpracování.
- Sekvence – data z DNA sekvencí nebo proteinových sekvencí, multiple sequence alignmenty.
- Strukturní data – 3D struktury proteinů, DNA, RNA nebo malých molekul.
- EST (expressed sequence tag) – jsou krátké DNA sekvence (okolo 300 – 1000 bp), které jsou odvozené z cDNA. Reprezentují geny exprimované ve tkáních, ze kterých je odvozena cDNA knihovna (transkriptom). Tato data nám umožňují základní srovnávání mezi různými organismy, rozlišování genových rodin, poskytují informace o genech exprimovaných ve specifických tkáních, nebo v závislosti na odpovědi vůči vnějším vlivům, používají se k identifikaci genových transkriptů a pomáhají v objevování genů a determinaci sekvencí, atd.
- SNP (single nucleotide polymorphisms) a jiné variace – jsou odchylky individuálních nukleotidů v sekvenci DNA. Jednonukleotidové polymorfismy jsou nejčastěji nalézanou genetickou změnou v lidské populaci. Každý SNP reprezentuje rozdíl v jednom stavebním bloku DNA. Většina SNP pravděpodobně nemá přímý vliv na lidské zdraví, ale mohou pozměnit účinek léků nebo odpověď organismu na vystavení zátěži chemickým či biologickým škodlivinám v životním prostředí. SNP navíc mohou být použity k vysledování zákonů, kterými se řídí dědičnost v rodinách s vysokým výskytem některých chorob, např.: diabetu, kardiovaskulárních, či nádorových onemocnění.
Přístup do databází
Většina biologických databází je přístupná přes webové stránky, biologická data jsou uspořádána tak, že uživatelé je mohou snadno prohlížet online a stahovat je v různých formátech. Biologická data jsou uchovávána v mnoha formátech (např. text, sekvenční data, proteinové struktury). Každý typ formátu je zpravidla nalézán v určitém typu databáze např.:
- Textové formáty jsou dostupné na PubMed a OMIM.
- Sekvenční data jsou dostupná na GenBank pro DNA a UniProt, Swiss – Prot pro proteiny.
- Proteinové struktury jsou dostupné na PDB, SCOP a CATH.
Příklady databází pro základní biologická data
Databáze sekvencí DNA a proteinů:
- GenBank: https://www.ncbi.nlm.nih.gov/genbank/
- EMBL (Nucleotide Sequence database): http://www.ebi.ac.uk/embl/index.html
- DDBJ (DNA Data Bank of Japan): http://www.ddbj.nig.ac.jp/
- PIR (Protein Information Resource): https://web.archive.org/web/20140312021627/http://pir.georgetown.edu/
- Swiss-Prot: http://www.expasy.ch/sprot/sprot-top.html
- UniProt: http://www.uniprot.org/
Strukturní databáze:
- Obsahují 3D struktury malých molekul, proteinů, nukleových kyselin (RNA i DNA)
- PDB (Protein Data Bank): https://web.archive.org/web/20100109141259/http://www.rcsb.org/pdb/index.html
- NDB (Nucleic Acid Database): http://ndbserver.rutgers.edu/
- CSD (Cambridge Structural Database): http://www.ccdc.cam.ac.uk/Solutions/CSDSystem/Pages/CSD.aspx
Databáze zabývající se klasifikací proteinových rodin a proteinových domén:
- SCOP (Structure Classification of Proteins): https://web.archive.org/web/20070911012207/http://scop.mrc-lmb.cam.ac.uk/scop/
- CATH (Protein Structure Classification Database): http://www.cathdb.info/
- PROSITE database for protein family and domains: http://www.expasy.ch/prosite/
- BLOCK: https://web.archive.org/web/20130328131920/http://blocks.fhcrc.org/
Databáze SNP:
- SNP Consortium: https://web.archive.org/web/20130903043223/http://snp.cshl.org/
- dbSNP (Single Nucleotide Polymorphism Database): http://www.ncbi.nlm.nih.gov/snp
- ALFRED (Allele Frequency Database): http://alfred.med.yale.edu/alfred/index.asp Archivováno 2. 11. 2011 na Wayback Machine.
- CEPH Genotype Database: https://web.archive.org/web/20050924150853/http://www.cephb.fr/cephdb/
Databáze odborné literatury:
- PubMed MEDLINE: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi
- USPTO (U.S. Patent and Trademark Office): http://www.uspto.gov/
Databáze interakcí protein-protein, metabolické dráhy, proteinové dráhy:
- KEGG (Kyoto Encyclopedia of Genes and Genomes): http://www.genome.ad.jp/kegg/kegg2.html#pathway
- BIND (Biomolecular Interaction Network Database): https://web.archive.org/web/20130304194204/http://www.binddb.org/
- DIP (Database of Interacting Proteins): http://dip.doe-mbi.ucla.edu/dip/Main.cgi
Genetické databáze (mutace, geneticky podmíněné nemoci, genetické mapování):
- GDB (Genome Database): http://gdbwww.gdb.org/gdb/
- OMIM (Online Mendelian Inheritance in Man): http://www.ncbi.nlm.nih.gov/omim?TabCmd=Limits
- HGMD (Human Gene Mutation Database): http://www.hgmd.cf.ac.uk/ac/index.php
Databáze datových center (zahrnující sekvence, struktury, funkce, literaturu atd.):
- NCBI (National Center for Biotechnology and Information): http://www.ncbi.nlm.nih.gov/
- EBI (European Bioinformatics Institute): http://www.ebi.ac.uk/
- European Molecular Biology Laboratory (EMBL): http://www.emblheidelberg.de/
Genomové databáze (kompletní genomové sekvence a příbuzné informace pro specifické organismy):
- Entrez complete genomes: http://www.ncbi.nlm.nih.gov/Class/MLACourse/Modules/Genomes/entrez_genomes.html
- Complete genome at EBI: http://www.ebi.ac.uk/genomes/
- University of California, Santa Cruz, Human Genome Working Draft: http://genome.ucsc.edu/
- MGD (Mouse Genome Database): http://www.informatics.jax.org/
- SGD (Saccharomyces Genome Database): http://www.yeastgenome.org/
- FlyBase (a database of the Drosophila genome): https://web.archive.org/web/20090815020557/http://flybase.bio.indiana.edu/
- WormBase (the genome and biology of Caenorhabditis elegans): https://web.archive.org/web/20170420234209/http://www.wormbase.org/
Databáze expresních profilů (microarray a genová exprese cDNA):
- Unigene: http://www.ncbi.nlm.nih.gov/UniGene/
- dbEST (Expression Sequence Tag Database): http://www.ncbi.nlm.nih.gov/dbEST/index.html
- GEO (Gene Expression Omnibus): http://www.ncbi.nlm.nih.gov/geo/
Reference
- ↑ ATTWOOD, T.K.; GISEL, A.; ERIKSSON, N-E.; BONGCAM-RUDLOFF, E. Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective. Bioinformatics - Trends and Methodologies [online]. InTech, 2011-11-02 [cit. 2018-07-16]. Dostupné online. DOI 10.5772/23535. (anglicky)
- ↑ ALTMAN, R. B. Editorial: Building successful biological databases. S. 4–5. Briefings in Bioinformatics [online]. 2004-01-01 [cit. 2018-07-16]. Roč. 5, čís. 1, s. 4–5. Dostupné online. DOI 10.1093/bib/5.1.4. (anglicky)[nedostupný zdroj]
- ↑ BOURNE, Philip. Will a Biological Database Be Different from a Biological Journal?. S. e34. PLoS Computational Biology [online]. 2005 [cit. 2018-07-16]. Roč. 1, čís. 3, s. e34. Dostupné online. DOI 10.1371/journal.pcbi.0010034. PMID 16158097. (anglicky)
Externí odkazy
- Obrázky, zvuky či videa k tématu biologická databáze na Wikimedia Commons
- interaktivní seznam biologických databází