暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

摸爬滚打的第7天--了解数据库

生信工具人 2020-05-04
1152
生物信息学说白了就是通过电脑的‘超级大脑’对大量数据的挖掘,通过大量的数据来对某一点进行深刻的研究,那我们的数据是从哪里来呢?途径主要是两种,一个是通过各大数据库上传的数据下载后分析,另一种就是自己花钱测数据再进行分析(比较烧钱)。对于我们这样的初学者来说,当然是从数据库来下载简单的数据进行分析了。所以今天介绍下各类数据库~

认识数据库

这个世界上,到底有多少生物数据库?很难统计,但是用成百上千这个词儿一点儿也不 夸张。著名的学术期刊 Nucleic Acids Research 有一个生物数据库专刊。有点儿规模的数据库 都争相在这里发表。包括 Genbank,PDB 等等,都在这里发表更新版本。截止 2015 年底, 这个专刊收录的生物数据库累计 1685 个。当然还有一些在其他刊物发表的小型专项数据库。加上这些,目前世界上有超过 2000 个生物数据库。当然,不是所有数据库都是活的。

数据库的分类

不同的教材分类原则不同,也就是没有标准的分类方法。我们这 里选取了比较好理解的原则,把生物数据库首先分成三大类。核酸数据库,蛋白质数据库和专用数据库。核酸数据库顾名思义,是与核酸相关的数据库。蛋白质数据库是与蛋白质相关 的数据库。而专用数据库是专门针对某一主题的数据库,或者是综合性的数据库,以及无法归入其他两类的数据库。

1.核酸数据库

一级核酸数据库

它主要包括三大核酸数据库和基因组数据库。
三大核酸数据库包括 NCBI 的 Genbank,EMBL 的 ENA 和 DDBJ,它们共同构成国际核酸序列数据 库。三大核酸数据库,美国一个,欧洲一个,亚洲一个。美国的 Genbank 由美国国家生物 技术信息中心 NCBI 开发并负责维护。NCBI 隶属于美国国立卫生研究院 NIH。欧洲核苷酸 序列数据集 ENA 由欧洲分子生物学研究室 EMBL 开发并负责维护。亚洲的核酸数据库 DDBJ 由位于日本静冈的日本国立遗传学研究所 NIG 开发并负责维护。Genbank,EMBL 与 DDBJ 共同构成国际核酸序列数据库合作联盟 INSDC。通过 INSDC,三大核酸数据库的信息每日 相互交换,更新汇总。这使得他们几乎在任何时候都享有相同的数据。
微生物宏基因组数据库是非常有用的一级核酸数据库资源。说到微生物宏基因组学,不凡得不介绍的是美国基因组研究所 TIGR 和克莱格凡特研究所 JCVI。美国基因组研究所致力 于微生物基因组的研究,也有部分植物基因组项目。它是克莱格·凡特研究所的一部分。自 1995 年成立之初的两个基因组,至今已拥有超过 700 个基因组,而且还将更多。TIGR 是 NCBI 基因组资源的有力补充,因为它不仅拥有已完成测序的基因组,还有那些测序中的基 因组信息。在植物基因组项目中可以找到拟南芥、玉米、苜蓿和柳树的基因组信息。在微生物与环境基因组目中,特别值得关注的是“人类微生物组计划”(HMP)。
HMP 由美国 NIH 发起,由 4 个四个测序中心共同完成,其中一个就是克莱格凡特学院。“人类微生物组计划”堪比“人类基因组计划”。我们目前认知的微生物不到 1%,生活在我 们肠道中的微生物细胞,是人体细胞的 10 倍。这些微生物基因组之和是人类基因组的 100 倍。微生物影响并超越我们的生老病死,有一天人死了,但身体中的微生物却还活着。除了近年来少量的有关糖尿病等与肠道微生物的研究外,我们完全不清楚肠道微生物,呼吸道微 生物,还有体表微生物等在人体内做了什么,他们的喜怒哀乐与我们的生老病死有什么关系。所以世界上诸多科学家都呼吁完成微生物组的研究计划。HMP 就是其中之一。目前,HMP 主要包括了人类鼻腔、口腔、皮肤、胃肠道和泌尿生殖道的宏基因组样本数据和分析流程。


二级核酸数据库


二级核酸数据库包括的内容非常多。其中 NCBI 下属的三个数据库经常会用到。他们是 RefSeq 数据库,dbEST 数据库和 Gene 数据库。RefSeq 数据库,也叫参考序列数据库,是通 过自动及人工精选出的非冗余数据库,包括基因组序列、转录序列和蛋白质序列。凡是叫 ref 什么的数据库都是非冗余数据库,就是已经帮你把重复的内容去除掉了。dbEST 数据库, 也就是表达序列标签数据库,存储的是不同物种的表达序列标签。Gene 数据库以基因为记 录对象为用户提供基因序列注释和检索服务,收录了来自 5300 多个物种的 430 万条基因记录。
此外,非编码 RNA 数据库,提供非编码 RNA 的序列和功能信息。非编码 RNA 不编码 蛋白质但在细胞中起调节作用。目前该数据库包含来源于 99 种细菌,古细菌和真核生物的 3 万多条序列。microRNA 数据库主要存放已发表的 microRNA 序列和注释。这个数据库可 以分析 microRNA 在基因组中的定位和挖掘 microRNA 序列间的关系。
====================================RefSeq https://www.ncbi.nlm.nih.gov/refseq/ dbEST https://www.ncbi.nlm.nih.gov/dbEST/ Gene https://www.ncbi.nlm.nih.gov/gene ncRNA http://biobases.ibch.poznan.pl/ncRNA microRNA http://www.mirbase.org/====================================

2.蛋白质数据库

一级蛋白质序列数据库


一级蛋白质序列数据 库包含三大蛋白质序列数据库,Swiss-Prot,TrEMBL 和 PIR,这三个数据库共同构成 UniProt 数据库。
2002 年,Swiss-Prot 和 TrEMBL 的数据库管理组与 PIR 的数据库管理组成立联合蛋白质 数据库协作组,管理联合蛋白质序列数据库,也就是 UniProt 数据库。UniProt 数据库有三个层次。第一层叫 UniParc,收录了所有 UniProt 数据库子库中的蛋白质序列,量大,粗糙。第二层是 UniRef,他归纳了 UniProt 几个主要数据库并且是将重复序列去除后的数据库。第三层是 UniProtKB,他有详细注释并与其他数据库有链接,分为 UniProtKB 下的 Swiss-Prot 和 UniProtKB 下的 TrEMBL 数据库。关系稍有点复杂,但实际上我们最常用的就是 UniProtKB 下的 Swiss-Prot 数据库。


二级蛋白质序列数据库


Pfam 数据库(http://pfam.xfam.org/)是一个蛋白质结构域家族的集合,包括了一万六 千多个蛋白质家族。蛋白质一般是由一个或多个功能区域组成,这些功能区域通常称作结构 域(domain)。在不同的蛋白质中结构域以不同的组合出现,形成了蛋白质的多样性。识别 出蛋白质中的结构域对于了解蛋白质的功能有重要意义。
根据结构域的空间特征可以对结构域进行分类。CATH 和 SCOP 是两个重要的蛋白质结 构分类数据库。CATH 数据库(http://www.cathdb.info/)由伦敦大学 1993 年创建。CATH 这个数据库的名字 C、A、T、H 是数据库中四种结构分类层次的首字母。也就是,所有蛋 白质结构域在 CATH 中被首先分成 4 种 CLASS,这就是 C。四种 CLASS 分别是全α型,全β 型, α +β型,低二级结构型。比如图 1 中第一行这三个蛋白质,很显然左边是全α的,右 边是全β的,中间是 α +β的。
SCOP 数据库与 CATH 类似,也属于蛋白质结构分类数据库,但 SCOP 的分类原则更 多考虑蛋白质间的进化关系,而且分类主要依赖于人工验证。和 CATH 一样,SCOP 的结构 分类也基于四个层次。第一层也叫 Class,也是基于二级结构成分分类。Class 之下是 Fold, 主要考虑结构的空间几何关系。再往下是 Superfamily,基于远源的蛋白质进化关系分类。最 后是 Family,基于近源的蛋白质进化关系分类。注意 SCOP 和 CATH 里面都有提到 Superfamily 这个词,但两者的含义并不相同。CATH 里 Superfamily 是指的从 C 到 A 到 T 再到 H 这样四 层的一个精细结构分类。而 Scop 中,Superfamily 是结构分类的第三个层次的名称。目前, SCOP 已升级为 SCOP2(http://scop2.mrc-lmb.cam.ac.uk)。

3.专项数据库

KEGG,全称京都基因与基因组百科全书(http://www.genome.jp/kegg)。它是关于基因、 蛋白质、生化反应以及通路的综合生物信息数据库。由多个子库构成。

最后我们来看一个有关人类遗传病的数据库,人类孟德尔遗传。它是一个将遗传病分类 并链接到相关人类基因组中的数据库。它的在线版本是人类孟德尔遗传在线 OMIM。OMIM 为临床医生和科研人员提供了权威可信的关于遗传疾病及相关疾病基因位点的详细信息。从 NCBI 的 OMIM 子库页面点击 Getting Started 进入数据库(http://www.ncbi.nlm.nih.gov/omim),或者直接从 OMIM 主页进入(http://www.omim.org/)。
以阿尔茨海默症(AD)为例,在搜索条中输入:alzheimer disease。搜索结果里排在第 一位的就是我们想要的。点击进入后数据库给出了与 AD 相关的致病基因,包括他们在染色体中的位置,所引发表型的数据库编号,以及基因的数据库编号等。此外,页面上还提供大量的文字信息。如果我们点击某一个染色体定位的话。会出现这个位置附近基因的列表,以及引发的各种疾病。点击某一基因的数据库编号,可以查看这个基因的详细信息。


结束语


功夫无负有心人,昨天电脑成砖了,修了一天终于修好了(昨天凌晨 3 点还没有睡,今天早晨 7 点起床,突然让我想起了罗 x 祥的时间管理)。有了数据库我们可以尝试下载数据学着跑流程了。如果需要提供帮助或者是反馈意见,可以发送邮件到 liwei12306@163.com。


文章转载自生信工具人,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论