admin 管理员组

文章数量: 1086019


2024年4月15日发(作者:pyqt gui)

GO,KEGG, Interproscan, COG的相关知识

NR库作为NCBI主要数据库之一其库容较大,通常情况下能够注释到的基因较多,但

同时其中未验证的信息过多,且很多基因功能描述模糊,很多时候会影响到基因功能的具

体辨识,因此需要结合其他数据注释结果进行确定。另外,NR库因为在建立之初就包含

有物种概念,因此其注释结果中均含有基因的物种来源信息,通过该类信息能够在某种程

度上确定所测菌株的物种归属。

GO数据库:

注释来源于Interpro数据库中的quick GO数据库,因此,该数据库结果产出会包含

与Interpro数据库注释的信息,以结尾。Quick GO数据库注释的结

果以结尾,因为GO数据库三大类之间互有重叠,所以对于同时注释上多个

GO分类的基因,可以通过不同大类间的信息来确定其功能。

KEGG数据库:

最优的地方在于拥有描绘已知通路的代谢通路图。其应用举例如下:比如我们关注丙

氨酸代谢通路相关基因,这时我们可以通过关键字在x. 中寻找含有丙氨酸

(Alanine)的注释结果。

Interproscan :

是EBI开发的一个继承了蛋白质结构域和功能位点的数据库,其中吧

SWISS-PROT,TrEMBL,PROTSITE,PRINTS,PFAM,ProDom等数据库提供的蛋白序列中的

各种局与模式,如结构,motif等信息统一起来,提供了一个较为全面的分析工

具。 Swiss-Prot较其他库的优点在于其结果通过了人工验证,可信度较高。

COG:

即Clusters of Orthologous Groups of proteins。构成每个COG的蛋白都是被假定

为来自于一个祖先蛋白,并且因此或者是orthologs或是paralogs。Orthologs是指来自

于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相

同的功能。Paralogs是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与

原来有关的功能。请参考文献获得更多的信息。通过观看其主页和说明文档,可以理解为

COG是NCBI的数据库。COG的中文释义即“同源蛋白簇”。COG分为两类,一类是原

核生物的,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为

KOG数据库。

COG注释作用:1. 通过已知蛋白对未知序列进行功能注释; 2. 通过查看指定的COG

编号对应的protein数目,存在及缺失,从而能推导特定的代谢途径是否存在; 3. 每个

COG编号是一类蛋白,将query序列和比对上的COG编号的proteins进行多序列比对,

能确定保守位点,分析其进化关系。在具有功能分类的主要数据库(KEGG,GO,COG)中,

cog分类的详细程度仅次于KEGG,这将更方便我们确定某个基因的功能。


本文标签: 蛋白 注释 数据库 信息 功能