admin 管理员组文章数量: 1086019
2024年4月15日发(作者:pyqt gui)
GO,KEGG, Interproscan, COG的相关知识
NR库作为NCBI主要数据库之一其库容较大,通常情况下能够注释到的基因较多,但
同时其中未验证的信息过多,且很多基因功能描述模糊,很多时候会影响到基因功能的具
体辨识,因此需要结合其他数据注释结果进行确定。另外,NR库因为在建立之初就包含
有物种概念,因此其注释结果中均含有基因的物种来源信息,通过该类信息能够在某种程
度上确定所测菌株的物种归属。
GO数据库:
注释来源于Interpro数据库中的quick GO数据库,因此,该数据库结果产出会包含
与Interpro数据库注释的信息,以结尾。Quick GO数据库注释的结
果以结尾,因为GO数据库三大类之间互有重叠,所以对于同时注释上多个
GO分类的基因,可以通过不同大类间的信息来确定其功能。
KEGG数据库:
最优的地方在于拥有描绘已知通路的代谢通路图。其应用举例如下:比如我们关注丙
氨酸代谢通路相关基因,这时我们可以通过关键字在x. 中寻找含有丙氨酸
(Alanine)的注释结果。
Interproscan :
是EBI开发的一个继承了蛋白质结构域和功能位点的数据库,其中吧
SWISS-PROT,TrEMBL,PROTSITE,PRINTS,PFAM,ProDom等数据库提供的蛋白序列中的
各种局与模式,如结构,motif等信息统一起来,提供了一个较为全面的分析工
具。 Swiss-Prot较其他库的优点在于其结果通过了人工验证,可信度较高。
COG:
即Clusters of Orthologous Groups of proteins。构成每个COG的蛋白都是被假定
为来自于一个祖先蛋白,并且因此或者是orthologs或是paralogs。Orthologs是指来自
于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相
同的功能。Paralogs是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与
原来有关的功能。请参考文献获得更多的信息。通过观看其主页和说明文档,可以理解为
COG是NCBI的数据库。COG的中文释义即“同源蛋白簇”。COG分为两类,一类是原
核生物的,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为
KOG数据库。
COG注释作用:1. 通过已知蛋白对未知序列进行功能注释; 2. 通过查看指定的COG
编号对应的protein数目,存在及缺失,从而能推导特定的代谢途径是否存在; 3. 每个
COG编号是一类蛋白,将query序列和比对上的COG编号的proteins进行多序列比对,
能确定保守位点,分析其进化关系。在具有功能分类的主要数据库(KEGG,GO,COG)中,
cog分类的详细程度仅次于KEGG,这将更方便我们确定某个基因的功能。
版权声明:本文标题:GO,KEGG, Interproscan, COG的相关知识 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/b/1713188607a623108.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论