admin 管理员组文章数量: 1087139
2024年5月1日发(作者:workbench是什么软件)
生物信息学-第六章
6 基因组序列信息分析
DNA序列自身编码特征的分析是基因组信息学研究的基础,特别是随着大规模测序的日益增加,它的每一个环节都与信息分析紧密
相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接、填补序列间隙、到重复序列标识、读框预测和基因标注
的每一步都是紧密依赖基因组信息学的软件和数据库。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起。
基因组不仅是基因的简单排列,更重要的是它有其特有的组织结构和信息结构,这种结构是在长期的演化过程中产生的,也是基因
发挥其功能所必须的。利用国际EST 数据库 (dbEST) 和各实验室测定的相应数据,经过大规模并行计算识别并预测新基因,新SNPs
以及各种功能位点,如剪接与可变剪接位点等。
到1998年底在人类的约10万个基因中有3万多个已被发现,尚有约7万个未被发现。由于新基因带来的显著经济效益和社会效益,它
们成为了各国科学家当前争夺的热点。EST序列 (Expressed Sequence Tags) 到1999年12月已搜集了约200万条,它大约覆盖了人类基因
的 90%,因此如何利用这些信息发现新基因成了近几年的重要研究课题。同时1998年国际上又开展了以EST为主发现新SNPs的研
究。因此利用EST数据库发现新基因、新SNPs以及各种功能位点是近几年的重要研究方向。
虽然对约占人类基因组 95%的非编码区的作用人们还不清楚,但从生物进化的观点看来,这部分序列必定具有重要的生物功能。普
遍的认识是,它们与基因在四维时空的表达调控有关。寻找这些区域的编码特征,信息调节与表达规律是未来相当长时间内的热
点,是取得重要成果的源泉。
在不同物种、不同进化水平的生物的相关基因之间进行比较分析,是基因研究的重要手段。目前,模式生物全基因组序列数据越来
越多,因此,基因的比较研究,也必须从基因的比较,上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研究将
更有效地揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。
6.1 基因组序列分析工具
1. Wisconsin软件包(GCG)
Genetics Computer Group公司开发的Wisconsin软件包,是一组综合性的序列分析程序,使用公用的核酸和蛋白质数据库。SeqLab是
其图形用户界面(GUI),通过它可以使用所有Wisconsin软件包中的程序及其支持的数据库。此外,它还提供了一个环境用于创
建、显示、编辑和注释序列。SeqLab也可以被扩展使其可以包括其它公用或非公用的程序和数据库。
Wisconsin软件包由120多个独立的程序组成,每个程序进行一项单一的分析任务。包括所有程序的完整目录以及详细的描述可以在
Wisconsin软件包的程序使用文档中找到。GCG支持两种核酸数据库(GenBank数据库, 简化版的EMBL核酸序列数据库)和三种蛋白质
数据库(PIR,SWISS-PROT, SP-TrEMBL)。这些数据库既有GCG格式的(供大多数Wisconsin软件包程序使用),也有BLAST格式的
(供BLAST数据库搜索程序使用)。同时还提供了用于LookUp程序以及数据库参考搜索的索引。
关于GCG,Wisconsin软件包,支持的平台以及硬件需求的一般性信息可以在GCG的主页以及Wisconsin软件包的用户手册中找到。
GCG主页提供了更新信息以及Wisconsin软件包程序的完整列表。
SeqLab中可以使用多个序列分析程序的特性使用户可以应用这些程序顺序地回答相关问题或在对输入序列进行编辑后重复某项分
析。而可以同时访问公用数据库和本机序列的优点使用户可以在一个分析中使用其中任意一种而不用先进行转换或格式化的工作。
SeqLab可以解决的序列分析问题:
(1)在两条mRNA中寻找开放阅读框架,翻译并对比RNA与蛋白质序列
对两条相关的mRNA进行测序的用户可能希望寻找开放阅读框架(ORF)、翻译以及进行核酸与氨基酸序列间的两两对比。
把序列加入SeqLab Editor中,从Functions菜单中选中Map选项运行Map程序。Map输出文件包含了限制性酶切图和6种可能的翻译框
架的ORF的显示。这些ORF的起始和终止位置可进行标记并选为SeqLab Editor中序列显示的范围,然后可用Edit菜单的Translate操作
进行翻译。翻译结果自动出现在SeqLab Editor中。
两条相关的核酸或蛋白质序列可用Gap程序或BestFit程序进行对比。Gap程序寻找两条序列间的全局最优对比结果。适用于两条待比
对的序列是进化相关的情况。BestFit程序寻找两条序列的局部最优对比结果,它适用于两条序列不是进化相关而是功能相关的情
file:////C|/Documents and Settings/lily/Desktop/hapmap/生物信息学教程/(第 1/10 页)2007-10-30 20:07:18
生物信息学-第六章
况。
(2)通过参考搜索寻找数据库中的相关条目并进行对比
研究一个特征序列家族成员的用户可能希望寻找这个家族中的其它成员并建立它们的多序列对比。
从Functions菜单中选取LookUp程序。LookUp在数据库条目的参考信息部分搜索描述词并建立匹配条目的列表。在参考部分的
Definiton, Author, Keyword和Organism域中搜索描述词并在词之间使用“and”(&)、“or”(|)以及“but not”(!)布尔表达
式。例如,在SWISS-PROT条目的Description域搜索“lactate & dehydrogenase & h & chain”将产生一个输出文件,其中列出了乳酸脱
氢酶 H 链(lactate dehydrogenase H chain)条目。这个输出文件可以从Output Manager窗口中加以显示,然后与用户的序列一起添加
到SeqLab Editor中。
要创建所有这些序列的多序列对比,只要根据序列名称选中这些序列并从Functions菜单中运行PileUp程序。由PileUp产生的多序列
文件也列在Output Manager窗口中并可以直接添加到SeqLab Editor中。推荐采用这一步的原因在于数据库条目的特征表格(Features
table)信息可与对比结果一起被包括进来。必要时对比结果是可以被编辑的,并且如果数据库条目有相似的特征,这些特征可被附
加给用户序列。
(3)用查询序列搜索数据库,将找到的条目与查询序列进行对比并产生进化系统树
克隆并测序一个未知功能基因的用户可能希望在一个数据库中搜索相似的序列。如果搜索到了,用户可能进一步希望创建与查询序
列最相似的序列的多序列对比并产生数据的种系图。
往SeqLab Editor中添加一个查询序列并从Functions菜单中选取FASTA程序。FASTA程序在数据库中搜索与查询序列相似的序列。输
出文件可从Output Manager窗口中加以显示并直接添加到SeqLab Editor中。在这个输出文件中数据库条目与查询序列局部相似性最好
的区域被加以标记。如果要显示的话,每个数据库条目只有这种区域可以显示在SeqLab Editor中。不要的条目可以从SeqLab Editor中
一起被删除。
从Functions菜单中选中PileUp程序创建这些序列的多序列对比。输出可从Output Manager窗口中加以显示并添加到SeqLab Editor中更
新已经存在的未对比序列。必要时可对这一对比结果进行编辑,并且数据库条目的有用的特征表格信息也可以添加给查询序列。
从Functions菜单中选取PaupSearch程序,程序提供了一个PAUP(进化系统简约性分析(Phylogenetic Analysis Using Parsimony))中
树搜索方式的GCG接口。PaupDisplay程序为PAUP中的树操作,鉴定以及显示方式提供了一个GCG接口。
(4)拼接交叠序列片段产生一连续序列,寻找并翻译这一序列的编码区域并在数据库中搜索相似序列
克隆了一个基因,把它分解克隆为一组有交叠的序列片段并进行了测序的用户可能希望把这些序列片段重新组装为一条连续的序
列。一旦contig拼接完成,用户可能希望在序列中寻找阅读框架,翻译并在数据库中搜索相似序列。
Fragment Assmbly System的程序可用于拼接交叠序列片段。GelStart程序创建一个项目。GelEnter程序把序列片段复制到项目中。
GelMerge程序寻找片段之间的交叠并把它们拼接成contig。GelAssemble程序是一个编辑器,可用于编辑这些连续的部分并解决片段
之间的冲突问题。所有这些程序都可以从Functions菜单中选取。一旦拼接完成,最终构成此contig的连续序列可以被保存为一个序
列文件并添加到SeqLab Editor中。
使用Map、Frames、TestCode或Codon Preference程序可预测序列中的编码区(所有这些程序可以从Functions菜单中选中)。使用Edit
菜单的Select Range功能选择这些程序预测的区域并使用Edit菜单中的翻译操作把它们翻译为蛋白质。这些提出的翻译区域也可以作
为核酸共有序列的特征被加入。
选取蛋白质序列然后选择Functions菜单中BLAST。BLAST程序在数据库中搜索与查询序列相似的条目,此程序既可以进行远程搜索
也可以进行本机搜索。搜索结果可以从Output Manager窗口中加以显示。如果被搜索的是一个本机的数据库,结果文件可以加入
SeqLab Editor或Main List窗口中,并允许对找到的序列进行进一步分析。
(5)对比相关的蛋白质序列,计算对比结果的共有序列,辨识序列中新的特征序列模式,在数据库中搜索包含此模式的序列或在对比
结果的共有序列中搜索已知的蛋白质模式
辨识了一组相关序列的用户可能希望对其进行对比并计算对比结果的共有序列。如果可以在对比结果中找到保守模式,用户可能希
望在数据库中搜索包含这种模式的其它序列。用户可能还希望在计算出的共有序列搜索已知的蛋白质模式。
file:////C|/Documents and Settings/lily/Desktop/hapmap/生物信息学教程/(第 2/10 页)2007-10-30 20:07:18
版权声明:本文标题:生物信息学-第六章 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/b/1714512441a683252.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论