蛋白质结构预测的背景及生物学意义
蛋白质结构预测的背景
一种生物体的基因组规定了所有构成该生物体的蛋白质,基因规定了蛋白质的氨基酸序列。虽然蛋白质由氨基酸的线性序列组成,但是它们只有折叠成特定的空间构象才能具有相应的活性和生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能,也有利于认识蛋白质是如何执行其功能的。确定蛋白质的结构对于生物学研究是非常重要的。
目前,蛋白质序列数据库的数据积累的速度非常快,但是已知结构的蛋白质相对比较少。尽管蛋白质结构测定技术有了较为显著的进展,但是通过实验方法确定蛋白质结构的过程仍然非常复杂,代价较高,因此实验测定的蛋白质结构比已知的蛋白质序列要少得多。另一方面,随着DNA测序技术的发展,人类基因组及更多的模式生物基因组已被或将被完全测序,DNA序列数量将会急增,而由于DNA序列分析技术和基因识别方法的进步,我们可以从DNA推倒导出大量的蛋白质序列。这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量(如蛋白质结构数据库PDB中的数据)的差距将会越来越大。人们希望产生蛋白质结构的速度能够跟上产生蛋白质序列的速度,或者减小两者的差距。那么如何缩小这种差距呢?不能完全依赖现有的结构测定技术,需要发展理论分析方法,这对蛋白质结构预测提出了极大的挑战。
20世纪60年代后期,Anfinsen首先发现去折叠蛋白或者说变性(denatured)蛋白质在允许重新折叠的实验条件下可以重新折叠到原来的结构,这种天然结构(nativestructure)对于行使生物功能具有重要作用,大多数蛋白质只有在折叠成它们天然结构的时候才能具有完全的生物活性。自从Anfinsen提出蛋白质折叠的信息隐含在蛋白质的一级结构中,科学家们对蛋白质结构的预测进行了大量的研究,分子生物学家将有可能直接运用适当的算法从氨基酸序列出发,预测蛋白质的结构。
蛋白质结构预测的生物学意义
基因是生命的蓝图,蛋白质是生命的机器。来自于四种字符字母表(A,T(U),C,G)的核酸序列中蕴藏着生命的信息,而蛋白质则执行着生物体内各种重要的工作,如生物化学反应的催化、营养物质的输运、生长和分化控制、生物信号的识别和传递等工作。蛋白质序列由相应的核酸序列所决定,通过对基因的转录和翻译,将原来四字符的DNA序列,根据三联密码翻译成20字符的蛋白质氨基酸序列。
蛋白质具有不同的长度、不同的氨基酸排列和不同的空间结构,实验分析表明蛋白质能够形成特定的结构。蛋白质中相邻的氨基酸通过肽键形成一条伸展的链,肽链上的氨基酸残基形成局部的二级结构,各种二级结构组合形成完整的折叠结构。蛋白质分子很大,其折叠的空间结构会将一些区域包裹在内部,而将其它的区域暴露在外。在蛋白质的空间结构中,序列上相距比较远的氨基酸可能彼此接近。在水溶液中,肽链折叠成为特定的三维结构。主要的驱动力来自于氨基酸残基的疏水性,氨基酸残基的疏水性要求将氨基酸疏水片段放置于分子的内部。
研究蛋白质的结构意义重大,分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。研究蛋白质结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。对于未知功能或者新发现的蛋白质分子,通过结构分析,可以进行功能注释,指导设计进行功能确认的生物学实验。通过分析蛋白质的结构,确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子及结构。但是,蛋白质的空间结构又是由什么决定的呢?当一个蛋白质的空间结构被破坏以后,或者蛋白质解折叠,可以恢复其自然的折叠结构。大量的实验结果证明:蛋白质的结构由蛋白质序列所决定。虽然影响蛋白质空间结构的另一个因素是蛋白质分子所处的溶液环境,但是决定蛋白质结构的信息则是被编码于氨基酸序列之中。然而,这种编码是否能被破译呢?或者说是否能够直接从氨基酸序列预测出蛋白质的空间结构呢