蛋白质三级机构(空间结构)预测-从头预测法

  • A+
所属分类:蛋白质修饰

从头预测模型的基本思想

在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,上述两种蛋白质结构预测的方法都不能用,这时只能采用从头预测方(Abinitio),即(直接)仅仅根据序列本身来预测其结构。在1994年之前,还没有一个从头算方法能够预测蛋白质的空间结构。从那以后,人们陆续提出一些方法,表明了今后进一步研究可能的方向。有些研究小组运用距离几何方法得到了非常有希望的结果。将简化的力场与动态优化策略相结合,虽然得到的结果不算太精确,但很有意义,表明这样的工作非常有希望突破。

从头预测方法一般由下列3个部分组成:

(1)一种蛋白质几何的表示方法:由于表示和处理所有原子和溶剂环境的计算开销非常大,因此需要对蛋白质和溶剂的表示形式作近似处理,例如,使用一个或少数几个原子代表一个氨基酸残基;

(2)一种能量函数及其参数,或者一个合理的构象得分函数,以便计算各种构象的能量。通过对已知结构的蛋白质进行统计分析,可以确定蛋白质构象能量函数中的各个参数或者得分函数;

(3)一种构象空间搜索技术:必须选择一个优化方法,以便对构象空间进行快速搜索,迅速找到与某一全局最小能量相对应的构象。其中,构象空间搜索和能量函数的建立是从头预测方法的关键。

蛋白质构象的网格模型

限制蛋白骨架构象中可采取的自由度是在模拟过程中简化蛋白质的一种方法,其中一种限制是α碳原子只允许位于二维或三维格子(网格)的位置上。这种简化方法大大减少了一个蛋白质可以采取的构象数目。于是,对于一个中等大小的多肽链,我们可以对它的构象空间进行穷举搜索,直到找到能量全局最小的构象。而对于比较长的多肽链,简化的格子模型可以使非穷尽的搜索方法对所有可能的构象进行较大比例的取样,因此可以比较准确地估计出能量全局最小的构象。

H-P[疏水(hydrophobic)-极性(polar)]模型是研究得最成熟的一种简单网格模型。H-P模型用一个固定半径的原子来表示蛋白质中每个氨基酸残基,从而进一步简化蛋白质结构。在这种表示方法中,原子被分为两种类型:疏水原子和极性原子。

按照惯例,N端的氨基酸位于坐标系统的原点,第二个氨基酸残基就位于坐标的(1,0)或(1,0,0)处。通常我们认为疏水作用力是使蛋白质折叠成一个紧密球状结构的几种基础力之一。大多数蛋白质的天然结构都有一个疏水核心和一个与溶液相接触的表面,疏水核心中掩藏了疏水残基,使得它们与溶液相隔离,而与溶液相接触的表面大多或者全部由极性残基和带电残基组成。将蛋白质折叠成一个紧密结构以帮助疏水残基与溶液相分离的过程通常称为疏水折叠。

膜蛋白却明显不同,这种蛋白具有一个或多个嵌入细胞膜的跨膜区,这些跨膜区的结构主要是螺旋结构。由于细胞膜大多由疏水的碳原子和氢原子组成,因此这些“表面”的螺旋结构实际上是与水分子分离的,它们大多由疏水氨基酸组成。

H-P模型是基于疏水残基之间的接触来进行打分的。为了评价H-P模型中一个特定的构象,我们要计算出网格中H和H接触的数目。在这里,除了多肽链一级结构中相邻的H和H接触外(由于多肽链一级结构中相邻的H和H接触在每一个可能的构象中都存在,因此为了简单起见这些H和H接触就被去除),其它每一个H和H的接触对能量的贡献都设为-1。

最优的构象就是所有可能的构象中具有最多H和H接触的那个构象。一般来说,要获得最大的H和H接触的数目通常需要先形成一个疏水核心,这个疏水核心必须含有尽可能多的H残基,同时要将P残基转移至多肽链的表面。上图中的二维和三维构象的得分都是-3。

有了网格模型及构象能量计算方法,下一个任务就是搜索能量全局最小的构象。在设计搜索算法时,一个主要问题就是如何表示一个特定的构象。一个最简单的方法就是将第一个残基放在网格的(0,0)或(0,0,0)格点上,然后描述前面一个残基到下一个残基的移动方向。二维模型运用这种绝对方向表示法时,每一个位置上可选择的方向包括上、右、左和下(U、R、L、D);而对于三维模型,每一个位置上可选择的方向包括上、右、左、下、后和前(U、R、L、D、B、F)。通过这种绝对方向表示法,可以将上图中的二维构象表示成(R,R,D,L,D,L,U,L,U,U,R),而三维构象可以表示成(R,B,U,F,L,U,R,B,L,L,F)。相对方向表示法则利用每个氨基酸残基主链的转动方向来表示每个位置上的残基的方向,这种方法能够减少每个位置上可选择的方向数。

这种情况下,对一个二维正方形的网格模型,第二个残基以后的每个残基位置上可选择的方向有三个,左、右和前(通常表示为L、R和F);对一个三维正方体的网格模型,每个残基位置上可选择的方向有左、右、前、上和下(L、R、F、U、D)。在这种表示方法中,我们不但要清楚当前的位置,同时还要清楚当前残基“面对”的方向。对于二维模型,第一个残基位于网格的(0,0)位上,它所面对的方向为右。

也就是说,如果第一个移动方向是F,那么第二个残基就应该位于网格的(1,0)位上。因此,上图中的二维构象用相对方向表示法可表示为(F,F,R,R,L,R,R,L,R,F,R)。对于三维模型,第一个残基位于网格的(0,0,0)位上,它所面对的方向为右。当我们沿着多肽链移动时,我们不但必须清楚当前残基面对的方向,同时还要清楚当前哪个方向应该看作是“上”。

利用这种表示方法,上图中的三维构象可以表示为(F,L,U,U,R,U,U,L,L,F,L)。使用上面两种基于方向的表示方法时,我们会遇到的一个关键问题就是一些构象中两个残基会出现在同一个位置上。比如,一个二维构象用相对(基于主链的转动)表示法表示时,如果它的起始四个残基表示为(L,L,L,L),那么这个构象就会有两个残基位于原点(0,0)上,从而导致残基碰撞(bump),或者说原子空间碰撞。

在构象搜索时如果出现这种空间碰撞,我们可以采用多种方法来处理。最简单的一种方法就是为每一个具有碰撞的构象分配一个非常高的能量值。由于搜索算法是寻找低能量构象的,因此具有碰撞的构象在搜索时会被很快地剔除。不过,有些构象如果能够解决碰撞问题,它的能量就会比较小,因此这些构象可能会是有效构象。但是,如果采用上面的方法解决碰撞问题的话,搜索过程中就会把这些有效构象去除掉。其它处理碰撞的方法包括在为构象打分之前先利用局部优化方法来解决碰撞,另外也可以使用其他在构象搜索过程中不会产生碰撞的表示法。

优先排序表示法就是一种在构象搜索过程中不会产生碰撞的表示法。在优先排序法中,每个残基对应的方向并不是某一个方向,而是所有可能的方向的排列。比如,在二维模型中,某一个残基对应的方向可能会是{L,F,R}。{L,F,R}表示这个残基最可能对应的方向是左;但是,如果残基移向左侧构象中会出现碰撞,这时我们就会为这个残基选择下一个比较有可能的方向,即向前,最后一个可选择的方向为向右。

使用这种表示法来表示构象,在有些构象中仍然会出现碰撞(当向所有方向的移动都会导致碰撞时),但这种表示方法中出现碰撞的频率比用绝对方向表示法时出现碰撞的频率要小很多。将优先排序表示法和局部构象搜索方法结合起来,我们就可以设计出构象中绝对不会出现碰撞情况的表示法。

  • 蛋白质组学业务咨询
  • 扫码咨询相关问题
  • weinxin
  • 代谢组学业务咨询
  • 扫码咨询相关问题
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: