与经验性方法相似的另一种办法是结构规律提取方法,这是更一般的方法。该方法从蛋白质结构数据库中提取关于蛋白质结构形成的一般性规则,指导建立未知结构的蛋白质的模型。有许多提取结构规律的方法,如通过视觉观察的方法,基于统计分析和序列多重比对的方法,利用人工神经网络提取规律的方法。

同源模型化方法通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元(如锌指结构、螺旋-转角-螺旋结构、DNA结合区域等)。其原理基于下述事实:每一个自然蛋白质具有一个特定的结构,但许多不同的序列会采用同一个基本的折叠,也就是说,具有相似序列的蛋白质倾向于折叠成相似的空间结构。一对自然进化的蛋白质,如果它们的序列具有25~30%的等同部分或者更多,则可以假设这两个蛋白质折叠成相似的空间结构。这样,如果一个未知结构的蛋白质与一个已知结构的蛋白质具有足够的序列相似性,那么可以根据相似性原理给未知结构的蛋白质构造一个近似的三维模型。如果目标蛋白质序列的某一部分与已知结构的蛋白质的某一结构域区域相似,则可以认为目标蛋白质具有相同的结构域或者功能区域。在蛋白质结构预测方面,预测结果最可靠的方法是同源模型化方法。

蛋白质的同源性比较往往是借助于序列比对而进行的,通过序列比对可以发现蛋白质之间进化的关系。在蛋白质结构分析方面,通过序列比对可以发现序列保守模式或突变模式,这些序列模式中包含着非常有用的三维结构信息。利用同源模型化方法可以预测10~30%蛋白质的结构。然而,许多具有相似结构的蛋白质是远程同源的,它们的等同序列不到25%。也就是说,具有相似空间结构的蛋白质序列等同程度可能小于25%。这些蛋白质的同源性不能被传统的序列比对方法所识别。如果通过一个未知序列搜索一个蛋白质序列数据库,并且搜索条件为序列等同程度小于25%的话,那么将会得到大量不相关的蛋白质。因此,搜索远程同源蛋白质就像在干草堆里寻找一根针。寻找远程同源蛋白质是一项困难的任务,处理这项任务的技术称为“线索(THREADING)技术”。对于一个未知结构的蛋白质,仅当我们找不到等同序列大于25%的已知结构的同源蛋白质时,才通过线索技术寻找已知结构的远程同源蛋白质,进而预测其结构。找到一个远程同源蛋白质后,就可以利用远程同源建模方法来建立蛋白质的结构模型。

如果既没有找到一般的同源蛋白质,又没有找到远程同源蛋白质,那么如何进行结构预测呢?一种可行的办法就是充分利用现有数据库中的信息,包括二级结构和空间结构的信息,首先从蛋白质序列预测其二级结构,然后再从二级结构出发,预测蛋白质的空间结构;或者采用从头算方法进行结构预测。

7.2 蛋白质二级结构预测

蛋白质的二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。因此,进行二级结构预测需要通过统计和分析发现这些倾向或者规律,二级结构预测问题自然就成为模式分类和识别问题。蛋白质二级结构的组成规律性比较强,所有蛋白质中约85%的氨基酸残基处于三种基本二级结构状态(a螺旋、b折叠和转角),并且各种二级结构非均匀地分布在蛋白质中。有些蛋白质中含有大量的a螺旋,如血红蛋白和肌红蛋白;而另外一些蛋白质中则不含或者仅含很少的a螺旋,如铁氧蛋白;有些蛋白质的二级结构以b折叠为主,如免疫球蛋白。二级结构预测的目标是判断每一个氨基酸残基是否处于a螺旋、b折叠、转角(或其它状态)之一的二级结构态,即三态。至今人们已经发展了几十种预测方法。

7.2.1 利用的信息及预测准确性

蛋白质二级结构的预测开始于20世纪60年代中期。二级结构预测的方法大体分为三代,第一代是基于单个氨基酸残基统计分析,从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段的统计分析,使用大量的数据作为统计基础,统计的对象不再是单个氨基酸残基,而是氨基酸片段,片段的长度通常为11-21。片段体现了中心残基所处的环境。在预测中心残基的二级结构时,以残基在特定环境中形成特定二级结构的倾向作为预测依据。这些算法可以归为几类:(1)基于统计信息;(2)基于物理化学性质;(3)基于序列模式;(4)基于多层神经网络;(5)基于图论;(5)基于多元统计;(6)基于机器学习的专家规则;(7)最邻近算法。第一代和第二代预测方法有共同的缺陷,它们对三态预测的准确率都低于70%,而对b折叠预测的准确率仅为28~48%,其主要原因是这些方法在进行二级结构预测时只利用局部信息,最多只用局部的20个残基的信息进行预测。二级结构预测的实验结果和晶体结构统计分析都表明,二级结构的形成并非完全由局域的序列片段决定,长程相互作用不容忽视。蛋白质的二级结构在一定程度上受远程残基的影响,尤其是b折叠。从理论上来说,局部信息仅包含二级结构信息的65%左右,因此,可以想象,只用局部信息的二级结构预测方法,其准确率不会有太大的提高。二级结构预测的第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信息,使二级结构预测的准确程度有了比较大的提高,特别是对b折叠的预测准确率有较大的提高,预测结果与实验观察趋于一致。

一般75%的氨基酸残基可以被置换而不改变蛋白质的结构,然而,有时改变几个关键的残基则可能导致破坏蛋白质的结构。这好像是两个矛盾的结论,但解释又非常简单。一个蛋白质在其进化过程中探查了每个位置上氨基酸可能的与不可能的变化,不可能变化的部分是进化保守区域。可变部分的变化不改变结构,而不可变部分的变化则改变蛋白质的结构,由此失去蛋白质原有的功能,因而也就难以延续下去。这些不可变部分体现了蛋白质功能对结构的特定要求。这样,从一个蛋白质家族中提取的残基替换模式高度反映了该家族特异的结构。通过序列的比对可以得到蛋白质序列的进化信息,得到蛋白质家族中的特定残基替换模式,此外,通过序列的比对也可以得到长程信息。目前,许多二级结构预测的算法是基于序列比对的,通过序列比对可以计算出目标序列(待预测其二级结构的序列)中每个氨基酸的保守程度。对于二级结构三态(a,b,none)预测准确率首先达到70%的方法是基于统计的神经网络方法PHDsec。PHDsec利用通过多重序列比对得到的进化信息作为神经网络的输入,另外采用了一个全局的描述子,即所有氨基酸组成(20种氨基酸中每个所占的比例)作为蛋白质序列的全局信息。这类算法预测的准确率能达到70%至75%。

各种方法预测的准确率随蛋白质类型的不同而变化。例如,一种预测方法在某些情况下预测的准确率能够达到90%,而在最差的情况下仅达到50%,甚至更低。在实际应用中究竟使用哪一种方法,还需根据具体的情况。虽然二级结构预测的准确性有待提高,其预测结果仍然能提供许多结构信息,尤其是当一个蛋白质的真实结构尚未解出时更是如此。通过对多种方法预测结果的综合分析,再结合实验数据,往往可以提高预测的准确度。二级结构预测通常作为蛋白质空间结构预测的第一步。例如,二级结构预测是内部折叠、内部残基距离预测的基础。更进一步,二级结构预测可以作为其它工作的基础。例如,用于推测蛋白质的功能,预测蛋白质的结合位点等。

7.2.2 Chou-Fasman方法

Chou-Fasman方法是一种基于单个氨基酸残基统计的经验参数方法,由Chou 和Fasman在20世纪70年代提出来。通过统计分析,获得每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。

每种氨基酸残基出现在各种二级结构中倾向或者频率是不同的,例如Glu主要出现在a螺旋中,Asp和Gly主要分布在转角中,Pro也常出现在转角中,但是绝不会出现在a螺旋中。因此,可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测。另外,不同的多肽片段有形成不同二级结构的倾向。例如:肽链Ala(A)-Glu(E)-Leu(L)-Met(M) 倾向于形成a螺旋,而肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成a螺旋。

一个氨基酸残基的二级结构倾向性因子定义为

式中下标i表示二级结构态,如a螺旋、β折叠、转角、无规卷曲等;Ti是所有被统计残基处于二级结构态i的比例;Ai是第A种残基处于结构态i 的比例;Pi大于1.0表示该残基倾向于形成二级结构i,小于1.0则表示倾向于形成其它二级结构。

通过对大量已知结构的蛋白质进行统计,为每个氨基酸残基确定其二级结构倾向性因子。在Chou-Fasman方法中,这几个因子是Pa、Pb 和Pt ,它们分别表示相应的残基形成α螺旋、β折叠和转角的倾向性。另外,每个氨基酸残基同时也有四个转角参数,f(i)、f(i+1)、f(i+2)和f(i+3)。这四个参数分别对应于每种残基出现在转角第一、第二、第三和第四位的频率,例如,脯氨酸约有30%出现在转角的第二位,然而出现在第三位的几率不足4%。表7.1中显示了Chou-Fasman预测方法中所用到的各种参数,其中参数值Pa、Pb和Pt是分别在原有相应倾向性因子的基础上乘以100而得到的。

根据Pa 和Pb 的大小,可将20种氨基酸残基分类,如谷氨酸、丙氨酸是最强的螺旋形成残基,而缬氨酸、异亮氨酸则是最强的折叠形成残基。除各个参数之外,还有一些其它的统计经验,如,脯氨酸和甘氨酸最倾向于中断螺旋,而谷氨酸则通常倾向中断折叠。

表7.1   20种常见氨基酸的Chou-Fasman参数。

氨基酸        Pa        Pb        Pt        f(i)        f(i+1)        f(i+2)        f(i+3)

丙氨酸(A)        142        83        66        0.06        0.076        0.035        0.058

精氨酸(R)        98        93        95        0.070        0.106        0.099        0.085

天冬酰胺(N)        67        89        156        0.161        0.083        0.191        0.091

天冬氨酸(D)        101        54        146        0.147        0.110        0.179        0.081

半胱氨酸(C)        70        119        119        0.149        0.050        0.117        0.128

谷氨酸(E)        151        37        74        0.056        0.060        0.077        0.064

谷氨酰胺(Q)        111        110        98        0.074        0.098        0.037        0.098

甘氨酸(G)        57        75        156        0.102        0.085        0.190        0.152

组氨酸(H)        100        87        95        0.140        0.047        0.093        0.054

异亮氨酸(I)        108        160        47        0.043        0.034        0.013        0.056

亮氨酸(L)        121        130        59        0.061        0.025        0.036        0.070

赖氨酸(K)        114        74        101        0.055        0.115        0.072        0.095

甲硫氨酸(M)        145        105        60        0.068        0.082        0.014        0.055

苯丙氨酸(F)        113        138        60        0.059        0.041        0.065        0.065

脯氨酸(P)        57        55        152        0.102        0.301        0.034        0.068

丝氨酸(S)        77        75        143        0.120        0.139        0.125        0.106

苏氨酸(T)        83        119        96        0.086        0.108        0.065        0.079

色氨酸(W)        108        137        96        0.077        0.013        0.064        0.167

酪氨酸(Y)        69        147        114        0.082        0.065        0.114        0.125

缬氨酸(V)        106        170        50        0.062        0.048        0.028        0.053

在统计得出氨基酸残基倾向性因子的基础上,Chou和Fasman提出了二级结构的经验规则,其基本思想是在序列中寻找规则二级结构的成核位点和终止位点。在具体预测二级结构的过程中,首先扫描待预测的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列片段,然后对于成核区域进行扩展,不断扩大成核区域,直到二级结构类型可能发生变化为止,最后得到的就是一段具有特定二级结构的连续区域。下面是4个简要的规则。

1. α螺旋规则

沿着蛋白质序列寻找α螺旋核,相邻的6个残基中如果有至少4个残基倾向于形成α螺旋,即有4个残基对应的Pa 〉100,则认为是螺旋核。然后从螺旋核向两端延伸,直至四肽片段Pa 的平均值小于100为止。按上述方式找到的片段长度大于5,并且Pa 的平均值大于Pb 的平均值,那么这个片段的二级结构就被预测为α螺旋。此外,不容许Pro在螺旋内部出现,但可出现在C末端以及N端的前三位,这也用于终止螺旋的延伸。

2. β折叠规则

如果相邻6个残基中若有4个倾向于形成β折叠,即有4个残基对应的Pb 〉100,则认为是折叠核。折叠核向两端延伸直至4个残基Pb 的平均值小于100为止。若延伸后片段的Pb 的平均值大于105,并且Pb 的平均值大于Pa 的平均值,则该片段被预测为β折叠。

3. 转角规则

转角的模型为四肽组合模型,要考虑每个位置上残基的组合概率,即特定残基在四肽模型中各个位置的概率。在计算过程中,对于从第i个残基开始的连续4个残基的片段,将上述概率相乘,根据计算结果判断是否是转角。如果f(i)×f(i+1)×f(i+2)×f(i+3)大于7.5×10-5,四肽片段Pt的平均值大于100,并且Pt  的均值同时大于Pa 的均值以及Pb 的均值,则可以预测这样连续的4个残基形成转角。

4. 重叠规则

假如预测出的螺旋区域和折叠区域存在重叠,则按照重叠区域Pa 均值和Pb 均值的相对大小进行预测,若Pa 的均值大于Pb 的均值,则预测为螺旋;反之,预测为折叠。

Chou-Fasman 预测方法原理简单明了,二级结构参数的物理意义明确,该方法中二级结构的成核、延伸和终止规则基本上反映了真实蛋白质中二级结构形成的过程。该方法的预测准确率在50%左右。

7.2.3 GOR方法,

怎么用计算机技术预测蛋白质结构,蛋白质结构预测及方法介绍 一搜索无重复 - 生物科学 - 小木虫 - 学术 科研 互动社区...相关推荐

  1. 部分最小二乘回归分析matlab,MATLAB如何用偏最小二乘回归法做预测?跪求大神帮忙 - 程序语言 - 小木虫 - 学术 科研 互动社区...

    CODE: function question_16 %2016-12-26 clear;clc pz=xlsread('C:\Users\cirnotxm\Documents\EGDownloads ...

  2. 计算机技术调剂控制工程,控制工程294求调剂 - 考研 - 小木虫 - 学术 科研 互动社区...

    佳木斯大学材料科学与工程学院接收2016年硕士研究生调剂信息 佳木斯大学坐落于中国最佳生态环境魅力城市--黑龙江省佳木斯市,是黑龙江省重点建设高水平大学,其材料科学与工程学科为博士后科研流动站.博士学 ...

  3. 矢量二维码php,IDRISI CA_MARKOV预测后如何分析 - 地学 - 小木虫 - 学术 科研 互动社区...

    咀晕医樯堋� 我是西南大学的王金柱,喜欢探索GIS软件的应用.现阶段在探索遥感与生态方面的知识,发布本视频的目的是:我在探索Idrisi的过程中,发现很多在网上和软件说明文件里都没有的细节问题,这些问 ...

  4. 计算机技术预测蛋白质结构,蛋白质结构预测:生命科学的又一场竞争

    中国学者张阳最近在第七届蛋白质结构预测技术评估大赛中获得第一名的好成绩.消息传来,他做博士后时的导师欧阳钟灿院士给予高度评价.据欧阳钟灿介绍,由生物大分子的基因序列预测其结构,是当前生物学研究面临的最 ...

  5. 怎么用计算机技术预测蛋白质结构,基于计算智能技术的蛋白质结构预测方法研究...

    摘要: 生物信息学是在生物科学的研究过程中,以计算机为工具对海量生物数据进行存储,检索与 解析的科学,通过对生物学实验数据的存储利用及信息挖掘,达到揭示这些数据背后所蕴含的生物学知识的目的.蛋白质的生 ...

  6. 计算机技术预测蛋白质结构,线上分享 | 同源建模预测蛋白质结构,中科院计算所ProALIGN研究解读...

    在蛋白质结构预测领域,活跃着很多华人学者,机器之心知识站特推出「蛋白质结构预测系列技术直播」,聚焦领域前沿成果的同时,回顾蛋白质结构预测技术发展历程.欢迎关注并加入社区交流讨论! 蛋白质结构预测,即从 ...

  7. 后AlphaFold时代的蛋白质结构预测

    最新一届的蛋白质结构预测奥林匹克大赛,即15届CASP比赛(CASP15),在日前拉下了帷幕.这正值谷歌团队AlphaFold2在上一届CASP大赛给该领域带来革命性冲击后两周年.两年后,该领域的状况 ...

  8. Google Research进军蛋白质结构预测:为Pfam数据库新增680万标注数据

      视学算法报道   编辑:LRS [新智元导读]用深度学习模型来预测蛋白质的结构和功能已经取得了不小的进展,但还缺乏优质的数据.最近Google开源了一个模型ProtENN,提供了680万条蛋白质结 ...

  9. 《科学》:媲美AlphaFold2的蛋白质结构预测新工具问世,一台游戏计算机十分钟出结果,完全免费...

    来源:学术头条本文约2000字,建议阅读5分钟 整个研究学界都将受益. 如今,人工智能已经渗透到人们生活的方方面面,各种深度学习算法也越来越多地应用于各个领域.尤其在生物和医学领域,人工智能技术可以说 ...

最新文章

  1. 无法relay信件处理一例
  2. SAP ABAP 客户退出
  3. 转《浅谈数据库设计技巧》
  4. SAP UI5 group function调试
  5. 使用Spring Boot和DJL进行深度学习
  6. 美团将主办 ICDAR2019「中文门脸招牌文字识别」比赛,并公开首个真实场景招牌图像数据集...
  7. html5语义化编程,HTML5常用的语义化标签
  8. 一行代码让纯文本编辑器秒变 Markdown 编辑器
  9. logisim软件简单入门使用
  10. 一款舒适的画图软件,支持各种文件格式的导入和导出,Edraw Max 包含中文版和英文版,也包含 Mac 版本 和 Windows 版本
  11. 未来教育计算机19二级视频百度云,未来教育 MS office二级视频讲解
  12. Linux下如何修改ini文件,如何修改Boot.ini文件,重新引导Linux!
  13. Slate轨道工具使用(一)—Track,Clip
  14. 最优二叉查找树,动态规划法,二维表,填表优化,代码
  15. python如何停止子线程_【已解决】python 如何结束子线程呢
  16. android中评论的删除不了,微信朋友圈可以删评论了,但尴尬的是…
  17. ubuntu和windows复制粘贴
  18. 计算机一级access教程,计算机一级考试Access傻瓜教程.doc
  19. python股票基本面分析_股票基本面分析
  20. hardware - cortex-A15, cortex-A35,cortex-A53,cortex-A72

热门文章

  1. ScheduledThreadPoolExecutor Usage
  2. PAT-乙级-1035 插入与归并
  3. SIGCHLD waitpid, 小心子进程结束事件被偷了
  4. 读《图解HTTP》有感-(HTTP报文内的HTTP消息)
  5. 读软件工程前三章后感
  6. BlocksKit源码分析(一)
  7. mac机器下远程仓库添加完毕之后,却无法上传应有的内容。
  8. [转载] 两种方法分割python多空格字符串
  9. [转载] python跨行 print:多用(),换行符\要小心,少用+或者不用(其它程序代码跨行用\就行,不能用括号)
  10. ExtJs页面布局总结(转载)