蛋白质集合c语言算法,利用蛋白质序列的预测方法

分析新发现的蛋白质或未知功能的基因产物的第一步是用BLAST或其它工具在公共数据库中进行相似性搜索。然而，这种搜索可能无法找到一个已知相符蛋白质；即使能得到一个统计显著的相符蛋白质，也很可能在序列记录中没有任何关于其二级结构的信息，而这些信息对设计合理的生物化学实验十分重要。虽然没有“已知”的信息，但仍然有办法预测出序列折叠成a 螺旋或b 叠片的性能。这些方法依赖于对大量实验测定三维结构的蛋白质的观察和分析。

在讨论技术本身之前，有必要简要回顾一下二级结构和折叠类。前面已经提及，许多氨基酸具有疏水性的侧链，而主链或称骨架是亲水性的。肽链通过构成离散的二级结构元件来平衡这两种相反的作用力。这在1951年由Linus Pauling及其合作者提出(Pauling和Corey，1951)。a 螺旋是一种用来起瓶塞的钻头一样的螺旋结构，由主链构成螺旋的骨架，侧链从螺旋向外伸出。骨架是通过各个氨基酸上的CO基团与C末端方向＋4个氨基酸(n＋4)的NH基团形成的氢键来保持稳定的，这样就形成了结实的棒状结构。一些残基比其它残基更易形成a 螺旋：丙氨酸、谷氨酸、亮氨酸和甲硫氨酸经常在a 螺旋中出现；而脯氨酸、甘氨酸、酪氨酸和丝氨酸一般不会在a 螺旋中出现。通常认为，脯氨酸是螺旋破坏者，这是由于它的环状结构中断了n＋4氢键的形成。

与a 螺旋相比，b 链是一种更舒展的结构。与a 螺旋在二级结构单元内部形成氢键不同，氢键形成于两条或多条相邻的b 链之间。多条b 链间通过这种氢键作用使整个结构形成b 折叠片。这些折叠片可以是平行的，也可以是反平行的，这取决于各b 链中N末端和C末端的取向。一个b 折叠片的变种是b 拐角，多肽链构成发卡状的急转弯，并形成反平行b 叠片。

1976年Levitt和Chothia根据蛋白质中二级结构元件的排列顺序提出了一个分类系统(Levitt和Chothia，1976)。非常简单，一个a 结构基本由a 螺旋构成；一个b 结构主要由b 链构成。肌红蛋白是典型的全由a 螺旋构成的蛋白质，因而属于a 结构类(Takano，1977)。质体蓝素是b 类的好例子，其中8条b 链间的氢键的模式形成了一个紧密的桶状结构(Guss和Freeman，1983)。组合折叠类a /b 是由交替出现的b 链和a 螺旋构成的。黄素氧还蛋白是a /b 蛋白的一个好例子，其中b 链构成中心的b 折叠，周围由a 螺旋包围(Burnett等，1974)。

在以下讨论中，有一个术语会经常出现：神经网络。它赋予了计算过程“学习”的能力以模仿人类的学习，而大多数计算程序都延着固有的顺序盲目地执行指令。神经网络技术在如二级结构预测这种分析模式和趋势的问题中有广泛的应用。每个神经网络都包含一个输入层和一个输出层。在二级结构预测的应用中，输入层是序列带来的信息，输出层是每个特定氨基酸形成特定二级结构的几率。实际的学习过程发生在位于输入层和输出层之间的一个或多个隐含层中。学习的实现需要向网络提供一组训练数据集。这里，一组合适的训练集是已测出结构的蛋白质数据库。网络会加工这些信息去寻找氨基酸序列与之以特定上下文关系所形成结构之间的微弱联系。神经网络在二级结构预测中的应用更具体的讨论可见Kneller等(1990)的文献。

nnpredictnnpredict算法使用了一个双层、前馈神经网络去给每个氨基酸分配预测的类型(Kneller等，1990)。在预测时，服务器使用FASTA格式的文件，其中有单字符或三字符的序列以及蛋白质的折叠类(a 、b 或a /b )。残基被分为几类，如a 螺旋(H)、b 链(E)或其它(－)。若对给定残基未给出预测，则会标上问号(？)，这说明无法作出可信的分配。若没有关于折叠类的信息，预测也能在不定折叠类的情况下进行，而且这是缺省的工作方式。据报道，对于最佳实例的预测，nnpredict的准确率超过了65％。

序列通过向nnpredict@celeste.ucsf.edu发送电子邮件提交给nnpredict。以黄素氧还蛋白为例，电子邮件的格式为：option: a/b

>flavodoxin - Anacystis nidulans

AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASKLNAYDYLIIGCPTWNVGELQSDWEGIY

DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG

LAIDEDNQPDLTKNRIKTWVSQLKSEFGLOption行标明蛋白质的折叠类：n用于无折叠类，a为a ，b为b ，a/b为a /b 。每个电子邮件只能提交一个序列，服务器返回的结果经整理见图11.3。PredictProteinPredictProtein(Rost等，1994)在预测中应用了略为不同的方法。首先，蛋白质序列被作为查询序列在SWISS-PROT库中搜索相似的序列。当相似的序列被找到后，一个名为MaxHom的算法被用来进行一次基于特征简图的多序列比对(Sander和Schneider，1991)。MaxHom用迭代的方法来构造比对：当第一次搜索SWISS-PROT后，所有找到的序列与查询序列进行比对，并构造出一个比对后的特征简图。然后，这个简图又被用来在SWISS-PROT中搜索新的相似序列。由MaxHom产生的多序列比对随后被置入一个神经网络，用一套称为PHD(Rost，1996)的方法进行预测。PHD这一套二级结构预测方法不仅仅给每个残基分配一个二级结构类型，它还对序列上每个位点的预测可信度给予统计分析。该方法的平均准确率超过72％：最佳残基预测准确率达90％以上。

向predictprotein@embl-hcidelberg.de发送的输入序列电子邮件为以下格式：Joe Buzzcut

National Human Genome Research Institute, NIH

buzzcut@baldguys.org

# flavodoxin - Anacystis nidulans

AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY

DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG

LAIDEDNQPDLTKNRIKTWVSQLKSEFGL在名字、从属关系和地址行之后，#号向服务器表明随后是一个单字符序列。序列基本上是FASTA格式，但其中不允许有空格，传统的>号由#号代替，序列之后也不许有其它东西。

输出结果内容很多并包含大量有关信息。其中有MaxHom搜索结果，并包括多序列比对的结果，它可以用于例如基于特征简图的搜索或物种谱系分析等进一步研究。如果提交的序列在PDB库中有已知同源蛋白，则其PDB标识号也会输出返回。随后是方法本身信息，最后是实际预测结果。与nnpredict不同，PredictProtein还返回每个位点的“预测可信度索引”，范围从0到9，9具有最高的可信度，也就是说该位点所分配的二级结构类型是正确的。对特定例子该程序返回的预测结果，以及与其它预测方法的比较整理后见图11.3。SSPRED与PredictProtein相似，EMBL的二级结构预测方法(Mehta等，1995)先在数据库中搜索序列的相似蛋白，构建多序列比对，然后进行预测。该方法在比对时，特别注意非保守位点的替换，并利用比对结果作为初始预测结果。初始预测结果经过滤除去那些简单不合理的结果单元，这些包括长度不合理的单元或是一种结构类型打断了一串另一种类型(例如，预测为HHHEHH，就应变成HHHHHH)。所有的a 螺旋应至少4个残基长，所有的b 链应至少3个残基长。

同样以黄素氧还蛋白为例，以下是提交给sspred@embl-heidelberg.de的作SSPRED搜索邮件格式：SEQUENCE

TITLE flavodoxin - Anacystis nidulans

BLOSUM 62

ALIGN 50

INDEL 10

Z_SCORE 7.0

SEQ

AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY

DDLDSVNFQGEKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG

LAIDEDNQPDLTKNRIKTWVSQLKSEFGL

END关键词SEQUENCE提示服务器有一个单序列被提交上来。TITLE行允许包含关于输入序列的一些评语，并会在返回结果中出现。BLOSUM 62命令指示SSPRED在作比对打分时使用该矩阵。PAM矩阵和BLOSUM矩阵都是可以选用的，而缺省的设置是PAM 120。INDEL 10是空位罚分值。用户可以不管这一行而让SSPRED基于所用的打分矩阵预测合适的缺省值。降低INDEL值使空位插入更可接受。ALIGN 50指示服务器用50个最佳比对进行二级结构预测。Z_SCORE 7.0行允许用户提高或降低BLITZ搜索的敏感度。最后，序列要加上特定起始关键字SEQ和结束关键字END。

在分析结束后，用户将得到包含一系列输出文件的电子邮件。其中包括在预测中用到的BLITZ产生的多序列比对的结果，以及最终预测的结果。电子邮件中还包括最初预测结果及过滤后的结果。前面的序列实例的SSPRED最终预测结果与其它方法的比较见图11.3。SOPMA

位于法国里昂的CNRS(Centre National de la Recherche Scientifique)使用独特的方法进行蛋白质二级结构预测。它不是用一种，而是5种相互独立的方法进行预测，并将结果汇集整理成一个“一致预测结果”。这5种方法包括：Garnier-Gibrat-Robson(GOR)方法(Garnier等，1996)、Levin同源预测方法(Levin等，1986)、双重预测方法(Deléage和Roux，1987)、作为前面PredictProtein一部分的PHD方法和CNRS自己的SOPMA方法(Geourjon和Déleage，1995)。简单的说，SOPMA这种自优化的预测方法建立了已知二级结构序列的次级数据库，库中的每个蛋白质都经过基于相似性的二级结构预测。然后用次级库中得到的信息去对查询序列进行二级结构预测。

使用这种方法可以将序列本身作为电子邮件提交给deleage@ibcp.fr，用SOPMA作为邮件主题，或使用SOPMA的Web界面。各种作为一部分的预测结果以及“一致预测结果”都见图11.3。各种方法的比较根据图11.3，可以明显看出所有的方法在预测二级结构方面完成得相对较好，但都不完美。选黄素氧还蛋白作为测试的实例是因为它具有相对复杂的结构：它有6个a 螺旋和5个b 叠片，属于a /b 折叠类。有一些分配结果在各种方法中是一致的：如各种方法都很好地找到了b 1、b 3、b 4和a 5。但有些方法把某些二级结构单元彻底漏掉了(如nnpredict漏掉了a 2、a 3和a 4)，而有些预测方法所得的结果缺乏生物学意义(如双重预测方法在b 4，认为螺旋、叠片和拐角一个接一个交替出现)。PredictProtein方法正确找到了所有的二级结构单元，并在多处准确识别了二级结构元件的长度，在整体上预测表现最佳。但并非说明其它方法没用或不够好，因为在其它某些实例中无疑会有某种方法表现更好。由于没有更多信息可用来判断哪种方法最好，最好是把序列提交给多个服务器，将结果汇集整理，通过人为的比较来判断哪些预测结果成立或不成立。(在图11.3中显示的CNRS一致序列就属于这一类尝试，但一致序列也不是完全正确的。)虽然这一方法中并未包含某种对预测方法失败保险的预测，但由这些预测的确增强了结果了可信度。

………………

图11.3各种二级结构预测方法的比较。作为查询序列的黄素氧还蛋白(flavodoxin)是一种a /b 蛋白，其序列排在第一行。对每个预测，H代表a 螺旋，E代表b 链，T代表b 拐角，其它位点都认为是无规卷曲。所采用的各预测方法列在其结果的左侧，其详细描述见正文。图的最下一行是由PDB文件中的黄素氧还蛋白(1OFV，Smith等，1983)所得的二级结构分布。特殊结构或结构特征就象a 螺旋和b 叠片的位置可以较为准确地预测出来，其它特定的结构或结构特征，如卷曲螺旋和跨膜区也可以预测出来。但这类预测的方法没有二级结构预测方法多，主要是由于这些结构或结构特征的折叠规律尚不十分清楚。尽管如此，若查询序列在已知结构数据库中能搜索到相似蛋白，则预测的准确度可能很高。卷曲螺旋COILS算法将查询序列在一个由已知包含卷曲螺旋蛋白结构的数据库中进行搜索(Lupas等，1991)。程序也将查询序列与包含球状蛋白序列的PDB次级库进行比较，并根据两个库搜索得分的不同决定输入序列形成卷曲螺旋的概率。COILS可以下载到VAX/VMS系统上使用，通过简单的Web界面使用则更方便。

程序要求序列数据为GCG或FASTA格式，一次可以提交一条或多条序列。除了序列，用户还能在两种打分矩阵中选择一种：MTK是根据肌球蛋白、原肌球蛋白和角蛋白序列得到的打分矩阵；或MTIDK，是根据肌球蛋白、原肌球蛋白、中间纤维类蛋白Ⅰ-Ⅴ、桥粒蛋白和角蛋白得到的打分矩阵。程序作者引述了两种矩阵的适用特点：MTK更适合检测双链结构，而MTIDK适合其它情形。用户还能启动一个选项给予每个卷曲a和d位置上残基(通常为亲水性)相同的权重。如果COILS在无权重和有权重情况下得到的结果相差很大，则可能表明存在正错误。程序的作者警告说COILS是用来检测与溶液接触的左手性卷曲螺旋的，对于包埋的或右手性卷曲螺旋则可能检测不到。若一个序列被提交到服务器，程序会整理出一张预测结果图，显示沿着序列各个部分形成卷曲螺旋的倾向性。

一个基于Macintoshi系统的应用程序――MacStripe使用了Lupas的COILS的预测方法，能输出较简单的预测结果(Knight，1994)。MacStripe要求输入文件为FASTA、PIR或其它普遍文件格式，并象COILS一样产生一个图形文件，包含形成卷曲螺旋的概率，以及用柱状图显示七连体重复模式的连续性。下面是以GCN4为例，由MacStripe得到的统计结果文件的一部分。89 89 L 5 a 0.760448 0.000047

90 90 D 5 b 0.760448 0.000047

91 91 D 5 c 0.760448 0.000047

92 92 A 5 d 0.760448 0.000047

93 V 5 e 0.760448 0.000047

94 94 V 5 f 0.760448 0.000047

95 95 E 5 g 0.760448 0.000047

96 96 S 5 a 0.760448 0.000047

97 97 F 5 b 0.760448 0.000047

98 98 F 5 c 0.774300 0.000058

99 99 S 5 d 0.812161 0.000101

100 100 S 5 e 0.812161 0.000101

101 101 S 5 f 0.812161 0.000101

102 102 T 5 g 0.812161 0.000101从左到右各列分别代表残基序号(显示两次)、氨基酸种类、七连体框架和残基在七连体中的位置(a-b-c-d-e-f-g)、Lupas得分和Lupas概率。在这个例子中，注意到第五列，我们能清楚看出七连体重复模式。分析整个GCN4序列结果表明七连体重复模式得到良好维持，只在某些区域有所分离。既然统计结果不能忽略不计，其结果能更容易地说明七连体重复模式是否明显存在。也可以从COILS得到类似的输出，但不是通过Web服务器，而是在合适的Unix计算机上安装一个C语言编写的程序，这一步对许多用户而言是做不到的。跨膜区域前面曾讨论过的Kyte-Doolittle的TGREASE算法能有效地检测高疏水性的区域，但它并不是专门用来预测跨膜区域的，因为水溶性球状蛋白的内埋区也是基本为疏水性的。我们先来看一种专门预测跨膜区的方法：TMpred，它依靠一个跨膜蛋白数据库Tmbase(Hofmann和Stoffel，1993)。Tmbase来源与Swiss-Prot库，并包含了每个序列的一些附加信息：跨膜结构区域的数量、跨膜结构域的位置及其侧翼序列的情况。Tmpred利用这些信息并与若干加权矩阵结合来进行预测。

Tmpred的Web界面十分简明。用户将单字符序列输入查询序列文本框，并可以指定预测时采用的跨膜螺旋疏水区的最小长度和最大长度。输出结果包含四个部分：可能的跨膜螺旋区、相关性列表、建议的跨膜拓扑模型以及代表相同结果的图。如果用G蛋白耦联受体(P51684)作查询序列，将会得到下面的模型：2 possible models considered, only significant TM segments used

-----> STRONGLY prefered model: N-terminus outside

7 strong transmembrane helices, total score : 14196

# from to length score orientation

1 55 74 (20) 2707 o-i

2 83 104 (22) 1914 i-o

3 120 141 (22) 1451 o-i

4 166 184 (19) 2155 i-o

5 212 235 (24) 2530 o-i

6 255 276 (22) 2140 i-o

7 299 319 (21) 1299 o-i

------> alternative model

7 strong transmembrane helices, total score : 11974

# from to length score orientation

1 47 69 (23) 2494 i-o

2 84 104 (21) 1407 o-i

3 123 141 (19) 1352 i-o

4 166 185 (20) 1904 o-i

5 219 236 (18) 2453 i-o

6 252 274 (23) 1386 o-i

7 300 319 (20) 915 i-o每种建议的模型都指出格区段起始和终止位点，及其相对膜的取向(由内到外inside-to-outside，或由外到内outside-to-inside)。算法作者恰当地指出这些模型基于假设全部跨膜区在预测中都被找到。因而这些模型应被看作是从该方法所得数据的角度出发所的结果。

第二种预测方法是TMAP，它类似于SSPRED采用了多序列比对来提高预测的准确性(Persson和Argos，1994)。同样一G蛋白耦合受体为例，提交给tmap@embl-heidelberg.de的查询序列的格式如下所示：SEQUENCE

TITLE G protein-coupled receptor

BLOSUM 62

INDEL 10

ALIGN 50

Z_SCORE 4

SEQ

MSGESMNFSDVFDSSEDYFVSVNTSYYSVDSEMLLCSLQEVRQFSRLFVPIAYSLICVFGLLGNILVVIT

FAFYKKARSMTLVYLLNMAIADLLFVLTLPFWAVSHATGAWVFSNATCKLLKGIYAINFNCGMLLLTCIS

ENDTITLE行使返回给用户的结果易于辨认。BLOSUM 62命令指定用BLITZ在Swiss-Prot中搜索是采用的得分矩阵，这里可以采用任一可得的BLOSUM或PAM矩阵；INDEL、ALIGN和Z_SCORE等命令与前面在SSPRED服务中所述含义完全一样。序列本身前面标上起始关键字SEQ，最后标上END关键字。无论用电子邮件还是用Web界面，结果都由电子邮件返回。返回的内容包括BLITZ为查询序列所作的多序列比对结果，关于各跨膜区位置的预测，以及给出结果图示的PostScript文件。对G蛋白耦合受体的TMAP预测结果如下：PREDICTED TRANSMEMBRANE SEGMENTS FOR PROTEIN G protein-coupled receptor

TM 1: 46 - 74 (29)

TM 2: 82 - 108 (27)

TM 3: 117 - 145 (29)

TM 4: 159 - 187 (29)

TM 5: 212 - 240 (29)

TM 6: 251 - 276 (26)输出结果格式很简单，给出了跨膜区段序号、各区段起始和终止位置，括号中是区段长度。显然，对于同一个蛋白两个不同的方法给出了有显著不同的预测结果。Tmpred预测了七个跨膜区段，而TMAP的预测是六个，并且两组区段边缘相互重叠。在Swiss_Prot中，这个序列条目中注明了七个跨膜区段(43-69、79-99、115-136、155-175、206-233、250-274以及299-316)。相比之下，Tmpred的结果更符合这些位置，在多数情况下，Tmpred的预测比实际情况会稍微长一些和偏一些。对TMAP也是一样，只是TMAP把最后一个区段整个漏掉了。用户可能设想TMAP预测比Tmpred好，但这里同样要强调利用多种方法进行预测这一惯用策略，然后再手工审查其结果。信号肽丹麦技术大学的生物序列分析中心开发了SignalP这个强大的信号肽及其剪切位点检测工具(Nielsen等，1997)。该算法基于神经网络方法，用已知信号序列的革兰氏阴性原核生物、革兰氏阳性原核生物及真核生物的序列分别作为训练集。SignalP预测的是分泌型信号肽，而不是那些参与细胞内信号传递的蛋白。

人类胰岛素样生长因子IB前体(生长调节素C，P05019)，具有已知剪切位点，通过Web界面提交给SignalP加以分析。预测采用的是真核训练集，分析结果如下：************************* SignalP predictions *************************

Using networks trained on euk data

>IGF-IB length = 195

# pos aa C S Y

46 A 0.365 0.823 0.495

47 T 0.450 0.654 0.577

48 A 0.176 0.564 0.369

49 G 0.925 0.205 0.855

50 P 0.815 0.163 0.376

< Is the sequence a signal peptide?

# Measure Position Value Cutoff Conclusion

max. C 49 0.925 0.37 Yes

max. Y 49 0.855 0.34 Yes

max. S 37 0.973 0.88 Yes

mean S 1-48 0.550 0.48 Yes

# Most likely cleavage site between pos. 48 and 49: ATA-GP输出结果的第一部分中，标记为C的列是剪切位点打分。在剪切点的C末端位点上得分最高。标记为S的列是信号肽打分，位于剪切点之前的位点得分高而剪切点之后的位点得分低。非分泌型蛋白的N末端的S得分也较低。最后的Y列给出综合剪切点打分，这个几何平均分值指出哪个位点具有高C分值同时又是S分值由高转低。输出文件的结尾提出问题“这个序列是信号肽吗？”，然后根据统计推断出最可能的剪切点。在Swiss_Prot中对该蛋白的注解是：成熟肽链起始与49位，正是SignalP预测的最可能的剪切点。非球形区域第七章中已经讨论过用SEG程序在进行数据库搜索前遮盖低复杂性区段。用同样的算法，通过调节触发窗口长度、触发复杂性K1和延伸复杂性K2，可以用来检测待定的非球形区域。受到命令“seq sequence.txt 45 3.4 3.75”后，SEG将使用长于缺省值12的窗口，因而能检测到长非球形结构域。一个用SEG检测非球形区域的例子见图11.4。

1-307

MAGAIASRMSFSSLKRKQPKTFTVRIVTMD

AEMEFNCEMKWKGKDLFDLVCRTLGLRETW

FEGLQYTIKDTVAWLKMDKKVLDHDVSKEE

PVTFHFLAKFYPENAEEELVQEITQHLFFL

QVKKQILDEKIYCPPEASVLLASYAVQAKY

GDYDPSVHKRGFLAQEELLPKRVINLYQMT

PEMWEERITAWYAEHRGRARDEAEMEYLKI

AQDLEMYGVNYFAIRNKKGTELLLGVDALG

LHIYDPENRLTPKISFPWNEIRNISYSDKE

FTIKPLDKKIDVFKFNSSKLRVNKLTLQLC

IGNHDLF

mrrrkadslevqqmkaqareekarkqmerq

rlarekqmreeaertrdelerrllqmkeea

tmanealmrseetadllaekaqiteeeakl

laqkaaeaeqemqrikatairteeekrlme

qkvleaevlalkmaeeserrakeadqlkqd

lqeareaerrakqklleiatk

308-478

479-496

PTYPPMNPIPAPLPPDIP

sfnligdslsfdfkdtdmkrlsmeiekekv

eymekskhlqeqlnelkteiealklkeret

aldihnensdrggsskhntikkltlqsak

497-587

588-595

RVAFFEEL

图11.4SEG预测的neurofibromatosis type 2基因(L11353)产物蛋白的非球形区域。非球形区以小写列于左边。数字标出每一块的残基位置。

三级结构结构预测大概是基于蛋白质序列数据的预测方法中最复杂和技术上最困难的。从序列充分和准确地预测蛋白质结构的重要性扎根于这样的认识：既然序列可以决定构象，那么多个序列就可能决定同一个构象。根据结构比序列更加保守，以及蛋白质骨架motif数量有限的想法(Chothia和Lesk，1986；Chothia，1992)说明，没必要仅仅从传统的基于序列比对的方法去寻找蛋白之间的相似性。序列与结构的关系问题的根源在于“蛋白质折叠过程”的问题，这是近来一些综述的讨论的焦点(Bryant和Altschul，1995；Eisenhaber等，1995；Lemer等，1995)。

当前最健壮的结构预测方法是同源建模，或称“threading”方法(Bryant和Lawrence，1993；Fetrow和Bryant，1993；Jones和Thornton，1996)。这种方法将未知结构的蛋白质序列“穿过”由X光晶体衍射或NMR核磁共振得到的已知结构靶蛋白的结构坐标。对于序列-结构的每次定位，算出残基间相互作用力和疏水作用大小。这些热力学计算的目的是找出未知结构序列在目标结构上的能量最优和构象最稳固的比对位置。这样的程序要作密集的计算，要求计算机硬件至少是一台强大的UNIX工作站，以及要有特定计算机语言的知识。

虽然threading这样的技术很强大，但是它对硬件和专门知识的要求可能仍是大多生物学家应用的障碍。为了降低应用的障碍，一些易于使用的程序被开发出来为大多生物学家提供了比较蛋白建模的良好初步近似。(许多商业蛋白结构分析工具，如WHAT-IF和LOOK都提供了更深入功能，但这里只限于讨论基于Web的免费软件)。

一个序列结构自动比较程序SWISS-MODEL(Peitsch，1996)是一个两步过程。“First Approach”模式，先用来决定序列能否被建模：当序列提交到程序，SWISS-MODEL将其与晶体图像数据库(ExPdb)比较，只有当ExPdb中存在与序列充分相似的同源序列时才被接受建模。如果这一步在ExPdb中找到了一个或多个合适的同源物，则会建立一个原子模型，并将结果由电子邮件返回。这些结果能再提交给SWISS-MODEL的“Optimize”模式，利用其它知识如生物化学信息，来修正提出的结构模型。

第二种方法是将结构与结构相对比，与第七章中讨论的向量比对搜索工具(VAST)原理类似。DALI算法在两个蛋白之间寻找相似的接触模式，并进行优化后返回最佳的结构比对方案(Holm和Sander，1993)。这种方法允许任意长度的空隙，并允许比对片段间互相交替连接，这样就帮助了在整体上不相似的不同蛋白之间寻找相似的特定结构域。DALI的Web界面能对PDB中已有的两组坐标进行分析，也可由用户提交一组PDB格式的坐标。其中，若两个目标蛋白都在PDB库中，则可以在一个“全对全”的PDB比较数据库FSSP蛋白折叠类家族结构比对库(Holm和Sander，1994)中找到已经算好的结构近邻。

最后一种方法是对前面的PHD二级结构预测方法的补充。TOPITS方法(Rost，1995)中，PDB库里的蛋白质三维结构被翻译成二级结构的一维“字符串”，构成搜索的数据库。然后，查询序列的二级结构和溶液可及性通过PHD方法被确定，结果也存成一维字符串。查询和目标字符串再以动态规划方法进行比对，并以此作出结构预测。返回的结果是分级列表，给出查询序列与目标结构的最优比对，以及对预测准确性概率的评估(Z score)。

这里讨论的三种方法都是相当基本的方法，因此它们能较快返回结果并可以使用Web类界面。但它们在检测结构间弱相似性中所表现出的水平令人信服。“threading”方法的最终潜力可以通过最近的Aslomar会议来说明，许多工作小组应邀参与了一个“结构预测竞赛”(Lemer等，1995)。这个为前面提到的更复杂技术开设的实验场表明，虽然蛋白质折叠问题还远未得到解决，大量蛋白质折叠类还是能得到可靠的辨识。尽管不同方法在竞赛中各有所长，竞赛主持人还是建议采用“一致相似方法”的结构，就象前面二级结构预测中给出例子的方法一样。这些发展成果所处时代时机十分令人振奋，紧随着人类基因组计划的同时发展，为研究者在辨识出假定基因产物后能预测结构与功能的关系提供了强有力的工具。第11章中涉及内容的因特网资源

PREDICTION OF PHYSICAL PROPERTIES

Compute pI/MW

http://expasy.hcuge.ch/ch2d/pi.tool.thml

PeptideMass

http://expasy.hcuge.ch/sprot/peptide-mass.html

TGREASE

ftp://ftp.vrgnia.edu/pub/fasta/

SAPS

http://ulrec2.unil.ch/software/SAPS_form.html

PREDICTION OF PROTEIN IDENTITY BASED ON COMPOSITION

AACompIdent

http://expasy.hcuge.ch/ch2d/aacompi.html

AACompSim

http://expasy.hcuge.ch/ch2d/aacsim.html

PROPSEARCH

http://www.embl-heidelerg.de/prs.html

PREDICTION OF SECONDARY STRUCTURE AND FOLDING CLASS

nnpredict

http://www.cmpharm.ucsf.edu/~nomi/nnpredict.html

PredictProtein

http://www.embl-heidelerg.de/predictprotein/

SOPMA

http://www.ibcp.fr/predict.html

SSPRED

http://www.embl-heidelberg.de/sspred/sspred_info.html

PREDICTION OF SPECIALIZED STRUCTURES OR FEATURES

COILS

http://ulrec3.unil.ch/software/COILS_form.html

MacStrip

http://www.wi.mit.edu/matsudaira/macstripe.html

SignalP

http://www.cbs.dtu.dk/services/SignalP/

TMAP

http://ww.embl-heidelberg.de/tmap/tmap_sin.html

TMpred

http://ulrec3.unil.ch/software/TMPRED_form.htm

STRUCTURE PREDICTION

Bryant-Lawrence

ftp://ncbi.nlm.nih.gov/pub/pkb

DALI

http://www.embl-heidelberg.de/dali/dali.html

FSSP

http://www.embl-heidelberg.de/dali/fssp/fssp.html

SWISS-MODEL

http://expasy.hcuge.ch/swissmod/SWISS-MODEL.html

TOPITS

http://www.embl-heidelberg.de/predictprotein/phd_help.html参考文献

Akrigg, D., Bleasby, A. J., Dix, N. I. M., Findlay, J. B. C., North, A. C. T., Parry-Smith, D., Wootton, J. C., Blundell, T. I., Gardner, S. P., Hayes, F., Stemberg, M. J. E., Thornton, J. M., Tickle, I. J., and Murray-Rust, P. (1988). A protein sequence/structure database. Nature 335, 745-746.

Anfinsen, C. B., Haber, E., Sela, M., and White, F. H. (1961). The kinetics of the formation of native ribonuclease during oxidation of the reduced poly peptide chain. Proc. Natl. Acad. Sci. U.S.A. 47, 1309-1314.

Appel, R. D., Bairoch, A., and Hochstrasser, D. F. (1994). A new generation of information retrieval tools for biologists: The example of the ExPASy WWW server. Trends Biochem. Sci. 19, 258-260.

Bjellqvist, B., Hughes, G., Pasquali, C., Paquet, N., Ravier, F., Sanchez, J.-C., Frutiger, S., and Hochstrasser, D. F. (1993). The focusing positions of polypeptides in immobilized pH gradients can be predicted from their amino acid sequence. Electrophoresis 14, 1023-1031.

Brendel, V., Bucher, P., Nourbakhsh, I., Blasidell, B. E., and Karlin, S. (1992). Methods and algorithms for statistical analysis of protein sequences. Proc. Natl. Acad. Sci. U.S.A. 89, 2001-2006.

Bryant, S. H., and Altschul, S. F. (1995). Statistics of sequence-structure threading. Curr. Opin. Struct. Biol. 5, 236-244.

Bryant, S. H., and Lawrence, C. E. (1993). An empircal energy function for threading protein sequence through the folding motif. Proteins 16, 92-112.

Burnett, R. M., Darling, G. D., Kendall, D. S., LeQuesne, M. E., Mayhew, S. G., Smith, W. W., and Ludwig, M. L. (1974). The structure of the oxidized form of clostridial favodoxin at 1.9 Å resolution. J. Biol. Chem. 249, 4383-4392.

Chothia, C. (1992). One thousand families for the molecular biologist. Nature 357, 543-544.

Chothia, C., and Lesk, A. M. (1986). The relation between the divergence of sequence and structure in proteins. EMBO J. 5, 823-826.

Cordwell, S. J., Wilkins, M. R., Cerpa-Poljak, A., Gooley, A. A., Duncan, M., Williams, K. L., and Humphery-Smith, I. (1995). Cross-species identification of proteins separated by two-dimensional eletrophoresis using matrix-assisted laser desorption ionization/time-of-flight mass spectrometry and amino acid compsition. Electrophoresis 16, 438-443.

Deléage, G., and Roux, B. (1987). An algorithm for protein secondary structure based on class prediction. Protein Eng. 1, 289-294.

Eisenhaber, F., Persson, B., and Argos, P. (1995). Protein structure prediction: Recognition of primary, secondary, and tertiary structural features from amino acid sequence. Crit. Rev. Biochem. Mol. Biol. 30, 1-94.

Fetrow, J. S, and Bryant, S. H. (1993). New programs for protein tertiary structure prediction. Bio/Technology 11, 479-484.

Garnier, J., Gibrat, J.-F., and Robson, B (1996). GOR method for predicting protein secondary structure from amino acid sequence. Methods Enzymol. 266, 540-553.

Geourjon, C., and Déleage, G. (1995). SOPMA: Significant improvements in protein secondary structure prediction by consensus prediction from multiple alignments. CABIOS 11, 681-684.

Guss, J. M., and Freeman, H. C. (1983). Structure of oxidezd poplar plastocyanin at 1.6 Å resolution. J. Mol. Biol. 169, 521-563.

Hobohm, U., and Sander, C. (1995). A sequence property approach to searching protein databases. J. Mol. Biol. 251, 390-399.

Hofmann, K., and Stoffel, W. (1993). TMbase: A database of membrane-spanning protein segments. Biol. Chem. Hoppe-Scyler 347, 166.

Holm, L., and Sander, C. (1993). Protein structure comparison by alignment of distance matrices. J. Mol. Biol. 233, 123-138.

Holm, L., and Sander, C. (1994). The FSSP database of structurally-aligned protein fold families. Nucl. Acids Res. 22, 3600-3609.

Jones, D. T., and Thornton, J. M. (1996). Poteintial energy functions for threading. Curr. Opin. Struct. Biol. 6, 210-216.

Kneller, D. G., Cohen, F. E., and Langridge, R. (1990). Improvemnets in protein secondary structure prediction by and enhanced neural network. J. Mol. Biol. 214, 171-182.

Knight, A. E. (1994). The Diversity of Myosin-like Proteins(Cambridge: Cambridge University Press).

Kyte, J., and Doolittle, R. F. (1982). A simple method for displaying the hydropathic charactor of a protein. J. Mol. Biol. 157, 105-132.

Lemer, C. M., Rooman, M. J., and Wodak, S. J. (1995). Protein structure prediction by threading methods: Evaluation of current techniques. Protein 23, 337-355.

Levin, J. M., Robson, B., and Garnier, J. (1986). An algorithm for secondary structure determination in proteins based on sequence similarity. FEBS Lett. 205, 303-308.

Levitt, M., and Chothia, C. (1976). Structural patterns in globular proteins. Nature 261, 552-558.

Lupas, A., Van Dyke, M., and Stock, J. (1991). Predicting coiled coils from protein sequences. Science 252, 1162-1164.

Mehta, P. K., Heringa, J., and Argos, P. (1995). A simple and fast approach to prediction of protein secondary structure from multiply aligned sequences with accuracy above 70%. Protein Sci. 4, 2517-2525.

Nielsen, H., Engelbrecht, J., Brunak, S., and von Heijne, G. (1997). Identification of prokaryotic and eukaryotic signal peptides and prediction of their cleavage sites. Protein Eng. 10, 1-6.

Papin, D. J. C., Hojrup, P., and Bleasby, A. J. (1993). Rapid identification of proteins by peptide-mass fingeprinting. Curr. Biol. 3, 327-332.

Pauling, L., and Corey, R. B. (1951). The structure of proteins: Tow hydrogen-bonded helical configurations of the polypeptide chain. Proc. Natl. Acad. Sci. U.S.A. 37, 205-211.

Peitsch, M. C. (1996). ProMod and SWISS-MODEL: Internet-based tools for automated comparative protein modelling. Biochem. Soc. Trans. 24, 274-279.

Person, B., and Argos, P. (1994). Prediction of transmembrane segments in proteins utilising multiple sequence alignments. J. Mol. Biol. 237, 182-192.

Rost, B. (1995). TOPITS: Threading one-dimensional predictions into three-dimensional structures. In Third International Conference on Intelligent Systems for Molecular Biology. C. Rawlings, D. Clark, R. Altman, L. Hunter, T. Lengauer, and S. Wodak, Eds. (Cambridge: AAA1 Press), pp. 314-321.

Rost, B. (1996). PHD: Predicting one-dimensional protein structure by profile-based neural networks. Methods Enzymol. 266, 525-539.

Rost, B., Sander, C., and Schneider, R. (1994). PHD: A mail server for protein secondary structure prediction. CABIOS 10, 53-60.

Sander, C., and Schneider, R. (1991). Proteins 9, 56-68.

Smith, W. W., Pattridge, K. A., Ludwig, M. L., Petsko, G. A., Tsernoglou, D., Tanaka, M., and Yasunobu, K. T. (1983). Structure of oxidized flavodoxin from Anacystis nidulans. J. Mol. Biol. 165, 737-755.

Takano, T. (1977). Structure of myoglobin refined at 2.0 ?. J. Mol. Biol. 110, 537-584.

Wilkins, M. R., Pasquali, C., Appel, R. D., Ou, K., Golaz, O., Sanchez, J.-C., Yan, J. X., Gooley, A. A., Hughes, G., Humphery-Smith, I., Williams, K. L., and Hochstrasser, D. F. (1996). From proteins to proteomes: Large-scale protein identification by two-dimensional electrophoresis and amino acid analysis. Bio/Techniques 14, 61-65.

Wilkins, M. R., Lindskog, I., Gasteiger, E., Bairoch, A., Sanchez, J.-C., Hochstrasser, D. F., and Appel, R. D. (1997). Detailed peptide characterization using PeptideMass, a World Wide Web accessible tool. Electrophoresis 18, 403-408.

蛋白质集合c语言算法,利用蛋白质序列的预测方法相关推荐

c语言学习-利用函数指针的方法，求任意给出两个整数的x和y的和、差。
编写一个程序,利用函数指针的方法,求任意给出两个整数的x和y的和.差. 程序流程图: 代码: #include<stdio.h> void main() {int x,y,*m=& ...
C语言描述算法的常用方法是,认识C语言 -算法描述的5种方法
在 C语言中,有 5 种常用的算法描述方法:自然语言.流程图.N-S 图.伪代码和程序设计语言. 1. 自然语言描述算法上一讲<算法是什么>中给出的解决问题的算法 a.算法 b 和算法 ...
计算机与科学唐家琪,基于网络分析的蛋白质功能预测方法研究
摘要: 蛋白质是执行生物体内各种重要生物活动的大分子,认识其功能对推动生命科学.农业.医疗等领域的发展意义重大.传统的生物实验测定蛋白质的功能需要消耗大量的人力.物力.财力,并且效率低下,已无法满足数 ...
算法与数据结构c语言版PPT,C语言算法与数据结构.ppt
C语言算法与数据结构.ppt 第十二章算法与数据结构12.1 算法的基本概念,该节知识点所占试题比重为12,属于重点考查对象,基本上每次必考,主要考查算法的定义和对算法复杂度的理解.历次试题分值在0 ...
(三）C语言算法概述
本篇介绍算法-程序的灵魂定义特征要素评定典型算法描述方式重要性举例定义算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描 ...
c语言单片机求最小公倍数,单片机常用的14个C语言算法，要熟记在心哦！
原标题:单片机常用的14个C语言算法,要熟记在心哦! 算法(Algorithm):计算机解题的基本思想方法和步骤. 算法的描述:是对要解决一个问题或要完成一项任务所采取的方法和步骤的描述,包括需要什么 ...
ML之K-means：基于K-means算法利用电影数据集实现对top 100 电影进行文档分类
ML之K-means:基于K-means算法利用电影数据集实现对top 100 电影进行文档分类目录输出结果实现代码输出结果先看文档分类后的结果,一共得到五类电影: 实现代码 # -*- c ...
ML之H-Clusters：基于H-Clusters算法利用电影数据集实现对top 100电影进行文档分类
ML之H-Clusters:基于H-Clusters算法利用电影数据集实现对top 100电影进行文档分类目录输出结果实现代码输出结果先看输出结果实现代码 # -*- coding: ut ...
编写一个字节数的rtu C语言校验程序,Modbus通信协议中CRC校验的快速C语言算法
Modbus通信协议中CRC校验的快速C语言算法 2004年第11期福建电脑 63 Modbus通信协议中CRC校验的快速C语言算法孟开元 (西安石油大学计算机学院陕西西安710065) [ ...

蛋白质集合c语言算法,利用蛋白质序列的预测方法

蛋白质集合c语言算法,利用蛋白质序列的预测方法相关推荐

最新文章

热门文章