蛋白质由于其来自于生命体的本质,在工业环境下通常是不稳定的。暂不提高温高压或者含有有机溶剂的极端环境,就是在室温下抑或保存在4度的冰箱中,很多蛋白质都会很快的发生聚集、失活。

稳定蛋白质的方法有很多种,包括蛋白质工程,固定化,添加稳定剂等。蛋白质工程指的是对蛋白质进行基因改造,通过改变其结构来获得对包括pH,温度,有机溶剂等环境的耐受性。蛋白质工程通常可以采用三种策略,一种是定向进化,即在基因中随机引入突变,而后进行大规模的筛选,从而获得有益突变株。另一种策略是理性设计,即根据已知的蛋白质的结构与功能之间的关系,设计突变位点,而后通过定点突变的方式引入。最后一种策略,叫作计算机辅助设计。

顾名思义,计算机辅助设计主要依赖于计算机的计算。将蛋白质的三维结构作为输入,通过计算野生型与突变型的吉布斯自由能变的差值来判断突变型是否稳定。预测突变体是否稳定的软件有很多种[1],包括CUPSAT、Dmutant、FoldX、I-Mutant、Eris [2]、Rosetta ddg_monomer [3]等。最近有研究者对这些方法的预测准确率进行了比较,发现Rosetta ddg_monomer,FoldX等的准确率要高于其他的软件[4]。

ddg_monomer已经成功的应用于包括柠檬烯环氧化物水解酶、卤代烷烃脱卤酶在内的多个蛋白质的稳定性工程化过程中。最近,我们也应用这个软件提高了大肠杆菌转酮醇酶的热稳定性,并对其预测准确率进行了评估,最后发现,其准确率可以达到65%[5]。面对着低效率的着定向进化,低成功率的理性设计,具有65%准确率的ddg_monomer 无疑是蛋白质工程学家的一个有力工具。由于本软件相关的中文资料并不多,BioEngX小编这里总结一下ddg_monomer的用法与操作步骤。

获取与安装

ddg_monomer程序是Rosetta软件内的一个应用。Rosetta软件最早是在华盛顿大学David Baker教授实验室开发的,目前软件内有多个应用可供用户使用,常用的应用程序有同源建模(comparative modelling)、短片段模拟与重建(Loop modelling and rebuilding)、蛋白质设计(protein design)、蛋白质与蛋白质对接(Protein-protein docking)、蛋白质配体对接(Protein-ligand docking)等。下载安装Rosetta软件后,这些程序就都可以应用了。

Rosetta软件对于学术界用户是免费的,只需要申请获得一个许可证,就可以从Rosetta的官网中下载软件了。详细的安装过程,大家可以从下面的链接中获悉:

https://www.rosettacommons.org/demos/latest/tutorials/install_build/install_build

需要注意的是,Rosetta软件目前只能安装在Linux系统或苹果Mac系统中。安装好Rosetta后可以在下面的目录中找到ddg_monomer应用程序rosetta/rosetta_source/src/apps/public/ddg/ddg_monomer.cc

输入文件准备

有两种方式可以用来运行ddg_monomer程序:一种是高分辨,一种是低分辨率。高分辨率的方式允许蛋白质的骨架(backbone)进行一定的运动,而低分辨率的方式只允许蛋白质侧链运动。根据文献的报道,高分辨率方式的准确率要比低分辨率方式高一些。本文主要介绍高分辨率方式运行ddg_monomer。

为了顺利以高分辨方式运行ddg_monomer 程序,我们需要准备以下文件:

对氨基酸进行重新排序的蛋白质PDB结构

距离限制文件

Mutfile文件,该文件内用来指明需要突变的位点以及目标氨基酸

下面我们逐一介绍如何获得这三个文件以及每个文件的用途。

处理PDB文件

为了应用Rosetta软件,野生型蛋白的结构必须是已知的。从PDB数据中直接下载的PDB文件需要经过处理后,才能够应用于Rosetta 程序。处理的过程其实就是对PDB中的残基进行重新编号,将结构中第一个氨基酸编号为1。由于蛋白质内某些氨基酸灵活度比较高,比如N,C两端的氨基酸或某些无规则结构内氨基酸,在结构解析时这些残基经常会被漏掉,PDB文件内通常没有这些氨基酸的结构坐标。

Rosetta要求所有输入的结构文件,第一个残基都要被标识为残基1,而且整个结构内氨基酸排序不能有断点,所以大多数的PDB文件都需要进行处理,对氨基酸进行重新编号。Rosetta内提供了一个小的脚本程序,能够对PDB文件进行处理。可以通过下面的命令,运行这个程序

Python /usr/local/rosetta/tools/protein_tools/scripts/clean_pdb.py 1QGD AB > cleanpdb.log

上面的命令中,clean_pdb.py 是我们要调用的程序;1QGD是pdb文件的文件名;AB表示的是蛋白质的两条链,如果你的蛋白质中只有一条链,这里输入A就可以;cleanpdb.log 是本次程序运行的记录文件。

获得距离限制文件

高分辨率允许蛋白质骨架进行一定程度的运动。但为了防止骨架运动的幅度过大,严重偏离初始构象,需要对骨架的alpha C原子的位置进行一定的限制。距离限制也很简单,就是保证相邻的alpha C原子之间的距离在9 Å之间。Rosetta提供一个脚本,用来生成距离限制文件,可以采用下面的命令调用脚本:

tcsh /usr/local/rosetta/main/source/src/apps/public/ddg/convert_to_cst_file.sh mincst.log > input.cst

上面的命令中convert_to_cst_file.sh是我们的目标脚本,input.cst是本步骤生成的限制文件,mincst.log 是下一步能量最小化过程生成的log文件。

编写mutfile文件

Mutfile文件内需要标注清楚待突变氨基酸的位置以及目的氨基酸的种类。有关该文件的语法,感兴趣的同学可以从下面的网页中了解

https://www.rosettacommons.org/manuals/archive/rosetta3.4_user_guide/d1/d97/resfiles.html

小编在这里提供一个简单的例子。在一个txt的文件内输入下面的内容,而后将其扩展名更改为.mutfile,即获得了一个mutfile文件:

G 1 A

上面的内容表示,将PDB结构内的第一个氨基酸G突变成A。

能量最小化初始结构

野生型的三级结构需要进行能量最小化,而后才能用于ddg_monomer 的运算。Rosetta 提供了用于对PDB结构进行能量最小化的程序,其执行命令为:

/path/to/minimize_with_cst.linuxgccrelease -in:file:l lst -in:file:fullatom -ignore_unrecognized_res -fa_max_dis 9.0 -database /path/to/rosetta_database/ -ddg::harmonic_ca_tether 0.5 -score:weights standard -ddg::constraint_weight 1.0 -ddg::out_pdb_prefix min_cst_0.5 -ddg::sc_min_only false -score:patch rosetta_database/scoring/weights/score12.wts_patch > mincst.log

上面的命令可以对一系列PDB文件进行能量最小化,-in:file:l lst 用来指示需要进行能量最小化的文件,lst文件内标注待输入文件的文件名,可以是一个也可以是多个。这里需要强调的是,能量最小化输入的文件就是上一步处理过的PDB文件。Mincst.log文件是该命令的执行过程生成的log文件,这个文件可以通过脚本

convert_to_cst_file.sh

被转换为距离限制文件。

执行ddg_monomer程序

准备好输入文件后就可以正式执行ddg_monomer程序了。其执行命令如下:

/path/to/ddg_monomer.linuxgccrelease

-in:file:s WT.pdb

-ddg::mut_file H192P.mutfile

-ddg:weight_file soft_rep_design

-database /usr/local/rosetta/main/database/

-fa_max_dis 9.0

-ddg:minimization_scorefunction talaris2013

-ddg::iterations 50

-ddg::dump_pdbs true

-ignore_unrecognized_res

-ddg::local_opt_only false

-ddg::min_cst true

-constraints::cst_file input.cst

-ddg::suppress_checkpointing true

-in::file::fullatom -ddg::mean false

-ddg::min true

-ddg::sc_min_only false

-ddg::ramp_repulsive true

-unmute core.optimization.LineMinimizer

-ddg::output_silent

在上面的命令中,这三行指代输入文件:

-in:file:s WT.pdb 指的是能量最小化后的野生型的PDB结构,将WT换成你的文件名即可。

-ddg::mut_file H192P.mutfile 指的是mutfile文件,将H192P换成你的文件名即可。

constraints::cst_file input.cst 指的是距离限制文件的输入。

程序运行过程中,Rosetta软件会首先计算野生型的吉布斯自由能,而后计算突变型的吉布斯自由能,这个过程会持续50个循环。程序运行结束后,我们能够获得包括ddg_prediction.out 在内的一系列文件。ddg_prediction.out这个文件是最重要的,因为里面有我们需要的ΔΔG数据,也就是野生型吉布斯自由能与突变性吉布斯自由能的差值。如果ΔΔG数值为负,即突变性的自由能低于野生型的能量,那么说明Rosetta软件预测该突变型是有效的,能够提高野生型的稳定性。

上面我们介绍了如何运行ddg_monomer来预测单个点突变的稳定性。尽管小编认为整个过程已经介绍的很详细了,但在真正的执行过程中,通常还会遇到这样那样的问题。遇到问题怎么办呢?首先可以查看Rosetta提供的用户指南,查看这个链接https://www.rosettacommons.org/manuals/archive/rosetta3.4_user_guide/d3/d28/ddg_monomer_application.html,或参考文献[3]。

其次就是加入到我们BioEngX的大家庭,与其他同行交流讨论。感兴趣的小伙伴可以添加管理员微信号bioengxadmin,加入到BioEngX-分子动力学模拟 讨论群中。

Reference

[1] Khan S, Vihinen M. Performance of protein stability predictors[J]. Human mutation, 2010, 31(6): 675-684.

[2] Yin S, Ding F, Dokholyan N V. Modeling backbone flexibility improves protein stability estimation[J]. Structure, 2007, 15(12): 1567-1576.

[3] Kellogg E H, Leaver‐Fay A, Baker D. Role of conformational sampling in computing mutation‐induced changes in protein structure and stability[J]. Proteins: Structure, Function, and Bioinformatics, 2011, 79(3): 830-838.

[4] Thiltgen G, Goldstein R A. Assessing predictors of changes in protein stability upon mutation using self-consistency[J]. PloS one, 2012, 7(10): e46084.

[5] Yu H, Yan Y, Zhang C, et al. Two strategies to engineer flexible loops for improved enzyme thermostability[J]. Scientific Reports, 2017, 7.

蛋白质二级结构预测Linux,蛋白质稳定性预测工具-Rosetta ddg_monomer相关推荐

  1. linux下稳定性测试工具(拷机工具)

    http://blog.xok.la/2009/07/linux_test_kaoji.html 在网上查了有如下些: stresslinux super pi prime mprime nbench ...

  2. 论文解读:《多层肽 - 蛋白质相互作用预测的深度学习框架》

    Title:A deep-learning framework for multi-level peptide–protein interaction prediction 期刊:nature com ...

  3. 基于改进通道注意力和多尺度卷积模块的蛋白质二级结构预测

    一.背景: 传统的蛋白质三维结构预测可以通过一些传统方法预测,但是此类方法过于昂贵和耗费时间. 蛋白质二级结构是三维结构和序列的桥梁,其由多肽链中氢键的作用决定.许多研究表明,我们可以通过蛋白质的二级 ...

  4. 基于16S的细菌群落功能预测工具Tax4Fun2

    基于16S的细菌群落功能预测工具Tax4Fun2 回想第一次接触微生物组分析时是2017年,那会儿主流的两个基于16S的细菌群落功能预测工具就是PICRUSt和Tax4Fun,均可以获得类似于宏基因组 ...

  5. J. Cheminform. | GraphSol:预测接触图助力蛋白质溶解度预测

    今天给大家介绍中山大学杨跃东教授课题组发表在Journal of Cheminformatics上的一篇论文.该论文指出蛋白质的溶解度对于生产新的可溶性蛋白质非常重要,但是目前预测蛋白质溶解度的方法大 ...

  6. 13 款高逼格且实用的 Linux 运维必备工具

    13 款高逼格且实用的 Linux 运维必备工具 转自:https://mp.weixin.qq.com/s?__biz=MzI0MDQ4MTM5NQ==&mid=2247487674& ...

  7. 论文解读:多层肽 - 蛋白质相互作用预测的深度学习框架

    Title:A deep-learning framework for multi-level peptide–protein interaction prediction 期刊:nature com ...

  8. Linux下内存检测工具:asan

    Linux下内存检测工具:asan ASAN(Address-Sanitizier)早先是LLVM中的特性,后被加入GCC 4.8,在GCC 4.9后加入对ARM平台的支持.因此GCC 4.8以上版本 ...

  9. 基于Python实现的蛋白质二级结构预测

    资源下载地址:https://download.csdn.net/download/sheziqiong/87788721 资源下载地址:https://download.csdn.net/downl ...

最新文章

  1. Go各时间字符串使用详解
  2. 如何使用Fiddler抓包操作?
  3. 查看计算机用户创建时间,敬业签在电脑端怎样查看团签内容的创建时间?
  4. 前端vue适配不同的分辨率_浅析 React / Vue 跨端渲染原理与实现
  5. tf之ValueError: Tried to convert ‘values‘ to a tensor and failed. Error: None values not supported
  6. Java URL协议扩展实现
  7. 如何能能够学好软件编程技术
  8. __decspec(selectany)
  9. 学习面试题Day09
  10. WIN7 VS2005 安装wince6.0教程(不管是X86还是X64,我都尝试成功了)
  11. HDU6070 Dirt Ratio
  12. Android群英传笔记——第七章:Android动画机制和使用技巧
  13. Flash按钮操作(画面暂停与播放)
  14. XPIR : Private Information Retrieval for Everyone论文阅读笔记
  15. 软件工程--总体设计过程详解
  16. cisco交换机dhcp***防范
  17. js从路径中遍历出文件或图片名称,js截取路径中的图片和文件名称
  18. Leetcode-892. 三维形体的表面积
  19. 百度统计-网站统计添加
  20. Java视频教学从入门到精通(2022最新版)

热门文章

  1. 【拓扑学知识】2.连续同胚映射
  2. UVA1616-Caravan Robbers(二分)
  3. 求一段字符串内最长的非空子字符串的长度(实例)
  4. 三四十岁的大龄程序员,到底该怎么做才能避免失业?
  5. 如何获取layui表格选中行的数据
  6. 时间拆分法------高效率的使用完成开发工作之外的剩余时间掌握多门开发语言
  7. 打印可自定义的字母金字塔(python实现)
  8. Java基础知识(一),打好基础才能写出高质量代码
  9. 直播已入下半场,秀场直播该何去何从?
  10. 计量经济学笔记3-Eviews操作-多元线性回归