Protein Ising Model Problem

1.预备知识


  1. 蛋白质都是由20种不同的L型α氨基酸连接形成的多聚体,在形成蛋白质后,这些氨基酸又被称为残基。
  2. 蛋白质的分子结构可划分为四级,以描述其不同的方面:
  3. 蛋白质一级结构:组成蛋白质多肽链的线性氨基酸序列。
  4. 蛋白质二级结构:依靠不同氨基酸之间的C=O和N-H基团间的氢键形成的稳定结构,主要为α螺旋和β折叠。
  5. 蛋白质三级结构:通过多个二级结构元素在三维空间的排列所形成的一个蛋白质分子的三维结构。
  6. 蛋白质四级结构:用于描述由不同多肽链(亚基)间相互作用形成具有功能的蛋白质复合物分子。
  7. 测定蛋白质序列比测定蛋白质结构容易得多,而蛋白质结构可以给出比序列多得多的关于其功能机制的信息。
  8. 获得蛋白质序列数据要比获得结构数据简单得多, DNA测序技术的突飞猛进更使得可直接通过翻译、推导得到大量的蛋白质序列. 而目前蛋白质结构数据库 PDB中所存储的蛋白质三维结构主要通过X 射线晶体衍射和核磁共振成像技术得到, 两种实验方法均成本不菲, 且有各自的应用局限.
  9. 截止2016年 5 月, PDB 数据库中存储了11万余条蛋白质结构 数据, 而这只占UniProt中所有蛋白质序列数据的 1/600, 也就是说只有不到0.2%的蛋白质序列拥有 实验测定的三维结构。
  10. 常见蛋白质分类:

纤维蛋白(fibrous protein)

一类主要的不溶于水的蛋白质,通常都含有呈现相同二级结构的多肽链许多纤维蛋白结合紧密,并为

单个细胞或整个生物体提供机械强度,起着保护或结构上的作用。

球蛋白(globular protein)

紧凑的,近似球形的,含有折叠紧密的多肽链的一类蛋白质,许多都溶于水。典形的球蛋白含有能特异的识别其它化合物的凹陷或裂隙部位。

角蛋白(keratin)

由处于α-螺旋或β-折叠构象的平行的多肽链组成不溶于水的起着保护或结构作用蛋白质。

胶原蛋白(collagen)

是动物结缔组织最丰富的一种蛋白质,它是由原胶原蛋白分子组成。原胶原蛋白是一种具有右手超螺旋结构的蛋白。每个原胶原分子都是由3条特殊的左手螺旋(螺距0.95nm,每一圈含有3.3个残基)的多肽链右手旋转形成的。

伴娘蛋白(chaperone)

与一种新合成的多肽链形成复合物并协助它正确折叠成具有生物功能构向的蛋白质。伴娘蛋白可以防止不正确折叠中间体的形成和没有组装的蛋白亚基的不正确聚集,协助多肽链跨膜转运以及大的多亚基蛋白质的组装和解体。

肌红蛋白(myoglobin)

是由一条肽链和一个血红素辅基组成的结合蛋白,是肌肉内储存氧的蛋白质,它的氧饱和曲线为双曲线型。

血红蛋白(hemoglobin)

是由含有血红素辅基的4个亚基组成的结合蛋白。血红蛋白负责将氧由肺运输到外周组织,它的氧饱和曲线为S型。

蛋白质变性(denaturation):生物大分子的天然构象遭到破坏导致其生物活性丧失的现象。蛋白质在受到光照,热,有机溶济以及一些变性济的作用时,次级键受到破坏,导致天然构象的破坏,使蛋白质的生物活性丧失。

复性(renaturation):在一定的条件下,变性的生物大分子恢复成具有生物活性的天然构象的现象。

别构效应(allosteric effect):又称为变构效应,是寡聚蛋白与配基结合改变蛋白质的构象,导致蛋白质生物活性丧失的现象。


  1. 具有相似性序列的蛋白质具有相似的功能。因此,最好确定蛋白质功能的方法是进行数据库的相似性搜索。
  2. 许多功能可直接从蛋白质序列预测出来。例如,疏水性信息可被用于跨膜螺旋的预测,还有不少小的序列模体(motif)是细胞用于特定细胞区室(cell compartment)蛋白质的定向。
  3. 基因承载了生命的遗传信息,生命的功能则是藉由蛋白质执行的;蛋白质是由20种氨基酸组成的肽链,而DNA中的基因控制了蛋白质中氨基酸种类的排序。蛋白质只有在折叠的状态下才能表现出生命的功能,但折叠是如何自发形成的呢?氨基酸序列与蛋白质空间结构的关系研究源于美国生物化学家安芬森(C.Anfinsen)。1961年,他研究了核糖核酸酶的去折叠和重折叠过程,发现在相同的环境中去折叠的蛋白质都会恢复到原来的空间结构,认为蛋白质链会以自由能最低的方式形成三维结构,由此推测蛋白质的折叠密码隐藏在氨基酸排序中,即所谓的安芬森原则:蛋白质一级排序决定三维结构。因为“对控制蛋白质链折叠原理的研究”,安芬森获得1972年诺贝尔化学奖。
  4. 蛋白质结构的密码隐藏在序列中,那么解开这个密码就可以通过序列来解开蛋白质的结构。张阳说:“我们的目的就是用计算机从氨基酸的序列来直接预测蛋白质的结构。将序列输进计算机里,设计一套程序,让计算机去计算和确定蛋白质中每个原子的三维坐标。如果这种理论方法经实验数据的验证可行,那么就可能通过计算机自动预测出蛋白质的结构,这几乎是免费的。”
  5. 然而,用序列预测结构谈何容易。驱动氨基酸折叠形成特定三维空间的作用诸多,包括氨基酸侧链分子间作用力、水分子表面张力、氨基酸侧链分子间的电偶极距和电磁力以及它与水分子的相互作用等。根据数学计算,由100个氨基酸构成的小蛋白质的空间构象可能会有1050种空间结构。
  6. 物含妙理总堪寻。一种氨基酸序列只可能有一种蛋白质结构,这就是计算机预测蛋白质结构的意义所在。根据安芬森的热动力学原理,蛋白质在细胞中应该处在它与环境的自由能最低态。这意味着可以根据物理、化学、生物学等知识来设计蛋白质的能量函数,因此寻找这种最低自由能所代表的结构。

2.具体问题

首先,给定一个蛋白质的空间结构和序列信息,由上面的预备知识可知,两者是相关的,因为一种序列会根据最低的自由能形成唯一的结构。这里假定给出的蛋白质是5P21,我们可以通过PDB和其他渠道获得其信息。
能量计算公式如下:

其中xix_ixi​表示序列的第i个位置的字符,CijC_{ij}Cij​是个指标,表示是否蛋白质折叠时,位置i和j上的残基的CαC\alphaCα原子小于6个埃。ϕ(xi,xj)\phi(x_i,x_j)ϕ(xi​,xj​)是一个来自于真实世界的蛋白质广泛使用的联合概率(见下图,参考:Residue–residue potentials with a favorable contact pair term and an unfavorable high packing density term, for simulation and threading)。在序列中的所有位置都使用相同的20x20的联合概率表,因此,蛋白质间能量函数的差异仅由它们不同的接触图结构决定。这里将局部项ϕi(xi)\phi_i(x_i)ϕi​(xi​)设置为零。

-5.44 -4.99 -5.80 -5.50 -5.83 -4.96 -4.95 -4.16 -3.57 -3.16 -3.11 -2.86 -2.59 -2.85 -2.41 -2.27 -3.60 -2.57 -1.95 -3.07
0.46 -5.46 -6.56 -6.02 -6.41 -5.32 -5.55 -4.91 -3.94 -3.39 -3.51 -3.03 -2.95 -3.30 -2.57 -2.89 -3.98 -3.12 -2.48 -3.45
0.54 -0.20 -7.26 -6.84 -7.28 -6.29 -6.16 -5.66 -4.81 -4.13 -4.28 -4.02 -3.75 -4.10 -3.48 -3.56 -4.77 -3.98 -3.36 -4.25
0.49 -0.01 0.06 -6.54 -7.04 -6.05 -5.78 -5.25 -4.58 -3.78 -4.03 -3.52 -3.24 -3.67 -3.17-3.27 -4.14 -3.63 -3.01 -3.76
0.57 0.01 0.03 -0.08 -7.37 -6.48 -6.14 -5.67 -4.91 -4.16 -4.34 -3.92 -3.74 -4.04 -3.40 -3.59 -4.54 -4.03 -3.37 -4.20
0.52 0.18 0.10 -0.01 -0.04 -5.52 -5.18 -4.62 -4.04 -3.38 -3.46 -3.05 -2.83 -3.07-2.48 -2.67 -3.58 -3.07 -2.49 -3.32
0.30 -0.29 0.00 0.02 0.08 0.11 -5.06 -4.66 -3.82 -3.42 -3.22 -2.99 -3.07 -3.11 -2.84 -2.99 -3.98 -3.41 -2.69 -3.73
0.64 -0.10 0.05 0.11 0.10 0.23 -0.04 -4.17 -3.36 -3.01 -3.01 -2.78 -2.76 -2.97 -2.76 -2.79 -3.52 -3.16 -2.60 -3.19
0.51 0.15 0.17 0.05 0.13 0.08 0.07 0.09 -2.72 -2.31 -2.32 -2.01 -1.84 -1.89 -1.70 -1.51 -2.41 -1.83 -1.31 -2.03
0.68 0.46 0.62 0.62 0.65 0.51 0.24 0.20 0.18 -2.24 -2.08 -1.82 -1.74 -1.66 -1.59 -1.22 -2.15 -1.72 -1.15 -1.87
0.67 0.28 0.41 0.30 0.40 0.36 0.37 0.13 0.10 0.10 -2.12 -1.96 -1.88 -1.90 -1.80 -1.74 -2.42 -1.90 -1.31 -1.90
0.69 0.53 0.44 0.59 0.60 0.55 0.38 0.14 0.18 0.14 -0.06 -1.67 -1.58 -1.49 -1.63 -1.48 -2.11 -1.62 -1.05 -1.57
0.97 0.62 0.72 0.87 0.79 0.77 0.30 0.17 0.36 0.22 0.02 0.10 -1.68 -1.71 -1.68 -1.51 -2.08 -1.64 -1.21 -1.53
0.64 0.20 0.30 0.37 0.42 0.46 0.19 -0.12 0.24 0.24 -0.08 0.11 -0.10 -1.54 -1.46 -1.42 -1.98 -1.80 -1.29 -1.73
0.91 0.77 0.75 0.71 0.89 0.89 0.30 -0.07 0.26 0.13 -0.14 -0.19 -0.24 -0.09 -1.21 -1.02 -2.32 -2.29 -1.68 -1.33
0.91 0.30 0.52 0.46 0.55 0.55 0.00 -0.25 0.30 0.36 -0.22 -0.19 -0.21 -0.19 0.05 -0.91 -2.15 -2.27 -1.80 -1.26
0.65 0.28 0.39 0.66 0.67 0.70 0.08 0.09 0.47 0.50 0.16 0.26 0.29 0.31 -0.19 -0.16 -3.05 -2.16 -1.35 -2.25
0.93 0.38 0.42 0.41 0.43 0.47 -0.11 -0.30 0.30 0.18 -0.07 -0.01 -0.02 -0.26 -0.91 -1.04 0.14 -1.55 -0.59 -1.70
0.83 0.31 0.33 0.32 0.37 0.33 -0.10 -0.46 0.11 0.03 -0.19 -0.15 -0.30 -0.46 -1.01 -1.28 0.23 0.24 -0.12 -0.97
0.53 0.16 0.25 0.39 0.35 0.31 -0.33 -0.23 0.20 0.13 0.04 0.14 0.18 -0.08 0.14 0.07 0.15 -0.05 -0.04 -1.75

我们会根据序列上残基的距离信息先生成一个连接图,具体的说,当两个残基距离小于6个Cα原子距离埃时,我们认为这两个残基是相互连接的。所以我们可以生成如下连接图:

至此,我们给定的一个蛋白质空间结构,我们可以设计一个离散序列优化问题,其中每个序列的每个位置上决策变量都是20个氨基酸的其中一个。优化上式,得到最小折叠能的序列,最后可以将这个序列与真实序列进行比较。

返回贝叶斯优化优秀论文总结目录

Protein Ising Model Problem相关推荐

  1. 贝叶斯优化优秀论文总结目录

    持续更新中,论文均来自该领域的优秀会议或期刊,涉及的领域主要是贝叶斯优化,离散贝叶斯优化.本人才疏学浅,若读者发现有不对的地方,欢迎留言评论指正. Bayesian optimization 标题 发 ...

  2. DEEPCON: protein contact prediction using dilated convolutional neural networks with dropout

    今天真的要开始正式进入科研状态了,之前一直都进入失败,咳!那就先来看一篇相关领域的论文吧 ---------------------------------------------- 题目:DEEPC ...

  3. 【李宏毅2020 ML/DL】补充:Structured Learning: Introduction Structured Linear Model

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本次笔记补充视频 BV1JE411g7XF 的缺失部分.在另一个UP主上传的2017课程BV13x411v7U ...

  4. 量子信息与量子计算_量子计算为23美分。

    量子信息与量子计算 On Aug 13, 2020, AWS announced the General Availability of Amazon Braket. Braket is their ...

  5. np完全问题的例子_MIT开发光子算法,试图解决世界7大数学难题的“NP完全问题”...

    2000年5月,美国克雷数学研究所(Clay Mathematics Institute,CMI)提出7个数学难题,称为"千禧年大奖难题",挑战者每解出1道题目,若通过两年验证期和 ...

  6. MRF,马尔科夫随机场

    之前自己做实验也用过MRF(Markov Random Filed,马尔科夫随机场),基本原理理解,但是很多细节的地方都不求甚解.恰好趁学习PGM的时间,整理一下在机器视觉与图像分析领域的MRF的相关 ...

  7. 多智能体强化学习入门

    参考文章:万字长文:详解多智能体强化学习的基础和应用 .多智能体强化学习入门(一)--基础知识与博弈 推荐文章:多智能体强化学习路线图 (MARL Roadmap) 推荐综述论文:An Overvie ...

  8. REINFORCEMENT LEARNING USING QUANTUM BOLTZMANN MACHINES利用量子波兹曼机进行强化学习

    REINFORCEMENT LEARNING USING QUANTUM BOLTZMANN MACHINES 利用量子波兹曼机进行强化学习 Abstract. We investigate whet ...

  9. 马尔科夫随机场Markov Random Field

    马尔可夫随机场,描述了具有某种特性的集合.拿种地打比方,如果任何一块地里种的庄稼的种类仅仅与它邻近的地里种的庄稼的种类有关,与其它地方的庄稼的种类无关,那么这些地里种的庄稼的集合,就是一个马尔可夫随机 ...

最新文章

  1. DW php创建站点
  2. Linux下的权限掩码umask
  3. linux kernel中的virt_to_phys代码解读
  4. Nginx通过域名配置虚拟机
  5. 【C# interface接口】对接口的理解、接口的使用方式(最通俗的解释)
  6. 里面怎么打中文字_“标题党”英语应该怎么翻译?不要翻译成“title party”!...
  7. PyTorch:数据读取1 - Datasets及数据集划分
  8. 伺服电机的调试步骤有哪些
  9. 动易CMS2006安装与配置
  10. Video Extractor监控视频侦查取证分析系统
  11. ipadpro尺寸的html,iPad Pro尺寸到底有多大?
  12. 【20保研】复旦大学2019年大数据学院全国优秀大学生夏令营活动方案
  13. 青岛理工大学 研究生 吴斌
  14. Win7 运行bat批处理文件时怎么隐藏cmd命令提示符窗口
  15. Nginx关闭或重启后nginx.pid丢失
  16. 如何使服务具备高可用性
  17. 查询分析器里查看执行计划
  18. AAL模版 中英文对照
  19. 神经了的ODE:Neural Ordinary Differential Equations
  20. 计算机硬件加网络俱乐部,[硬件维护]免费为大家提供电脑硬件方面的咨询,24小时在线服务!...

热门文章

  1. [译] 2019版 web 浏览器现状
  2. 无线通信基础知识7:射频器件的基本参数3
  3. Capstone/CS5266 TYPEC拓展坞带PD快充芯片 CS5266应用说明
  4. 收了赎金还撕票?世界安全专家已不能忍,合力对抗勒索软件 | RSA 2017
  5. MySQL存储引擎概叙
  6. react的SSR(2)
  7. mahout fpg
  8. jsp高校教学资源管理系统
  9. Burp Suite win10下安装图文教程
  10. 拯救动画卡顿之FLIP