把已知生物大分子的结构进行精准比较,这样一个看似简单的问题,在AI高度发展的今天,居然是分子生物学里面一个悬而未决的数学问题。最近,密歇根大学和耶鲁大学的科学家合作在Nature Methods上发布的 US-align(Universal Structure Alignment, https://zhanggroup.org/US-align/)是全球第一款能把不同蛋白质和核酸等生物大分子的比对功能融合到同一个程序框架中,利用统一的标度函数和搜索引擎,来进行高精度多功能结构比对的计算机软件

"它一方面解决了此前不同比对算法‘各自为政’、难以沟通的问题;另一方面,通过采用统一标度和搜索引擎,有助于对含有不同类型分子的复合物比如在蛋白质-RNA 复合物之间进行高精度比对。对于生物大分子的功能注解、以及现代药物的开发来讲,第二方面显得尤为重要。” 著名蛋白质工程学家、美国密歇根大学医学院生物化学系教授张阳表示。

 密歇根大学张阳教授

为什么这是一个重要的问题,值得在Nature Methods这样高影响力杂志(IF=47.99)上发表?

我们居住的这个星球上繁衍着各式各样的生命,每个高级生命体的复杂社会学行为本质上都是通过其分子水平上的生物学功能来实现。而核酸和蛋白质分别是这些功能的主要操控和执行者,它们的生物学功能都由其三维的空间结构和形状来决定。因此,蛋白质和核酸分子的结构比对,是结构生物学和分子生物学的最基本问题之一。而 US-align 这样的高精度多功能的结构比对算法,可在面对不同生物大分子的复杂结构和形状时,帮助分子生物学家们得到定量、精准、以及快速的比较结果

US-align 在分子生物学上的一个主要应用就是通过其精准的结构比对,帮助生物学家从已知的蛋白质家族推导未知的蛋白质家族的生物学功能,即所谓蛋白质功能注解。此外,它在蛋白质和 RNA 结构预测、生物分子设计、高通量分子结构搜索、以及大型结构库的建立和结构归类研究等领域也可得到广泛应用。

特别是,最近几年结构生物学技术的发展,比如冷冻电镜技术的进步,已让结构生物学家能够解析出许多大分子复合物的结构。因此,如何针对高阶生物大分子复合物的结构,做出快速的比对分析变得特别重要。

据悉,US-align 能对不同类型的生物大分子的复合物,比如含有蛋白质、RNA 和 DNA 分子复合物,进行统一便捷的结构比较。这也让它自然地适用于蛋白质、肽链和 RNA 之间的组装和对接的研究

US-align对大尺度RNA结果的比对结果

据张阳教授介绍,多年以来,传统的药物研发都是以蛋白质为靶向进行药物设计,比如设计新的药物分子来调节和改变靶向蛋白的结构和功能,从而实现疾病治疗。截至目前,所有美国食品药品监督管理局(Food and Drug Administration,FDA)批准的药物加起来,只是针对不到 700 种的不同蛋白质而已。也就是说,人体大多数蛋白质不能用作药物靶向蛋白。因此,只以蛋白质作为靶向,限制了药物开发的范围

其实,能够最后表达成蛋白质的基因只占人体整个基因组的 1.5% 左右。大部分人体基因组都会转录成一种不能够编码成蛋白质的非编码 RNA。而很多非编码 RNA(包括 tRNA、rRNA、siTNA、snRNA、microRNA 等)在 RNA 水平就能行使各自的生物学功能。

最近的研究表明,许多非编码的 RNA 分子都可以用作有效的药物靶向分子,其数目远远超过可以用作药物靶向的蛋白质的数目。因此,高精度快速的蛋白质 RNA 分子的结构比较,对于 RNA 靶向制药产业也会产生重要影响

人体基因表达的蛋白质和RNA的分布图 

一个程序框架一统大分子结构比对的“江湖”?

US-align所解决的是关于蛋白质和核酸等生物学大分子的结构比对的问题,这在结构生物学和生物信息学领域,是一个基本且重要的问题。

在生物信息学领域,研究新的未知基因或者蛋白质功能的一个主要手段,是通过把它们的序列、与已知基因或者蛋白的序列进行比较,这一过程也叫序列比对。如果蛋白质序列的相似度高,往往认为它们具有相同的结构和功能。由此,可以从已知蛋白的结构和功能,来快速地推导和了解新的未知蛋白质的结构和功能。

但是,这种方法存在两大不足。

第一,序列相似度高的基因或者蛋白质,并不一定总是有相似的生物学功能。相反,因为长期进化的原因,自然界很多序列相似度比较低的基因和蛋白质,可能有相似的功能。因此,仅仅由序列相似性作为依据来推导基因或者蛋白的功能,并不总是可靠和全面。原则上来讲,蛋白质在细胞中的生物学功能,和它的三维空间结构直接相关。因此,从结构决定功能的角度出发,为了更加准确有效地研究未知蛋白的功能,除了进行基因的序列比对之外,还需将不同蛋白质的三维结构或者空间形状进行比对

第二,从技术上来讲,序列比对只涉及到一维信息,相对来讲它比较容易解决。事实上,如果给定 20 种氨基酸之间的变异几率矩阵,再利用美国科学家索尔·本·尼德尔曼(Saul Ben Needleman)和克里斯蒂安 D . 文施(Christian D. Wunsch)于 1970 提出的动态规划算法,通过计算机程序即可快速推导出任何一对蛋白质序列的最优比对结果。因此,数学上来讲,一维序列的比对是一个已经解决的问题。但是,三维结构的比对涉及到三维空间原子对的距离,后者与蛋白质结构整体空间的叠加方向有关,这在数学上是一个 NP-hard 问题。或者说,计算机算法很难在有限的时间内,找到最优解。所以,相对于蛋白质的序列来讲,虽然它们的三维结构与其生物学功能有更加紧密和直接的关系。但是,精确的蛋白质结构比对是一个更加困难、且依然无解的问题

在过去几十年的研究中,计算生物学领域的科学家们开发了一些关于蛋白质三维结构比对的算法。比较有名的包括张阳教授团队开发的 TM-align 和欧洲分子生物学实验室开发的 Dali。但是,这些算法仍旧局限于蛋白质单链分子的结构比对。

事实上,自然界很多其他的生物学大分子,特别是 RNA 分子因为其生物学功能的发现、以及在药物开发上的重要性,在近几年已经成为研究热点。但是,人们仍然缺乏有效的核酸结构比对算法

另外,除了单链分子结构的两两比对之外,很多情况下生物学家经常需要对含有多条链的高阶分子复合物进行比对,以及对多个单链分子的结构同时进行比对(也称作多重结构比对)。

面对这些具体问题,传统的结构比对程序往往需要分别建立特殊的计算机算法。尤其是针对复合物大分子之间的比对、以及单链分子的多重结构比对。鉴于问题的复杂性,算法的时间和精度也成为重要的考验。而 US-align 正是张阳为上述问题交来的答案。

US-align论文的截图。密歇根大学张阳教授担任通讯作者,其课题组的张成辛博士担任第一作者 。

对于投稿过程张阳表示:“这篇工作一共被送往三个审稿人评审。其中,第一位审稿人可能是我们实验室服务器的粉丝用户。他/她认为这个工作解决了一个非常基本和重要的问题。他/她说,‘我毫不怀疑,就像他们早期开发的算法/服务器一样,这个平台将在这个领域中得到广泛应用。’一方面,他/她认可我们实验室以往的努力。另一方面,也十分赞赏我们用同一个计算机程序来统一不同算法的想法。”

第二位审稿人也认可该工作的重要性,认为 US-align 算法可靠、基准测试令人信服。同时,对方觉得此次算法所包含的功能比较多,因此建议张阳加一张图,简要而直观地描述 US-align 的大致功能,以帮助用户更好地使用,这便是论文中图一的由来。

US-align的四大应用功能

第三位审稿人对 US-align 算法在工程上的优化极为赞赏。他/她认为,US-align除了将不同分子的结构比对算法用一个统一的框架来实现,在速度和精度方面相对于单个算法也有很大提升

同时,该审稿人也提出了关于结构比对的一个经典问题:每种计算机结构比对算法都会首先设计一种目标函数,然后对此进行优化。但是,在客观评价比对结果的时候,到底什么样的比对才是最好的结果,即衡量标准的标准是什么,这仍然是一个值得争议的问题。为此,张阳课题组除了统计算法的 TM-score、RMSD 和比对覆盖范围,也增加了 US-align 相对于基于人工注解的比较结果,以证明 US-align 可以产生比其他自动算法更加接近于人工直觉的比对结果。

US-align将蛋白质和RNA同时进行结构比对

“三代师徒”和他们的算法

张阳表示,和他此前开发的许多其他算法一样,US-align 是由于其他研究项目的需要而提出,然后汇聚多人的努力、逐渐开发出来的

首先,鉴于研究蛋白质结构和功能预测的需要,之前张阳和其导师佐治亚理工学院生物学院教授Jeffrey Skolnick 一起,提出了一种衡量蛋白质结构相似性的新标度 TM-score、以及基于 TM-score 的蛋白质结构比对算法 TM-align。

其中,TM-score 已成为目前测量蛋白质结构预测精度、包括 CASP(Critical Assessment of protein Structure Prediction)蛋白质国际预测大赛的一个金标准。

而 TM-align 也成为结构生物学领域目前最为流行的蛋白质结构比对算法,是很多国际平台,包括 PDB(Protein Data Bank)蛋白质数据库、以及 Debian Unix 计算机操作系统,指定的蛋白结构比对算法。

原始的 TM-score 和 TM-align 代码,由张阳在 10 多年前用 Fortran77 写成。后来,该实验室的博士后杨建益博士和访问学者吴剑洁博士把 TM-align 用 C++ 重写了一遍。

此后,张阳教授的博士研究生 Srayanta Mukherjee 以及访问学者龚莎博士,则分别把 TM-align 推广到多蛋白复合物以及 RNA 分子间的结构比对。

最后,张阳的另一位博士研究生即本次论文一作张成辛,把它进一步推广到多结构比对,并把不同类型的结构比对算法进一步整合、优化、归并到一个统一的算法中,形成了 US-align。

US-align 在线服务器(https://zhanggroup.org/US-align/)

US-align与大标度蛋白质组和 RNA 组学

不过,张阳教授也坦言虽然 US-align 的开发是向生物大分子结构的统一比对上迈进的重要的一步,但是它并没有解决结构比对的所有问题。其中,US-align 的一个主要限制是,它只能进行和序列同向的有序结构比对。

从数学角度来讲,蛋白质可以看成是一条由不同氨基酸组成的、有方向的链。从 N-到 C-端,我们可以把构成蛋白质的所有氨基酸按顺序标上 1 到 L 的序号。目前,US-align 只能进行从 N- 到 C- 端有顺序的比对。也就是说,如果一个蛋白质的两个氨基酸的序号服从(j>i),那么在另一个蛋白质上与它们相比对的两个氨基酸也必须服从同样的顺序(j'>i'),不能颠倒。

虽然这种有序比对于衡量蛋白质的整体拓扑学的结构至关重要,但是对于某些特定的任务,US-align 这种有序的结构比对并不适用。

比如,在蛋白质中,能和药物配体直接相互作用的只有少部分氨基酸。这些氨基酸往往在空间中形成一个特殊形状的口袋,以便它们更好地和药物配体相互作用。从某种意义上来讲,药物和蛋白质的关系有点类似于钥匙和锁的关系,而新药开发的过程就类似于我们按照给定的锁孔寻找新钥匙的过程。在这个过程中,不同蛋白质口袋与口袋之间的结构比对,对于新药开发就特别重要。但是,因为组成这些口袋的氨基酸并不是按序列有序组成,所以 US-align 对于这种口袋结构之间的比较显得无能为力。要解决这个问题,需要将 US-align 推广到无序结构比对。也就是说这是一个只重视形状、不重视顺序的结构比对问题。

另外,很多大的蛋白质和 RNA 分子含有多个结构单元,或者称作“域”。因为进化的关系,很多结构域本身会保持守恒的结构,但是域和域之间可能会产生方向上的平移或者转动。

因为 US-align 原则上是刚性结构比对,所以它并不能识别这种因为进化而形成的域-域之间的位置变化。换句话讲,当域和域之间的相对方位产生变化时,虽然单个结构域的本身结构并不变化,但是因为它们位置的错动,整体结构比对的 TM-score 会很低。要解决这个问题,需要把结构域的柔性比对引入 US-align。

当然,上面提到的两点主要是技术上的推广。对于张阳来说,更重要的后续研究是把 US-align 应用到大标度蛋白质和 RNA 组学的结构比对,帮助其进行生物大分子的整体结构归类、数据库建设、以及数据库搜索,从而进行高精度蛋白质和 RNA 结构和功能预测、以及分子水平的药物研发

参考文献:

1. Zhang, C., Shine, M., Pyle, A.M., Zhang, Y. US-align: universal structure alignments of proteins, nucleic acids, and macromolecular complexes. Nat Methods 19, 1109–1115 (2022).

https://www.nature.com/articles/s41592-022-01585-1

US-align在线服务器和源代码下载:

https://zhanggroup.org/US-align/

密歇根大学张阳团队开发全球首个蛋白质和RNA分子通用结构比对算法相关推荐

  1. PNAS:密歇根大学张阳教授团队实现对任意人工蛋白构型的从头设计

    蛋白质是生命体执行功能的基本生物分子.蛋白质分子折叠结构的多样性赋予了它们独特而丰富的功能,从而也让生命世界丰富多彩.尽管理论上蛋白质序列和结构空间十分庞大,然而历经数十亿年进化后,只有极少部分蛋白空 ...

  2. 密西根大学张阳教授受聘中国上海交通大学客座教授(图)

    发布时间: 2017-06-02 22:30:25 5月27日,美国密西根大学计算医学与生物信息系教授张阳受聘上海交通大学客座教授仪式在新行政楼B楼412会议室举行.校人力资源处处长梁齐.国际合作与交 ...

  3. 鲲云获数千万A轮融资:开发全球首颗数据流AI芯片,实现数据流架构的创新突破!

    深圳鲲云信息科技有限公司(以下简称鲲云科技)近日宣布于今年3月份完成数千万A+轮融资,由具备海康.大华等深厚产业资源的方广资本独家投资,投中资本担任独家投资顾问.目前,鲲云科技已完成天使.Pre A. ...

  4. 公共端接正极还是负极_【动力电池大事记】现代摩比斯启动首批模组工厂,松下拟挪威建厂,200名车主起诉现代,密歇根大学开发锂金属固态电池及“无负极”工艺...

    01 现代摩比斯将于2021年3月启动首批电动汽车电池模组工厂 据悉,现代摩比斯将在2021年3月开始启动位于韩国蔚山市的电池模组工厂,随着该工厂启动,电池生产能力翻了一番,达到每年25万辆.蔚山工厂 ...

  5. 玩“剪刀石头布“的脑机!密歇根大学开发由大脑意识精密控制的假肢

    文章来源于:脑机接口社区 ,QQ交流群:903290195 几日前,美国密歇根大学的研究人员在<科学>子刊<科学转化医学>发表了脑控假肢领域一篇重磅文章.文章介绍了研究人员通过 ...

  6. 密歇根安娜堡大学的计算机科学教授,密歇根大学安娜堡分校计算机科学与工程研究生offer及申请要求...

    对于打算去密歇根大学安娜堡分校读研究生的学生来讲,密歇根大学安娜堡分校研究生申请要求及密歇根大学安娜堡分校研究生专业介绍是学生最关心的问题.本文介绍密歇根大学安娜堡分校研究生申请要求及密歇根大学安娜堡 ...

  7. 科技新品 | 第一视角沉浸式飞行无人机;全球首款可折叠165英寸电视;新一代增强现实智能眼镜...

    "科技新产品动态"栏目把新鲜的具有代表性的科学产品带到您眼前,涉及消费电子,半导体.服务器.智能家电等众多品类,提供图片和简单的文字介绍. DJI大疆创新推出沉浸式飞行无人机DJI ...

  8. 南方科技大学团队开发智能拐杖

    南方科技大学开发智能拐杖,多方位呵护老人.据报道,中国11城进入超老龄化社会,全国149市进入深度老龄化. 不止中国,在许多国家,预期寿命已增加到70岁甚至更高.然而,针对老年人的智能设备并不多见. ...

  9. FISU全球首家运动鞋通证商家联盟 9月5日隆重首发WBF交易所主板区

    #FormatImgID_0# 在区块链风口迭代的重塑期,区块链技术的产业应用脱虚向实,将会有更多企业将区块链技术应用落实到实际.FISU是全球首家基于区块链的运动鞋生态联盟公链,它专注于把区块链防伪 ...

最新文章

  1. adbunknown Host service问题修复
  2. 计算机里面如何更改处理器,电脑处理器如何更换 电脑处理器更换方法介绍【详解】...
  3. 如何查找订单提示VPRS VE217 数量/值确定时出错
  4. 《互联网公司工程师图鉴》
  5. 深度学习实践总结:Sentiment Classification How To Frame Problems for a Neural Network
  6. 微课|玩转Python轻松过二级(1.3节):编码规范与代码优化建议1
  7. springcloud工作笔记091---tk.mybatis.mapper.MapperException: 当前实体类不包含名为XXXXX的属性!
  8. Helm 3 完整教程(四):编写第一个 chart
  9. 软件架构模式之管道-过滤器模式--分析
  10. c语言easyx改变字体大小,改变控制台字体大小
  11. 数字图像处理中的车牌识别
  12. 计算机组装维护教学工作总结,计算机组装与维护教师工作总结_2
  13. android BroadCastReveceiver
  14. setsockopt()和getsockopt()
  15. 电子商务交易系统的设计与实现(javaee+mysql)
  16. 非线性规划与KKT(二)
  17. OSChina 周六乱弹 ——你和顶级程序员只差一件……
  18. 线性代数:Span学习笔记
  19. 【JAVA】如何利用TODO任务标签高效管理代办代码
  20. [二分] [CodeVS3162] 抄书问题

热门文章

  1. VUE路由防卫功能举例
  2. 微信小程序商城项目(篇7):商城详情页实现
  3. Why WebRTC|前世今生
  4. 【Unity3d Shader】景深效果
  5. 成都中医药大学计算机基础试题,成都中医药大学2016年春季学期期末考试.计算机基础试卷-成教(答案~)分析总结.doc...
  6. OpenGL学习笔记——坐标转换
  7. Jetson_nano环境配置
  8. 【今日分享】官方实例用python调用OpenAI tahcTPG的APIkey生成智能问答
  9. 输入一个字符串,对字符中的各个英文字符,数字,空格进行统计。 按照统计个数由多到少输出统计结果,如果统计的个数相同,则按照ASII码由小到大排序输出
  10. 超文本咖啡壶控制协议