很少有科学软件能引发如此轰动。英国广播公司(BBC)宣称:"生物学中最大的谜团之一被人工智能'基本解决'了"。福布斯称其为"有史以来人工智能领域最重要的成就"。谷歌DeepMind的人工智能系统AlphaFold2于2020年11月首次亮相,用于预测蛋白质的三维结构,自从该工具在7月免费提供以来,人们对它的讨论更加激烈。

这种兴奋与该软件有可能解决生物学中最棘手的问题之一(从线性氨基酸序列中预测蛋白质分子的功能性折叠结构,以及3D空间中每个原子的位置)有关。蛋白质如何形成其三维结构的基本物理化学规则仍然过于复杂,人类无法解析,因此这个"蛋白质折叠问题"几十年来一直没有解决。

研究人员已经研究出了大约16万种蛋白质(来自所有生命世界)的结构。他们一直在使用实验技术,如X射线晶体学和冷冻电子显微镜(cryo-EM),然后将其三维信息存入蛋白质数据库。计算生物学家在开发补充这些方法的软件方面取得了稳步的进展,并且已经正确地预测了一些来自研究良好的蛋白质家族的分子的三维形状。

尽管取得了这些进展,研究人员仍然缺乏大约4800个人类蛋白质的结构信息。不过AlphaFold2已经将结构预测策略提升到了一个新的水平。例如,西班牙研究人员的一项独立分析显示,该算法的预测将没有结构数据的人类蛋白质数量减少到了29个。

AlphaFold2于去年11月在CASP14上公布,这是一个两年一度的竞赛,让计算生物学家在那些结构已被实验解决但未公开发布的蛋白质上测试其算法。DeepMind的软件(使用了被称为深度学习的复杂机器学习技术)在比赛中大获全胜。

"根据CASP14的结果,总体上,他们可以得到约三分之二的具有实验准确性的蛋白质,即使是困难的目标,他们也可以得到约三分之一的具有实验准确性的蛋白质",位于Ann Arbor的密歇根大学的生物化学家Yang Zhang (张阳) 说,他的算法是CASP14的亚军之一。"这是一个非常惊人的结果"。随后的两篇《Nature》论文和几十篇预印本文章进一步证明了AlphaFold2的预测能力。

张阳认为AlphaFold2是深度学习力量的一个引人注目的展示,但只是蛋白质折叠问题的部分解决方案。即使在没有结构信息的情况下,该算法也能为许多蛋白质(以及一些多蛋白质复合物)提供高度准确的结果。这可以大大加快实验性结构生物学,并有助于指导蛋白质工程和药物发现的研究。

但是对于一些蛋白质来说,许多重要的细节仍然是遥不可及的。马萨诸塞州波士顿Dana-Farber癌症研究所的计算生物学家Chris指出,算法在处理具有多个功能域或高度动态结构的复杂蛋白质目标时仍有困难。Sander说:"他们所做的很好,但蛋白质的灵活性以及它们如何变化还未被触及到,仅仅拥有一个snapshot(意为快照,简要说明)并不能解决生物功能的问题。"

深度学习方面的进展以及不断增长的AlphaFold2用户社区,可以使其中一些挑战得到解决,但对蛋白质生物学的全面理解将需要一个更广泛的计算和实验工具箱。

高级的训练

深度学习包含了机器学习策略,其中计算神经网络被训练来识别和解释数据中的模式。西雅图华盛顿大学的计算生物学家David Baker说:"这些模型并不试图一次性预测结构",他说,"它们更像是一种物理模拟,模型正在学习如何做出好的动作来改善结构"。通过用大量的注释过的实验数据训练这些算法,他们可以开始识别序列和结构之间的联系,为新蛋白质的预测提供信息。

在过去的五年里,多个团队在将深度学习应用于结构预测方面取得了进展。AlphaFold的第一次迭代在2018年赢得了CASP13,但其表现远不及去年的突出胜利。几个学术实验室随后开发了基于深度学习的算法,其性能超过了第一代AlphaFold,包括张阳实验室的D-I-TASSER、Baker实验室的trRosetta和RaptorX(由位于伊利诺伊州芝加哥的丰田技术研究所的Jinbo Xu (许锦波) 及其团队开发)。

但是这些算法通常被作为一个更大的软件管道的一部分来应用,造成了错误和低效率的可能性。纽约市哥伦比亚大学的系统生物学家Mohammed AlQuraishi说:"经常出现不同的组件沟通不畅,或者彼此之间沟通不畅,因为它们是零散的。这些限制激发了人们对端到端算法的兴趣,这种算法可以管理从序列到结构的整个过程"。DeepMind的高级研究科学家John Jumper说,"在CASP13之后,他的团队基本上放弃了第一代AlphaFold,开始开发这样一个解决方案AlphaFold2"。

AlphaFold2的几个方面是建立在既定技术之上的。例如,该算法首先生成多序列比对(MSA),将结构未知的新蛋白质与其他物种的相关序列进行比较。通过识别平行变化的共同进化的氨基酸,算法可以锁定那些最有可能在折叠的蛋白质中相互关联的氨基酸。在这些地方,序列中的一个变化需要补偿性突变来保持整体结构。

Sander和他的合作者,马萨诸塞州剑桥市哈佛大学的计算生物学家Debora Marks,以及他们的团队在2017年开发了这种基于共同进化的技术。"这是第一个对许多蛋白质全面有效的解决方案,利用进化来获得正确的折叠和基本形状",Sander说,"而现在机器学习让它变得更好了。"

AlphaFold2的开发者利用前所未有的信息量来构建他们的MSA,使用的是韩国首尔国立大学的计算生物学家Martin Steinegger和德国哥廷根马克斯普朗克生物物理化学研究所的Johannes Söding汇编的数据集中的数十亿条蛋白质序列。Steinegger说:"他们希望我把它变成一个可搜索的数据库。"

这些由AlphaFold2生成的预测突出了蛋白质的结构多样性。

DeepMind团队还为蛋白质折叠问题设计了创新的解决方案。一个是使用被称为transformers的模式识别工具,这些工具通常用于图像分析和自然语言处理。transformers被设计用来识别局部模式。例如,单词串或相邻的视觉元素可能会指导数据的解释。DeepMind对它们进行了调整,以便在更具挑战性的蛋白质结构领域开展工作,建立了能够识别和关注可能在最终折叠形式中很重要的长程蛋白质相互作用的transformers。Jumper说:"在最终的蛋白质结构中,你会在相当遥远的事物之间建立联系,比如也许残基10会与残基350对话"。

AlphaFold2同时从多个角度处理蛋白质折叠问题,并平行生成预测结构的多个表示。然后对这些结构进行比较,得出的见解有助于在随后的迭代中完善建模过程。Jumper和他的同事们通过设计一个神经网络架构来实现这一点,该架构允许软件的各个组成部分之间进行流畅和有效的信息交流。AlQuraishi说:"我认为使其成为现实的最大因素是那个设计非常好的通信系统。"

为用户预测

由于AlphaFold2的首次亮相和论文发表之间的滞后性,以及学术界对其是否会提供完整的细节的不确定性,Baker和他的博士后Minkyung Baek从该软件架构的稀疏信息出发,开发了他们自己的版本RoseTTAFold。这使用了许多与AlphaFold2相同的策略,但有一些独特的变化。

Baker说:"在我们提供它的时候,这是可以使用的最好的结构预测方法,但没有AlphaFold2好"。他指出,与大多数学术实验室相比,DeepMind是一个私人实体,拥有巨大的资源和一个长期的多学科专家团队。哥本哈根大学的计算生物学家Amelie Stein说,"对AlphaFold2的成功最广泛的解释是‘这只是因为谷歌的钱’,但它也汇集了软件工程师和了解蛋白质、理解蛋白质结构的人的专业知识。"

自从AlphaFold2在7月发布以来,各实验室争相使用该软件及其结构预测,这些预测可通过欧洲生物信息学研究所托管的一个数据库获得。

"用户普遍认为该软件使用起来很简单,尽管他们需要几TB的磁盘空间来下载数据库和多个图形处理单元(GPU)来处理分析工作"。斯德哥尔摩大学的生物信息学家Arne Elofsson说,"单一结构的计算并不是那么糟糕,我们运行它几个小时。但由于其规模和所需的资源,对一个生物体的全部蛋白质或蛋白质组的分析,对于大多数学术实验室来说,可能暂时还无法实现。"

对于那些希望测试软件的研究人员,Steinegger和他的同事开发了ColabFold,这是一个基于云的系统,使用谷歌提供的远程数据库和计算能力运行AlphaFold2和RoseTTAFold。基于网络的界面相对简单。Steinegger说:"你可以插入你的序列,然后只需按下一个按钮,它就能为你预测出结构"。但它也允许用户修改设置并优化他们的实验,比如通过改变结构预测的迭代次数。

寻找折叠

即使是DeepMind团队也对AlphaFold2在CASP14上的出色表现感到吃惊。"我们显然有内部基准测试,表明我们会做得非常好 ",Jumper说,"但到了最后,我的脑海中仍有一种感觉:这真的是真的吗?"

CASP14打消了这些顾虑,在过去的几个月里,AlphaFold2的能力和局限性得到了大量的展示。在与描述该算法的论文同时发表的一项研究中,DeepMind团队将AlphaFold2应用于包括98.5%的人类蛋白质组的数据集。该算法使用一种称为预测局部距离差异测试(pLDDT)的指标来表示其对某一特定氨基酸的位置和方向准确反映其真实世界结构的信心。通过这种方式,蛋白质组中36%的残基可以以非常高的信心得到解决。

8月,由西班牙巴塞罗那超级计算中心的生物信息学家Alfonso Valencia 领导的研究人员独立得出结论,AlphaFold2将人类蛋白质中可以准确映射的氨基酸比例从31%提升到50%。

张阳预计,该软件将很快摘完蛋白质组的低垂果实。他说:"他们可能可以折叠所有的单域蛋白。但许多蛋白质仍然是一个挑战,例如那些由多个独立的功能单元组成的、由相对灵活的连接元素连接的蛋白质。在这些情况下,单个结构域可能会排列整齐,但它们相对于彼此的方向可能不会。"

更具挑战性的是那些在自然状态下本质上无序的蛋白质片段,它们可能占人类蛋白质组中所有氨基酸的三分之一以上。目前没有任何算法可以预测这些段如何折叠,但Jumper指出,极低的pLDDT分数至少可以在结构中划分出这些段。他说:"一个完全没有信心的预测是相当有力的无序指标。"

AlphaFold2和RoseTTAFold的一个出乎意料的特点,是它们有能力从形成复合体的一对蛋白质链中预测出准确的结构,这些复合体被称为同源二聚体(如果由两个相同的蛋白质形成)或异源二聚体(由两个不同的蛋白质形成),它们最初没有被训练成这样。

Elofsson和他的团队报告说,他们使用AlphaFold2分析的双蛋白复合物中,成功建模的比例高达59%。当试图从头开始识别可能的复合物时,这一过程在计算上比为已知的相互作用对建模时更具挑战性。但是Baker和他的团队表明,通过串联应用多种深度学习算法,他们能够从酵母菌Saccharomyces cerevisiae的蛋白质组中数百万个可能的相互作用对中,识别并模拟出数百个多蛋白复合物。"Baker说:"RoseTTAFold比AlphaFold2快100倍,因此我们可以在所有的配对上运行它,然后用它来过滤出最有可能相互作用的那些。"然后我们在这个小得多的子集上运行AlphaFold2。"

感受到这种应用的热情,DeepMind在10月发布了AlphaFold-Multimer,它被专门训练来处理由多条链组合而成的蛋白质复合体。AlphaFold-Multimer对所测试的34%的同源二聚体复合物和23%的异源二聚体复合物的相互作用进行了高准确度预测。

功能的边界

尽管如此,许多问题仍然遥不可及。Marks说:"如果你的技术一心想要很好地学习复制晶体学,那么这很好"。但她指出,这种静态结构快照将不适合探索与特定蛋白质的操纵或内在动态行为有关的问题。

例如,AlphaFold2通常对每个序列产生一个单一的"正确"答案。但是许多蛋白质有多种构象状态,它们都与功能有关。例如,决定一个酶是活跃还是被抑制。Elofsson说:"你可以尝试调整AlphaFold以获得一个或另一个,但无论你做什么,你往往只生成一个构象。该算法根本不是为了模拟复杂的分子物理学而设计的,即使它在生成预测的同时捕捉到了这些力量的影响。要解决这样的问题,可能需要通过实验技术来显示实际蛋白质在多种状态下的结构,如低温电镜。"

AlphaFold2通常也不适合预测单个氨基酸的变化如何改变蛋白质结构,这是理解突变如何导致疾病的关键因素。Stein说:"这部分是因为该算法使用进化的观点,从许多略有不同的序列中收敛到一个正确的解决方案,他的工作重点是描述这种变体的特征"。她说:"如果你在某处翻转一个残基,你不能指望它突然说'这是一场灾难'。然而,她和她的团队已经发现,他们可以将深度学习产生的野生型蛋白质结构与其他突变分析算法相结合,以实现更准确的预测。"

好消息是,结构生物学家不会很快失去工作。事实上,他们现在可能能够将更多的时间投入到该领域的其他紧迫问题上。例如,英国剑桥大学的结构生物学家Randy Read指出,AlphaFold2的结构预测已经帮助晶体学家克服了乏味的"相位问题(phase problem)",一个与解释X射线衍射实验中产生的不完整数据有关的挑战,从而大大加快了他们的数据解释。

蛋白质设计者也可以看到好处。从头开始(称为新的蛋白质设计)涉及到通过计算生成的模型,但在实验室中进行测试。张阳说:"现在你可以立即使用AlphaFold2来折叠它。这些结果甚至可以用来重新训练设计算法,以便在未来的实验中产生更准确的结果。"

对AlQuraishi来说,这些可能性意味着结构生物学的一个新时代,强调蛋白质的功能而不是形式。他说:"在很长一段时间里,结构生物学是如此专注于各个部分,以至于它把这些美丽的带状图提升到几乎就像结构生物学自身的终点。现在我认为结构生物学将赢得其名称中的'生物学'部分。"

参考资料

https://www.nature.com/articles/d41586-021-03499-y

Nature|人工智能助力蛋白质折叠预测相关推荐

  1. 人工智能助力新材料研发

    目前,国外已有人工智能助力新材料研发的案例报道.英国利物浦大学的科研人员研发了一款机器人,在8天内自主设计化学反应路线,完成了688个实验,找到一种高效催化剂来提高聚合物光催化性能,这项实验若由人工完 ...

  2. 一点资讯王元元:人工智能助力移动资讯消费升级

    文章来源:ATYUN AI平台 8月11日,由北京朝阳海外学人中心与真格基金飞马旅主办,中国云体系联盟北京市朝阳区科技技术委员会,中国留学人员回国服务联盟联合主办中护航承办的"2018 OT ...

  3. 【IBM研究院】2020年人工智能发展五大预测

    点击上方"深度学习技术前沿",选择"星标"公众号 资源干货,第一时间送达 近几年,人工智能(AI)领域实现了重大科技进步,不仅处理能力和计算效率显著提升,还出现 ...

  4. 我对2019年人工智能行业发展的预测

    我对2019年人工智能行业发展的预测 笔者研习人工智能已经有一段时间了.对于人工智能各个子分支技术领域在2019年度的发展,笔者在这里饶有兴趣的做一个初步的预测,与业界同仁们共勉与切磋. 第一,人工智 ...

  5. 人工智能助力全国大学生智能车竞赛

    §01 内容简介 ■ 分享主题 人工智能助力全国大学生智能车智能车竞赛 ■ 内容简介 全国大学智能车竞赛是由教育部于2006年开始委托高校自动化大类教学指导委员会举办的面向全国大学生的一种探索性工程实 ...

  6. 人工智能助力生命科学新发展 | 飞桨博士会第十一期

    生命体中,大量的奇妙数据与人类未来息息相关,而人工智能技术的日渐成熟,使得诸多研究领域中数据处理.计算精度等传统问题得以解决,生命科学也正迎来数据驱动的新时代,计算机科学与生命科学的结合势不可挡. 那 ...

  7. 人工智能助力 上海科委咨询服务用机器人技术

    人工智能助力提升政府服务品质 --上海科委采用智能机器人技术提供咨询服务 说到政府机关,人们很可能就会联想到所谓的"三难"--门难进.事难办.脸难看,这也是一直困扰各级政府部门的老 ...

  8. 人工智能之双色球预测系统

    人工智能之双色球预测系统---------------经过多次调试,bug已完全解决 以下为写代码的过程: ------------------初次尝试---------------------- / ...

  9. 微软将为iPhone电子邮件提供人工智能助力

    内容来源:ATYUN AI平台 微软希望让你的电子邮件"更聪明"的工作.据报道,该公司正计划在iOS和Android智能手机平台上更新其Outlook应用程序,以便将Cortana ...

最新文章

  1. ubuntu下mysql中文乱码_Ubuntu的MySQL中文乱码问题--自己躺坑
  2. 深度学习训练的小技巧,调参经验。总结与记录。
  3. boost::geometry::model::segment用法的测试程序
  4. c语言均值滤波程序,均值滤波C语言代码实现的一种简单方式
  5. 2015-10-10高项作业
  6. 14011.petalinux创建module
  7. 20210803:AXI-Stream协议源码分析初探
  8. K8S资源quota配置引起的问题
  9. linux穷举pppoe密码,Ubuntu/Linux下如何用rp-pppoe3.8通过ADSL上网
  10. Windows10 无法使用内置管理员打开照片问题解决
  11. 阿里巴巴集团去IOE运动的思考与总结
  12. Error排错:container runtime network not ready
  13. DLNA 在自己的APP 中添加投屏功能
  14. IOS gif图片播放 swift
  15. 关于OpenGrADs的环境变量path路径过长的解决方法
  16. STF安装与使用(windows)
  17. win10连接不上wifi、经常断连问题(高质量修复指南)
  18. [附源码]java毕业设计大学教师年终考核管理信息系统
  19. java字符转成ncr_用Java打印所有可能的nCr组合
  20. java 静态分析_静态代码分析与代码质量安全

热门文章

  1. 什么是肿瘤伴随诊断行业?
  2. web 计算器_计算器中的奢侈品——CASIO S200
  3. 成都拓嘉启远:拼多多开店怎样节约物流成本
  4. mixamo骨骼_Mixamo——在线三维人物角色骨骼自动绑定,上千动作库直接生成人物动画...
  5. 安卓Android手机校园外卖订餐系统毕业设计
  6. 结合MACD看现货白银价格走势图
  7. 如何删除PDF空白签名域?
  8. 【新手上路常见问答】关于知识工程
  9. Java字节码角度分析多态原理 ——提升硬实力8
  10. java 导入excel 日期格式转换