新智元报道  ,来源:nature Science

nature和Science两本杂志一直相爱相杀,总是喜欢争着发表科学领域中的重大发现、重要突破,抢夺大师文章的发表版权。

这次也不例外。

7月15日,DeepMind在Nature上发表了一篇论文,开源了其基于深度学习神经网络的AlphaFold 2模型。

论文链接:https://www.nature.com/articles/s41586-021-03819-2

开源代码:https://github.com/deepmind/alphafold

与此同时,在隔壁的Science上,华盛顿大学也发表了自己开发的蛋白质预测工具RoseTTAFold。RoseTTAFold不仅性能上和AlphaFold 2相当,预测蛋白质结构也「快、狠、准」。

论文链接:https://science.sciencemag.org/content/early/2021/07/14/science.abj8754

开源代码:https://github.com/RosettaCommons/RoseTTAFold

当然,RoseTTAFold最厉害的一点在于,其端到端版本在RTX2080上生成少于400个残基的蛋白质的骨干坐标只需要10分钟。

这显然让成千上万的生物学家松了一口气,毕竟一个2080还是能买得到的。

随着RoseTTAFold和AlphaFold 2的代码开源,有研究人员希望能在备受关注的两个领域方面取得新的进展:

  1. 预测多个相互作用的蛋白质的复合体结构;

  2. 新型蛋白质的设计。

论文的其中一位作者表示,很高兴自己能够为这个巨大的里程碑做出贡献。

DeepMind的创始人兼CEO表示,很期待开源代码之后能给更多研究带来的可能性。

Facebook AI的田渊栋则从AI的角度发表了对AlphaFold的看法:

蛋白质预测

蛋白质是生命的物质基础,是构成细胞的基本有机物,也是生命活动的主要承担者。

蛋白质由氨基酸通过「脱水缩合」的方式组成多肽链,经过盘曲折叠,形成具有一定空间结构的物质。

不同空间结构也就决定了蛋白质的不同功能。

一直以来,「蛋白质折叠问题」都是生物学中的一个巨大挑战。如果用暴力计算法列举出一个典型蛋白质的所有可能构型,所需的时间可能比已知的宇宙年龄还要长。

生物医学领域为了探索蛋白质复杂的3D结构,只能通过低温电子显微镜(CryoEM)、核磁共振或X射线晶体学等手段,经过大量试错才能最终确定蛋白质的结构。

理论上,一个蛋白质在确定其最终结构前,可能的折叠方式的数量是天文数字。

1969年,Cyrus Levinthal指出,通过计算列举一个典型蛋白质的所有可能构型,需要的时间比已知宇宙的年龄还要长——可能有10^300种构型。

因此,这些方法有一个巨大的缺陷:耗费大量的时间和精力。

为解决这一困难,DeepMind利用人工智能,开发了一个能够预测蛋白质结构的系统:AlphaFold。

2018年,AlphaFold在国际蛋白质结构预测竞赛(CASP)上首次亮相,获得了马克斯·普朗克发展生物学研究所(Max Planck Institute for Developmental Biology)所长、CASP评估员Andrei Lupas的高度评价:

「AlphaFold惊人的精确模型帮助我们解决一直困扰科学界的蛋白质结构问题,重新启动了学界的研究。」

预测的人类白细胞介素-12蛋白与其受体结合的结构图

预测蛋白质的3D结构则有着相当重要的作用。

其能够帮助科学家发现蛋白质功能失调,以及导致某些疾病的原因,这就为药物的研发提供了一条全新的途径,从而能够快速地进行医疗治疗。

AlphaFold 2:原子级精度

DeepMind的AlphaFold 2模型在2020年的蛋白质结构预测比赛(CASP)取得了出色的成绩。

比赛的评分中位数达到了92.4 GDT。也就是预测的均方根误差约为1.6埃,相当于一个原子的宽度(或0.1纳米)。

即使是最难的蛋白质目标,评分中位数也能达到87.0GDT。

AlphaFold 2可以在不到10分钟的时间内预测出接近晶体结构精度的蛋白质结构。

对一个超过2千残基的病毒RNA聚合酶的预测

研究人员对AlphaFold2方法的进展进行了概括:

  1. 从多个序列排列(MSA)开始,而不是从MSA得出的反协方差矩阵等更多处理过的特征开始;

  2. 用注意力机制取代二维卷积,更好地代表沿序列远处残基之间的相互作用;

  3. 使用双轨网络结构,其中一维序列水平和二维距离图水平的信息被迭代转换并来回传递;

  4. 使用SE(3)-Transformer网络来直接完善由双轨网络生成的原子坐标(而不是像以前的方法那样的二维距离图);

  5. 端到端学习,其中所有网络参数通过反向传播从最终生成的三维坐标通过所有网络层回到输入序列来优化。

DeepMind表示,AlphaFold 2可以对蛋白质的基本物理结构进行十分准确的预测,并能够在几天内生成高精度的结构。

此外,模型还能利用内部的内部置信度来预测每个预测的蛋白质结构中哪些部分是可靠的。

训练数据来自大约17万个蛋白质结构,以及包含未知结构的蛋白质序列的大型数据库。

期间DeepMind使用了16个TPU进行训练(即128个TPUv3核心或大致相当于约100-200个GPU)。

神经网络模型结构

其中,模型对蛋白质序列以及氨基酸残基对进行操作,在两种表征之间迭代传递信息以生成结构。

AlphaFold生成的蛋白质高精度结构

架构细节

RoseTTAFold:媲美AlphaFold 2的预测工具

无独有偶,隔壁Science杂志也刊登了另一个蛋白质结构预测的工具,名叫「RoseTTAFold」,特点是「快、准、狠」。

2020年,DeepMind在CASP 14大会上介绍了它在该蛋白质结构预测上的显著进展。

华盛顿大学医学院蛋白质设计研究所的研究人员看在眼里,受其启发,与哈佛、剑桥、德克萨斯大学西南医学中心、劳伦斯伯克利国家实验室联手,共同研发了一款基于深度学习的蛋白质结构预测工RoseTTAFold。

这款工具利用深度学习,仅凭有限的信息,就能在普通游戏本上快速而准确地预测蛋白质结构,在短时间就能构建出复杂的生物组建模型。

目前,该研究团队已经用RoseTTAFold计算出了数百种新的蛋白质结构,其中就包括了许多鲜为人知的人类基因组蛋白。

RoseTTAFold预测出了与脂质代谢问题、炎症紊乱和癌细胞生长相关的蛋白质结构。

RoseTTAFold是一个「三轨」神经网络("three-track" neural network),它能够兼顾蛋白质序列模式、氨基酸如何相互作用以及蛋白质三维结构的可能性。

在这个架构中,信息在一维(氨基酸序列)、二维(距离)和三维(坐标)之间来回流动,从而能够集中推理出蛋白质化学部分与折叠结构之间的关系。

RoseTTAFold 架构包含一、二、三维注意力轨道,轨道之间信息能够来回流动

在CASP14目标取得的平均TM-score

在CAMEO实验中取得的盲基准结果

蛋白质结构预测不断取得新进展,最关键的问题莫过于:能够使用什么准确的蛋白质结构模型?

团队研究了RoseTTAFold通过X射线晶体学和低温电子显微镜,研究了促进实验结构测定实用性,为目前为之结构的关键蛋白质提供模型。

RoseTTAFold方法的准确性远高于现有方法,因此,研究人员希望能够测试出这款工具是否能够解决分子置换(MR)这一从未解决的问题。

在蛋白质数据库(PDB)中,有四种蛋白无法用MR解决:牛属甘氨酸N-酰基转移酶(GLYAT)、细菌氧化还原酶、细菌表面层蛋白(SLP)和来自真菌平革菌属金孢子菌属的分泌蛋白,因此研究人员使用RoseTTAFold重新分析蛋白质结构。

由于蛋白质结构的测定能够为生物功能和机制提供大量见解,团队也研究了RoseTTAFold是否也能有这样的功能。

研究人员主要针对两组蛋白:目前未知结构的G蛋白偶联受体;与疾病相关的人类蛋白质。

研究结果发现,即使没有已知结构的密切同源物,RoseTTAFold模型在活性和非活性状态下也能做到准确预测构型。

研究人员使用RoseTTAFold工具,从序列信息中预测了大肠杆菌蛋白复合物的结构。图A中,灰色表示第一条亚基,彩色表示第二条亚基。图C是RoseTTAFold生成的IL-12R/IL-12复合结构。

论文一作Minkyung Baek希望RoseTTAFold这个新工具未来能够造福整个研究领域。

参考资料:

https://www.nature.com/articles/s41586-021-03819-2

https://science.sciencemag.org/content/early/2021/07/14/science.abj8754


如果对你有帮助。
请不吝点赞,点在看,谢谢

谷歌提前开源AlphaFold 2!Nature、Science同时公开两大蛋白质结构预测工具相关推荐

  1. AI+Science 是人类两大科研范式的结合,工程化正当时

    来源:ScienceAI 编辑:ScienceAI 近年来,人工智能(AI)快速发展,与此同时,越来越多的自然科学研究开始利用 AI 解决领域问题,比如助力药物研发.癌症疗法.材料发现,以及科研工具的 ...

  2. 大数据可视化html模板开源_5个最受工程师欢迎的大数据可视化工具

    大数据可视化是进行各种大数据分析解决的最重要组成部分之一. 一旦原始数据流被以图像形式表示时,以此做决策就变得容易多了. 为了满足并超越客户的期望,大数据可视化工具应该具备这些特征: 能够处理不同种类 ...

  3. 腾讯向开放原子开源基金会捐赠TencentOS tiny、TKEStack两大项目!

    10月15日,腾讯正式宣布,将旗下两大开源项目--轻量级物联网实时操作系统TencentOS tiny和企业级容器编排引擎TKEStack(均待更名)捐赠给开放原子开源基金会.未来这两个项目将在基金会 ...

  4. 腾讯 AI Lab 联合研究登上Nature子刊,独创方法提升蛋白质结构预测精度

    感谢阅读腾讯 AI Lab 微信号第109篇文章.本文将公布 AI+药物领域新进展. 11月17日,腾讯公布了一项人工智能助力药物发现的新进展. 通过腾讯自研的提升蛋白质结构预测精度的新方法,联合研究 ...

  5. Nature最新封面:两大数学难题被AI突破!DeepMind YYDS

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 博雯 梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitAI 现在,AI不仅能参与 ...

  6. 两大顶级 AI 算法一起开源!Nature、Science 齐发 Alphafold2 相关重磅,双厨狂喜~...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 编辑部 发自 凹非寺 量子位 报道 | 公众号 QbitAI 喜大普 ...

  7. 两大顶级AI算法一起开源!Nature、Science齐发Alphafold2相关重磅,双厨狂喜~

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 编辑部 发自 凹非寺 量子位 报道 | 公众号 QbitAI 喜大普 ...

  8. ​两大顶级AI算法一起开源!Nature、Science齐发Alphafold2相关重磅,双厨狂喜~

    来源:量子位(ID:QbitAI)本文约2000字,建议阅读8分钟 我们的成果可以帮助整个科学界,为生物学研究加速. 喜大普奔!近日一波Nature.Science齐发文,可把学术圈的嗑盐人们高兴坏了 ...

  9. DeepMind开源AlphaFold,蛋白质预测模型登上《Nature》

    2020-01-19 16:09 导语:CNN+Rosetta 雷锋网(公众号:雷锋网)报道:还记得AlphaFold成名的那一战么? 2018年的11月2日,在第13届全球蛋白质结构预测竞赛(CAS ...

最新文章

  1. python去除特殊字符_python去除BOM头\ufeff等特殊字符
  2. gulp版本号管理插件注意事项
  3. P1494 [国家集训队]小Z的袜子
  4. Activiti工作流的简单介绍
  5. java的标量和聚合量_JVM 角度看代码优化
  6. 实时 Git,在版本控制之前控制源码
  7. Bytom的链式交易和花费未确认的交易
  8. Python图像处理模块pillow子模块Image用法精要
  9. mysql query语句_使用mysql_query()函数执行SQL语句
  10. [ MSSQL ]分页排序存储过程
  11. PYTHON笔记 面向对象程序设计
  12. InfoPath基础应用教程-1 设计一个简单的表单模板
  13. mtk android高级工具,Android6.0 MTK6737 DCT 工具介绍 · Younix’s Studio
  14. [转]众多OCR软件
  15. Hypermesh二次开发系列003
  16. 主板开启网络唤醒_电脑网络唤醒如何关闭?华硕路由网络唤醒?#TIL#网络唤醒(WOL)除了设置主板,还需要操作系...
  17. 读《多头自注意力层和卷积层的关系》笔记
  18. 神经网络种类及应用领域,常用的神经网络有哪些
  19. ffmpeg 音频解码二
  20. 了解sprin是什么?有啥用?为什么要用?

热门文章

  1. C#读取Excel的方法
  2. matlab如何用二分法求非线性方程,Matlab学习手记——非线性方程求解:二分法
  3. python植物大战僵尸代码例_用Python实现植物大战僵尸游戏,很酷
  4. Ruby China中method_missing和define_method剖析
  5. 关于瑕积分的几道例题
  6. [RK3288][Android6.0] 调试笔记 --- 电池电量一直显示100%
  7. vivo2020届春季校园招聘在线编程考试(1)
  8. 一种基于图像识别的水位测量算法
  9. Knuth-Morris-Pratt算法(KMP)
  10. matlab 铁路振动,基于MATLAB仿真的国产铁路移频信号分析