译者 | 刘畅

来源 | Google博客

导语:蛋白质的形状与其功能密切相关,能够预测这种结构可使人们更好地了解它的功能和工作原理,从而突破世界上许多强有力的挑战,如开发疾病治疗方法或寻找分解工业废物的酶等。因此在过去50年里,“蛋白质折叠问题”一直是生物学界的一个挑战。近日,谷歌旗下人工智能技术公司 DeepMind 提出深度学习算法「Alphafold」,破解了这一难题。

蛋白质对于生命非常重要,它几乎支撑着生命的所有功能。它们是由氨基酸链组成的复杂大分子,蛋白质的功能在很大程度上取决于它独特的三维结构。搞清楚蛋白质会折叠成什么形状被称为“蛋白质折叠问题”,在过去的50年里,它一直是生物学界的一个重大挑战。我们的人工智能系统AlphaFold的最新版本已经被两年一度的蛋白质结构预测临界评估(CASP)组织会认可为这一重大挑战的解决方案,是一项重大的科学进展。这一突破彰显了人工智能技术对科学发现的影响,以及它在解释和塑造世界上一些最基本领域上的潜力。

蛋白质的形状与其功能密切相关,预测这种结构的能力可以使人们更好地了解它的功能和工作原理。世界上许多强有力的挑战,如开发疾病治疗方法或寻找分解工业废物的酶,基本上都与蛋白质及其所扮演的角色有关。

“近50年来,我们一直纠结于一个问题——蛋白质如何折叠。看到DeepMind为这个问题找到解决方案,在经历了这么长时间的个人努力之后,经过了这么多的反复尝试,我想知道我们是否能做到这一点,这是一个非常特殊的时刻。”约翰·穆尔特教授,马里兰大学CASP联合创始人兼主席 如此说到。

这是多年来科学研究的一个焦点,使用各种实验技术来检验和确定蛋白质结构,如核磁共振和X射线晶体学。这些技术以及较新的方法,如低温电子显微镜,都依赖于广泛的实验和误差,每种结构可能需要数年艰苦的工作,并且需要使用价值数百万美元的专门设备。

“蛋白质折叠问题”

在1972年诺贝尔化学奖的获奖演说中,克里斯蒂安·安芬森(Christian Anfinsen)提出了一个著名的假设:理论上,蛋白质的氨基酸序列应该完全决定它的结构。这一假设引发了一个长达50年的探索,即能够仅根据蛋白质的1D氨基酸序列来计算预测蛋白质的三维结构。然而,一个主要的挑战是,理论上一种蛋白质在形成最终的三维结构之前可以折叠的方式是天文数字。1969年,赛勒斯·莱文塔尔(Cyrus Levinthal)指出,用强力计算法计算出一种典型蛋白质的所有可能的构型需要比已知宇宙年龄更长的时间——Levinthal估计了一种典型蛋白质的10^300种可能的构象。然而,在自然界中,蛋白质会自发折叠,有些在几毫秒之内——这种二分法有时被称为Levinthal悖论。

CASP14评估结果

1994年,JohnMoult教授和Krzysztof Fidelis教授创立了CASP,进行两年一度的盲评估,以促进研究,监控进展,并确立蛋白质结构预测的最新水平。它既是评估预测技术的金标准,也是建立在共同努力基础上的独特的全球社区。关键的是,CASP选择最近才被实验确定的蛋白质结构(有些在评估时仍在等待确定)作为团队测试其结构预测方法的GroundTruth;它们均未提前发布。参与者必须盲目地预测蛋白质的结构,当这些预测变得可用时,这些预测将与基本事实的实验数据进行比较。我们要感谢CASP的组织者和整个社区,尤其是实验人员,其组织架构使得这种严格的评估成为可能。

CASP用来衡量预测精度的主要指标是全距离检验(GDT),其范围为0-100。简单地说,GDT可以近似地认为是氨基酸残基(蛋白质链中的珠子)在离正确位置一定距离内的百分比。根据Moult教授的说法,90 左右的GDT分数被非正式地认为与实验方法得到的结果相似。

在今天发布的第14次CASP评估的结果中,我们最新的AlphaFold系统在所有目标中实现了92.4的GDT总分。这意味着我们的预测平均误差(RMSD)约为1.6埃,相当于一个原子的宽度(或0.1纳米)。即使对于最难的蛋白质目标,那些在最具挑战性的自由建模类别,AlphaFold也达到了87.0 GDT的中位数(数据可在这里获得)。

这些令人兴奋的结果为生物学家将计算结构预测作为科学研究的核心工具打开了大门。我们的方法可能被证明会有助于重要的蛋白质类,如膜蛋白,这些蛋白质很难结晶,因此很难实验测定。

“这项计算工作代表了蛋白质折叠问题的惊人进展,这是生物学界一个有50年历史的重大挑战。几十年前,这个领域的许多人还没有预料到。看到它将从根本上改变生物学研究的许多方面,这非常令人兴奋。”VENKI RAMAKRISHNAN教授,诺贝尔奖获得者、英国皇家学会主席。

蛋白质折叠问题的探讨

2018年,我们首次使用AlphaFold的初始版本进入CAP13,该版本在参赛者中达到了最高的精确度。之后,我们发表了一篇关于CASP13方法和相关代码的文章,这篇文章进一步启发了其他工作和社区开发的开源实现。现在,我们开发的新的深度学习体系结构改变了我们对CASP14的方法,使其能够达到无与伦比的精确度。这些方法从生物学、物理学和机器学习领域获得灵感,当然也包括过去半个世纪以来蛋白质折叠领域许多科学家的工作。

折叠的蛋白质可以看作是一个“空间图”,其中残基是节点,边将残基紧密地连接在一起。这张图对于理解蛋白质内部的物理相互作用以及它们的进化史很重要。对于CASP14使用的AlphaFold的最新版本,我们创建了一个基于注意力的神经网络系统,经过端到端的训练,它试图解释这个图的结构,同时对它所构建的隐式图进行推理。它使用进化相关序列、多序列比对(MSA)和氨基酸残基对的表示来细化该图。

通过重复这个过程,系统可以对蛋白质的基本物理结构做出强有力的预测,并且能够在几天内确定高度精确的结构。此外,AlphaFold可以使用内部置信度来评估每个预测的蛋白质结构的哪些部分是可靠的。

我们利用蛋白质数据库中的170000个蛋白质结构和包含未知结构蛋白质序列的大型数据库对该系统进行了训练。它使用大约128个TPUv3内核(大约相当于约100-200个gpu)运行数周。与我们的CASP13 AlphaFold系统一样,我们正在准备一篇关于该系统的论文,以便在适当的时候提交给同行评审的期刊。

对现实世界的影响

十年前,当DeepMind成立时,我们希望有一天人工智能的突破能够成为一个平台,帮助我们更好地理解基本科学问题。现在,经过4年的努力建立了AlphaFold,我们开始看到这一愿景的实现,并对药物设计和环境可持续性等领域产生了影响。

马克斯·普朗克发育生物学研究所所长、CASP评估师安德烈·卢帕斯教授告诉我们,“AlphaFold惊人准确的模型使我们能够解决我们在近10年里一直坚持的蛋白质结构,重新启发了我们对信号如何通过细胞膜传递的理解。”

我们对AlphaFold在生物学研究和更广阔的世界的影响持乐观态度,我们也很高兴与其他人合作,在未来的岁月里进一步了解它的潜力。除了撰写同行评议的论文外,我们还在探索如何以可伸缩的方式提供对系统更广泛的访问。

同时,我们也在研究蛋白质结构预测如何与少数专家小组一起帮助我们了解特定疾病,例如帮助识别出有故障的蛋白质并解释它们如何相互作用。这些认识可以使药物的研发更精确,补充现有的实验方法,更快地找到有希望的治疗方法。

“预测蛋白质结构的速度是惊人的。这一飞跃展示了数值计算方法准备如何改变生物学研究,并有望加速药物发现。”亚瑟·D·莱文森。博士,创始人兼首席执行官卡利科,前董事长兼首席执行官,基因泰克

我们也看到一些迹象表明,蛋白质结构预测在未来的疾病大流行应对工作中可能是有用的,它是科学界开发的许多工具之一。今年早些时候,我们预测了SARS-CoV-2病毒的几种蛋白质结构,包括ORF3a,其结构以前是未知的。在CASP14,我们预测了另一种冠状病毒蛋白质ORF8的结构。实验家们已经证实了ORF3a和ORF8的结构。尽管它们具有挑战性,而且相关序列很少,但与实验确定的结构相比,我们在两种预测上都获得了较高的准确度。

除了加速对已知疾病的了解外,这些技术仍然有潜力探索我们目前还没有模型的数亿蛋白质结构,这是一个生物学未知的广阔领域。由于DNA指定了构成蛋白质结构的氨基酸序列,基因组学革命使得人们能够大规模地从自然界中读取蛋白质序列——有1.8亿个蛋白质序列,并在通用蛋白质数据库(UniProt)中计数。相比之下,考虑到从序列到结构所需的实验工作,蛋白质数据库(PDB)中只有大约170000个蛋白质结构。在这些尚未确定的蛋白质中,可能会有一些新的和令人兴奋的功能,就像望远镜能帮助人们更深入地观察未知的宇宙一样,像AlphaFold这样的技术可以帮助我们找到它们。

未来新的可能性

AlphaFold是迄今为止我们最重要的进展之一,但是,与所有科学研究一样,仍然有许多问题需要回答。不是每一个我们预测的结构都是完美的。还有很多东西需要学习,包括多个蛋白质如何形成复合物,它们如何与DNA、RNA或小分子相互作用,以及我们如何确定所有氨基酸侧链的精确位置。在与其他人的合作中,我们还需要学习如何最好地利用这些科学发现来开发新药、管理环境的方法等等。

对于我们所有致力于科学计算和机器学习方法的人来说,AlphaFold这样的系统展示了人工智能作为帮助基础发现的工具的潜力。正如50年前安芬森提出了一个远远超出科学研究范围的挑战,我们宇宙的许多方面仍然是未知的。今天宣布的进展让我们进一步相信,人工智能将成为人类拓展科学知识前沿最有用的工具之一,我们期待着未来多年的努力和发现!

原文链接:

https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

更多精彩推荐
  • 关于动态规划,你想知道的都在这里了!

  • 升级版“绝悟”AI自带“军师”,解禁王者荣耀全英雄池

  • 文本分类六十年

  • 开发者实测 M1 芯片报告:除了大型应用程序启动慢点,整体性能优秀!

  • 干货:18 张思维导图,后端技术学习路线长这样!

DeepMind攻破生物学领域50年难题:蛋白质结构预测准确性可达92.4分相关推荐

  1. 生物学50年难题被DeepMind解决了,蛋白质版“阿法狗”预测结构准确性达92.4

    郑集杨 发自 凹非寺  量子位 报道 | 公众号 QbitAI 一早醒来,发现搞蛋白质结构研究的朋友都在纷纷自嘲:要失业了. 啊这,怎么回事?原来是结构生物学,迎来了一个「革命性」的突破. 11月30 ...

  2. 震惊科学界!DeepMind AI破解「蛋白质折叠」难题

    来源|雷锋网 作者|贝爽 AI在生物科学领域再次取得重大突破! 美国时间11月30日,谷歌母公司Alphabet旗下人工智能公司DeepMind公开宣布,生物学界50年来的重大难题--蛋白质折叠预测, ...

  3. 关于深度学习在生物学领域的应用分析

    申明:本文来源于对论文"Applications of Deep Learning in Biomedicine"的理解. 深度学习研究及其在生物医药领域的潜在应用 深度学习已经在 ...

  4. 关于深度学习在生物学领域的应用分析Applications of Deep Learning in Biomedicine

    申明:本文来源于对论文"Applications of Deep Learning in Biomedicine"的理解. 深度学习研究及其在生物医药领域的潜在应用 深度学习已经在 ...

  5. 先行一步,7大技术创新和突破,阿里云把 Serverless 领域的这些难题都给解了

    简介: 函数计算 FC 首创 GPU 实例.业内首发实例级别可观测和调试.率先提供端云联调和多环境部署能力.GB 级别镜像启动时间优化至秒级.VPC 网络建连优化至200ms,Serverless 应 ...

  6. 先行一步,7 大技术创新和突破,阿里云把 Serverless 领域的这些难题都给解了

    摘要:函数计算 FC 首创 GPU 实例.业内首发实例级别可观测和调试.率先提供端云联调和多环境部署能力.GB 级别镜像启动时间优化至秒级.VPC 网络建连优化至200ms,Serverless 应用 ...

  7. 《科学》:媲美AlphaFold2的蛋白质结构预测新工具问世,一台游戏计算机十分钟出结果,完全免费...

    来源:学术头条本文约2000字,建议阅读5分钟 整个研究学界都将受益. 如今,人工智能已经渗透到人们生活的方方面面,各种深度学习算法也越来越多地应用于各个领域.尤其在生物和医学领域,人工智能技术可以说 ...

  8. AlphaFold2被超越!中国团队刷新全球蛋白质结构预测纪录,大牛彭健创业项目一鸣惊人...

    雷刚 发自 凹非寺 量子位 报道 | 公众号 QbitAI AlphaFold2的纪录,刚刚被刷新了. 最新消息,全球持续蛋白质结构预测竞赛CAMEO(Continous Automated Mode ...

  9. 后AlphaFold时代的蛋白质结构预测

    最新一届的蛋白质结构预测奥林匹克大赛,即15届CASP比赛(CASP15),在日前拉下了帷幕.这正值谷歌团队AlphaFold2在上一届CASP大赛给该领域带来革命性冲击后两周年.两年后,该领域的状况 ...

最新文章

  1. Stacking+Blending
  2. 实验4.1 循环控制 一
  3. 光流 | 基于KLT(Kanade-Lucas-Tomasi)特征点跟踪算法(附代码,可扩展)
  4. java应用重启导致数据丢失_java – 在重新启动应用程序后从SharedPreferences恢复时设置丢失数据...
  5. ZooKeeper的十二连问,你顶得了嘛?
  6. logisim无法打开解决办法
  7. r语言怎么保存代码_R代码忘记保存,系统崩溃了怎么办?
  8. 重装系统计算机名称回对ug,电脑重装系统后UG软件没有卸载的情况下重新启动UG软件的方法...
  9. 中级工程师考试2019——地图制图与地理信息系统
  10. 四边形不等式优化dp
  11. 爆炸性环境设备通用要求标准_防爆电气设备的适用环境及温度要求
  12. Struts,Spring 等开源项目svn 地址
  13. 更多编译器对C++11的支持比较
  14. eps提取高程点在哪里_Eps总结(3)——Eps使用点云生成等高线及高程点
  15. COMSOL有限元仿真深度指南:构建与管理自定义材料库
  16. 第7周 项目6—停车场模拟
  17. 计算机低级格式化,什么是低级格式化 如何低级格式化磁盘
  18. 计算机作文英语初中,初中英语常见的作文类型及应对技巧
  19. Java 循环语句折纸小游戏
  20. udacity深度学习--2. 深度学习简介--LESSON5 Jupyter notebook

热门文章

  1. 香港十大黄金交易公司2019最新排名
  2. 给idea换背景图片与背景颜色
  3. 云计算设计模式翻译系列
  4. 【Linux学习手册--新手必看篇】命令:chpasswd
  5. vs 2010下使用水晶报表Crystal Reports
  6. C#简易商城收银系统v1.0(2-1)
  7. iOS 蓝牙BLE外设名称修改后不更新的解决方案
  8. 支持向量机SVM Iris数据集 分类预测
  9. 小海龟绘图,用小海龟画圆
  10. php for循环九九乘法表,for循环连续求和、九九乘法表代码