来源:机器之心
本文约1800字,建议阅读5分钟
和 AlphaFold 不同,这次谷歌探索的是用深度学习给蛋白质打上功能标签。

蛋白质是组成人体一切细胞、组织的重要成分。机体所有重要的组成部分都需要有蛋白质的参与。

目前已知存在的蛋白质种类有数十亿,但其中大约有三分之一的功能是不可知的。我们迫切地需要探索这片未知区域,因为它们关系到抗菌素耐药性,甚至气候变化等重要议题。例如,青霉素是蛋白质之间自然反应的产物,植物蛋白可用于减少大气中的二氧化碳。

近日,谷歌与欧洲生物信息学研究所合作开发了一种技术 ProtCNN,其能够使用神经网络可靠地预测蛋白质功能,帮助我们缩小蛋白质宇宙中最后不可见的区域。

谷歌表示,这种新方法让我们可以较为准确地预测蛋白质功能、突变的功能效应,并进行蛋白质设计,进而应用于药物发现、酶设计,甚至是了解生命的起源。

论文:

Using deep learning to annotate the protein universe

论文链接:

https://www.nature.com/articles/s41587-021-01179-w

谷歌提出的方法可靠地预测了更多蛋白质的作用,而且它们快速、便宜且易于尝试,其研究已让主流数据库 Pfam 中注释的蛋白质序列增加了近 10%,一举超过了过去十年的增速,并预测了 360 种人类蛋白质功能。

Pfam 数据库是一系列蛋白质家族的集合,其中每一个蛋白家族都以多序列比对和隐马尔科夫模型的形式来表示。

这些结果表明,深度学习模型将成为未来蛋白质注释工具的核心组成部分。

对于大多数人来说,我们更熟悉的是 DeepMind 此前预测蛋白质结构算法 AlphaFold 的工作。AlphaFold 向我们展示了这些神秘生物机器的形状,新研究的重点则是这些机器的作用以及它们的用途。

生物医疗是一个极其活跃的科学领域,每天都有超过十万个蛋白质序列被添加到全球序列数据库中。但是,除非附有功能注释,否则这些条目对从业者的用途非常有限。虽然人们会努力从文献中提取注释,每年评估超过六万篇论文,但这项任务的耗时性质意味着只有 0.03% 的公开可用蛋白质序列是手动注释的。

直接从氨基酸序列推断蛋白质功能是科学社区长久以来一直在研究的方向。从 1980 年代开始,人们就提出了 BLAST 等方法,其依赖于成对的序列比较,假设查询蛋白与已经注释的高度相似的序列具有相同的功能。后来,人们引入了基于 signature 的方法,PROSITE 数据库对在具有特定功能的蛋白质中发现的短氨基酸「基序」进行分类。基于 signature 方法的一个关键改进是开发了 profile 隐马尔可夫模型(pHMM)。这些模型将相关蛋白质序列的对齐折叠成一个模型,该模型为新序列提供似然分数,描述它们与对齐的集合的匹配程度。

在这里至关重要的是,profile HMM 允许更长的 signature 和更模糊的匹配,目前用于更新流行的数据库,如 Interpro 和 Pfam。后期的改进使这些技术更加灵敏,计算效率更高,而它们作为网络工具的高可用性让从业者可以轻松将它们整合到工作流程中去。

这些计算建模方法在学界产生了很大影响。然而,至今仍有三分之一的细菌蛋白质没有被注释出功能。究其原因,当前方法对每个比较序列或模型进行完全独立的比较,因此可能无法充分利用不同功能类共享的特征。

扩展注释的蛋白质序列集需要远程同源检测,即对与训练数据相似度低的序列进行准确分类。新研究得到的基准测试集包含 21,293 个序列。ProtENN 对所有类别分类的准确度显着提高,包括那些具有远距离测试序列的类,这是扩大蛋白质领域覆盖范围的关键要求。为解决从几个例子中推断的挑战,作者使用深度模型学习的序列表示来提高性能。

Pfam-seed 模型的性能。

ProtCNN 的架构。中心图展示了输入(红色)、嵌入(黄色)和预测(绿色)网络以及残差网络 ResNet 架构(左),而右图展示了 ProtCNN 和 ProtREP 通过简单的最近邻方法利用。在这一表示中,每个序列对应一个点,来自同一家族的序列通常比来自其他家族的序列更接近。

ProtCNN 学习每序列长度为 1100 的实值向量表示,无论其未对齐长度如何。为获得高精度,来自每个族的表示必须紧密地聚集在一起,以便不同的族很好地相互分离。为了测试这种学习表示是否可用于准确分类最小家族的序列,作者构建了一种称为 ProtREP 的新方法。对于 ProtREP,研究者计算每个家族在其训练序列中的平均学习表示,产生一个标记家族表示。然后通过在学习表示空间中找到其最近的标记来对每个保留的测试序列进行分类。对于相同的计算成本,ProtREP 在聚类分割上超过了 ProtCNN 的准确性。

ProtENN 和 TPHMM 的组合提高了远程同源任务的性能。TPHMM 和 ProtENN 模型的简单组合将错误率降低了 38.6%,将 ProtENN 数据的准确度从 89.0% 提高到 93.3%。

为探究深度模型对蛋白质序列数据的了解,作者在来自 Pfam-full 的 80% 的未对齐序列上训练 ProtCNN,并计算了学习氨基酸表示的相似性矩阵。

结果表明,ProtCNN 学习了一种有意义的蛋白质序列表示方式,其可泛化到序列空间未知的部分,可用于预测和理解蛋白质序列的特性。另一个挑战是检测蛋白质结构域及其在蛋白质序列中的位置。此任务类似于图像分割,这正是深度学习模型擅长的任务。虽然 ProtCNN 是使用域进行训练的,但研究展示了 ProtCNN 使用简单的滑动窗口方法将完整序列分割成域的能力。

尽管不使用序列比对,但 ProtCNN 仍显示出了卓越的准确性。

编辑:于腾凯

谷歌AI一次注释了10%的已知蛋白质序列,超过人类十年研究成果相关推荐

  1. 7-120 兔子繁殖问题 (10 分) 已知有一对兔子,每个月可以生一对兔子,而小兔子一个月后又可以生一对小兔子(比如:2月份出生的小兔子4月份可以生育)。也就是说,兔子的对数为:第一个月1对,第二个

    7-120 兔子繁殖问题 (10 分) 已知有一对兔子,每个月可以生一对兔子,而小兔子一个月后又可以生一对小兔子(比如:2月份出生的小兔子4月份可以生育).也就是说,兔子的对数为:第一个月1对,第二个 ...

  2. 前列腺癌检测 AI 算法登上《柳叶刀》:分类性能超过人类专家,还能完成其他临床任务...

    来源:AI科技评论 本文约2200字,建议阅读6分钟. 本文为你介绍一种基于人工智能的算法,其用来处理常规临床应用任务,具体而言是辅助前列腺疾病诊断. 近日,<柳叶刀-数字医疗>期刊刊登了 ...

  3. 谷歌 AI 编舞师,连张艺兴最喜欢的 Krump 都不在话下

    编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 舞蹈一直是文化.仪式和庆祝活动的重要组成部分,也是一种自我表达的方式.今天,存在多种形式的舞蹈,从舞厅到迪斯科.然而,舞蹈是一种 ...

  4. 官方 | 谷歌 AI 中国中心成立

    刚刚, Google Cloud 人工智能和机器学习团队的首席科学家李飞飞宣布,谷歌 AI 中国中心在北京成立.该中心由李飞飞和 Google Cloud 研发负责人李佳博士共同领导.李飞飞将会负责中 ...

  5. 像人类一样理解言外之意,阿里AI最新研究成果被国际顶会收录

    AI的语言理解能力又进一步了!7月30日,在全球线上举行的人工智能顶会SIGIR 2020上,阿里巴巴研究团队表现突出,共有29项研究成果入选,是全球论文数量最多的科技公司.据悉,阿里在多个成果中展现 ...

  6. 网易云信AI音频最新研究成果获世界顶级学术会议 ICASSP 2022 认可

    近日,全球顶级音频技术会议 ICASSP 2022 公布了论文入选名单.网易云信音频实验室论文--<一种针对实时通信的基于神经网络的啸叫检测方法>(A Neural Network-bas ...

  7. 谷歌ai人工智能叫什么_Google DeepMind在全球使用AI的10种方式

    谷歌ai人工智能叫什么 自2014年Google以5000万美元收购英国AI初创公司以来,DeepMind吸引了众多头条新闻. DeepMind的 AlphaGo系统击败围棋世界冠军Lee Sedol ...

  8. 万字长文!Jeff Dean亲笔盘点谷歌AI 2019:纵横16大方向,汇集重要开源算法(附链接)...

    本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处 本文约12000字,建议阅读20+分钟 本文是Jeff Dean代表Google AI,盘点过去一年AI大趋势. 又一年 ...

  9. 谷歌AI良心开源:一部手机就能完成3D目标检测,还是实时的那种

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 来源:量子位@微信公众号 导读: 昨天,谷歌开源了能在移动设备上实时计算面向对象的 ...

最新文章

  1. docker配置cdn-容器内可以通过域名访问
  2. wordpress android,WordPress for Android 2.0 试用记
  3. Python中从头开始实现神经网络 - 介绍
  4. 2018-2019-1 20165231 实验四 外设驱动程序设计
  5. 如何提高PHP代码的质量?第二部分 单元测试
  6. Android 8.0学习(25)---系统的应用图标适配
  7. python求数组标准差
  8. Oracle SQL多表查询
  9. 金庸15部小说精校版
  10. Fdfs环境搭建及整合Java
  11. django下的考勤机管理系统定制实例
  12. C语言统计多个闰年,C语言统计闰年
  13. itop使用TF卡烧写uboot
  14. leetcode877
  15. P2P第三方资金托管平台
  16. 网页悬浮在线人工客服代码.
  17. 在线函数绘制网站x2
  18. 计算机网络之物尽其用day01《哈工大MOOC》
  19. 思科计算机第七章答案,CCNA第七章 访问控制列表 练习
  20. [转]-关于职业规划最好最全面的一篇文章

热门文章

  1. win2008 mysql优化_SQL server 2008 数据库优化常用脚本
  2. tomcat历史版本新特性_tomcat升级后报错RFC 7230 and RFC 3986
  3. MySQL学习(十一)
  4. (30)导入时如何定制spring-boot依赖项的版本【转载】【从零开始学Spring Boot】...
  5. SQL SERVER 2014 下IF EXITS 居然引起执行计划变更的案例分享
  6. .Net 转战 Android 4.4 日常笔记(4)--按钮事件和国际化
  7. ibatis中如何调用出参为游标的存储过程
  8. 腾讯游戏分享汇:天天飞车六大研发经验
  9. cocos2d-x 3.0 Loading界面实现
  10. storyboard和xib的区别