来源:集智俱乐部

作者:郭瑞东 

审校:梁金 

编辑:邓一雪

摘要

蛋白质结构预测是计算生物学中一个长达半个世纪的重大挑战,最近,深度学习在这方面取得了前所未有的进展。4月1日,一项发表在 Nature Communications 上的最新论文从蛋白质结构预测、蛋白质功能预测、基因工程、系统生物学和数据集成以及系统发育推断五个方面探讨了深度学习的最新进展、局限性和对未来的展望。文章讨论了每个应用领域,并讨论了深度学习方法的主要瓶颈,如训练数据、问题范围,以及在新环境中利用现有深度学习架构的能力,最后总结了深度学习在生物科学领域面临的学科相关和一般性挑战。

研究领域:深度学习,结构生物学,蛋白质结构

论文题目:

Current progress and open challenges for applying deep learning across the biosciences

论文链接:

https://www.nature.com/articles/s41467-022-29268-7

AlphaFold2 成功地预测蛋白质3D结构问题,已成为深度学习在计算生物学领域的典型范例。Nature Communication 的综述“在生物学中应用深度学习的当前进展和开放挑战”,系统性介绍了在生物学中应用深度学习,当前取得的成果以及有待解决的开放性问题。

综述先介绍了在生物领域广泛应用的模型架构,指出所使用的模型包含有监督、无监督和强化学习三个范式。图神经网络、图像识别(CNN)以及自然预言处理(RNN,transformer)中的常见模型,都已在生物领域被成功应用。

图1. 深度学习所需的数据集的数量级及常用模型

文中将取得的成就分为四种:范式革命、显著、中等和较小范围内的成功。按照应用场景,指出五类问题当前的进展、公开数据集的大小、常用的模型架构。

图2. 深度学习在各个领域取得的进展程度

综述指出,尽管深度学习在例如蛋白质结构预测取得了范式转移级的成功,改变了该领域的默认选项。在更多的领域,如蛋白质功能预测、基因工程(例如基因编辑)和多组学数据集成中也取得了长足的进步。然而相对于传统的方法,对于其他领域,例如系统发育推断、经典的计算方法在这些领域仍然占据上风。并不是所有深度学习的应用在计算生物学都同样成功。成功的领域高度依赖于具有多样性、无偏采样且贴近实际应用场景的大量有标注及无标准的标准数据集。

除了概述各领域的进展,该综述的亮点在于指出了在生物领域应用深度学习面对的一般性挑战和可能的解决方案:

1. 有偏的结论:即模型给出的结论和真实情况不符。面对这一问题,需要的是改进实验设计,避免训练数据和实际数据的分布有差异,还需要识别出模型有偏的原因,在针对性的使用更公平的模型。

2. 较高的计算成本:可解决方案是并行运算及优化代码,或选用部分(核心)数据进行训练,同时改进AI架构,使用更高能耗的计算设施。

3. 模型缺少解释性:对此一方面可以采用例如SHAP[1]的统计分析,对特征的重要性进行评估,或使用像GNNExplainer[2]这样的工具,对基于GNN的模型训练完成后给出解释。

4. 有限的训练数据集:可行的解决方案包括标注更多的数据,以及使用模型进行数据增强,基于现有数据集生成新的类似的训练数据。

5. 过拟合:应对方式包括正则化、丢弃神经元dropout、提早停止训练、使用容量更小的模型以及采用更多的训练数据。

6. 模型在新数据上的表现较差:此时应该扩展数据集或使用容量更大的模型,并结合生物学知识对模型的泛化能力进行分析,例如在基于人的数据训练的 Deep Variant 在包含多对而不是一对染色体的动植物上检出突变的表现很差(因为其生物学机制不同,需使用相应的训练数据)。

综述着重强调了模型的可解释性以及训练过程中的效率,其中既包括了训练成本高,也包括了训练好的模型只适用于特定领域。并针对性地给出了更详细的可行建议。

参考文献:

1. Lundberg, S. M. & Lee, S.-I. A unified approach to interpreting model predictions. In Proceedings of the 31st International Conference on Neural Information Processing Systems, 4768–4777 (2017).

2. Ying, R., Bourgeois, D., You, J., Zitnik, M. & Leskovec, J. GNNExplainer: Generating explanations for graph neural networks. Adv. Neural Inf. Process. Syst. 32, 9240 (2019)

论文 Abstract

Deep Learning (DL) has recently enabled unprecedented advances in one of the grand challenges in computational biology: the half-century-old problem of protein structure prediction. In this paper we discuss recent advances, limitations, and future perspectives of DL on five broad areas: protein structure prediction, protein function prediction, genome engineering, systems biology and data integration, and phylogenetic inference. We discuss each application area and cover the main bottlenecks of DL approaches, such as training data, problem scope, and the ability to leverage existing DL architectures in new contexts. To conclude, we provide a summary of the subject-specific and general challenges for DL across the biosciences.

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

​Nat. Commun.速递:深度学习在计算生物学中的应用综述相关推荐

  1. 深度学习在轨迹数据挖掘中的应用研究综述

    深度学习在轨迹数据挖掘中的应用研究综述 人工智能技术与咨询 来源:< 计算机科学与应用> ,作者李旭娟等 关键词: 深度学习:数据挖掘:轨迹挖掘:长短时记忆:序列到序列 摘要: 在过去十年 ...

  2. 论文笔记(三):深度学习在水文水资源中的应用综述

    A Comprehensive Review of Deep Learning Applications in Hydrology and Water Resources 深度学习在水文水资源中的应用 ...

  3. 【百家稷学】深度学习在计算摄影中的方法与应用(vivo技术分享)

    继续咱们百家稷学专题,本次是有三AI在vivo公司分享的技术讲座.百家稷学专题的目标,是走进100所高校和企业进行学习与分享. 分享主题 本次分享是在vivo AI研究院进行,主题是<深度学习在 ...

  4. 深度学习在视频多目标跟踪中的应用综述

    文章目录 摘要 1.简介 2.MOT:算法.指标和数据集 2.1.MOT算法简介 2.2.指标 经典的指标 完整的MOT指标 ID 分数 2.3.基准数据集 3.MOT中的深度学习 3.1.深度学习中 ...

  5. Nat. Commun. 速递:虚拟颅内脑电与神经动力学模型

    来源:集智俱乐部 作者:曹淼  编辑:邓一雪  导语 时间-空间尺度动态演变的动力学系统建模,为研究大脑状态和状态转移的神经机制提供了理论基础.最近墨尔本大学曹淼等人的联合团队在Nature Comm ...

  6. Nat. Commun.速递:合群者有着相似的大脑活动

    来源:集智俱乐部 作者:郭瑞东  作者:梁金 编辑:邓一雪 摘要 Convergent processing of the world may be a factor that contributes ...

  7. python类的使用的生物学应用_当AI遇到生物-深度学习在生物研究中的应用案例列表...

    有可能改变未来的一项技术之一是基因科技,据麦卡锡去年发布的一份报告,预计到2025年,全球将会累计产生10亿人次的全基因组数据,而检测基因的成本将下降到接近为0.考虑到每一个人的全基因组数据将会达到1 ...

  8. 《速通深度学习数学基础》

    目录 序 前言 第1章 线性代数的基本概念 1.1 向量和深度学习 1.2 向量距离计算 1.3 向量的基本性质 1.4 矩阵的基本概念 1.5 一些特殊的矩阵 第2章 线性代数在深度学习中的应用 2 ...

  9. Nat. Mach. Intell. | 集成深度学习在生物信息学中的发展与展望

    本期给大家介绍悉尼大学Jean Yang教授课题组发表在Nature machine intelligence的文章"Ensemble deep learning in bioinforma ...

最新文章

  1. java循环队列_java实现循环队列(顺序队列)
  2. “大众搬家”何其多啊?[3/14/2007 update]
  3. 二叉树删除节点+思路分析
  4. JS之返回数组指定元素的slice
  5. JS trim的实现
  6. bat 取得服务列表_临汾进出口经营者备案,查看详情_共勤外贸服务
  7. JAVA 模拟瞬间高并发
  8. PHP7中异常与错误处理与之前版本对比
  9. php表决器代码,三人表决器:VHDL源代码
  10. 使用itextpdf将多个PDF文件合并为一个PDF文件
  11. MFC串口发送数据大于128数据出错的解决办法(发送0xFE接收得到0x3F等问题)
  12. 易飞计件工资的设计及应用
  13. COUNTIF、COUNTIFS、SUMIF、SUMIFS用法详解
  14. 国密SSL证书正式上线,知道创宇云防御助力金融和重要领域完成国密升级改造...
  15. pandas的is in和not in
  16. matlab里面axis auto,Matlab中axis函数用法总结-Go语言中文社区
  17. 有趣的歌单昵称_好听的歌单名称
  18. ERP与电子商务整合乃大势所趋
  19. HTML制作简单交互网页
  20. ArcGIS中克里金插值操作

热门文章

  1. 快两年的时间,我都干了啥
  2. 一个从华为离职的朋友
  3. 设计一个串口服务器设备.《需求分析报告》,《项目开发,分布式多串口交换服务器的设计与实现...
  4. java怎么编程方程_[编程入门]自定义函数求一元二次方程-题解(Java代码)
  5. VMware 安装kali——linux
  6. vue垂直布局_vue实现长图垂直居上 vue实现短图垂直居中
  7. win7关机快捷键_1个U盘+1款软件,电脑小白也能在家轻松重装win7系统
  8. python工控怎么样_搞工控不了解python,好比雄鹰断了翅膀,理由在这里!
  9. python公式计算器_Python-计算器
  10. html插入flash代码_初学者必备Web开发APP,支持代码补全,一键插入代码,厉害了!...