基因组学所需的数据量如此巨大,用深度学习技术去探索人类基因组密码便成为了趋势与未来。

由卡耐基梅龙大学硕士岳天溦与Eric Xing教授的学生汪浩瀚合著的论文“Deep Learning for Genomics: A Concise Overview”, 综述了深度学习在基因组学中的应用。文中分析了不同深度模型的优劣势,举例讲解如何利用深度学习解决基因学问题,并且指出了当前科研所面临的缺陷和挑战

论文链接:https://arxiv.org/abs/1802.00810

GitHub还有一些重要论文的笔记: https://github.com/klsfct/DLforGenomics

人类基因组计划(Human Genome Project)其宗旨便在于测定组成人类染色体所包含的30亿个碱基对组成的核苷酸序列其目的在于绘制人类基因组图谱,辨识并破译其载有的人类遗传信息。

由于基因组学所需信息量巨大,其研究的推动依赖于先进的基因测序技术。2000年首次商用的高通量测序(High-throughput Sequencing, THS)是基因测序领域的一次革命性的技术变革。Google Brain 联合 Alphabet旗下公司Verily所开发的开源工具DeepVariant,巧妙地将HTS序列片段的拼接问题转化为一个图像处理分类问题。DeepVariant利用了Google Brain 的图像处理模型Inception,用深度神经网络来识别HTS测序结果中DNA碱基变异位点,包括基因 组上的单碱基突变(SNP)和小的插入缺失(Indel),从而极大提高了的拼接精度。

另一方面,深度学习模型被广泛应用于鉴别基因的不同成分,比如外显子(exons), 内含子( introns), 启动子(promoters), 增强子(enhancers), positioned nucleosomes, 剪接位点( splice sites), 非转录区 (untranslated region, UTR)等。同时,有丰富的数据种类可被用于基因组学的研究:基因微列阵(microarray),RNA-seq expression,转录因子(DNA结合),转录后修饰(RNA结合),组蛋白修饰(histone modifications)等。许多信息门户比如GDC, dbGaP, GEO都为广大科研工作者提供了这类数据来源。

深度学习模型对比:CNN、RNN、自动编码器、新兴模型结构

CNN, RNN, 前馈神经网络(feed-forward neural networks),自动编码器(Auto-Encoders)等种类繁多。在实际应用中,如何利用各类模型的优势去解决不同类型的基因学问题呢?就看github

深度学习模型的可解释性和建模方式

模型可解释性

深度学习“黑箱”是人们一直在力求改进的一个缺陷。由于深度学习方法本身的这点不足,人们在直接将其应用在基因组学中,力求解释基因问题时,希望能够赋予自己的模型适当的可解释性。作者介绍了一些经典的计算机视觉领域对CNN的解释,和基因组应用中人们结合问题对深度学习模型解释的例子。比如可视化CNN各层提取的特征,或采用saliency map,又比如 Deep GDashboard 模型,它探索比较了CNN和RNN各自在同一个问题中发挥的性能。

建模方式讨论

想要提高深度学习在基因组学中应用的效果,除了提升模型结构上的设计,还可以考虑从模型训练上提高。由于基因组数据量之大,完整训练一个精准有效的网络耗时且困难,所以可以考虑迁移学习(transfer learning)。很将某个训练好的模型(部分或整体)用作另一个问题的初始化,或用已有模型直接进行特征提取分析。这种思路在计算机视觉领域早已应用。此外,可以考虑同时解决两个或多个相关的问题(多任务学习, multitask learning),在建模中利用他们共有的信息成分。考虑到基因组数据的多样性,可以考虑multi-view learning,建立模型利用该问题的不同数据类型。这可以通过concatenating features, ensemble methods, or multi-modal learning (为不同模块/不同数据类型设计相应的sub-networks,并在网络高层结构中融合各个子网络的信息) 来实现。

深度学习在基因组学问题中的应用

论文中回顾了深度学习在以下这些领域中的应用,并详细介绍了一些近年的值得瞩目的研究:

1. 基因表达(gene expression):特征和预测

2. 调控基因组学(regulatory genomics):

启动子(promoters)和增强子(enhancers)

Functional Activities

Splicing

转录因子(Tranion Factors) and RNA-binding Proteins

亚细胞定位(Subcellular Localization)

突变(Mutations) and Variant Calling

3. 结构基因组学(structural genomics):

蛋白质的结构分类(Structural Classification of Proteins)

蛋白质二级结构(Protein Secondary Structure)

Contact Map

挑战和展望

想要建立深度学习模型解决基因组学问题,需要明确现有一些限制和挑战,才能更有全局观,更 有目的性的开发更有效的模型。

数据局限性

获取生物学数据通常耗财耗时,尤其是当我们想通过基因组学数据研究某种稀有性状/疾病时,数据来源十分匮乏。

作者介绍了以下几种情况下应对数据所带来的局限性的一些对策和论文:

1. 数据各类之间不平衡(class-imbalanced)或部分数据没有标签(labels)

2.数据类型不同(Various Data Sources)

3. 数据来源混杂(Heterogeneity and Confounding Correlations):heterogeneous datasets是医疗数据中很常见的问题。人种的不同,人群的区域性,数据采集的不同批次,都会造成一些误导因素(confoundering factors)需要模型去处理。

特征提取

在应用中,很多时候我们会采用一些人工提取的特征(hand-engineered features),但这通常需要相应领域的专家协助。虽然譬如CNN这样的模型,可以有效地提取数据中的特征,但这对模型的设计和调参要求较高。故若有好的特征提取方式,可以有效加速模型训练,推动科研进程。作者谈及了几种基于拓扑学(topology)的特征提取方式,和一些特征表示方式。

如下图,这是一个利用了拓扑学中持续同调(persistent homolgy)概念提取蛋白质三维结构中特征的思路。作者从蛋白质出发建单纯复形(simplicial complex),从其中拓扑不变量提取特征,并成功地应用于包括蛋白质superfamily分类,protein-ligand binding等多个问题中。

图片来源:https://arxiv.org/abs/1703.10982

模型设计

前文讨论过各种模型的优劣势,故而在设计模型时,我们应根据问题选择合理的设计。同时,也可以在模型参数中引入一些生物学背景知识(prior information),在有限的数据下,尽可能有效地利用现有的信息。

最后,想要让深度学习在基因组学研究中发挥巨大的作用,我们还有很长的路要走。从生物科技上客服获取数据的困难,从深度学习方面贴合特定问题开发合适的模型。我们应谨记现有的困难和挑战,继续推动这个学科的发展。

基因序列 深度学习Deep Learning for Genomics: A Concise Overview相关推荐

  1. 机器学习(Machine Learning)深度学习(Deep Learning)资料(Chapter 2)

    机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 2) - tony的专栏 - 博客频道 - CSDN.NET 注:机器学习资料篇目一共 ...

  2. 【深度学习Deep Learning】资料大全

    感谢关注天善智能,走好数据之路↑↑↑ 欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 对商业智能BI.大数据分析挖掘.机器学习, ...

  3. 机器学习(Machine Learning)深度学习(Deep Learning)资料汇总

    本文来源:https://github.com/ty4z2008/Qix/blob/master/dl.md 机器学习(Machine Learning)&深度学习(Deep Learning ...

  4. 深度学习Deep Learning 资料大全

    转自:http://www.cnblogs.com/charlotte77/ [深度学习Deep Learning]资料大全 最近在学深度学习相关的东西,在网上搜集到了一些不错的资料,现在汇总一下: ...

  5. 机器学习(Machine Learning)深度学习(Deep Learning)资料【转】

    转自:机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一 ...

  6. 机器学习(Machine Learning)深度学习(Deep Learning)资料集合

    机器学习(Machine Learning)&深度学习(Deep Learning)资料 原文链接:https://github.com/ty4z2008/Qix/blob/master/dl ...

  7. 大量机器学习(Machine Learning)深度学习(Deep Learning)资料

    机器学习目前比较热,网上也散落着很多相关的公开课和学习资源,这里基于课程图谱的机器学习公开课标签做一个汇总整理,便于大家参考对比. 1.Coursera上斯坦福大学Andrew Ng教授的" ...

  8. (转)机器学习(Machine Learning)深度学习(Deep Learning)资料

    原文链接:https://github.com/ty4z2008/Qix/blob/master/dl.md 机器学习(Machine Learning)&深度学习(Deep Learning ...

  9. 机器学习——深度学习(Deep Learning)

    Deep Learning是机器学习中一个非常接近AI的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,近期研究了机器学习中一些深度学习的相关知识,本文给出一些非常实用的资料和心得. Key W ...

最新文章

  1. 深度学习Github排名,很不错的介绍
  2. [转帖]一位“鬼佬”总经理的管理艺术
  3. spring security 学习三-rememberMe
  4. js中的prototype的理解
  5. 软件行业大牛告诉你何谓成功?
  6. Centos 6安装完美搭建mysql、php、apache之旅
  7. H3C 模拟器 pc与防火墙,交换机相连,在pc cmd下用telnet访问交换机和防火墙
  8. 软件测试——检查代码
  9. ASP.NET FormsAuthentication跨站点登录时绝对地址返回的问题
  10. EXCEL 跨列居中
  11. 最短路径例题(Floyd、Dijkstra)
  12. node 压缩图片_免费的图片最佳化工具,支持JPG、PNG等格式的无损压缩
  13. iOS Sonar 集成流程
  14. 非常漂亮的放焰火效果的Applet程序
  15. 如何一步步设计前端架构?
  16. AndroidUSBCamera调用USB摄像头问题
  17. iqn怎么查 linux_如何利用procfs读取iSCSI Initiator IQN信息
  18. 大华摄像头java开发之抓图
  19. 大数据入门-什么是Kudu
  20. MPC(模型预测控制)_附matlab例程

热门文章

  1. 校园导航系统之用弗洛伊德算法求加权图的最短路径
  2. java分词主谓宾_英语五种结构的句子(主谓 主谓宾 主谓宾宾补 主系表 主谓双宾)谁给我讲一下…...
  3. win下brat安装与使用
  4. 网络转型中的设备硬件形态选择初探
  5. android属于数据库管理系统,详细谈谈Android系统中的SQLite数据库的应用
  6. 我的世界职业系统rpg服务器,我的世界1.8.X-1.10.X服务器七彩之风RPG混合生存群组服小游戏空岛海岛粘液丧尸世界职业...
  7. 从Watson看AI平台的架构设计
  8. SAP中使用SE91更改消息短文本
  9. props的几种写法
  10. Linux知识点概要之课堂总结