有可能改变未来的一项技术之一是基因科技,据麦卡锡去年发布的一份报告,预计到2025年,全球将会累计产生10亿人次的全基因组数据,而检测基因的成本将下降到接近为0。考虑到每一个人的全基因组数据将会达到100G, 如何对这些海量数据的解读,现有的生物信息方法基于统计学模型。

本篇文章列出了部分现有的应用深度学习技术处理医学和生物学问题的工具,从这个列表中,可以看出当前深度学习在该领域的挑战和局限,也可以全面的了解深度学习在计算生物学,医学影像及生物信息等学科所具有的广泛应用场景。

深度学习+生物的论文发表数量

发表的论文中所用的模型的比例

1>药物研发类

1)药物研发中需要预测不同结构的分子相互作用的情况,这可以大幅节省研发的时间和金钱成本。通过使用实验验证的数据,Ryan Adams将分子中的原子看成图中的点,将原子间的化学键看成是图的边,使用卷积神经网络预测全新的分子的性质,这项技术又被称为分子指纹,具体参考 https://github.com/HIPS/neural-fingerprint。

药物分子间相互作用的示例图

2)ORGAN 使用强化学习和对抗神经网络来自动化的指导新药的研发过程,该模型能够按照指定的目标,去寻找符合要求的药物的分子结构。这种方法本来是一个通用的框架,适合各种类型的离散型数据,包括文本,乐谱,而这里针对药物研发的问题进行了针对性的优化,参考 https://github.com/gablg1/ORGAN

3)使用强化学习来从头开始生成药物序列,上述的两个工具,还只是辅助药物的研发,而通过RNN和强化学习的结合,https://github.com/MarcusOlivecrona/REINVENT中介绍的工具,可以从一个分子开始,生成只在特定的受体被激活的分子序列,例如针对多巴胺2型受体,这个工具生成的序列经过实验验证,95%都满足需求。

4)DeepChem,这是一个python库,应用了LSTM和卷积神经网络,作为一个可以从小样本中学习的计算化学工具DeepChem不止可以应用在药物的研发,还可以用在材料科学,量子化学的研究中。

2>基因组学

1)DeepVariant,这是一个2016年由谷歌的Deep Mind团队推出的工具,通过将基因数据转化成图像,再通过图像识别的模型,找出基因中有差异的部分,包括基因组上的单碱基突变(SNP)和小的插入缺失(Indel),如下图所示,该工具在升级之后,在多项标准的检测指标中表现的和传统方法相差不多。https://github.com/google/deepvariant

DeepVariant的原理示意图

2)ADAGE ,这是一个用降噪自编码器来分析基因表达数据的工具,所谓的基因表达量数据,就是针对每个基因,在不同的细胞中检测有多少RNA从其中转录,从而得出对应的基因产生了多少影响。通过对高纬度的基因表达量数据进行降维,ADAGE可以识别出不同样本间的相互关系,相比于传统的PCA或ICA的方法,ADAGE能够更准确在表达量都较低的情况下识别出具有生物学意义的基因。

在小鼠的胚胎干细胞上验证后,DeepCpG的表现优于现有的其他软件。甲基化会影响基因是否表达,而诸多启动子和增强子(DNA 序列中的调控区)与其调控的基因之间的相互作用则会影响基因的表达数量。同样是基于深度学习的SPEID [4] 基于基因序列预测启动子和增强子之间的相互作用,这是第一个基于基因序列来预测 启动子和增强子的软件,其效果优于基于基因功能做出的预测。

3)DanQ,DNA序列中编码蛋白质的区域被称为基因区,然而这只占序列总长度的2%,其他的序列有些作用是调控基因的表达,例如让一些基因多翻译一些,让另一些少翻译一些,而更多的部分,则不明确有什么功能。通过深度学习中的RNN或CNN等模型,可以预测基因中那一段是有调控作用的。类似的工具还有Basset DeepSEA DeepBind DeepMotif PEDLA FIDDLE, 从工具的数量上可以看出,这个领域的研究是相对容易出成果,也是具有较大潜力的。

4)DeepCpG,这是一个用来预测不同细胞的基因组上那些未知会被甲基化的工具,甲基化意味着通过表观遗传学(点击查看表观遗传学是什么)改变了基因的表达,而基因上会发生甲基化的位置,和其附近的序列有关,因此可以进行预测。类似的还有针对单细胞测序开发的工具,参考http://www.nature.com/articles/srep19598

3> 其他应用

1)和病人相关的一个重要应用场景是隐私保护,如何保证患者的生理数据能够有效的匿名化,是一个很重要的问题。通过使用对抗神经网络GAN,SPRINT这个工具可以生成和真实的患者数据类似的数据,但这些生成的数据无法对应到具体的患者,这样增加了对患者隐私的保护,可以增加患者共享自己数据的意愿,具体参考https://github.com/greenelab/SPRINT_gan 。

2)预测衰老标记,人的年龄不止是身份证上写的那个,更关键的是你的身体是否还像年轻人那样,Young AI是一个集合了21个深度学习模型的集成模型,只需要通过你体检得出的19项生理指标,这个模型就可以预测你的实际年龄,平均误差只有5.9年,这项工具将可以用于自我评估自己的衰老状况。http://www.aging.ai

3)Deep Heart 通过可穿戴设备检测的心跳数据提前预测中风的发作,从而为用户赢得抢救所需的时间,准确度高达97%。原理是因为心脏及各种动脉,静脉,胃,食管都连在植物性神经系统上,而心率变异率的变化与这些器官的状态有关,Deep heart 就可以通过加速度计和心率变异率的检测,来判断某个人是否有高血压或呼吸异常。

4)生物实验中,每一个批次的实验,甚至是不同的实验操作者,都会引起系统性的误差,这被称为Batch Effect 批次效应。https://academic.oup.com/bioinformatics/article-abstract/33/16/2539/3611270 中提出了使用深度学习而不是传统的统计学来消除单细胞测序中的批次差异的工具,如果一个实验完成了两次,那这两次之中的差异就是批次差异,如果能通过训练神经网络,使其可以重复出两次实验之间的差异,那么就可以通过去除上述的差异来去除批次效应。

参考资料

python类的使用的生物学应用_当AI遇到生物-深度学习在生物研究中的应用案例列表...相关推荐

  1. python画漫画_漫画:我用深度学习框架画下女朋友最美的脸

    原标题:漫画:我用深度学习框架画下女朋友最美的脸 这不,又一个程序员为爱变身灵魂画手,看得我都想学画画了. 阿华是幸运的,因为他找到了对的方法,事半功倍,最终有情人终成眷属.这也得益于 PyTorch ...

  2. Python工程能力进阶、数学基础、经典机器学习模型实战、深度学习理论基础和模型调优技巧……胜任机器学习工程师岗位需要学习什么?...

    咱不敢谈人工智能时代咋样咋样之类的空话,就我自己来看,只要是个营收超过 5 亿的互联网公司,基本都需要具备机器学习的能力.因为大部分公司盈利模式基本都会围绕搜索.推荐和广告而去. 就比如极客时间,他的 ...

  3. 【案例实践】Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用

    查看原文>>>基于Python多元线性回归.机器学习.深度学习在近红外光谱分析中的实践应用 [专家]: 郁磊副教授 主要从事MATLAB 编程.机器学习与数据挖掘.数据可视化和软件开 ...

  4. 物体识别_深度学习在物体识别中的应用探讨:以ImageNet和人脸识别为例

    ImageNet图像分类 深度学习在物体识别中最重要的进展体现在ImageNet ILSVRC挑战中的图像分类任务.传统计算机视觉方法在此测试集上最低的错误率是26.172%.2012年,欣顿的研究小 ...

  5. Python多元线性回归、机器学习、深度学习在近红外光谱分析中的应用

    导师:郁磊副教授,主要从事MATLAB 编程.机器学习与数据挖掘.数据可视化和软件开发.人工智能近红外光谱分析.生物医学系统建模与仿真,具有丰富的实战应用经验,主编<MATLAB智能算法30个案 ...

  6. 《深度学习入门:基于Python的理论与实现》读书笔记:第8章 深度学习

    目录 8.1 加深网络 8.1.1 向更深的网络出发 8.1.2 进一步提高识别精度 8.1.3 加深层的动机 8.2 深度学习的小历史 8.2.1 ImageNet ​8.2.2 VGG 8.2.3 ...

  7. 使用Python和Numpy进行波士顿房价预测任务(二)【深度学习入门_学习笔记】

    使用Python和Numpy进行波士顿房价预测任务–详解 目录: 一.数据处理 (1)读入数据 (2)数据形状变换 (3)数据集划分 (4)数据归一化处理 (5)封装成load data函数 二.模型 ...

  8. windows python 访问mtp存储空间_用Windows电脑训练深度学习模型?超详细配置教程来了...

    虽然大多数深度学习模型都是在 Linux 系统上训练的,但 Windows 也是一个非常重要的系统,也可能是很多机器学习初学者更为熟悉的系统.要在 Windows 上开发模型,首先当然是配置开发环境. ...

  9. python课程 优达学城_优达学城深度学习之一——Anaconda

    这几天发一篇原创文章一直发不出去,觉得微信公众号保护原创的机制很有问题,即使自己写的但是跟另外一篇比较像就发不出去,只能跳转原文,所以强烈建议微信要改一改这个机制.所以本文章部分内容只能以图片的形式发 ...

最新文章

  1. 2022-2028年中国输送胶管行业市场全景调查及投资前景趋势报告
  2. 动态SQL应用(成绩排名)
  3. 入门训练 Fibonacci数列 c语言
  4. 糖药病数据集分类_使用optuna和mlflow进行心脏病分类器调整
  5. mysql search yum_CentOS 7 yum安装配置mysql
  6. linux复制后权限变了,linux系统(centos debian freebsd等)如何拷贝数据并保持原来的属性(权限 属主)不变?...
  7. linux下安装chrome
  8. java图片滚动特效_js图片各种滚动效果
  9. python私有成员与公有成员_Python访问限制私有还是公有的介绍(附示例)
  10. 中概股“回A”政策趋紧 霞客环保终止卖壳
  11. WPF [调用线程无法访问此对象,因为另一个线程拥有该对象。] 解决方案
  12. 在线动态几何编辑器 GeometryEditor
  13. [笔记]三维激光SLAM学习——LiDAR里程计原理推导代码实现
  14. 一篇五分生信临床模型预测文章代码复现——Figure1 差异表达基因及预后基因筛选——火山图,Venn图,热图绘制(二)
  15. c语言 x16 x15 x2 1,CRC算法原理及C语言实现
  16. Baxer双臂机器人Ubuntu20.04+ROS noetic开发环境配置
  17. c语音异或运算符_一文看懂C语言异或运算
  18. POSIX标准是什么?
  19. 从零开始创建一个uni-app项目
  20. 网站带不带www真的不一样,很多新手不知道区别会被坑死的

热门文章

  1. mysql开启日志记录
  2. atitit.架构设计---方法调用结果使用异常还是返回值
  3. LeetCode_database刷题记录(182. 查找重复的电子邮箱)
  4. 【概率论】3-4:二维分布(Bivariate Distribution)
  5. 设计模式——策略模式详解
  6. linux 下安装adobe flash的关键。
  7. 文件上传控件 自定义样式
  8. 另一个进程已被死锁在资源上且该事务已被选作死锁牺牲品
  9. ASP.net的PDF打印(水晶报表)[摘]
  10. 最近完成的一个可伸缩性的WEB开发框架