作者丨Peter

单位丨某基因科技公司生物信息工程师

研究方向丨生物信息

在 3 月 4 号的“Nature”子刊中,展示了利用深度 CNN 来检测体细胞突变的新工具“NeuSomatic”,该工具使用 PyTorch 写成,支持 GPU,对于同等数量的数据(30X),训练时间相比之前谷歌提出的 Deep Variant 所需的 1000 CPU 时,仅需 156 CPU 时。

网络结构

体细胞突变(Somatic Mutation),常见于癌症相关的研究。癌症的成因是细胞中有害突变的累积导致的细胞无限增殖,通过测序技术,可以检测出癌细胞中特有的突变,如果癌细胞正好有靶向药针对的靶点突变,那使用靶向药治疗就能显著提高患者的生存时间,这就是常说的针对癌症的精准个性化医疗。

但癌细胞的突变,其结构更加复杂,多样性更高,检测的难度也更大。传统的方法,不管是准确性还是查全率,都有显著提升的空间。

为了确认哪些是癌细胞特有突变,会对肿瘤组织和正常细胞分别采样测序,之后比较其中的差距。由于癌细胞的突变往往会形成较为复杂的内部结构,因此更难以检出。

之前的利用深度学习做变异检测工具,例如 Deep Variant,只能用来检测来自父母遗传得出的非体细胞突变。NeuSomatic 作为一个新的工具,效果好于目前该领域常用的方法,通过 ensemble 的方法,可以加入检测流程中,用于提升检测出变异的准确性和完整性。

上图展示了该问题的输入数据,Ref(参考序列)代表大部分人的基因序列,正常细胞和癌症细胞测序得出的读(read)是将 DNA 长序列打断测序后得出的片段。中间的图展示的是将测序得出的读比对后的结果,其中的黄色代表可能的体细胞单碱基突变(Single Nucleotide Vantiantion)。

例如此处的 T 在正常细胞中都是没有突变的,但在癌细胞中却又部分变成了 C。而上图中间的是可能的插入类突变,在癌症的样本中,相比正常的样本中的读,标出的部分在部分读上显示有多出的碱基,而这些在正常组织的读中都不存在。

NeuSomatic 按照碱基类型,以及该碱基上支持的读的数目多少,将比对的结果做了转换,得出右图,其中的“-”代表这个位置出现了一个空缺(gap)。

上图展示了模型的处理流程其中的 reference channel,tumor coverage channel,和 normal coverage channel 分别是上图展示的矩阵,同时还会将该位置上人群中的突变概率,癌细胞中之前记录的突变频率以及比对中的质量值等信息以矩阵的形式输入。

这里的 position 指的是矩阵对应的读在测序得出的读中处在什么位置,例如对于测序产生的读长为 200bp(base pair)的读,每个矩阵处理的只是其中的 64bp,因此需要标注其位置信息。

NeuSomatic 同时还支持将其他检测体细胞突变的方法的输出,按照矩阵的形式当成输入,从而实现在一个框架下对多个模型进行整合。

之后的数据处理 CNN 标准的三明治结构(卷积,批量正则化,池化),引入了短路来解决网络过深的问题,之后通过变异类型的分类器来判断变异属于插入,删除,与单碱基突变中的一种,以及变异的长度(0,1,2,或大于等于 3),并通过回归的方式,确定变异所在的位置。

针对网络结构的选择,在训练前,尝试了 ResNet-18 中的多种结构,将训练数据一分为二,一半用来训练当前认为最好的网络结构,一半用来训练新尝试的网络结构。

在训练了一段时间后,下表展示了不同网络结构的对比。根据对不同网络结构的对比,选择了图 g 的结构作为 NeuSomatic 的网络结构,从而保证在 SNV 及 INDEL 上都能有较好的表现。

介绍了网络结构,那该怎么将问题转化为监督学习了?答案是用模拟数据,根据真实突变发生的频率,模拟 DNA 序列某位置已发生突变,这样在知道了答案的前提下,去将为训练数据加上标签。遇到真实数据时,就用在模拟数据中训练好的模型进行分类。

实验

最后看一看该方法在真实数据上的准确性,这里采用了公开的数据集,使用了通过实验验证的肿瘤细胞细胞系中的体细胞突变作为真集。可以看出 NeuSomatic 的表现好于 NeuSomatic-S,这是由于前者在输入中结合了上述的所有常规方法的结果,对其进行了整合,而 NeuSomatic-S 则只是用了原始的测序数据当做输入。在运行时间上,前者是后者的 3.5 倍。

在论文中,作者还验证了该方法对于不同测序平台(二代与三代)的数据,都具有适用性。并且在不同的测序深度下,都表现明显好于已有的方法。

总结

NeuSomatic 是第一种使用深度学习进行体细胞突变的工具,其表现显著优于之前的方法。使用 NeuSomatic,可以提高准确检查出靶点变异的几率,避免漏检,从而更高效的指导他人精准用药。达到之前方法相同的准确度,需要的测序数据也会有显著的降低,从而可以降低检测的成本。在方法学上,该方法的创新点在于将其他检测方法的输出和中间结果等作为输入,从而做到了再一个框架下整合多种方法。

点击以下标题查看更多往期内容:

  • Airbnb实时搜索排序中的Embedding技巧

  • 图神经网络综述:模型与应用

  • 近期值得读的10篇GAN进展论文

  • 自然语言处理中的语言模型预训练方法

  • 从傅里叶分析角度解读深度学习的泛化能力

  • 深度思考 | 从BERT看大规模数据的无监督利用

  • AI Challenger 2018 机器翻译参赛总结

  • 小米拍照黑科技:基于NAS的图像超分辨率算法

  • 异构信息网络表示学习论文解读

  • 不懂Photoshop如何P图?交给深度学习吧

#投 稿 通 道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

?

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 |阅读原文 | 下载论文 & 源码

NeuSomatic:基于深度CNN的肿瘤体细胞突变检测工具相关推荐

  1. 深度学习——day38 读论文:基于深度学习的数据竞争检测方法(DeleRace计算机研究与发展 2022)

    基于深度学习的数据竞争检测方法 chap0 Introduction 本文贡献: 原文及笔记下载 chap1 DeleRace 1.1 检测框架 1.2 选取实际应用程序 1.3 特征提取 1.3.1 ...

  2. 一文详解VarScan肿瘤体细胞突变检测的的安装和实践

    ​目录 VarScan 简介 VarScan 安装和使用说明:安装.说明.配置.运行 VarScan 案例实战:数据下载.配置.运行.输出 使用sixbox快速运行 hello,大家好,今天为大家带来 ...

  3. 中科院张士峰:基于深度学习的通用物体检测算法对比探索

    https://www.toutiao.com/a6674792954369933838/ 人工智能论坛如今浩如烟海,有硬货.有干货的讲座却百里挑一.由中国科学院大学主办,中国科学院大学学生会承办,读 ...

  4. 基于深度卷积神经网络的目标检测研究综述

    基于深度卷积神经网络的目标检测研究综述 人工智能技术与咨询 来自<光学精密工程> ,作者范丽丽等 摘要:作为计算机视觉中的基本视觉识别问题,目标检测在过去的几十年中得到了广泛地研究.目标检 ...

  5. 基于深度学习的YOLO目标检测研究-附Matlab代码

    目录 ✳️ 一.引言 ✳️ 二.YOLO的基本思想 ✳️ 三.实验验证 ✳️ 四.参考文献 ✳️ 五.Matlab代码获取 ✳️ 一.引言 目标检测是计算机视觉中的一个研究热点,在很多领域都有应用需求 ...

  6. 文献阅读笔记:基于深度学习的桥梁裂缝检测算法研究

    论文 | 基于深度学习的桥梁裂缝检测算法研究 作者 | 李良福.马卫飞.李 丽.陆 铖 期刊 | 自动化学报 时间 | 2019年9月 论文目的: 传统的图像处理算法不能很好地对桥梁裂缝进行检测 , ...

  7. 基于深度学习的小目标检测方法综述

    随着深度学习的发展,基于深度学习的目标检测技术取得了巨大的进展,但小目标由于像素少,难以提取有效信息,造成小目标的检测面临着巨大的困难和挑战. 为了提高小目标的检测性能,研究人员从网络结构.训练策略. ...

  8. 智慧工地-基于深度学习yolov3的安全帽检测以及安全帽检测数据集(1)

    基于深度学习yolov3的安全帽检测以及安全帽检测数据集 数据集和代码下载地址:下载地址 数据可视化: 根目录下运行命令: show_yolo_anno.py (注意脚本内相关参数配置 ) 模型训练 ...

  9. 【camera】自动泊车-基于深度学习的视觉车位检测项目(课程设计--训练代码、测试代码、部署demo)(2)

    **基于深度学习的点定位回归和角度预测的车位检测 基于深度学习的点定位回归和角度预测 基于深度学习的角点检测和角度回归 ** 项目下载地址:训练代码.测试代码.部署demo 数据集百度网盘下载:数据集 ...

最新文章

  1. 西北农林科技大学与陕西师范大学计算机,这所大学有点“惨”,本身是“双一流”高校,却被说成野鸡大学...
  2. Java多线程学习三十五: CyclicBarrier 和 CountDownLatch 有什么不同
  3. 微软、英特尔和高盛牵头成立供应链安全工作组
  4. 品味ZooKeeper之Watcher机制_2
  5. pyinstaller库的使用——将Python语言脚本打包成可执行文件的第三方库
  6. Android 入门实例完整代码
  7. apple script to 1s screen capture snapshot w/ windowsill
  8. TWINCAT2安装问题
  9. 金仓数据库KingbaseES之WITH ORDINALITY
  10. xamarin其实也是一个鸡肋
  11. 法制晚报记者采访王杰律师就“给女主播“添麻烦”方静亮相 间谍传言不攻自破 ”发表法律评论
  12. 内嵌汇编(ARM64)
  13. 嵌入式计算机的关键特征,与通用计算机的区别
  14. c++ windows 蓝牙库_c++中蓝牙编程的库类
  15. webpack简单打包PC网站前端资源
  16. 色彩搭配的基本原理,在黑色的背景下,什么颜色才能够有效、漂亮地突出主题
  17. 2013年10月高等教育考试电子商务与电子政务试题
  18. 国内计算机专业最好的大学有哪些?
  19. java爬虫知识盲区整理
  20. 【Linux】循序渐进学运维-服务篇-实验环境准备

热门文章

  1. 【转】Android检查手机是否被root
  2. maven国内镜像配置
  3. log4j控制台乱码解决办法
  4. 听说”双11”是这么解决线上bug的
  5. 可视化Python设计工具
  6. react项目_保证一看就会 | 手把手教你创建一个React项目
  7. 里面如何配置库_【专享】SolidWorks管道库国标模型下载SolidWorks Routing管道设计学习必备...
  8. tf rnn layer
  9. 执行sql语句_一条SQL查询语句是如何执行的?
  10. 前端框架除了layui还有哪些