全球COVID-19新型冠状病毒肺炎疫情使人们对病毒有了前所未有的关注。病毒不仅可以侵入人体等真核生物,还可以侵入细菌等原核生物。侵入细菌的病毒数量大约有1031,是地球上最丰富的生物体 [1]。病毒入侵细菌具有很强的特异性。通过与细菌的相互作用,病毒可以控制细菌的种类和数量,从而影响微生物群落的功能。例如,人类肠道微生物中的病毒的失调会导致肠炎[2];海洋和土壤中的病毒调控着全球生物化学循环 [3]。

过去由于实验技术的限制,人类对病毒的认识只有冰山一角[4]。最新的宏基因组测序技术可以对包括病毒基因组在内的微生物基因组进行大规模测序,大大加快了病毒的研究。为了快速识别宏基因组数据中的病毒序列,美国南加州大学定量计算生物学中心孙丰珠教授课题组Quantitative Biology期刊上发表了题为“Identifying viruses from metagenomic data using deep learning”的文章(点击文末“阅读原文”下载PDF全文),文章在该课题组2017年开发并广泛应用的VirFinder [5]基础上进一步发展了一个基于深度学习识别病毒序列的方法-DeepVirFinder。 此方法利用了深度学习和大数据的优势,无需与参考序列比对,显著提高了病毒识别的速度和准确性,将有助于在宏基因组学时代下对病毒的研究。

文章概要

作者开发了一个基于深度学习识别病毒序列的方法-DeepVirFinder。对基因序列搭建了基于卷积神经网络(convolutional neural networks)的模型,利用大量已知的病毒序列和细菌序列进行训练,得到了最优的二元分类器(图1)。卷积神经网络的优势在于它可以自主学习得到病毒的特征(motifs),无需事先定义,因此比传统的机器学习方法更加准确。另外,此模型利用已知序列学到了病毒的一般性特征,因此比基于序列比对的传统方法在识别未知病毒上更加灵活有效。

图1. DeepVirFinder的深度学习框架

DeepVirFinder模型用来自2015年5月之前发现的病毒序列进行训练,并对该日期之后发现的序列进行评估。结果显示DeepVirFinder在不同序列长度上均优于VirFinder [5],对于300、500、1000和3000 bp序列AUROC达到 0.93、0.95、0.97和0.98 (图2A)。为了进一步提高对罕见病毒识别的准确性,作者从宏基因组样本中收集了数百万条病毒序列,扩大了训练数据集(图2B)。并将DeepVirFinder应用到肠癌患者的肠道宏基因组样本中,发现了属于175个组的51138条病毒序列,其中10个组与癌症相关,表明病毒可能在肠癌中起重要作用。

图2.(A)DeepVirFinder在不同序列长度上均优于VirFinder。(B)利用从宏基因组中收集到的数百万条病毒序列扩大数据集后,罕见病毒的准确性显著提高。

Reference

[1] Breitbart M, Rohwer F. Here a virus,there a virus, everywhere the same virus? Trends Microbiol. 2005;13:278–84.

[2] Norman JM, Handley SA, Baldridge MT,Droit L, Liu CY, Keller BC, Kambal A, Monaco CL, Zhao G, Fleshner P, et al.Disease-specific alterations in the enteric virome in inflammatory boweldisease. Cell. 2015;160:447–60.

[3] Kimura M, Jia Z-J, Nakayama N, AsakawaS. Ecology of viruses in soils: past, present and future perspectives. Soil SciPlant Nutr. 2008;54:1–32.

[4] Roux S, Hallam SJ, Woyke T, SullivanMB. Viral dark matter and virus—host interactions resolved from publiclyavailable microbial genomes. Elife. 2015;4:e08490.

[5] Ren J, Ahlgren NA, Lu YY, Fuhrman JA,Sun F. VirFinder: a novel k-mer based tool for identifying viral sequences fromassembled metagenomic data. Microbiome. 2017 Dec 1;5(1):69.

Quantitative Biology期刊介绍

Quantitative Biology (QB)期刊是由清华大学、北京大学、高教出版社联合创办的全英文学术期刊。QB主要刊登生物信息学、计算生物学、系统生物学、理论生物学和合成生物学的最新研究成果和前沿进展,并为生命科学与计算机、数学、物理等交叉研究领域打造一个学术水平高、可读性强、具有全球影响力的交叉学科期刊品牌。

为了促进本领域的学术交流,欢迎大家扫描下面二维码进入《定量生物学》期刊交流群。

QB:基于深度学习的病毒序列识别相关推荐

  1. 基于深度学习的病毒序列识别

    随着宏病毒研究的日益火热,许多小伙伴都在想自己曾经测过的宏基因组数据能否再深挖一波?当然可以!前面几期小编给大家抛砖引玉介绍了组装软件以及病毒数据库的基本知识,这期我们就来聊一聊,如果不依赖于数据库的 ...

  2. 基于深度学习的病毒检测技术无需沙箱环境,直接将样本文件转换为二维图片,进而应用改造后的卷积神经网络 Inception V4 进行训练和检测...

    话题 3: 基于深度学习的二进制恶意样本检测 分享主题:全球正在经历一场由科技驱动的数字化转型,传统技术已经不能适应病毒数量飞速增长的发展态势.而基于沙箱的检测方案无法满足 APT 攻击的检测需求,也 ...

  3. 检测、量化、追踪新冠病毒,基于深度学习的自动CT图像分析有多靠谱?

    作者 | Ophir Gozes, Maayan Frid-Adar等 译者 | 刘畅 出品 | AI科技大本营(ID:rgznai100) 背景:新冠病毒的传播非常迅速,并对数十亿人的生活产生了重大 ...

  4. 深度学习助力网络科学:基于深度学习的社区发现最新综述

    来源:AMiner科技 论文题目: A Comprehensive Survey on Community Detection with Deep Learning 论文网址: https://arx ...

  5. 腾讯 AI Lab副主任俞栋:过去两年基于深度学习的声学模型进展

    来源:腾讯AI Lab 概要:过去几年里,自动语音识别(ASR)已经取得了重大的进步 .这些进步让 ASR 系统越过了许多真实场景应用所需的门槛,催生出了 Google Now.微软小娜和亚马逊 Al ...

  6. 为恶意文件“画像” 瀚思科技基于深度学习技术快速锁定未知威胁

    至顶网安全频道 07月26日 北京报道:"阿尔法狗"(AlphaGo)的一战成名让很多人记住了人工智能.深度学习.大数据分析等一系列新兴科技热词,而真正要把这些新技术应用到商业领域 ...

  7. 基于深度学习的命名实体识别研究综述——论文研读

    基于深度学习的命名实体识别研究综述 摘要: 0引言 1基于深度学习的命名实体识别方法 1.1基于卷积神经网络的命名实体识别方法 1.2基于循环神经网络的命名实体识别方法 1.3基于Transforme ...

  8. 基于深度学习的新冠疫情数据分析

    摘要:在全球抗击新型冠状病毒肺炎(COVID-19)疫情的过程中,合理的疫情传播预测对于疫情防控有重要参考意义.为了对病毒传播进行合理预测,针对传统疫情传播预测模型存在的不足,在BP神经网络提出一种组 ...

  9. 深度 | 腾讯 AI Lab副主任俞栋:过去两年基于深度学习的声学模型进展

    感谢阅读腾讯AI Lab微信号第七篇文章,这是一篇深度研究的概述,论文全文可在页末下载.今年七月, IEEE/CAA Journal of Automatica Sinica发表了腾讯 AI Lab ...

最新文章

  1. Java内存模型深度解析:volatile--转
  2. 技术人的灵魂 3 问,阿里工程师如何解答?
  3. 计算机网络试卷模板,用Word制作真实试卷模板(下)
  4. Notice: Undefined variable: id in D:\phpStudy18\PHPTutorial\WWW\sqli-labs-master\Less-32\index.php o
  5. 测试使用wiz来发布blog
  6. Don't Laugh!I'm An English Book笔记(五)——面部词语大总结加补充
  7. 数据结构--栈--浏览器前进后退应用
  8. paddleOCR常见问题(2)
  9. C 语言结构体引用,引用 C 语言结构体学习
  10. Node.js中的不安全跳转如何防御详解
  11. tensorflow之安装opencv
  12. 最新县及县以上行政区划代码(截止2008年12月31日)
  13. 【车间调度】基于matlab GUI遗传算法求解车间调度问题【含Matlab源码 049期】
  14. 卸载vm15实用教程
  15. VS2019 MFC在静态库运行时出现的LNK2005和LNK1169问题
  16. 5个常用的大数据可视化分析工具,你知道吗?
  17. 元素周期表排列的规律_元素周期表的排列有什么规律?
  18. 笔记本电脑把BlackBerry当modem上网
  19. ERFNet网络的演化
  20. 大数据为什么需要学python?

热门文章

  1. 美团外卖持续交付的前世今生
  2. 唯品会实时计算平台的演进之路
  3. 互联网为什么需要全局唯一ID?
  4. 程序员过年被亲戚鄙视:月薪1万5很一般,在大城市很难养活自己吧?
  5. 异步化,高并发大杀器
  6. 为什么大公司还在采用过时的技术?
  7. 绩效真的重要吗?绩效管理系统有哪些?
  8. 来客推多用户商城源码哪里下载?多用户多商城模式有哪些盈利模式?
  9. TF (transform) in ROS
  10. python的六种基本数据类型_python的6种基本数据类型--字典