简介

二代测序最常用的质量评估软件是FastQC,多样本时可进一步结合MultiQC。此外速度超快的fastp也特别推荐,而且包括质量评估、质量控制等功能,可以说是国产软件之光,详见下方详细教程:

  • 数据的质量控制软件——FastQC

  • 整合QC质控结果的利器——MultiQC

  • 极速的FASTQ文件质控+过滤+校正fastp

三代纳米孔(Nanopore)测序数据与二代Illumina测序数据相比,具有读长更长、错误率高、长度分布不均匀等特点。传统的二代数据质量评估软件不适合,甚至无法开展分析(fastqc处理三代fastq文件直接报错)。今天为大家介绍一款常用的Nanopore数据评估软件——NanoPlot,该软件于2018年发表于Bioinformatics(https://doi.org/10.1093/bioinformatics/bty149),截止2020年9月16日Google Scholar统计被引218次。

图1. NanoPlot和NanoComp的绘图示例。(A)累积产量图(B)测序芯片(Flow cell)活性热图,显示每个通道的读长数量。(C)小提琴图,比较随时间变化的基本测序质量。(D)NanoComp图,比较了大肠杆菌数据集与肺炎克雷伯菌和人类数据集的对数转换读取长度。(E)对数转换后的读取长度与碱基质量对应的蜂窝图,边缘添加直方图的二元图。(F)同一性百分比与读长质量的核密度图,边缘添加密度图的二元图

NanoPlot网址

Github源代码和教程: https://github.com/wdecoster/NanoPlot

Bioconda软件安装: http://bioconda.github.io/recipes/nanoplot/README.html

在线版:http://nanoplot.bioinf.be/ ,可以使用Albacore/Guppy产生的摘要文件(sequencing_summary.txt)作为输入,大小限制为100MB

软件安装

对于原始FASTQ数据,通常几G ~ 几十G,就需要在本地Linux服务器下自行安装软件,以便开展分析。

NanoPlot对依赖软件的版本要求严格,直接安装通常无法使用。推荐新建虚拟环境,再通过Bioconda安装。没安装过Conda,参考之前的教程 - Nature Method:Bioconda解决生物软件安装的烦恼

#安装NanoPlot
conda create -n nanoplot -y -c bioconda nanoplot
# 启动虚拟环境,每次使用前必用
conda activate nanoplot

此外官网还有pip安装的教程pip install NanoPlot可选。conda无效时还可选用docker,在conda的页面有下载说明(每个conda发布软件都有对应的docker版本)

输入文件

测序公司每个样本会返回fastq和sequencing_summary.txt文件均可作为此软件的输入。

FASTQ文件作为输入,使用2019年NBT中牛瘤胃中的数据,链接见方法结尾的数据可用部分,点击编号跳转EBI的数据页 https://www.ebi.ac.uk/ena/browser/view/PRJEB31266 ,翻到最后页找到3个MinION测序数据,下载最小的文件38G

# 38G
wget -c ftp://ftp.sra.ebi.ac.uk/vol1/run/ERR433/ERR4334940/FNFAE24884.tar.gz

我截取了4万行的小文件,27M供测试使用

wget -c http://210.75.224.110/github/Note/Nanopore/NanoPlot/MinION.fastq.gz

也可以对guppy碱基识别后生成的统计文件sequencing_summary.txt (1M)进行绘图。

wget -c http://210.75.224.110/github/Note/Nanopore/NanoPlot/sequencing_summary.txt

分析实战

启动虚拟环境

conda activate nanoplot

指定输入文件为fastq格式,指定输出目录fastq-plots(不指定输出目录默认为当前文件夹,会有一堆报告和图片非常混乱),指定最大序列长度,使用8个线程加速,绘制六边形和点图。   测试数据仅用14s,一般10GB数据10个线程需要半小时左右。结果查看输出目录中的网页报告(NanoPlot-report.html)

NanoPlot --fastq MinION.fastq.gz \-o fastq-plots \--maxlength 40000 \-t 8 \--plots hex dot

以guppy碱基识别后生成的统计文件sequencing_summary.txt为输入,指定长度进行对数转换(便于观察分布)。注:grppy统计的结果要比直接使用数据统计的结果要更丰富,推荐。

NanoPlot --summary sequencing_summary.txt \--loglength \-o summary-plots-log-transformed

以序列比对结果bam文件为输入

NanoPlot --bam alignment1.bam alignment2.bam \
--downsample 10000 \
-o bamplots_downsampled \-t 12 --color yellow

结果解读

每个结果目录中都有NanoPlot-report.html文件,用浏览器打开即可查看结果报告索引。我只简介其中常用的部分。

摘要统计Summary statistics

读长统计
平均长度 Mean read length 6,897
平均质量 Mean read quality 11
长度中位数 Median read length 5,419
质量中位数 Median read quality 11
读长数量 Number of reads 4,100
累计半总长的片段大小(N50) Read length N50 10,178
总碱基数 Total bases 28,278,076.0

此外还有质量值分位数、最高质量的5条序列和对应长度,最长的5条序列和对应质量等结果表。

长度分布 Histogram of read lengths

这是比较均匀的长度分布图。但很多时候是看不清楚的,如下图:

测序数量较大,且长度分布极不均匀且偏短,只在底部看到一条线,或一个峰。此时就需要将数据进行对数转换再观察。

对数转换的长度分布 Histogram of read lengths after log transformation

以10为底的对数转换长度。看到数据最大的峰主要分布在1K - 10K间。

此图是上面一条线图的log10转换结果,可清晰观察长度分布。结果表明这是片段化较严重的库,峰小于1 K,只比Illumina测序略长。

有权重的长度分布 Weighted Histogram of read lengths

长序列可提供的信息更多,一个1 MB的序列比100 bp的序列信息丰富1万倍。此软件结果提供了带长度权重的图

X轴为长度,Y轴是碱基数量,更好地看出不同长度上的碱基数量分布。如果较紧密,可查看下面的log10转换结果

交互长度分布图 Dynamic histogram of Read length

想要精确查看每个区间的读长数量,可以鼠标在网页中的图上移动查看:

长度产出图 Yield by length

X轴为长度,Y轴为产量的频率。一般为越长越少。

读长与质量蜂窝图 Read lengths vs Average read quality plot using hexagonal bins

六边形图(蜂窝图)展示长度和质量的分布,色深代表序列数量。两侧加柱状图进一步呈现长度和质量的分布情况。

此外还有点图,核密度如等展示方式。

其他常见结果

guppy碱基识别后生成的统计文件sequencing_summary.txt进行绘图时,会有更多种类的图。其中部分如下:

每个通道的产量分布 Number of reads generated per channel

数据随时间的产出 Cumulative yield

小提琴图展示不同时间产生读长的长度分布

小提琴图展示不同时间产生读长的质量分布

扩展功能

如果喜欢使用此软件,还可以使用作者开发的其他Nanopore数据处理工具

  • NanoComp: 多样本比较工具

  • NanoStat: 读长或比对结果的统计摘要报告

  • NanoFilt: 读长的过滤和剪切

  • NanoLyse: 从fastq文件中移除污染序列

Reference

Wouter De Coster, Svenn D’Hert, Darrin T Schultz, Marc Cruts & Christine Van Broeckhoven. (2018). NanoPack: visualizing and processing long-read sequencing data. Bioinformatics 34, 2666-2669, doi: https://doi.org/10.1093/bioinformatics/bty149

nanopore测序技术专题(十五):利用NanoPlot进行数据质控 https://mp.weixin.qq.com/s/q9SS1KDBP6iBxmnZk0_-LQ

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

NanoPlot:三代纳米孔测序数据质量评估相关推荐

  1. 使用纳米孔测序数据进行16S-DNA条形码研究的计算方法[综述]

    摘要 通过对16S核糖体RNA(16S rRNA)基因进行测序来评估细菌多样性已广泛用于环境微生物学中,特别是自从高通量测序技术问世以来.这些技术带来的另一项创新是需要开发新的策略来管理和研究生成的大 ...

  2. 纳米孔测序高错误区域恢复率高达99%,肖传乐/刘奕志/王建新等在Nature子刊发表新校正组装算法

    纳米孔测序高错误区域恢复率高达99%,肖传乐/刘奕志/王建新等在Nature子刊发表新校正组装算法 2021-01-07 15:54 新基因组组装是基因组学最重要的任务之一.三代测序技术(PacBio ...

  3. 【不容错过】12月10日:纳米孔测序科研团队大会NCM 2020亚太区特别专场

    一年一度的纳米孔测序科研团体大会(NCM 2020)主会场已于美国东部时间12月初在线上成功召开,汇集了全球超过50位领先的纳米孔测序学者,分享他们的纳米孔测序最新研究成果. 2020年12月10日, ...

  4. Cell二连发 | 广东CDC/耶鲁大学利用纳米孔测序揭示中/美新冠病毒基因组流行病学传播规律...

    利用纳米孔测序技术实时测定病毒全基因组信息(Nanopore Real-time Sequencing),能够动态地分析病毒分子进化来研究病毒的变异及传播特征,这些信息对疫情发展不同阶段制定有效的防控 ...

  5. 中国首次纳米孔测序大会:不可错过的教学专场和技术诊断

    纳米孔测序是由英国牛津Oxford  Nanopore研发的最新一代高通量单分子测序技术,支持无扩增直接分析DNA/RNA,生成超长读长,实时测序能够即时实施数据分析.随着纳米孔技术在芯片.试剂.软件 ...

  6. iMeta | 南科大夏雨组纳米孔测序揭示微生物可减轻高海拔冻土温室气体排放

    点击蓝字 关注我们 基于纳米孔测序的宏基因组学揭示微生物作为生物过滤器减轻高海拔冻土的温室气体排放 https://doi.org/10.1002/imt2.24 Research Article V ...

  7. NBT:使用纳米孔测序从微生物组中得到完整闭环的细菌基因组

    文章目录 使用纳米孔测序从微生物组中得到完整成环的细菌基因组 热心肠导读 摘要 前言 结果 图1 定义的12种细菌混合物中的序列分类学组成.每种细菌的读长分布和基因组组装 图2:在两个健康的人类粪便微 ...

  8. MPB:微生物所王军组-​人类肠道病毒粒子富集及纳米孔测序

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  9. 面对万亿级测序市场,纳米孔测序技术何去何从?

    这是<肠道产业>第 482 篇文章 [直播预告]"Protein& Cell人类微生物组专刊线上论坛" 12月21日晚7点开播,敬请期待!(点击查看详情) 编者 ...

最新文章

  1. 宏基因组理论教程4宏基因组物种组成
  2. Apache Shiro去掉URL中的JSESSIONID
  3. Redis服务信息--Info指令
  4. SVM 训练--在训练集上acc为94% 在测试集上为70%
  5. cnblogs今天开通了!
  6. 在没有主键的情况下定量删除数据!
  7. Java Web提交参数到Spark集群执行任务
  8. 【快速高斯模糊的实现】
  9. 实证分析 | 中介效应检验原理与Stata代码实现
  10. 算法设计与分析第四章习题解答与学习指导(第2版)屈婉婷 刘田 张立昂 王捍贫编著 清华大学出版社
  11. python语句分隔用什么符号_python语句用什么符号隔开
  12. python中path函数_示例1-path函数
  13. W3C CSS验证方法
  14. Matlab中如何定义和使用colormap?|colormap的使用
  15. 战略规划,要这么做才对!
  16. ECharts动态图表展示
  17. 仙剑3安卓移植版_仙剑奇侠传3安卓版
  18. SpringAOP所支持的AspectJ切点指示器
  19. 支付必测--使用fiddler篡改支付金额
  20. P3332 [ZJOI2013]K大数查询【整体二分】或【树套树】

热门文章

  1. 蚂蚁上市 P8 身价超亿,丢给我这几个牛逼的公众号
  2. 面试热点|理解TCP/IP传输层拥塞控制算法
  3. 那些消失的互联网中年人
  4. REST API安全认证研究!
  5. 换个角度聊系统稳定性建设(2021版)
  6. slam for dummies
  7. Ubuntu16.04 Table无法自动补全
  8. LRU算法确定最后使用时间的顺序-计数器
  9. MapReduce统计排序和HDFS的读写
  10. oracle 时间减去一个月_一文看懂教孩子时间问题的进阶过程