文章转载于 Original 2017-07-06 Jolvii 生信百科

介绍一下如何理解 FastQC 各模块的结果

FastQC 的使用

FastQC的安装介绍请看这里。FastQC 支持 fastq、gzip 压缩的 fastq、SAM、BAM 等格式,在不指定文件类型的情况下,FastQC 会根据文件的名字来推测文件的类型: 以 .sam 或者 .bam 结尾的文件会被当作 SAM/BAM 文件来打开,并统计 mapped 和 unmapped reads 在内的所有 reads;其它的文件类型则被当作 fastq 格式打开。 其使用语法为:

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] [-t threads] seqfile1 .. seqfileN

  • -o 用来指定输出文件的目录,需要注意的是,FastQC 不会自动创建新目录,故指定的目录必须存在;

  • FastQC 输出结果为 .zip 文件,默认参数为 --extract (自动解压缩),执行时加上 --noextract 则不解压缩;

  • -f 用来指定输入文件格式,如果不指定则自动检测;

  • -c 用来指定一个文件,这个文件里面存放可能存在的污染序列,FastQC 会在这个文件里面搜索 reads 中的 overrepresented sequences;

  • -t 用来指定同时处理的文件个数;

  • seqfile1 等是需要处理的文件名称;

  • 详细信息请见 fastqc -h 或者 fastqc --help;

  • 我用来分析的命令为 fastqc --noextract -t 2 sample_R1.fq.gz sample_R2.fq.gz -o ./00.FastQC

FastQC 结果解读

上一期我简单地提了一下 FastQC 结果的基本内容,在思考之后,决定把结果中每部分内容给大家仔细解读一下。如图 2 所示:FastQC 的结果包含 12 个方面,其中绿色的结果表示“通过”;黄色的结果表示“警告”;红色的结果表示“不合格”。我们应关注结果中未通过的部分,仔细思考为什么我们的数据会得到这样的结果,可能存在哪些问题?下面我们分别看一下各部分结果的内容,以及 FastQC 判断各部分结果通过、警告和不合格的阈值是什么

1. Basic Statistics

Basic Statistics 的结果给出原始数据的基本信息,包括被分析文件的文件名、文件类型 (actual base calls/colorspace data)、质量值编码方式、序列总数、标记为低质量的序列数、序列长度 和 GC 含量,如图 3 所示:

图 3 Basic Statistics

Basic Statistics 的状态始终都是“通过”,不会出现“警告”或者“不合格”;

这部分结果提供了碱基质量值编码方式,可以记录下来,在后续的分析中会用到。

2. Per Base Sequence Quality

Per Base Sequence Quality 显示 fastq 文件内每一个位置上 (x 轴) 所有碱基的质量值范围 (y 轴),如图 4 所示:

图 4 Per Base Sequence Quality

图中每一位置都有一个 BoxWhisker 图: 黄色箱子表示 25 - 75 % 的范围,即 IQR (inter-quartile range),下面和上面的触须分别表示 10 % 和 90 % 的点。蓝线表示均值,红线表示中位数;

碱基的质量值越高越好,背景颜色将图分成三部分:碱基质量很好 (绿色)、碱基质量一般(黄色) 以及碱基质量差 (红色)。

如果任何一个位置的下四分位数小于10或者中位数小于25,会显示“警告”;如果任何一个位置的下四分位数小于5或者中位数小于20,会显示“不合格”。

3. Per Tile Sequence Quality

只有在分析 Illumina 测序结果且保留了序列 ID 信息 (@HWI-D00523:75:C4PY7ANXX:2:1101:1316:2178,见上一讲 fastq 格式介绍) 时才会有这部分结果出现。为了更好的理解这部分的内容,我先简单的介绍一下 flow cell 的构成 (图 5): 图中所示的 flow cell 有八个 lane (lane1 - lnae8),每个 lane 里面有 3 列 (column1 - column3),每一列内有100 个 tiles,每个 tile 里面又有 20000 - 30000 个 clusters (不同型号 flow cell 内的 column 数、tile 数及 cluster 数会有一定的差异)。

图 5 flow cell 的构成

Per Tile Sequence Quality 的结果展示每个 tile 在每个碱基位置上偏离这个位置所有 tiles 平均质量值的情况,如图 6 所示:

图 6 Per Tile Sequence Quality

图中横轴代表碱基位置,纵轴代表 tile 编号;

图中的颜色是从冷色调到暖色调的渐变,冷色调表示这个 tile 在这个位置上的质量值高于所有 tile 在这个位置上的平均质量值,暖色调表示这个 tile 的在这个位置上的质量值比其它 tiles 要差;

一个很好的结果,整张图都应该是蓝色;

如果任何 tile 的平均质量值与这个位置上所有 tiles 的平均质量值相差 2 以上会显示“警告”,如果任何 tile 的平均质量值与这个位置上所有 tiles 的平均质量值相差 5 以上会显示“不合格”。

4. Per Sequence Quality Scores

Per Sequence Quality Scores 显示每条序列平均碱基质量的分布,如图 7 所示:

图 7 Per Sequence Quality Scores

图中横轴为测序质量值,纵轴为 reads 数量;

由于成像的原因,得到的测序结果中通常会出现某些 reads 的质量值偏低,这样低质量的 reads 会在图中出现另外一个峰。本图显示的是一个较好的测序结果;

如果最高峰的质量值小于 27 (错误率 0.2 %) 则会显示“警告”,如果最高峰的质量值小于 20   (错误率 1 %) 则会显示“不合格”。

5. Per Base Sequence Content

Per Base Sequence Content 显示每个位置上的碱基组成比例,如图 8 所示:

图 8 Per Base Sequence Content

图中横轴为碱基位置,纵轴为碱基组成比例;

一个完全随机的文库内每个位置上 4 种碱基的比例应该大致相同,因此图中的四条线应该相互平行且接近;

在 reads 开头出现碱基组成偏离往往是我们的建库操作造成的,比如建 GBS 文库时在 reads 开头加了 barcode;barcode 的碱基组成不是均一的,酶切位点的碱基组成是固定不变的,这样会造成明显的碱基组成偏离;

在 reads 结尾出现的碱基组成偏离,往往是测序接头的污染造成的;

如果任何一个位置上的 A 和 T 之间或者 G 和 C 之间的比例相差 10 % 以上则报“警告”,任何一个位置上的 A 和 T 之间或者 G 和 C 之间的比例相差 20 % 以上则报“不合格”。

6.  Sequence GC Content

Per Sequence GC Content 显示每条序列平均 GC 含量的分布,如图 9 所示:图 9 Per Sequence GC Content

在一个正常的随机文库中,GC 含量的分布应接近正态分布,且中心的峰值和所测基因组的 GC 含量一致。由于软件并不知道所测物种真实的 GC 含量,图中的理论分布是基于所测数据计算得来的;

如果出现不正常的尖峰分布 (如本图),则说明文库可能有污染 (如果是接头的污染,那么在 overrepresented sequences 那部分结果还会得到提示),或者存在其它形式的偏选;

如果偏离理论分布的 reads 数超过总 reads 数的 15 % 则报“警告”,如果偏离理论分布的 reads 数超过总 reads 数的 30 % 则报“不合格”。

7. Per Base N Content

Per Base N Content 显示每个位置上的 N 的比例,如图 10 所示:

图 10 Per Base N Content

在测序仪工作过程中,如果不能正常完成某个碱基的 calling,将会以 N 来表示这个位置的碱基,而不是 A、T、C、G;

有时在序列中会出现较低比例的 Ns,尤其是靠近序列末端的位置,这说明系统不能正常的 call 这部分碱基;

出现一定比例的 Ns 最常见的原因是普遍出现的质量丢失 (a general loss of quality),这种情况可结合其它部分的结果来综合判断;

另一种常见的现象是文库整体上的测序质量较高,但 reads 开头出现较高比例的 N,这可能是由于文库的碱基组成偏离的比较严重,测序仪不能给出正确的 call,这种情况可以结合 per-base sequence content 的结果来判断;

如果任何一个位置 N 的比例大于 5 % 则报“警告”,大于 20 % 则报“失败”。

8 Sequence Length Distribution

Sequence Length Distribution 的结果显示 reads 长度的分布情况,如图 11 所示:

图 11 Sequence Length Distribution

测序仪出来的原始 reads 通常是均一长度的,但经过质控软件等处理过的数据则不然;

当 reads 长度不一致时报“警告”,当有长度为 0 的 reads 时则报“不合格”。

转载于:https://www.cnblogs.com/xiaojikuaipao/p/7187085.html

FastQC 测序质量相关推荐

  1. RNA-seq——快速下载SRA数据、解决fq文件中测序质量全为 ‘?‘ 的问题

    写在前面--在学习RNA-seq时,需要从网上下载公开数据集来上手分析,大部分教程都很古老,其中在ncbi中ftp的下载链接已经不存在了,甚至可以直接下载fastq文件.但是,直接下载的fastq文件 ...

  2. 生信软件 | FastQC(质量控制,查看测序质量)

    生信软件 | FastQC 介绍 高通量测序数据的高级质控工具 输入FastQ,SAM,BAM文件,输出对测序数据评估的网页报告 安装 conda install fastqc 这里需要安装Conda ...

  3. NanoPlot:三代纳米孔测序数据质量评估

    简介 二代测序最常用的质量评估软件是FastQC,多样本时可进一步结合MultiQC.此外速度超快的fastp也特别推荐,而且包括质量评估.质量控制等功能,可以说是国产软件之光,详见下方详细教程: 数 ...

  4. fastqc检验时不能执行java_利用fastqc检测原始序列的质量

    FastQC是一款基于Java的软件,一般都是在linux环境下使用命令行运行,它可以快速多线程地对测序数据进行质量评估(Quality Control),其官网地址为:Babraham Bioinf ...

  5. fastqc检验时不能执行java_fastqc对原始测序reads质控

    fastqc软件的使用 一:下载安装该软件 具体搜索其地址下载,fastqc是一个java软件,下载后可以直接使用,但是需要自行配置好java环境,具体配置方法,见linux下java配置. 二:准备 ...

  6. 数据的质量控制软件——fastQC

    本文转载自"计算表观遗传学",己获授权. 编者按 目前的高通量测序技术可以在单次运行中产生数亿个序列.在分析此序列以得出生物学结论之前,应该执行一些简单的质量控制检查,以获得较好的 ...

  7. NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC

    NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC 前言 1. FastQC 1.1 帮助信息及运行代码 1.2 报告解读 1.3 小结 文接上篇:NGS数据分析实践:04. 准 ...

  8. FastQC结果解读

    拿到原始数据后我们采用FastqC程序进行质控,看原始数据质量情况,fastqC会生成一个html结果报告,根据图形化界面,我们可以判断下机数据情况是否符合分析要求, 查看html格式的结果报告.结果 ...

  9. fastq质量值_微生物组16S rRNA数据分析小结:从fastq测序数据到OTU table

    推荐阅读 1.ggplot2绘制曼哈顿图示例2.phyloseq | 用 R 分析微生物组数据及可视化3.R语言PCA分析教程 | Principal Component Methods in R4. ...

最新文章

  1. 通讯组基本管理任务一
  2. 搞懂Transformer结构,看这篇PyTorch实现就够了
  3. 刚刚,旷视开源深度学习框架「天元」:Brain++内核,研发和落地都在用;孙剑:COCO三连冠背后的秘密武器...
  4. 关于python语言、下列说法不正确的是-关于 Python字符串,下列说法错误的是_学小易找答案...
  5. 【不采用】人工智能如何帮助银行反欺诈
  6. Python中国际化(i18n)完整指南
  7. 电脑ping不通 plsql能连上_台式电脑不能上网手机却能连上wifi无线网络的解决方法...
  8. ASP.NET AJAX(服务器回调)
  9. matlab常用的代码,matlab常用代码
  10. 【爱有失落时】风与渊
  11. html5小游戏源码_[源码和报告分享]基于HTML5实现的贪吃蛇小游戏
  12. 基于DEAP库的python进化算法-7.多目标遗传算法NSGA-II
  13. STM32内部FLASH介绍
  14. jQuery学习笔记之选取选定复选框的同行某列元素
  15. 分享2个ICON资源链接
  16. 深度学习学习笔记——keras中的verbose
  17. 勇者斗恶龙 java实现
  18. android动画 行星,AndroidAnimation
  19. EtherCAT--01简介
  20. linux下subline怎么打开终端,mac使用sublime text3打开当前文件夹的终端

热门文章

  1. 纳滤膜分离技术用于制药提纯精制处理 稳定可靠
  2. 测试人的后半生:跑滴滴还是送外卖?
  3. anaconda环境配置与windows环境下pip使用方法
  4. 如何正确获得Android内外SD卡路径
  5. 云南旅游注意事项 云南旅游必看 北京旅游注意事项 各地跟团旅游注意事项
  6. python云计算1_python云计算1
  7. 尚硅谷 SpringCloud 第二季学习笔记【已完结】
  8. angular时间格式化
  9. 软件测试学习心得-5
  10. Springboot 结合 Vue 进行本地接口联调