Per tile sequence quality —Position specific failures of flowcells

介绍

当Per tile sequence quality显示fail或者warning,表明测序的lane或某个run中出现出现了部分故障,从而影响一些特定的区域和循环,进而使测序数据的质量下降。另外,如果read的3’端的质量是好的,就意味着存在瞬时质量损失(Transient quality loss)的区域难以被剪切处理。

Patterned Flow Cell Technology

设备 Read sequences per lane Read length 设备运行时长
HiSeq 2500 150 -180 million reads x 8 lanes 100 bp single read or paired end 5 days for single read 11 days for paired end
MiSeq 12-15 million reads x 1 lane 150 bp single read or paired end 24-36 hours for both

基本 Illumina NGS workflow

1) 文库制备(library preparation)

2) 簇的生成(cluster generation)

3) 测序 (sequencing)

4) 比对和数据分析(alignment and data analysis)。

Illumina 测序方法的基本流程如下:

  • A single base containing a fluorophore and 3’ blocking moiety is incorporated by a polymerase.
  • The flow cell is imaged using fluorescent microscopy.
  • The fluorescent and blocking moieties are cleaved, allowing the next base to be incorporated.

flow cell 的结构

具有patterned flow cell 的测序技术的两个突破性的创新点:

1) a distinct, ordered nanowell design, Each nanowell contains DNA probes used to capture prepared DNA strands for amplification during cluster generation

2) a new exclusion amplification chemistry

这里写图片描述

症状和诊断

在illumina 的测序设备中,根据flow cell的表面,人为的将其切分为swaths,这些swaths再进一步被切分为tiles。 通过查看per tile,识别因flow cell 或 run的故障造成的测序的错误。

症状一:random loss of quality at different positions and cycles

原因:overloading of the flow cell

https://sequencing.qcfail.com/wp-content/uploads/sites/2/2016/01/random_loss.png

症状二:a broad loss of quality over 4 areas of the flowcell

原因:当run的总体质量有点略低,而flowcell并没有过载时,造成这种错误的原因一般是由于测序的序列有偏差(biased)。这些高亮的区域代表flow cell 的边边,因为在flow cell 的边边,拍照系统识别read的信号的能力下降。一般而言,这些数据还不是太糟糕,常常还是能用的。

症状三:a quality loss in specific areas which is not present from the start but remains for the remainder of the run

原因:拍照系统受到阻挡,比如说,有脏东西掉在flowcell的表面,或者一些东西被冲进了flowcell,并且卡在flowcell内。通常这种阻塞现象会成对出现,因为任何阻碍物都会影响swaths的顶端和底端,来自这些区域的序列通常在质控中能被修剪移除掉。

症状四:a temporary loss of quality over a restricted area

原因:有些东西被冲进了flowcell中,阻塞了一些循环(cycles),最后又被冲洗出去了。处理这个问题的难点在于,由于这段测序质量差的序列并不在read的末端,则意味着不能通过直接剪切处理这个read。

一般造成这个问题的主要原因是flowcell中的气泡。同时,气泡还会引起其他的副作用,如气泡不仅阻止拍照系统正确拍照,还使测序试剂无法流入flowcell的纳米孔中,进而无法形成cluster,从而导致气泡下的cluster跳过了 sequencing chemistry cycles,使得在气泡被引入之前的最后一个碱基被重复读取,最终导致序列被人为的延伸,即引入了插入片段。如果这些reads是用于检测SNP的,那么这些假的插入片段将会混淆对下游分析结果解释。

缓解上述症状的方法

一般在下游分析时,flowcell中质量低的 tiles 是可被移除的。或者可以根据QC报告中tile position,过滤或移除fastqc文件中低质量的tile。

预防措施

除标准除气和清洁工作程序之外,执行位置和一般质量检查(positional and general quality checks)都会使用户发现问题所在。

经验教训

即使是很小的数据子集,也有明显的质量损失,因为它们有可能在下游分析中引入重要的生物噪声。

软件

FastQC per-tile quality plot 和 the BamQC per-base indel plot 会找出问题类型

参考链接:

Illumina Sequencing Platform

Position specific failures of flowcells

Patterned Flow Cell Technology

https://www.broadinstitute.org/files/shared/illuminavids/sequencingSlides.pdf

Per tile sequence quality相关推荐

  1. fastqc检验时不能执行java_利用fastqc检测原始序列的质量

    FastQC是一款基于Java的软件,一般都是在linux环境下使用命令行运行,它可以快速多线程地对测序数据进行质量评估(Quality Control),其官网地址为:Babraham Bioinf ...

  2. FastQC 与 质控

    1.FastQC的作用 在建库过程或者在测序仪测序中存在的数据问题或者数据偏移问题,从而得到QC报告 drop down selector FastQC官方教程 非root用户 Linux上安装Fas ...

  3. 生信软件 | FastQC(质量控制,查看测序质量)

    生信软件 | FastQC 介绍 高通量测序数据的高级质控工具 输入FastQ,SAM,BAM文件,输出对测序数据评估的网页报告 安装 conda install fastqc 这里需要安装Conda ...

  4. fastqc v0.11.8

    作用 质量分析 下载安装 官网:http://www.bioinformatics.babraham.ac.uk/projects/fastqc unzip fastqc_v0.11.8.zip cd ...

  5. FastQC使用与结果详细解读

    FastQC使用与结果详细解读 一 .FastQC用法 简单用法 fastqc -o outputfile inputfile 重要参数 -o 结果文件输出路径,需要自己事先建立好文件夹,默认输出文件 ...

  6. FastQC 测序质量

    文章转载于 Original 2017-07-06 Jolvii 生信百科 介绍一下如何理解 FastQC 各模块的结果 FastQC 的使用 FastQC的安装介绍请看这里.FastQC 支持 fa ...

  7. FastQC 配置 及 基本使用

    FastQC 安装 $ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip $ unzip ...

  8. HISAT2-StringTie-Ballgown有参转录组数据分析

    参考文献: Pertea M, Kim D,Pertea G M, et al. Transcript-level expression analysis of RNA-seq experiments ...

  9. NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC

    NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC 前言 1. FastQC 1.1 帮助信息及运行代码 1.2 报告解读 1.3 小结 文接上篇:NGS数据分析实践:04. 准 ...

最新文章

  1. idea缩写快捷键_IDEA快捷键大全 快速页面重构
  2. 晓庄学院计算机科学分数,南京晓庄学院计算机单招分数
  3. curl 常用的命令
  4. 「雕爷学编程」Arduino动手做(38)——joystick双轴摇杆模块
  5. 关于 php 用webservice传输数据的问题(nosoap与.NET对接)此处一直困扰三天时间,终于解决...
  6. linux下的进程信号,信号注册、处理方式、注销,信号阻塞及volatile代码优化
  7. python的8种标准数据类型有哪些_Python的八种数据类型
  8. Git:查看所有远程分支以及同步远程代码
  9. oracle日期加一天的函数,关于oracle日期函数的介绍和使用
  10. 项目验收文档模板(二)
  11. python长度单位转化_所有长度单位的换算
  12. 【学习KubeEdge】
  13. 解决浏览器主页被2345篡改
  14. [转]Cryengine渲染引擎剖析
  15. 抖音一般多久能上热门 视频修改MD5工具
  16. [Pandas技巧] 多列值合并成一列
  17. python打印电子标签--ghostscript 和reportlab实现
  18. Hudi同步Hive表报“HoodieException : Got runtime exception when hive syncing”错误的解决方法
  19. ECC-椭圆曲线密码
  20. 500 - 内部服务器错误. 您要查找的资源有问题,无法显示.,HTTP 500 - 内部服务器错误 Internet Explorer【转】...

热门文章

  1. 密码(mima)的答案
  2. AndroidStudio Plugin插件开发
  3. 如何在线将CAD图纸文件进行转换成黑白PNG格式?
  4. JAVA+Selenium+Chrome+Chromedriver 模拟浏览器
  5. 二维码原理与编码介绍
  6. 嵌入式系统之实时系统调度算法
  7. “模型驱动”还不够!企业级低代码开发平台系统架构解密
  8. HTML标签 链接 CSS样式
  9. Node:找不到模块Error: Cannot find module
  10. 影视剪辑,如何进行混剪,镜头流畅衔接