文章目录

  • 测序数据质控
  • 1.原始数据统计
  • 2.质控数据统计

测序数据质控

Illumina 测序属于第二代测序技术,单次运行能产生数十亿级的reads,如此海量的数据无法逐个展示每条read的质量情况;运用统计学的方法,对所测序列进行统计和质控,可以从宏观上直观地反映出样本的文库构建质量和测序质量。

1.原始数据统计

1)原始数据获得

Illumina 平台通过将测序图像信号经CASAVA碱基识别(Base Calling)转换成文字信号,并将其以 fastq 格式储存起来作为原始数据。根据index序列区分各个样本的数据,以便进行后续分析。在fastq文件中每条序列由4行数据组成,其中第一行和第三行为读段识别码(第一行以“@”开头,第三行以“+”开头),第二行为碱基序列,而第四行是第二行序列的各碱基所对应的测序质量值。

如下所示:

2)原始数据质控

对每一个样本的原始测序数据进行测序相关质量评估,包括:① 碱基质量分布统计; ② 碱基错误率分布统计;③ A/T/G/C碱基含量分布统计。

使用软件:fastx_toolkit_0.0.14。

① 碱基质量分布统计

测序的错误率与碱基的质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。通过公式计算,可以得出一个综合的值,即质量值(Q),用来评估测序的质量。随着测序的进行,酶的活性及其它物质的灵敏度也会下降,因此到达一定测序长度后,Q值也会随之下降。

② 碱基错误率分布统计

测序错误率会随着测序序列(Sequenced Reads)长度的增加而升高,这是由测序过程中化学试剂的消耗导致的,为Illumina高通量测序平台的共有特征;另外,前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。这部分碱基的测序错误率较高可能是由于随机引物与RNA模版的不完全结合导致。

③ A/T/G/C碱基含量分布统计

碱基含量分布一般用于检测有无AT、GC分离现象。对于RNA-seq来说,鉴于序列打断的随机性和G/C、A/T含量分别相等的原则,理论上每个测序循环中的GC含量相等、AT含量相等(如果是链特异性建库,可能会出现AT分离和/或GC分离),且在整个测序过程基本稳定不变,呈水平线。但在现有的高通量测序技术中,反转录合成 cDNA 时所用的6bp的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性,这种波动属于正常情况。

2.质控数据统计

由于原始测序数据中会包含测序接头序列、低质量读段、N(N表示不确定碱基信息)率较高序列及长度过短序列,这将严重影响后续分析的质量。所以,在分析之前会先对原始测序数据进行质控,从而得到高质量的质控数据(clean data)以保证后续分析结果的准确性。

使用软件: SeqPrep 和 Sickle

具体步骤及顺序如下:

  1. 去除reads中的接头序列,去除由于接头自连等原因导致没有插入片段的reads;

  2. 将序列末端(3’端)低质量(质量值小于20)的碱基修剪掉,如剩余序列中仍然有质量值小于10的碱基,则将整条序列剔除,否则保留;

  3. 去除含N(模块碱基)的reads;

  4. 舍弃去adapter及质量修剪后长度小于30bp的序列。

数据质控完成后,对质控后的数据再次进行统计以及质量评估,同样包括:

① 碱基质量分布统计;

② 碱基错误率分布统计;

③ A/T/G/C碱基含量分布统计。

接头序列为:

5’: AGATCGGAAGAGCACACGTC

3’: AGATCGGAAGAGCGTCGTGT

参考资料:
美吉生物云

生信学习笔记:测序数据质控相关推荐

  1. 生信学习笔记:fastp质控处理生成的report结果解读

    文章目录 前言 raw data 和 fastq文件 reads Q20和Q30 N值 Adapters Duplication Insert fastp report summary Adapter ...

  2. 计算机通路的基本概念,【生信学习笔记】KEGG分子通路数据库

    原标题:[生信学习笔记]KEGG分子通路数据库 首先什么是一个通路? 通路可以定义为a series of actions among molecules in a cell,细胞中的分子的一系列的行 ...

  3. 生信学习-二代测序知乎专栏总结[转]

    转自:https://zhuanlan.zhihu.com/p/20702684 1.基本概念 flowcell 是指Illumina测序时,测序反应发生的位置,1个flowcell含有8条lane ...

  4. 这是入门生信,学习生信分析思路和数据可视化的首选?

    封面来源:https://www.zhihu.com/question/304747766 常规转录组是我们最常接触到的一种高通量测序数据类型,其实验方法成熟,花费较低,是大部分CNS必备的技术,以后 ...

  5. 送书 | 知乎阅读300w+的生信学习指南(更新版)

    先送书 在上周的留言送书活动中,恭喜下面这位读者获得书籍"Oracle高性能系统架构实战大全",请及时与生信宝典编辑(shengxinbaodian)联系. 2020过去三分之一了 ...

  6. 知乎阅读三百万的生信学习指南

    作为本科学生物,硕博转行生物信息的人,经常会被人问起,为啥学习生物信息了呢?这背后通常会带着一些困惑,生物信息分析好不好学? 生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下 ...

  7. 【生信】常见测序数据格式

    [生信]常见测序数据格式 文章的文字与图片全部/部分来源网络或学术论文,文章会持续修缮更新,仅供大家学习使用. 目录 [生信]常见测序数据格式 1.FASTA 2.FASTQ 3.GFF 4.BED ...

  8. 生信学习学的是什么?常识!

    生物信息学学的是什么?常识! 学习的是基本生物学概念的常识! 学习的是计算机基础的常识! 学习的是图形解读的常识! 学习的是统计的常识! 拦住生信学习脚步的不是技术有多难,而是有些常识你还不知道. 这 ...

  9. 生信学习——R语言练习题-初级(附详细答案解读)

    题目目录 1. 打开 Rstudio 告诉我它的工作目录. 2. 新建6个向量,基于不同的数据类型.(重点是字符串,数值,逻辑值) 3. 告诉我在你打开的rstudio里面 getwd() 代码运行后 ...

最新文章

  1. L3-010. 是否完全二叉搜索树
  2. android开发过程中项目中遇到的坑----布点问题
  3. java c s测试_将Zlib Java与C进行基准测试
  4. TCP/IP / UDP 头
  5. 25条写代码建议,句句真言,值得牢记!
  6. VirtualBox的Linux虚拟机访问Windows7的文件
  7. oracle数据库怎么锁表,oracle数据库表锁住
  8. Spring Boot jar方式打包发布
  9. java和mysql之间的时间日期类型传递
  10. 少年派的一生,树莓派的十年,Raspberry Pi上市十周年
  11. Java ==和equals有什么区别?
  12. 我的java编程之路小小总结感想
  13. Loadrunner关联
  14. UIWebView 无缝切换到 WKWebView
  15. 项目管理九大知识领域过程逻辑关系图
  16. 一级路由器 和 二级路由器 的关系
  17. 【蓝桥杯】单片机学习(7)——UART串口通信
  18. mysql消息已读未读_Redis实现信息已读未读状态提示
  19. mysql使用结巴语句_结巴分词 java 高性能实现,是 huaban jieba 速度的 2倍
  20. excel2010设置列宽为像素_Excel2010中调整行高和列宽的方法

热门文章

  1. 年底整理书柜,第五批半卖半送书单
  2. FANUC机器人RSR自动运行模式的相关配置和参数设置(图文)
  3. unix、Linux知多少
  4. Java学习 day12 (常用API2)Object、Date、DateFormat、Calendar、System、StringBuilder、包装类
  5. 谭维维以《青藏高原》的歌唱实力高度,《当时》一路安全到底
  6. 支持可变焦和自动变焦工业相机
  7. ubuntu12.04 下安装 Y480 网卡驱动
  8. 使用CNN (VVC滤波)提高VVC的预测感知质量( *VCIP* 2020)
  9. Android视频播放器--手势控制亮度、音量、缩放
  10. JavaScript面向对象编程浅析