测序数据拿回来之后,会给一些数据。那么这些数据代表什么呢?

1. 原始数据(Raw data):一次测序产生的全部原始数据。理论上,它们应该是没有经过任何过滤的,无论好坏。

2. PF数据(PF data):在测序过程中,Illumina内置软件根据每个测序片段(read,通常每个片段长100个碱基)前25个碱基的质量决定该read是保留还是抛弃。如果没有达到质控标准,则该read的全部碱基都被抛弃;达到标准、保留下来的数据叫做PF data。 PF代表pass filtering。

3. Q30数据(Q30 data):Illumina内置软件根据统一设定的标准来评判碱基识别结果的可靠性,为每个碱基给予一个质量评分(QV)。PF data里质量评分>=30分的数据称为Q30 data。 Q30的意思是该碱基的可靠性为99.9%。Q30数据通常占PF数据的80%左右。视样本质量、操作水平、试剂质量、仪器状态的不同,这一比例有很大波动。

4. 干净数据(Clean data。数据还有不干净的?):某些实验室根据其自身的判断标准,在PF data的基础上,进一步删除质量不好的reads后得到的数据。常见的删除动作有:去接头、去N含量高的reads、去质量评分低的reads、去掉每个read的最后几个碱基,等等。

Clean data是国内叫法;PF data是来自Illumina的概念,是广为接受的国际通行标准。
PF算法实质上是选取每个测序片段(read)前25个碱基的质量来代表整条片段的质量,从而决定该片段的去留。Illumina之所以这样做,而不是逐个检查整条片段所有碱基的质量,一方面是为了节省电脑资源,不致于花费太多时间进行运算,拖累测序进程,另一方面也是在大量测序数据的统计结果基础上选择的平衡点,只要前25个碱基是正常的,后75个碱基出问题的概率比较小。
一次测序实验完成,测序仪上展示的数据量和%Q30都是以PF数据为基础的。只要对数据质量有足够信心,就不会对PF数据再进行加工,可以直接把PF数据交给客户,进行下游的生物信息学分析。
三、为什么要clean data?
如果二代测序实验成功,则PF data已经是质量比较好的数据,没有必要进一步加工。从基本原理来讲,任何形式的加工过滤,毫无例外都会引入额外的偏差(bias),严重的时候会导致生物信息学分析结论失真。
把PF数据加工成“干净数据”,原因有多种,其中常见的原因之一是使用山寨的试剂(非Illumina原厂正版试剂)构建文库,测序质量不尽如人意,Q30比例不高。在采用同种技术、同种平台的情况下,文库构建的质量是决定测序质量的关键。只要去掉质量差的数据,就可以提高Q30比例,可是这样做法目的性太强,难免让人心里打鼓。
让我们来具体分析为了获得clean data所做的4种常见动作是否有必要,及其潜在副作用。
1、去接头。
使用正版试剂、按标准流程进行操作,接头序列是不会被测出来的,这是因为测序引物的结合位点位于接头的3'端,测序测到的第一个碱基就是插入片段的未知碱基,因此不需要去接头。
在以下两种特殊情况下,需要去接头(adaptor),或者去标签(barcode):
一是自己合成寡核苷酸、自配文库构建试剂,这类设计通常把barcode安排在接头的3'端后面,而测序引物的结合位点仍然在接头的3'端,导致测序一开始测到的就是barcode序列,标签测完了之后才是插入片段的未知序列。在这种情况下,完成demultiplexing之后,标签序列完成了使命,就要把标签序列删除。
二是文库的插入片段太短,测序片段长度(通常是100碱基)大于插入片段长度,导致插入片段被测通,一直测到下游接头的部分或者全部序列。在这种情况下,要删除下游的接头序列。
插入片段太短,除了改变打断条件,增加插入片段长度以外,有些种类的样本比如small RNA本身就很短。小RNA的长度只有20几个碱基,测序试剂的包装是50碱基和100碱基两种,都长于小RNA;另外,如果小RNA样本数量少,凑不满一张FC,就要与其他样本一起测序,为了将就同一张FC上的其他样本,往往就对小RNA进行2x100碱基的测序。在这种情况下,去接头是必要的。
去接头和去标签,对测序数据本身不造成影响。
2、去含N多的测序片段。
一个测序片段里如果有很多碱基无法识别(用N表示),提示测序质量不高,或者测序过程中遭遇到问题,需要严肃对待,通过故障排除找到根本原因,针对性地采取必要措施进行改正。删除这些片段,只是使数据看起来比较漂亮,治标不治本。
3、去质量评分低的片段。
PF算法本身去除的就是质量评分低的片段。如果要在PF之后再来一次“PF”,那就提示测序质量没有达到正常水准,实乃不得已而为之。
4、去末端一定数目的碱基。
随着测序读长的增加,酶活性下降,荧光强度也在下降,因此测序数据质量逐渐降低乃是自然趋势,片段末端的碱基质量低于片段前端的。
即使存在这样的问题,只要样本质量、试剂质量、操作技能和仪器性能等有保障,在厂家承诺的片段长度范围内,%Q30是完全能够达到指标的,并不需要人为去掉末端碱基。

转载于:https://www.cnblogs.com/huangyinger/p/10232967.html

raw data/PF data/Q30 data/clean data的不同相关推荐

  1. 图像去噪--Noise2Noise: Learning Image Restoration without Clean Data

    Noise2Noise: Learning Image Restoration without Clean Data ICML 2018 1 Introduction 基于 corrupted or ...

  2. 读论文:Noise2Noise: Learning Image Restoration without Clean Data

    很有意思的文章,我之前做过一些深度学习的降噪任务,针对不同光照条件下的图像进行降噪.这个时候就会涉及到标签样本的制作. 在监控领域中,相差6个db的照度,图像的噪点就会有明显的差异性.所以我们在训练模 ...

  3. Noise2Noise:Learning Image Restoration without Clean Data读书笔记

    论文题目:Noise2Noise: Learning Image Restoration without Clean Data 一.简介 论文提出,在没有干净数据的情况下也能对图像进行重建,重建效果和 ...

  4. 将光盘中的Packages目录通过cp命令拷贝/data/centos7/packages中,然后将/data/centos7做成本地yum仓库

    文章目录 6 软件管理 6.5 将光盘中的Packages目录通过cp命令拷贝/data/centos7/packages中,然后将/data/centos7做成本地yum仓库 6 软件管理 6.5 ...

  5. Data URL和图片,及Data URI的利弊

    Data URL给了我们一种很巧妙的将图片"嵌入"到HTML中的方法.跟传统的用img标记将服务器上的图片引用到页面中的方式不一样,在Data URL协议中,图片被转换成base6 ...

  6. jquery ajax传递data,基于jquery ajax中的data传递参数与后台工作的流程

    基于jquery ajax中的data传递参数与后台工作的流程 2014-11-12    分类: php学习,前端资源,学习jquery基础 首先列出实例代码 js代码: $('button').c ...

  7. pyculiarity解决报错ValueError: data must be a 2 column data.frame, with thefirst column...

    解决方法 报错全称为:ValueError: data must be a 2 column data.frame, with thefirst column being a set of times ...

  8. data Mining with Weka: Trailer More Data Mining with Weka 用weka 进行数据挖掘 Weka 用weka 进行更多数据挖掘...

    https://www.youtube.com/user/WekaMOOC 大学公开课  视频教程 weka 入门教程 data Mining with Weka: Trailer  More Dat ...

  9. Springboot Could not resolve placeholder ‘spring.data.mongodb.database’ in value “${spring.data.mong

    Springboot Could not resolve placeholder 'spring.data.mongodb.database' in value "${spring.data ...

  10. 编码 data:text/html;c,javascript中Data URI使用详解

    Data URI,不是URL URL是uniform resource locator的缩写,在web中的每一个可访问资源都有一个URL地址,例如图片,HTML文件,js文件以及style sheet ...

最新文章

  1. 每日一皮:循环没写好,导致后面数据覆盖了前面的数据...
  2. 网站优化还是需要从实际工作经验中总结优化技巧
  3. EAR项目构建的几种方式
  4. 文巾解题 10. 正则表达式匹配
  5. Selenium备忘手册 [转]
  6. linux非阻塞的socket发送数据出现EAGAIN错误的处理方法
  7. LeetCode 417 太平洋大西洋水流问题
  8. 【Recat 应用】之 React 脚手架
  9. SpringCloud Alibaba Sentinel断路器介绍与控制台搭建
  10. TCP/IP详解学习笔记(11)-TCP交互数据流,成块数据流
  11. netmiko可以连接的设备有哪些_气体报警器可以联动哪些设备
  12. [转载] $CF290F$ 题解
  13. visio2003乱码问题
  14. linux 查看网卡名字
  15. 电脑备份,电脑怎么备份系统,小白提供2种备份方法
  16. hdoj 瞬间移动 5698(逆元)
  17. (二)office2016-excel冻结窗格
  18. 建立matlab桌面遇到Error Staring Desktop
  19. win10 6种截图方法 简介
  20. 旋转编码器旋钮程序_让我们使用SwiftUI构建具有旋转手势的复古音频旋钮

热门文章

  1. HCNA-Storage (H13-611)题库 v4.0
  2. 合肥工业大学第六届“互联网+”大学生创新创业大赛项目计划书:AI云学习 —— 一款基于Spark构建知识图谱的人工智能学习工具
  3. 同步带周长计算公式_同步带选型计算方法
  4. Java读取数据库中的数据
  5. js自动弹窗被拦截 html,JS打开新窗口防止被浏览器阻止的方法
  6. js 图片上传时加水印
  7. MSMS探针卡市场现状及未来发展趋势
  8. 探针台常见问题—如何减少LHe制冷剂消耗
  9. Querydsl使用fetchCount()报错
  10. 自动化检测工具助力GJB 8114-2013 C/C++语言编程安全子集标准落地应用