首先,我们先来了解一下,什么是duplicate序列。大白话说,就是高通量测序结果中那些一模一样的序列。它们产生的原因有多种可能,以下图为例:

                        图片来自网络

其中,最好理解的原因就是PCR。因为一个DNA分子经过扩增之后,得到很多个一模一样的DNA产物。这些产物可能有2个及以上被测序了,这样就得到了重复序列。

看到这里,大家可能还会有疑问。难道高通量测序得到一模一样的序列不正常吗?嗯,测到这样一模一样的序列当然是正常现象,毕竟测序的时候要做桥式PCR,建库的时候也要做PCR富集文库(PCR-free文库除外)。是不是更糊涂了?

为了理解上述问题,让我们暂时先跳出这个问题,我们先缕一下文库构建的流程吧。
以转录组测序文库构建为例,其大致步骤是:

  1. 抽提1-2ug总RNA(大约是来自1000万个细胞);
  2. 富集polyA尾的mRNA;
  3. 打碎mRNA,随机引物逆转录成双链cDNA;
  4. 连illumina接头,分选特定长度文库,PCR扩增富集文库。

假如每个细胞表达5000个基因,平均转录10次,也就是每个细胞贡献了5万个RNA分子。由于我们最早的时候,使用了1000万个细胞,也就是有5000亿的分子(这还不算打碎了,打碎之后,片段个数会更多)。由于是随机打碎的,这些片段碎成一模一样的分子概率有多低,大家可以想象一下。

这里写这么多,其实就是想表达一个意思:当初始投入的DNA/RNA量够多的时候,其真实状态下,很难产生2个完全一样的DNA分子。如果测序过程够随机,那么就不应该得到2个一模一样的序列。

所以,文库构建过程和测序过程的PCR,引入了重复序列(Duplicate Reads),而这些重复序列是会影响一些特定项目分析结果的。

具体以转录组测序和外显子捕获测序项目为例:

  1. 对于转录组测序而言,其一个重要的作用是计算各个基因的表达量,分析差异表达基因。基因差异表达分析则是建立在各个基因测到的有效序列条数上的。Duplicate序列是由于PCR扩增得到的,自然不能算是有效序列,需要予以删除。

如上图所示,如果不删除重复序列,样品A的表达量将明显高于样品B的,从而被判定为差异基因。但是,实际可能它们表达量差不多。
2. 对于外显子捕获测序而言,分析特定位点的突变以及计算突变比例,是建立在一定的测序深度上的。此时,如果一模一样的序列比对到参考基因组上,会改变真实的突变比例。自然也要予以删除。

要减少duplicate序列产生的办法,最主要的就是减少PCR循环数。对于很多低起始量DNA/RNA文库,尤其是号称1ng DNA建库的,为了能获得足量文库,然后上机测序,不可避免会做更多的PCR循环。分析这类数据的时候,请注意删除重复序列。

额外说一句,看到这里,大家就应该能理解为什么常规文库,对于DNA/RNA的起始量会有一定的要求了吧。不是低起始量不能建库,而是,其数据重复序列会比较多,造成数据浪费。

参考资料:https://www.cureffi.org/2012/12/11/how-pcr-duplicates-arise-in-next-generation-sequencing/

NGS测序结果中duplicate序列问题的理解相关推荐

  1. blacklist regions:NGS测序数据中的黑名单

    欢迎关注"生信修炼手册"! 在NGS的数据分析,尤其是chip_seq类型的数据分析汇总,经常会看到这样一个概念blacklist regions,直译过来就是黑名单区域.什么样的 ...

  2. NGS测序中PCR重复序列的判定方法

    欢迎关注"生信修炼手册"! 在NGS的数据分析中,去除PCR重复序列是一个常见的分析步骤,无论是WES/WGS的snp calling,还是chip_seq, ATAC_seq,都 ...

  3. 临床外显子组测序分析中的那些坑(下)

    临床外显子组测序分析中的那些坑(上) 临床外显子组测序分析中的那些坑(中) 4.还记得嵌合吗 二代测序数据分析中已经提到的另一个挑战是嵌合SNV和CNV的出现.嵌合SNV已被证明与许多疾病相关.事实上 ...

  4. 临床外显子组测序分析中的那些坑(中)

    临床外显子组测序分析中的那些坑(上) 4. Exome CNV分析:参考对照组 很早以前,人们就清楚WES还可以根据样本之间序列覆盖深度的差异来推断CNV.由于序列捕获和GC含量,单个目标的覆盖率偏差 ...

  5. 临床外显子组测序分析中的那些坑(上)

    大规模并行测序技术或下一代测序已成为基因诊断和研究的标准技术,尤其是外显子组和基因组测序现在已经在世界范围内广泛应用于患者的分子诊断.在过去几年中,许多实验室都在努力应对基于全新技术建立基因检测工作流 ...

  6. Cell二连发 | 广东CDC/耶鲁大学利用纳米孔测序揭示中/美新冠病毒基因组流行病学传播规律...

    利用纳米孔测序技术实时测定病毒全基因组信息(Nanopore Real-time Sequencing),能够动态地分析病毒分子进化来研究病毒的变异及传播特征,这些信息对疫情发展不同阶段制定有效的防控 ...

  7. Microbiome:16S扩增子测序研究中定量变异和生物量影响

    16S扩增子测序研究中定量变异和生物量影响 Quantification of variation and the impact of biomass in targeted 16S rRNA gen ...

  8. mysql中序列的使用,在MySQL中使用序列的简单教程

    序列是一组整数1,2,3,...中生成的顺序.序列中经常使用的数据库,因为很多应用都需要一个表中的每一行包含一个独特的值和序列提供了一个简单的方法来产生.本章介绍如何使用MySQL中的序列. 使用自动 ...

  9. scala中创建时间序列_如何从Scala中的序列中提取唯一元素?

    scala中创建时间序列 While storing data elements to a data structure or extracting raw data duplicate data m ...

最新文章

  1. 再谈“去虚拟化”对深度学习系统的必要性
  2. Sencha Touch 动态修改store的url
  3. java 控制台刷屏 dll_控制台被警告刷屏 · Issue #IXD8V · 卓源软件/JeeSite 4.2 - Gitee.com...
  4. 使用Redis实现在线点赞系统
  5. vue防抖和节流是什么_防抖和节流为什么重要!!!
  6. 一次面试引发的思考(中小型网站优化思考) (转)
  7. 【渝粤教育】国家开放大学2018年春季 7140-22T危急重症护理学(本) 参考试题
  8. mess系统可以读取opc服务器,C3. Messages
  9. 、简述global关键字的作用_GLOBAL和$GLOBALS[]的讲解
  10. 12月9日10日 总结
  11. MySQL的sql_mode解析设置
  12. Mysql触发器与动态完整性
  13. 实战开发经验:是什么阻碍了我们跨平台
  14. linux资源监控分析,inux 资源监控分析-pidstat
  15. 【图像处理】基于matlab图像RGB三色合成+分离【含Matlab源码 401期】
  16. springboot生成包含特定数字_关于Spring Boot 这可能是全网最好的知识点总结
  17. R语言安装~R,Rstudio
  18. MATLAB灰度显示和彩色显示
  19. Spydroid还是大牛直播内置RTSP服务SDK
  20. 谷歌学术打不开的解决办法

热门文章

  1. ELGamal公钥密码
  2. 前5个android游戏,没有微交易的5个有趣的高级Android游戏
  3. 华为扩大内存代码_华为手机增大手机内存代码 | 手游网游页游攻略大全
  4. vue3的自定义指令 v-focus写法
  5. 【GRNN回归】基于matlab遗传算法优化GRNN数据回归拟合【含Matlab源码 1401期】
  6. Catti笔译2级实务教材英语翻译230129 Day1
  7. 各种css形状 CSS实现圆角,三角,五角星,五边形,爱心,12角星,8角星,圆,椭圆,圆圈,八卦等等
  8. 重启服务器后磁盘显示空余变大,(已解决)开机后发现服务中Superfetch服务项会导致磁盘利用率在85%以上,重启后依旧...
  9. 精诚软件|CRM系统是怎么解决这些问题的?
  10. 自然语言处理三大特征抽取器(CNN/RNN/TF)比较