NGS测序结果中duplicate序列问题的理解

首先，我们先来了解一下，什么是duplicate序列。大白话说，就是高通量测序结果中那些一模一样的序列。它们产生的原因有多种可能，以下图为例：

                        图片来自网络

其中，最好理解的原因就是PCR。因为一个DNA分子经过扩增之后，得到很多个一模一样的DNA产物。这些产物可能有2个及以上被测序了，这样就得到了重复序列。

看到这里，大家可能还会有疑问。难道高通量测序得到一模一样的序列不正常吗？嗯，测到这样一模一样的序列当然是正常现象，毕竟测序的时候要做桥式PCR，建库的时候也要做PCR富集文库（PCR-free文库除外）。是不是更糊涂了?

为了理解上述问题，让我们暂时先跳出这个问题，我们先缕一下文库构建的流程吧。
以转录组测序文库构建为例，其大致步骤是：

抽提1-2ug总RNA（大约是来自1000万个细胞）；
富集polyA尾的mRNA;
打碎mRNA，随机引物逆转录成双链cDNA；
连illumina接头，分选特定长度文库，PCR扩增富集文库。

假如每个细胞表达5000个基因，平均转录10次，也就是每个细胞贡献了5万个RNA分子。由于我们最早的时候，使用了1000万个细胞，也就是有5000亿的分子（这还不算打碎了，打碎之后，片段个数会更多）。由于是随机打碎的，这些片段碎成一模一样的分子概率有多低，大家可以想象一下。

这里写这么多，其实就是想表达一个意思：当初始投入的DNA/RNA量够多的时候，其真实状态下，很难产生2个完全一样的DNA分子。如果测序过程够随机，那么就不应该得到2个一模一样的序列。

所以，文库构建过程和测序过程的PCR，引入了重复序列（Duplicate Reads），而这些重复序列是会影响一些特定项目分析结果的。

具体以转录组测序和外显子捕获测序项目为例：

对于转录组测序而言，其一个重要的作用是计算各个基因的表达量，分析差异表达基因。基因差异表达分析则是建立在各个基因测到的有效序列条数上的。Duplicate序列是由于PCR扩增得到的，自然不能算是有效序列，需要予以删除。

如上图所示，如果不删除重复序列，样品A的表达量将明显高于样品B的，从而被判定为差异基因。但是，实际可能它们表达量差不多。
2. 对于外显子捕获测序而言，分析特定位点的突变以及计算突变比例，是建立在一定的测序深度上的。此时，如果一模一样的序列比对到参考基因组上，会改变真实的突变比例。自然也要予以删除。

要减少duplicate序列产生的办法，最主要的就是减少PCR循环数。对于很多低起始量DNA/RNA文库，尤其是号称1ng DNA建库的，为了能获得足量文库，然后上机测序，不可避免会做更多的PCR循环。分析这类数据的时候，请注意删除重复序列。

额外说一句，看到这里，大家就应该能理解为什么常规文库，对于DNA/RNA的起始量会有一定的要求了吧。不是低起始量不能建库，而是，其数据重复序列会比较多，造成数据浪费。

参考资料：https://www.cureffi.org/2012/12/11/how-pcr-duplicates-arise-in-next-generation-sequencing/

NGS测序结果中duplicate序列问题的理解相关推荐

blacklist regions:NGS测序数据中的黑名单
欢迎关注"生信修炼手册"! 在NGS的数据分析,尤其是chip_seq类型的数据分析汇总,经常会看到这样一个概念blacklist regions,直译过来就是黑名单区域.什么样的 ...
NGS测序中PCR重复序列的判定方法
欢迎关注"生信修炼手册"! 在NGS的数据分析中,去除PCR重复序列是一个常见的分析步骤,无论是WES/WGS的snp calling,还是chip_seq, ATAC_seq,都 ...
临床外显子组测序分析中的那些坑（下）
临床外显子组测序分析中的那些坑(上) 临床外显子组测序分析中的那些坑(中) 4.还记得嵌合吗二代测序数据分析中已经提到的另一个挑战是嵌合SNV和CNV的出现.嵌合SNV已被证明与许多疾病相关.事实上 ...
临床外显子组测序分析中的那些坑（中）
临床外显子组测序分析中的那些坑(上) 4. Exome CNV分析:参考对照组很早以前,人们就清楚WES还可以根据样本之间序列覆盖深度的差异来推断CNV.由于序列捕获和GC含量,单个目标的覆盖率偏差 ...
临床外显子组测序分析中的那些坑（上）
大规模并行测序技术或下一代测序已成为基因诊断和研究的标准技术,尤其是外显子组和基因组测序现在已经在世界范围内广泛应用于患者的分子诊断.在过去几年中,许多实验室都在努力应对基于全新技术建立基因检测工作流 ...
Cell二连发 | 广东CDC/耶鲁大学利用纳米孔测序揭示中/美新冠病毒基因组流行病学传播规律...
利用纳米孔测序技术实时测定病毒全基因组信息(Nanopore Real-time Sequencing),能够动态地分析病毒分子进化来研究病毒的变异及传播特征,这些信息对疫情发展不同阶段制定有效的防控 ...
Microbiome：16S扩增子测序研究中定量变异和生物量影响
16S扩增子测序研究中定量变异和生物量影响 Quantification of variation and the impact of biomass in targeted 16S rRNA gen ...
mysql中序列的使用,在MySQL中使用序列的简单教程
序列是一组整数1,2,3,...中生成的顺序.序列中经常使用的数据库,因为很多应用都需要一个表中的每一行包含一个独特的值和序列提供了一个简单的方法来产生.本章介绍如何使用MySQL中的序列. 使用自动 ...
scala中创建时间序列_如何从Scala中的序列中提取唯一元素？
scala中创建时间序列 While storing data elements to a data structure or extracting raw data duplicate data m ...

NGS测序结果中duplicate序列问题的理解

NGS测序结果中duplicate序列问题的理解相关推荐

最新文章

热门文章