2019年5月26日，周日，小雨
说明：阅读生信宝典和查阅文章的总结，原文请关注公众号生信宝典，参考的博文都附有链接，仅供参考。

生信宝典

NGS基础——高通量测序原理

本文介绍了测序文库构建原理、链特异性文库构建方式和识别方法、测序簇生成过程、双端测序过程、测序接头产生、PCR duplicate、测序通量选择标准等。原文都是一张张PPT，截图下来之后，附一些自己理解的注释吧
以目前最常用的illumina测序为例，其最基本的原理是利用可逆终止的、荧光标记的dNTP进行边合成边测序

第一步，将DNA随机打断为短片段
第二步，序列两端添加接头

添加接头的目的是使得片段与flow cell上锚定的寡核苷酸序列相结合，进行下一步的链扩增和测序。那么flow cell是什么呢？它是流动池，就像可以流动各种液体的小池子，以Hiseq2500为例，它有2张flowcell，每张flowcell有8条通道，我们称为8个lane，常规的PE150测序1条lane产生的有效数据在120Gb以上，很少有一个样品需要测这么大的数据量，因此在测序时需要将多个文库样品混在同1条lane中，为了能够把测序数据按样本分离，在构建文库的时候，需要用不同index（标签序列）也有人称为barcode对文库进行标记。
初此之外，接头还包括PE和SE测序的引物，它们是双端测序时所用的两条引物，以及P5和P7，它们是flow cell上的共价连接的接头，可以分别于片段的两条单链结合，使得片段被固定在flow cell 或者称之为 lane中。用一张更清晰的图进行说明：
第三步：Cluster generation 簇生成（从这里往后来自_{https://blog.csdn.net/sixu_9days/article/details/78948914} ，总结的更加清晰简单易懂）

Flowcell上随机分布了两种不同的寡核苷酸序列，分别与P5互补（即P5’），与P7一致（即P7）。
待测sequence通过P5与folwcell上的P5’序列杂交互补，以待测sequence为模板进行互补链（即reverse strand）的延伸，互补链的两端为P5’和P7’。

3. 接下来模板链被切断并洗下
Reverse strand的P7’与Flowcell上的P7杂交互补，进行链的合成，这就是我们所熟知的桥式PCR
接下来合成的双链被解链，再分别与Flowcell上的接头杂交互补，延伸…解链，杂交，延伸，解链…如此重复35个循环

4. 桥式PCR完成后，使用NAOH将双链解链，并利用甲酰胺基嘧啶糖苷酶（Fpg）对8-氧鸟嘌呤糖苷（8-oxo-G）的选择性切断作用，选择性地将P5’与链的连接切断，留下与Flowcell上P7连接的链，也就是Forward strand。同时游离的3’端被阻断，防止不必要的DNA延伸

第四步，测序

测序引物（sequencing primer）结合到靠近P5的测序引物结合位点1（sequencing primer binding site 1）上，在系统中加入四种dNTP和DNA聚合酶。这里的dNTP有两个特点：它是有荧光基团标记的，每种碱基标记的荧光基团不一样。它的3’末端连了一个叠氮基。这个叠氮基能够阻断后面的碱基与它相连

因此在聚合酶的作用下，与Forward strand相应位置碱基配对的dNTP就会结合到新合成的链上，而由于叠氮基的存在，后面的dNTP无法继续连接。这时用水将剩余的dNTP和酶给冲掉，将Flowcell进行扫描，扫描出来的荧光对应的碱基的配对碱基即是该链该位置的碱基。同时在这个Flowcell上有成千上万个cluster也在进行同样的反应，因此一个循环就能同时检测多个样本（这也是高通量的核心所在）。这个循环完成后，加入化学试剂把叠氮基和标记的荧光基团切掉，进行下一个循环（碱基的连接、检测与切除）。如此重复直至所有链的碱基序列被检测出。也就是Forward read 序列。
Index测序：所有循环结束后，read products 被洗掉，index1 primer与链上index primer1 结合位点杂交配对，进行index1的合成及检测
以类似的方法进行index2和reverse strand的测序。

链特异性文库构建

也来自sixu_9days的博客：https://blog.csdn.net/sixu_9days/article/details/81222407
首先明确几个概念：
正义链（sense strand）：两条互补的DNA链其中一条携带编码蛋白质信息的链称为正义链，又称编码链，因为它的序列与mRNA相同。

反义链（antisense strand）：另一条与之互补的称为反义链。而反义链虽然和RNA反向互补，但它可是真正给RNA当模板的链，因此反义链也是模板链。

要注意的是：在一条包含有若干基因的双链DNA分子中，各个基因的正义链并不都是在同一条链上。

正义链（sense strand）= 编码链（coding strand）= 非模板链
forword strand 上可以同时有sense strand 和 antisense strand。因为这完全是两个不同的概念

下面通过这张建库示意图来看看普通RNA-Seq建库和链特异性建库的差异在什么地方
首先说说普通的RNA-Seq建库方式：它是在RNA逆转录成双链cDNA的两端，对称地加上了两个Y型的接头，然后变成文库。它有一个缺点，就是它是以双链DNA进行测序。所以测完序后，我们无法知道测出来的reads是来自正链还是负链。

而链特异性建库（以图中间的dUTP方法为例）则是首先利用随机引物合成RNA的一条cDNA链，在合成第二条链的时候用dUTP代替dTTP，加adaptor后用UDGase处理，将有U的第二条cDNA降解掉。降解发生之后，双链的文库就只剩下了一条链（负链）。而这条链的两头是接的不同序列的接头。通过PCR扩增，最终只保留了第一条cDNA（负链）上机测序。这样最后的insert DNA fragment都是来自于第一条cDNA（负链），也就是dUTP叫fr-firststrand的原因。在测序的过程中先测得正链reads，再测得负链reads（能区分正负链reads，这就是和普通建库最根本的不同）。在这些reads比对到参考基因组时，那些比对到基因方向（正义链方向）的正链reads就是正义链reads，但是那些比对到基因方向反方向（反义链方向）的正链reads就是反义链reads。那么同样，比对到基因方向的负链reads就是正义链reads，而比对到基因方向反方向（反义链方向）的负链reads就是反义链reads。从而最终将所有正义链reads和反义链reads区分开来。因此在确定基因表达水平时，可以避免基因反义链上的reads匹配的干扰，从而更加准确的检测基因转录表达水平。而且LncRNA的测序也离不开链特异性建库技术。原因有三：

1）lncRNA的来源是具有链特异性的；

2）lncRNA来源就是编码蛋白（mRNA）基因的反义链，是传说中的天然反义lncRNA（NAT-antisense lncRNA）；如果是普通非链特异性建库，那么序列是来自mRNA，还是NAT-antisence LncRNA就难以区分了；

3）链特异性建库可更准确地统计转录本的数量和确定基因的结构，准确区分获得的转录本来自基因组哪条链。
后面有点被绕晕了。。休息会，下午接着学习下一部分。

生信小白学习日记Day2——NGS基础 illumina高通量测序原理相关推荐

生信小白学习日记Day3——NGS基础 NGS分析注解（质量分析软件）
2019年5月27日,天气舒适,忙碌一天之后开始今天的生信学习.今天就昨天Day2-2的一些标记加以查询说明,仅供参考. NGS基础 NGS分析注解 1. 质量分析软件昨天提到,拿到数据后可以通过一 ...
生信小白学习日记Day2-2——NGS基础 NGS分析
2019年5月26日下午,无意中看到hanli0902的关于NGS分析的博文https://blog.csdn.net/hanli1992/article/details/82790386有很多需要学 ...
生信小白学习日记Day4Day5——NGS基础 NGS分析注释（BWA软件）
2019年5月30日,晚上,心情变好,好几天没更新了,看到男朋友在学一款软件,我也近朱者赤,来继续注释Day2-2中NGS分析流程中的一个重要软件--BWA NGS基础 NGS分析注释 BWA 对应于 ...
NGS系列文章 - 高通量测序原理
NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析 (重磅综述:三万字长文读 ...
生信小白学习日记Day7——WGS分析流程（picard）
2019年6月2日,周日,天气晴,pass 上午.开始学习NGS分析,继BWA比对和SAM文件排序转BAM后的流程. NGS分析 step5 Mark Duplications 参考这篇:GATK使用 ...
NGS基础 - 高通量测序原理
NGS基础 - 高通量测序原理原创: 赑屃生信宝典 2017-07-23 NGS系列文章包括NGS基础.转录组分析.ChIP-seq分析.DNA甲基化分析.重测序分析五部分内容. NGS基础系列文 ...
【学习笔记】山东大学生物信息学-05 高通量测序技术介绍 + 06 统计基础与序列算法（原理）
课程地址:山东大学生物信息学文章目录五.高通量测序技术介绍(没有干货) 六.统计基础与序列算法(原理) 6.1 贝叶斯公式及其生物学应用 6.2 二元预测的灵敏度和特异度 6.3 基本序列算法五 ...
生信小白的福音——免费在线分析扩增子数据SILVAngs
文章开头必须感谢一下宏基因组公众号和微信群的各位朋友,平时给予我的温暖和关怀,让我有了写文章的冲动(基情满满). 今天突然听到有个刚刚入坑的同学跟我说,做了60个扩增子不知道怎么分析.What?不会分 ...
210学习日记(18)_ARM基础知识
210学习日记(18) --ARM基础知识注意: 以下大部分类容都来自网上现成的(直接拷贝过来的,然后经整理)!!!! 问1:ARM处理器工作模式有几种?各种工作模式下分别有什么特点? 答1:ARM ...

生信小白学习日记Day2——NGS基础 illumina高通量测序原理

生信宝典

NGS基础——高通量测序原理

链特异性文库构建

生信小白学习日记Day2——NGS基础 illumina高通量测序原理相关推荐

最新文章

热门文章