2019年5月26日,周日,小雨
说明:阅读生信宝典和查阅文章的总结,原文请关注公众号生信宝典,参考的博文都附有链接,仅供参考。

生信宝典

NGS基础——高通量测序原理

本文介绍了测序文库构建原理、链特异性文库构建方式和识别方法、测序簇生成过程、双端测序过程、测序接头产生、PCR duplicate、测序通量选择标准等。原文都是一张张PPT,截图下来之后,附一些自己理解的注释吧
以目前最常用的illumina测序为例,其最基本的原理是利用可逆终止的、荧光标记的dNTP进行边合成边测序

  • 第一步,将DNA随机打断为短片段
  • 第二步,序列两端添加接头

    添加接头的目的是使得片段与flow cell上锚定的寡核苷酸序列相结合,进行下一步的链扩增和测序。那么flow cell是什么呢?它是流动池,就像可以流动各种液体的小池子,以Hiseq2500为例,它有2张flowcell,每张flowcell有8条通道,我们称为8个lane,常规的PE150测序1条lane产生的有效数据在120Gb以上,很少有一个样品需要测这么大的数据量,因此在测序时需要将多个文库样品混在同1条lane中,为了能够把测序数据按样本分离,在构建文库的时候,需要用不同index(标签序列)也有人称为barcode对文库进行标记。
    初此之外,接头还包括PE和SE测序的引物,它们是双端测序时所用的两条引物,以及P5和P7,它们是flow cell上的共价连接的接头,可以分别于片段的两条单链结合,使得片段被固定在flow cell 或者称之为 lane中。用一张更清晰的图进行说明:
  • 第三步:Cluster generation 簇生成 (从这里往后来自https://blog.csdn.net/sixu_9days/article/details/78948914 ,总结的更加清晰简单易懂)
  1. Flowcell上随机分布了两种不同的寡核苷酸序列,分别与P5互补(即P5’),与P7一致(即P7)。
  2. 待测sequence通过P5与folwcell上的P5’序列杂交互补,以待测sequence为模板进行互补链(即reverse strand)的延伸,互补链的两端为P5’和P7’。



3. 接下来模板链被切断并洗下
Reverse strand的P7’与Flowcell上的P7杂交互补,进行链的合成,这就是我们所熟知的桥式PCR
接下来合成的双链被解链,再分别与Flowcell上的接头杂交互补,延伸…解链,杂交,延伸,解链…如此重复35个循环

4. 桥式PCR完成后,使用NAOH将双链解链,并利用甲酰胺基嘧啶糖苷酶(Fpg)对8-氧鸟嘌呤糖苷(8-oxo-G)的选择性切断作用,选择性地将P5’与链的连接切断,留下与Flowcell上P7连接的链,也就是Forward strand。同时游离的3’端被阻断,防止不必要的DNA延伸

  • 第四步,测序
  1. 测序引物(sequencing primer)结合到靠近P5的测序引物结合位点1(sequencing primer binding site 1)上,在系统中加入四种dNTP和DNA聚合酶。这里的dNTP有两个特点:它是有荧光基团标记的,每种碱基标记的荧光基团不一样。它的3’末端连了一个叠氮基。这个叠氮基能够阻断后面的碱基与它相连

    因此在聚合酶的作用下,与Forward strand相应位置碱基配对的dNTP就会结合到新合成的链上,而由于叠氮基的存在,后面的dNTP无法继续连接。这时用水将剩余的dNTP和酶给冲掉,将Flowcell进行扫描,扫描出来的荧光对应的碱基的配对碱基即是该链该位置的碱基。同时在这个Flowcell上有成千上万个cluster也在进行同样的反应,因此一个循环就能同时检测多个样本(这也是高通量的核心所在)。这个循环完成后,加入化学试剂把叠氮基和标记的荧光基团切掉,进行下一个循环(碱基的连接、检测与切除)。如此重复直至所有链的碱基序列被检测出。也就是Forward read 序列。
  2. Index测序:所有循环结束后,read products 被洗掉,index1 primer与链上index primer1 结合位点杂交配对,进行index1的合成及检测
  3. 以类似的方法进行index2和reverse strand的测序。

链特异性文库构建

也来自sixu_9days的博客:https://blog.csdn.net/sixu_9days/article/details/81222407
首先明确几个概念:
正义链(sense strand):两条互补的DNA链其中一条携带编码蛋白质信息的链称为正义链,又称编码链,因为它的序列与mRNA相同

反义链(antisense strand):另一条与之互补的称为反义链。而反义链虽然和RNA反向互补,但它可是真正给RNA当模板的链,因此反义链也是模板链

要注意的是:在一条包含有若干基因的双链DNA分子中,各个基因的正义链并不都是在同一条链上

正义链(sense strand)= 编码链(coding strand)= 非模板链
forword strand 上可以同时有sense strand 和 antisense strand。因为这完全是两个不同的概念

下面通过这张建库示意图来看看普通RNA-Seq建库和链特异性建库的差异在什么地方
首先说说普通的RNA-Seq建库方式:它是在RNA逆转录成双链cDNA的两端,对称地加上了两个Y型的接头,然后变成文库。它有一个缺点,就是它是以双链DNA进行测序。所以测完序后,我们无法知道测出来的reads是来自正链还是负链。

链特异性建库(以图中间的dUTP方法为例)则是首先利用随机引物合成RNA的一条cDNA链,在合成第二条链的时候用dUTP代替dTTP,加adaptor后用UDGase处理,将有U的第二条cDNA降解掉。降解发生之后,双链的文库就只剩下了一条链(负链)。而这条链的两头是接的不同序列的接头。通过PCR扩增,最终只保留了第一条cDNA(负链)上机测序。这样最后的insert DNA fragment都是来自于第一条cDNA(负链),也就是dUTP叫fr-firststrand的原因。在测序的过程中先测得正链reads,再测得负链reads(能区分正负链reads,这就是和普通建库最根本的不同)。在这些reads比对到参考基因组时,那些比对到基因方向(正义链方向)的正链reads就是正义链reads,但是那些比对到基因方向反方向(反义链方向)的正链reads就是反义链reads。那么同样,比对到基因方向的负链reads就是正义链reads,而比对到基因方向反方向(反义链方向)的负链reads就是反义链reads。从而最终将所有正义链reads和反义链reads区分开来。因此在确定基因表达水平时,可以避免基因反义链上的reads匹配的干扰,从而更加准确的检测基因转录表达水平。而且LncRNA的测序也离不开链特异性建库技术。原因有三:

1)lncRNA的来源是具有链特异性的;

2)lncRNA来源就是编码蛋白(mRNA)​基因的反义链,是传说中的天然反义lncRNA(NAT-antisense lncRNA);如果是普通非链特异性建库,那么序列是来自mRNA,还是NAT-antisence LncRNA就难以区分了;

3)​链特异性建库可更准确地统计转录本的数量和确定基因的结构,准确区分获得的转录本来自基因组哪条链。​
后面有点被绕晕了。。休息会,下午接着学习下一部分。

生信小白学习日记Day2——NGS基础 illumina高通量测序原理相关推荐

  1. 生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)

    2019年5月27日,天气舒适,忙碌一天之后开始今天的生信学习.今天就昨天Day2-2的一些标记加以查询说明,仅供参考. NGS基础 NGS分析注解 1. 质量分析软件 昨天提到,拿到数据后可以通过一 ...

  2. 生信小白学习日记Day2-2——NGS基础 NGS分析

    2019年5月26日下午,无意中看到hanli0902的关于NGS分析的博文https://blog.csdn.net/hanli1992/article/details/82790386有很多需要学 ...

  3. 生信小白学习日记Day4Day5——NGS基础 NGS分析注释(BWA软件)

    2019年5月30日,晚上,心情变好,好几天没更新了,看到男朋友在学一款软件,我也近朱者赤,来继续注释Day2-2中NGS分析流程中的一个重要软件--BWA NGS基础 NGS分析注释 BWA 对应于 ...

  4. NGS系列文章 - 高通量测序原理

    NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析 (重磅综述:三万字长文读 ...

  5. 生信小白学习日记Day7——WGS分析流程(picard)

    2019年6月2日,周日,天气晴,pass 上午.开始学习NGS分析,继BWA比对和SAM文件排序转BAM后的流程. NGS分析 step5 Mark Duplications 参考这篇:GATK使用 ...

  6. NGS基础 - 高通量测序原理

    NGS基础 - 高通量测序原理 原创: 赑屃 生信宝典 2017-07-23 NGS系列文章包括NGS基础.转录组分析.ChIP-seq分析.DNA甲基化分析.重测序分析五部分内容. NGS基础系列文 ...

  7. 【学习笔记】山东大学生物信息学-05 高通量测序技术介绍 + 06 统计基础与序列算法(原理)

    课程地址:山东大学生物信息学 文章目录 五.高通量测序技术介绍(没有干货) 六.统计基础与序列算法(原理) 6.1 贝叶斯公式及其生物学应用 6.2 二元预测的灵敏度和特异度 6.3 基本序列算法 五 ...

  8. 生信小白的福音——免费在线分析扩增子数据SILVAngs

    文章开头必须感谢一下宏基因组公众号和微信群的各位朋友,平时给予我的温暖和关怀,让我有了写文章的冲动(基情满满). 今天突然听到有个刚刚入坑的同学跟我说,做了60个扩增子不知道怎么分析.What?不会分 ...

  9. 210学习日记(18)_ARM基础知识

    210学习日记(18) --ARM基础知识 注意: 以下大部分类容都来自网上现成的(直接拷贝过来的,然后经整理)!!!! 问1:ARM处理器工作模式有几种?各种工作模式下分别有什么特点? 答1:ARM ...

最新文章

  1. 去除0值和nan_Pandas 1.0的新功能
  2. JZOJ 5460. 【NOIP2017提高A组冲刺11.7】士兵训练
  3. C++内存泄露几种常见原因
  4. 时光机穿梭---撤销修改
  5. 中文高频词汇统计并绘制词云
  6. MySQL中使用外键约束的注意事项
  7. Tcpdump个人实战总结
  8. 共用数据库和上传的文件的laravel-admin 和 laravel 项目中文件保存路径的配置
  9. React Native商城项目实战08 - 设置“More”界面cell
  10. python的开发者是谁_谁才是真正的资深开发者?
  11. everything 全盘文件查找工具及正则表达式的使用
  12. choices参数 MTV与MVC ajax contentType 序列化组件 自定义分页器...
  13. 操作系统安装教程之图解Ubuntu Server 14.04安装
  14. oracle学习资料大全
  15. Dissect HTTP3
  16. 文华学院计算机专业师资,华中科技大学文华学院“最受欢迎教师”名单
  17. 计算机内无法使用搜狗,技巧:IE11无法使用搜狗输入法的原因及解决方法
  18. 网页开发学习(一):制作一份邀请函
  19. 荒岛新生_荒岛Excel文件
  20. #LeetCode每日一题#的阶段回顾

热门文章

  1. [渝粤教育] 中国地质大学 人力资源开发与管理 复习题 (2)
  2. mysql 单精度和双经度_mysql 下 计算 两点 经纬度 之间的距离 计算结果排序
  3. shopex mysql 数据库服务器_win2003以isapi的方式配置php+mysql环境(安装了shopEX) 毕竟我是杨小飞i...
  4. 写《2020年11月线上自行车业务分析报告》
  5. 南非NRCS认证简介
  6. Android 蓝牙连接
  7. excel导出java.lang.ArrayIndexOutOfBoundsException:-32768
  8. I.MX6Q(TQIMX6Q/TQE9)学习笔记——新版BSP之kernel移植
  9. html5画图程序,基于HTML5的Windows画图程序
  10. vue 获取用户位置 高德_Vue使用高德地图