原理介绍篇

前言

最近正在学习如何处理高通量测序的数据,我认为要处理高通量测序数,那么对测序原理要有一个清晰的认识,本篇文章介绍了sanger测序,二代测序的测序原理

1. sanger测序

要了解二代测序的优势,以及进步在何处,我们需要认识旧的测序方式的缺陷,从而深刻理解二代测序。

我们知道,在DNA合成时,是通过四个不同的碱基,按照模板链一一合成的, 而在sanger测序中,需要介绍一种特殊的碱基 —— ddNTP(双脱氧核苷酸),ddNTP有四种类型:ddATP,ddGTP,ddCTP,ddTTP,分别对应着四种碱基,他们跟正常的碱基不同点在于:ddNTP比正常碱基多脱一个氧,导致ddNTP之后不可以合成碱基,也就是ddNTP可以作为终止碱基参与DNA合成。知道这一点之后我们就可以开始讲sanger测序时DNA是如何合成的,且如何测序的。你也可以选择观看youtube的视频来了解。

  1. 首先你需要准备合成DNA的基本原料——四种碱基+模板链+测序对象的引物+其他必要酶及体系,这里我们假设你准备了四根管子,目前加入的原料均为上述材料,没有不同。

  2. 在加入试剂后,准备好合适的条件,DNA会开始解旋合成,因为DNA合成的随机性,并不能保证四根管子DNA合成的进度是同步的,甚至不能保证一根管子中的DNA合成是同步的

  3. 当合成反应进行一段时间后(注意不能是反应完成),分别向四根管子加入四种不同的ddNTP终止反应。此时,不同的四根管子,无论其中的DNA合成进行到那一步,其尾端的碱基我们都可以知道

  4. 然后将四个管子中的DNA半成品置入高精度电泳仪以判断他们的序列长度,然后我们就可以依靠序列的长度和其末端的碱基类型将其串连起来推导出原来的模板链序列了。

以上就是sanger测序的基本原理,从其测序原理上来看,sanger测序有这么几个问题:

  1. 测序需要自己合成引物,只能检测已知的基因。
  2. 测序通量较低
  3. 但是sanger测序可以一次性测出较长的序列,这是二代测序所不具备的

2. 二代测序

二代测序主要是针对sanger测序通量低。以及需要自己加引物,只能检测已知基因的这两个问题进行优化。二代测序通过一个方式解决了上述两个问题:将待测的基因序列接上自己设计的引物,这样不同的基因的引物会变为相同的引物。在进行PCR扩增等操作时,不需要对某个基因进行引物的定制。这一个过程就被称为基因文库构建。你可以通过这个视频来清楚的了解高通量测序的原理。下面是我自己的理解

因为DNA在复制时会出现随机错误的特性,目前的二代测序能保证高精度的检测长度大约是150bp,但是我们的基因,或者说编码基因往往不止150bp。甚至一些mRNA反转录出的cDNA的长度也超出了二代测序的最大精度。所以在进行二代测序前需要对检测的基因进行打断。下图描述了这一过程,将DNA或者cDNA打断为一些300-500bp的小片段。因为使用一些内切酶进行打断的,会出现两端不齐的问题,通过互补使其补齐。然后在尾部加上A-tailing是为了方便我们自己设计的引物可以接上序列,换言之A-tailing是为了让我们向序列中加入”接头“,这个”接头“后面会具体介绍到,其实就是包含引物和标签等内容的一小段小序列。

下面这张图就是接头序列的具体结构。

这些小片段接上接头后,我们的文库构建算是完成了。而这些小片段可以简单理解为read。一般来说,高通量测序检测的是mRNA。那么某一基因的read越多,那么就说明mRNA越多,基因的表达越强。这些read的数量就是高通量测序中的count数。显然,现在的最大问题是如何使我们可以检测到这些read的序列信息——ATGC排列,以便我们可以将其对比到基因上。在高通量测序中,使用的原理跟sanger测序类似,也是通过荧光的方法检测的。

高通量测序中使用的碱基是一种特殊的碱基,他的结构如下图:在没有加入洗脱剂(巯基试剂)之前,这个碱基是一个含有荧光基团和阻断基团的碱基,荧光基团在碱基上时,不显色。阻断基团在碱基上时,下一个碱基继续连接。因此高通量测序实际上时不断重复 加入四种特殊碱基延续DNA-加入洗脱剂-高精度拍照辩色确定碱基-加入四种特殊碱基延续DNA 这一过程。通过颜色的顺序就可以确定碱基的顺序。

然而这里会有一个问题——单独一个DNA片段的荧光表达量很细微,并不能检测到。因此需要通过桥式PCR进行扩增,将单独的DNA扩增成一群可以进行荧光检测的重复DNA,并且最好做到不同的DNA在不同的位置,且位置固定互不干扰。桥式PRC就可以做到这一点,桥式PCR和正常的PCR有一点不同。正常的PCR会将DNA扩增,而桥式PCR不但可以扩增DNA,而且扩增后的DNA往往会形成一个簇,来自不同模板的DNA会形成不同的簇。如下图。

在高通量测序中的桥式PCR,会通过在测序板上固定一些序列,这些序列的互补序列我们刚刚通过文库构建的步骤添加到了基因片段的两端,这些文库DNA分散在测序板的各个位置作为复制的模板,通过桥式PCR在附近形成一个簇(cluster)。桥式PCR的具体原理如下图。

本质上就是将DNA的一端固定,然后进行正常的PCR步骤,然后DNA会进行指数型的扩增。并且因为DNA固定,且序列较短,故往往会出现在附件进行复制的现象。最后形成一个cluster。高通量测序最后就是通过检测cluster的颜色判断序列信息,而这些cluster是一个read的复制,故也可以将这些cluster理解为read。

这里再重复一下read的序列信息是如何被检测出的,高精度的摄像头会对测序板进行背光拍照,测序板上的每个点表示cluster或者说是read。合成一个碱基 --> 对荧光基团进行洗脱,同时放出阻断基团,开放后续合成部分 --> 荧光发出亮光 --> 摄像头进行拍照,确定碱基 --> 合成下一个碱基。重复这个过程我们就得到了板上所有read的序列信息,且这个read上面是有index信息的,我们可以通过检查index信息对其进行编号等操作。

通过上述的步骤我们得到了一个已知序列信息的read,再重复一次,这些read是基因的片段,是不完整的基因。那么如何得到基因的表达量呢?因为打断是随机的,并且在做基因表达分析是用的往往是RNA反转录的cDNA为原料。因此每个基因被打断后的read数是跟基因的长度和基因的表达量(mRNA的数量)正相关。而mRNA的长度往往是在一个量级的,当两个基因表达量差距比较大时,可以忽略基因长度的影响。所以,我们再回到那个问题,如何获得基因的表达量?——答案是将read比对回基因,根据read的数量表示基因的表达量,这个read数量就是count数。


[1] sanger测序原理

[2] 高通量测序原理视频

高通量测序的数据处理与分析指北(一)_network相关推荐

  1. linux分析mirna,从高通量测序的数据中分析novel miRNA

    做miRNA分析的人都知道,已有的miRNA注释并不完整,同时miRNA的表达有时间和空间的特异性,因此在进行miRNA的测序分析之后,大家往往会对其中的新的miRNA更感兴趣,在这里给大家介绍一款在 ...

  2. 高通量测序技术和序列拼接算法探析

    高通量测序技术和序列拼接算法探析 时间:2019-05-27 来源:计算机科学 作者:周卫星,石海鹤 本文字数:16853字 摘    要: 高通量测序 (High-throughput Sequen ...

  3. 高通量测序技术的原理及各平台优势和实践应用的分析

    高通量测序技术的原理及各平台优势和实践应用的分析 2020.9.01 2060 随着人类基因组计划(human genome project )在2003年顺利完成,基因组测序技术取得了长足的进步,这 ...

  4. 使用 Docker 分析高通量测序数据

    端午节假期,先祝各位 Bio IT 的爱好者们,节日快乐! 做生信的童鞋想要学习 Docker,或者使用 Docker+Pipeline 封装自己的一套数据分析流程,相信一定不能错过胡博强老师在201 ...

  5. 表观调控高通量测序分析培训开课啦

    在广大粉丝的期待下,<生信宝典>联合<宏基因组>在2018年4月14日在北京鼓楼推出<ChIP系列高通量测序分析专题培训>,为大家提供一条走进生信大门的捷径.为同行 ...

  6. MER:1.8万字带你系统了解宏组学实验与分析(高通量测序应用于病原体和害虫诊断——综述与实用性建议)...

    高通量测序应用于病原体和害虫诊断--综述与实用性建议 High‐throughput identification and diagnostics of pathogens and pests: Ov ...

  7. 测序总结,高通量测序名词

    主要来自 :http://mp.weixin.qq.com/s/iTnsYajtHsbieGILGpUYgQ 测序的黄金标准:一代测序了,故称之为黄金测序. 高通量测序最近这几年很火越来越火,但是世界 ...

  8. mysql like反义_[转载]关于小RNA高通量测序数据分析方法的研究

    1 引言 小RNA(small RNAs)主要指长度在18-30nt的一类非编码RNA(ncRNAs),在真核生物中,具有基因表达调控功能的小RNA主要有微小RNA(microRNAs,miRNAs) ...

  9. 基因-高通量测序-变异检测

    基因变异检测 ​ 本周的任务是弄清楚基因检测是什么,本来以为挺简单的,后来发现自己基本的染色体都忘干净了. ​ 基因变异检测看名字就知道是针对基因的,但是基因是什么呢?感觉基因像是一种抽象的概念,那么 ...

最新文章

  1. 管线命令 cut grep
  2. 3.4 SE55表维护生成器
  3. 树莓派备份系统sd卡备份
  4. 清华大学操作系统OS学习(四)——物理内存管理:连续内存分配
  5. centos5.5和6.5中vncservervncviewer最基本配置
  6. C语言练习,求x的y次方的代码
  7. 台电X80H平板安装ubantu
  8. 下载 MIUI任意型号卡刷包/线刷包
  9. html怎么设置展开li,html网页代码常用ul li列表布局标签。
  10. Redis远程连接出现An existing connection was forcibly closed by the remote host.远程主机强制关闭现有连接
  11. 动态切换 web 报表中的统计图类型
  12. 【C++】队列优先队列详解——deque.queue.priority_queue
  13. 苹果屏幕上的小圆点_原来苹果手机内置录屏功能,简单设置就打开,好多人没发现!...
  14. 山东理工大学ACM平台题答案关于C语言 1228 两数组最短距离
  15. 图片数据增强,包括模糊,亮度,裁剪,旋转,平移,镜像 ,python ,LabelImg,LabelMe工具
  16. 提升项目经理的有效路径之一:学习PMP项目管理
  17. Scrum立会报告+燃尽图(Beta阶段第三次)
  18. IDEA的使用大全(快捷键、TomCat、Maven......)
  19. css 优惠券样式大全
  20. 安卓微信中下载apk无反应 微信浏览器无法跳转到apk下载链接方案

热门文章

  1. 0x80073712(0x80073712解决方法)
  2. 教程 - IDEA创建Servlet以及使用Html网页请求Servlet(零基础上手)
  3. 疫情下的商家痛点,如邻带你开创明天
  4. 【HTML5 笔记】基础内容
  5. 计算机基础图文混排笔记,计算机基础知识与基本操作——图文混排课件.doc
  6. 马尔科夫决策过程(Markov Decision Process)
  7. 普通工程师和高级工程师的差别在哪里?如何快速突破?
  8. android:state_pressed是什么意思?
  9. fastboot命令详解
  10. STM32触摸屏按下检测多次解决方案