第三代测序成本偏高是什么原因导致的?

是看了这道题下面的邹捷萌回答:现在基因测序的瓶颈主要在哪里?精度?速度?
在精确度方面第三代测序已经很高了,但目前国内生物实验室的测序还是以二代为主,推测成本可能是主要原因(维基百科:二代Illumina $0.05-0.15 per 1 million bases,三代$0.33-$1.00per 1 million bases),所以暂不考虑其他因素,想知道这样的成本是什么原因呢?

最主要原因是通量低,二代测序一次几十Gb数据量,三代测序(以pacbio为例)一次仅300Mb,而单次运行的成本基本上在一个量级。

所以单碱基成本差了百倍。
如果通量能保证,那错误率高不是问题,每个分子都多测几次总能相互校正过来的,但这个前提是需要牺牲通量。

pacbio如果想要将准确率提升到二代测序平台的水品,那么通量将进一步降低至原来的五分之一以下。

泻药,对三代测序不是很了解,但据说目前的准确度还很低,可能是目前的技术针对单分子信号的检测还不够灵敏,想想也是理所当然的,要检测单个分子水平的反应技术上肯定有很多难点,要攻克这些技术瓶颈自然要投入很高的研发成本,仪器很可能也会用到某些特殊材料也会增加成本,也可能用到特殊的试剂等等都会导致最终测序成本高。

但只要技术一旦成熟,上下游产业链打通,成本都会很快降下来,二代测序包括sanger测序都是这样。
ps:以上纯属个人猜测。。

重要的是reads长度吧?二代因为reads短,拼接不得不需要大量数据,再怎么优化算法最终结果有时候还是靠运气。运气不好gap太多只能抱着一对数据哭了。

作者:Tang Boyun
链接:https://www.zhihu.com/question/25409882/answer/42891213
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

利益相关:是 这话题本想保持中立的,但最后不得不引一些PacBio内部资料来证明一些观点,有倾向性?必然的。这些资料的读者一般是Top Scientist,而非普通大众,所以自行衡量吧。

很多人认识错误,PacBio三代测序最大的死穴是:通量不足。如果通量不是限制因素,那么PacBio是目前最准确的测序方式:错误率可以无限接近罕见突变的发生率(即无法分辨是测序错误还是罕见突变)。因为三代的错误是完全随机发生的,可以靠覆盖度来纠错,而如果系统错误,这是不可纠正的。一图展现区别:

以下这幅图的数据来源:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3443046/figure/F2/

那么为何三代通量不足?技术瓶颈了,这要从三代测序原理说起。PacBio三代测序基本单位叫做SMRT Cell,它是这样的:

实际有效面积,接近成人的大拇指指甲,在这个面积上,均匀分布着15万个小孔。

测序时,当有一个DNA分子落入一个小孔内(0或多个DNA分子,则为无效孔),该小孔能生成有效数据(这里有一个有效小孔比率,Loading率,一般是1/3左右,即5W个小孔)。测序时,每合成(延伸)一个DNA残基时,会释放带荧光标记的磷酸残基。那么连续记录这数万个小孔的荧光信号,再通过机器学习算法,即可将波信号转化成碱基序列,甚至可以获得碱基修饰信息(碱基修饰会改变波的动力学特征)。这个过程里,对聚合酶有特殊要求:1. 速度慢 2.延伸性好 3.准确性高。

那么三代技术瓶颈,到底在哪里?
简单讲,SMRT Cell的密度不是技术瓶颈而是激光光路和感光元件。目前做到的地步是,精确分出15万束激光,射进每个小孔,感光元件可以精确记录每个小孔每次合成时,单个磷酸残基上荧光信号。

目前提高三代的通量,有以下几个途径:

  1. 升级硬件。这个是最直接有效的,直接提升那几个硬件短板的规格。但是,这也是最不可能的。因为升级任何一个短板硬件,都需要整个测序仪的硬件、耗材回炉。以目前PacBio的财报来看,还未实现盈利。与Illumina相反,PacBio在硬件上的利润非常微薄。据业内人士估计,Illumina成本每台估计大约在6~10万美元(零售价直接加0),PacBio的售价略高于Illumina,但成本高好几倍,那个激光光路和感光元件放那里。。。。
  2. 提高Loading率。这个主要难度在建库和上样的优化上。
  3. 提高聚合酶延伸性并保持准确率。这个是目前PacBio(其实背后是某重组酶巨头)主要努力方向。以每Cell 5W条序列记,那么如果平均达到10kb读长,则产出为 5 x 10^8,也就是500M数据。提高到15kb则有750M。

目前在P6C4试剂下,大约每SMRT Cell平均可以做到 600M~1G数据量,个别用户达到2G(这个是DNA抽提和建库优化相当好了)。

下面有评论指出我误导rare/novel variants这块信息,OK,这里给足信息,2012年2月ABGT(PacBio产品2011年推出),有Broad Institute研究院(学界生信第一牛的单位,当然我是这么认为的)的教授开了个讲座:

然后开始详细介绍:
1. 二代如何如何先天不足

2. PacBio的特点

3. PacBio碱基质量与读长无关(PS 这点许多人也认识错误)

4. 在难检出的位点上的性能比较:

5. 这里开始提PacBio主要缺陷了:Reference Bias

7. 那么Reference Bias如何造成的? 当时的Aligner没有针对PacBio的长读长进行特殊优化。

8. 做以上数据时,Broad Institute用的是他们自家的BWA

9 . 我们今天可以知道,真正适合PacBio的Aligner当时并没有被使用 (请参考答案:请问现在三代测序的reads用什么比对? - Tang Boyun 的回答) ,

最后结论,在2012年,PacBio刚上市之初,生信Pipeline还没完善之时,随便提起一把破柴刀,就把Illumina砍了,这真是个悲伤的故事。

上面讲了2012年Broad Institute开始给PacBio背书,那么最新进展(2014、2015)有些啥呢?以下大部分资料摘自2015 ABGT:

二代测序在做外显子组测序时,有一个非常巨大的缺陷,Reads分布不均一,特别在转录起始位点与转录终止位点的具体坐标上,往往有很大偏差。目前比较火热的lncRNA研究,你用二代做的话,很可能得不到精确的转录起始坐标(所以可能的话做下RACE),即你甚至无法好好研究是那个转录因子激活了这个转录本。

我给出数据链接了,不死心的,还可以用“生信方法过滤”去试试看能不能纠正这个bias

PacBio做这个疾病的对比

再来更多疾病,更多基因

不具体列了哈,有一张表:

去年,千年棒子也出来背书了

下面讲一个完整的Story,是关于艾滋病与流行病学的:
1. 测序在病毒研究上面临的挑战。

2. 艾滋病毒的衣壳蛋白对于艾滋疫苗的研究至关重要:

3. 正常人在感染艾滋病毒后,有20%的人群会产生免疫抗体,但是与此同时,病毒也不断地在人体内产生突变,以此逃逸免疫系统的猎杀,最后的结果,往往是人体免疫速度更不上病毒进化速率,终于在整场战役中被拖垮。

4. 该项研究的实验方案,一周内从血样到测序结果,然后连续追踪同一个感染者三年,以此来研究HIV是如何在体内进化的。

5. 分析工具

6. 整个实验周期内,发现的病毒株系谱

7. 不同突变位点在整个株系中随时间的演变,记录着免疫系统与之可歌可泣的战斗历程

最后,要借用某蒲的名言:“科研上只有第一,没有第二”。而在应用上,跟随者只能被领跑者套上专利的紧箍咒。Illumina目前的优势在于成本,科研上老实讲,有点奥特了。从Broad Insitute 2012年种下的种子,现在已经开花结果了。

那么在这种研究前沿上落后了,有什么结果?我这里再爆个料,某常见蔬菜(饭桌、麻辣烫、火锅)已经被国外研究组PacBio测序完毕,但该论文数据却迟迟未发表,因为赞助方(某育种巨头)需要先将有价值的内容审核并设计专利。。。。

先纠正一个观点,基于单分子的高通量测序错误率很高。PacBio是最被看好的平台之一,但是测序过程中 也会引入大量假的小片段插入或者缺失。 回答题主关于成本的问题。由于实验原理的差别,Illumina每一次测序能产出比其他平台多很多的数据, 所以价格低廉。

对比PacBio,Illumina相当于用一块CCD拍flowcell上几百万个荧光点的静态照片, PacBio是实时监控单个DNA聚合酶每一次反应,技术难度相差很大。

选择测序平台成本不是唯一的重点。

测序时间(包括样本处理和数据分析的)时间,准确度,测序长度, 数据量,每次测序成本和平台价格,甚至售后服务都是需要考虑的对象。

综合起来,Illumina做的最好, 所以现在基本垄断了市场。

谢邀。
首先,我给的那张wiki的图是指的Next-generation methods,你可以翻译成下一代基因测序或者新一代基因测序,以下用NGS代替,这个是国外用的比较多的概念,也就是说将测序方法分成基本方法和NGS。而国内貌似是用第一二三代这样区分,事实上按照目前的分类方法,NGS包括了国内所谓的第二和第三代测序方法,简单的说NGS中的454,Illumina,SOLiD是第二代,其他的是第三代。从我所读到的文献来看,第二代的特点是高通量,第三代的特点是单分子测序,以此区分。而NGS的定义是在04年以后新发展的测序技术,也就是说包括正在发展的和未来可能出现的。看到有人回答说纳米孔测序是第四代测序,我以为应该归于第三代。但是测序是向前走的,按目前这个分法必然出现第四代,第五代等等。
好了,吐槽了一大堆分类的问题,下面说说正事。之所以要说这么多有关测序技术分类的闲话是想说题主这个问题中的“第三代测序成本偏高”这个表述是有问题的,目前分在第三代测序方法下的我了解到有五种:Helicos biosciences公司的tSMS( true single molecular sequencing) 技术平台,美国Pacific Biosciences 公司的SMRT ( single molecule real-time) 技术平台; 美国Life Technologies 公司的基于FRET 测序技术和美国Ion Torrent 公司、英国Oxford Nanopore Nechnologies 公司的纳米孔单分子技术。而这五种中并不是所有的方法测序成本都高。
我给题主讲个故事吧,男主角是华某基因,就是那个负责HGP中国部分1%和发布大熊猫基因组的公司,女一是第二代测序Illumina,女二是第三代测序Ion Torrent。男主觉得一个成功的男人背后不是要有一个能干而且不爱花钱的女人么?于是就开始满世界找,找了一大圈最后觉得女一又能干还不瞎花钱,就她了。一开始两人挺合拍,就跟周瑜见着了黄盖一样,但是过了几年之后,男主发现女一开始得瑟起来了,觉得男主离不开她开始要更多的零用钱花。男主不乐意了,我又不是某云哪有那么多钱给你,况且我实现升职加薪,出任总经理,当上CEO的梦想也是要有前期的投资的好不好,两人不欢而散。虽然日子还是得过,但是深知不能在一棵腰果树上吊死的男主已经开始在寻找女一的替代品了,于是找到了女二。男主惊讶的发现女二已经不是当年的女二了,是又漂亮又能干又节约,于是果断签下合同,不过这回多了个心眼,咱先少签一点看看情况。于是女一还是正房,女二成了二房,可以谁又知道正房会不会被二房挤出去呢,更有甚者,出现长江后浪推前浪,一代更比一代浪的情况呢?我想,对于男主这样的一个功利者来说,节约能干就是最大的竞争力了吧。

第三代测序成本偏高是什么原因导致的? 是看了这道题下面的邹捷萌回答:现在基因测序的瓶颈主要在哪里?精度?速度? 在精确度方面第三代测序已经很高了,但目前国内生物实验室的测序还是以二代为主,推测成本可能相关推荐

  1. linux负载很高是什么原因导致的?

    这里要区别CPU负载和CPU利用率,它们是不同的两个概念,但它们的信息可以在同一个top命令中进行显示.CPU利用率显示的是程序在运行期间实时占用的CPU百分比,这是对一个时间段内CPU使用状况的统计 ...

  2. 微信语音能保存多久服务器,微信语音播放失败?可能是这几个原因导致的,看完你就懂了...

    很多朋友在使用手机播放其他好友发送给自己的语音消息时,会出现"语音播放失败"的提示,不知道是什么原因导致的,本期文章就说说导致微信语音播放失败的几个原因,以及可行的解决办法. 一. ...

  3. 什么原因导致芯片短路_血压中的低压高是什么原因导致的?会导致什么疾病?...

    高血压是日常生活中非常常见的疾病之一,甚至很多人将它称之为"不会好的感冒",但是戴医生可以提醒大家,它可没有感冒那么普通.我们人体血压中,不论是低压升高还是高压升高,对人体的危害都 ...

  4. 看看阿里的考核尺度, 阿里人工资高是有原因的

    事情是这样的. 大学同班同学老杨,在今年年初的时候,跳槽去了阿里,是杭州阿里总部某事业板块的HRG,主要负责的是绩效考核和激励这块的工作. 在阿里工作了 3 个多月之后,老杨和我聊起了他在阿里面试的一 ...

  5. 产品思维训练 | 新用户从注册到绑卡流失率很高是什么原因?

    ​本周话题: 现在P2P 平台新客户的拓展需要经过注册.绑卡(含实名认证).充值.交易几个步骤.从数据发现注册到绑卡这一步流失率很高,请分析一下原因? @Bob.王: 好多人记不住卡号,所以注册时不绑 ...

  6. 高嘌呤食物搜索引擎_引发尿高酸常见原因

    引发尿高酸常见原因.尿酸高的出现和很多因素有关,注意这些事项会很好的预防和治疗尿酸高,长期尿酸高会带来巨大的危害,我们很有必要了解尿酸高的原因,从而更加有效的预防和治疗,以下是尿酸高的四个主要原因的介 ...

  7. PHP的CURL报错的排查记录:短连接的成本真的很高啊

    2019独角兽企业重金招聘Python工程师标准>>> 最近在优化接口的时候发现,php的curl调用远程接口的时候出现了大量的这种错误 * Resolving timed out ...

  8. hbase占用内存过高_内存占用率过高怎么办?Win10电脑内存占用率很高原因和解决方法...

    内存占用率过高,是电脑十分常见的电脑故障,出现的现象就是什么软件还没有打开,内存占用了70%以上,甚至是99%,出现电脑明显卡顿的问题.不过想要解决内存占用率高不是简单的事情,因为可能性比较多,可能是 ...

  9. Java程序员工资尤其的高,具体原因是什么呢?

    众多行业中,程序员当然属于高薪职业.无论是国内还是国外,IT行业的程序员.工程师,甚至连码农都要比其他行业的从业者的收入高很多!Java是一种简单的,面向对象的,分布式的,解释型的,健壮安全的,结构中 ...

最新文章

  1. 小程序:js获取验证码时(倒计时模块)
  2. selenium.common.exceptions.SessionNotCreatedException
  3. Catalyst 2950/2955交换机的RSPAN配置
  4. 在阿里,我们这样帮助用户实现业务云原生化迁云
  5. 关于印发《会计电算化管理办法》等规章的通知
  6. 洛谷 U5122 T2-power of 2(费马小定理)
  7. 计划得一步一步实施,题库首先是第一步!
  8. LIS(Longest Increasing Subsequence)最长上升(不下降)子序列
  9. Qt奇淫技巧-使用QSharedMemory方式实现数据跨界面传输
  10. CSS Scan扫描审核复制插件
  11. impdp使用network_link导入
  12. 流行于机器学习竞赛的Boosting,一文讲透足够了
  13. 安卓手机上最好的3个azw3阅读器
  14. 可能这是Redis可视化工具最全的横向评测
  15. 迷宫里抓神兽Java游戏_塞尔达传说荒野之息全神兽迷宫进入方法 四大神兽怎么打?_游侠网...
  16. 2021 编程语言排行榜
  17. PDF转换器可以做到PDF转Office,TXT,HTM,PDF文件;PDF合并拆分,压缩,加密解密!
  18. 查找算法-跳跃表(SkipList)入门及复杂度分析
  19. 【OVS2.5.0源码分析】sFlow实现分析(3)
  20. 在ANSYS workbench中如何对物体局部区域进行网格细密化

热门文章

  1. VBoxManage 命令操作,详细的网络设置命令
  2. ABAP tRFC和qRFC
  3. CyclicBarrier: 循环栅栏
  4. RouterOS(ros)自动更新国内外IP以及端口扫描IP
  5. Java项目:SSH公交路线查询网站系统
  6. 河南联通网通封杀路由器解决办法
  7. 台式机开启WiFi热点 有线网络分享无线网络
  8. Spark论文思想之-基于RDD构建的模型(Shark的来龙去脉)
  9. python数据可视化之Matplotlib
  10. 呼叫中心坐席功能在职场中的应用