单细胞RNA-seq概述

RNA-seq允许以一种高效和具有成本效益的方式对样本中的转录物进行分析。它是00年代末的一项重大突破,此后变得越来越流行,在很大程度上取代了其他转录组分析技术,如微阵列。其成功的部分原因是,RNA-seq允许对样本中的所有转录物进行无偏见的采样,而不是局限于预先确定的转录物集(如微阵列或RT-qPCR)。

通常情况下,RNA-seq被用于由细胞混合物组成的样本,被称为批量RNA-seq,并有许多应用。例如,它可以用来描述健康/疾病、野生型/突变型或对照/治疗样本的组织之间的表达特征。或者在进化研究中,使用不同物种的组织样本的比较转录组学[参考文献]。除了用于转录物定量,它还可以用来寻找和注释新的基因、基因异构体和其他转录物,无论是在模型生物还是非模型生物中。

通常情况下,RNA-seq被用于由细胞混合物组成的样本,被称为批量RNA-seq,并有许多应用。例如,它可以用来描述健康/疾病、野生型/突变型或对照/治疗样本的组织之间的表达特征。或者在进化研究中,使用不同物种的组织样本的比较转录组学[参考文献]。除了用于转录物定量,它还可以用来寻找和注释新的基因、基因异构体和其他转录物,无论是在模型生物还是非模型生物中。

为了克服这一限制,人们开发了新的协议,允许在单细胞水平上应用RNA-seq(scRNA-seq),其首次发表于2009年(Tang等人,2009)。这项技术从2014年左右开始变得更加流行(参考文献),当时新的协议和较低的测序成本使其更容易获得。与批量方法不同,用scRNA-seq我们可以估计每个基因在细胞群中的表达水平分布。

这使我们能够回答新的生物学问题,其中转录组中的细胞特异性变化很重要。例如,发现新的或罕见的细胞类型,确定健康/疾病组织之间不同的细胞组成,或了解发育过程中的细胞分化。这项技术最具代表性的用途之一是建立基因图谱(见下文方框),它提供了生物体内细胞多样性的综合汇编,在健康和基础研究方面有许多应用。

scRNA-seq数据集的范围从每项研究的几百到几百万个细胞不等,并且每年都在增加。目前有几种不同的协议,包括商业的和开放的,每一种都有自己的优点和缺点。我们将在下面的章节中讨论其中的一些方面。

样品制备方案

大体上,一个典型的scRNA-seq协议包括以下步骤(如下图所示):

组织解剖和细胞解离以获得细胞悬浮液。

可以选择细胞(例如根据膜标记、荧光转基因或染色染料)。

捕获单个细胞到单独的反应容器中(例如,井或油滴)。

从每个细胞中提取RNA。

将RNA反转录为更稳定的cDNA。

扩增cDNA(通过体外转录或通过PCR)。

用足够的分子适配体准备测序库。

测序,通常使用成对末端的Illumina协议。

处理原始数据以获得按细胞计算的基因计数矩阵

进行一些下游分析(本课程的重点)。

本课程主要涉及这个工作流程的最后一步,但考虑在此之前的一些步骤也很重要,因为它们对我们得到的数据的属性有影响。

单核RNA-seq

在细胞难以分离的组织或冷冻的组织样本中,可以不分离整个单细胞,而是分离单核。除了分离步骤外,制备单核测序文库的方案与单细胞方案类似。然而,核RNA通常含有较高比例的未加工RNA,更多的被测序的转录本含有内含子。这方面需要在数据处理步骤中加以考虑,我们将在下一章详细介绍。

目前,准备scRNA-seq数据的方案多种多样,每一种都有自己的优势和劣势,我们将在下面谈到。这些方法可以有不同的分类,但最重要的两个方面是细胞捕获或分离和转录物定量。

细胞捕获

用于捕获细胞的策略决定了实验的吞吐量(即我们分离出多少细胞),在测序前如何选择细胞,以及除了转录物测序外还能获得什么样的额外信息。三种最广泛使用的选择是基于微滴板、基于微流控芯片和基于微流控液滴的方法。

微孔板方法依赖于使用移液、显微切割或荧光激活细胞分选(FACS)等方法将细胞分离到板的各个孔中。基于孔的方法的一个优点是,人们可以在制备库之前对细胞进行拍照,提供额外的数据模式。例如,人们可以识别并丢弃受损的细胞,或找到含有双胞胎的孔(有两个或更多细胞的孔)。当使用自动FACS分选时,还可以将细胞大小和任何使用的标签强度等信息与孔的坐标联系起来,从而与下游分析中的单个细胞指数联系起来。这些方法的主要缺点是它们通常是低通量的,每个细胞需要的工作量可能相当大。

微流控芯片平台,如Fluidigm的C1,为捕获细胞和进行文库制备所需的反应提供了一个更完整的系统。因此,它们比基于微孔板的方法提供了更高的产量。通常情况下,微流控平台只能捕获大约10%的细胞,因此,如果要处理罕见的细胞类型或极少量的输入,它们并不适合。还必须注意阵列捕获的细胞尺寸,因为纳米孔是为特定尺寸定制的(因此这可能影响复杂组织中细胞的无偏采样)。此外,该芯片相对昂贵,但由于反应可以在较小的体积内进行,因此可以节省试剂的费用。

微流控油滴方法提供了最高的通量,是目前最流行的方法。它们的工作原理是将单个细胞与一个珠子一起封装在纳升大小的油滴中。该珠子装有酶和构建文库所需的其他成分。特别是,每个珠子都包含一个独特的条形码,它被附在来自该细胞的所有测序读数上。因此,所有的液滴可以汇集在一起,一起测序,随后可以根据这些条形码将读数分配给起源的细胞。液滴平台的文库制备成本相对便宜,约为0.05美元/细胞。相反,测序成本往往成为限制因素,一个典型的实验覆盖率很低,只检测到几千个不同的转录物(Ziegenhain等人,2017)。

荧光激活细胞分选(FACS)可以在任何捕获方法的上游使用,以选择一个细胞亚群。一个常用的方法是用一种染料对细胞进行染色,以区分活细胞和死细胞(例如由于膜破裂),从而使细胞悬浮液中富含有活力的细胞。

转录本定量分析

有两种类型的转录本定量:全长和基于标签的定量。全长协议试图实现整个转录本的统一读数覆盖,而基于标签的协议只捕获5'或3'端。量化方法的选择对数据可用于哪些类型的分析有重要影响。

为单细胞准备全长文库与批量RNA-seq中的做法基本相同(如下图),而且仅限于基于平板的协议,如SMART-seq2。虽然从理论上讲,全长协议应该提供一个均匀的转录本覆盖,但有时在整个基因体的覆盖上会有偏差(如下图所示)。全长协议还允许检测剪接变体,这在其他协议中是很难做到的。

注,上图是:用于Illumina测序的全长RNA库制备。样品被富集为含有poly(A)尾巴的RNA,这避免了对rRNA的测序(代价是也会错过其他非编码RNA)。然后,RNA被分割并反转为更稳定的cDNA,Illumina适配器连接到每个分子,最后进行PCR扩增。在单细胞RNA-seq的情况下,使用具有良好特异性条码的适配器,可以识别属于单个细胞的测序读数。

将测序读数与转录组对齐后,基因体覆盖率的3'偏差的例子。每条线代表一个细胞中所有基因的平均覆盖率。在这个例子中,除了所有细胞的3'偏差外,有三个细胞相对于其他细胞看起来像异常值,应该从下游分析中删除。这些细胞可能是RNA质量较差的细胞,例如,由于退化的原因。

使用基于标签的方案,只对转录本的一个末端(3'或5')进行测序。基于标签的协议的主要优点是它们可以与独特的分子标识符(UMI)相结合,这有助于提高转录物定量的准确性。这种改进的原因与文库制备过程中的PCR扩增步骤有关,该步骤会产生每个分子的几个重复拷贝。由于这种扩增是指数级的,分子在最终文库中的代表性可能是不公平的,导致由于这些PCR重复而高估了它们的表达量。为了解决这个问题,细胞条形码用随机核苷酸序列(UMI)进行唯一标记,因此对单个分子来说是唯一的。这个UMI是测序读数的一部分,然后可以在量化转录本的丰度时通过计算加以考虑。目前大多数scRNA-seq协议是基于标签的,包括流行的基于液滴的10x Chromium协议,如下图所示。基于标签的协议的一个缺点是,由于只限于转录本的一端,它降低了我们将读数与转录本明确对齐的能力,同时也使我们难以区分不同的异构体(Archer等人,2016)。

使用10X Chromium协议的3'库的协议概述。细胞被捕获在含有一个珠子(称为GEMs)的单个油滴中。一个单独的珠子包含具有共同条形码的适配体,但具有不同的独特分子识别器(UMI)序列。一个poly(dT)引物被用来将带有poly-A尾巴的mRNA逆转录成cDNA。然后打破GEMs,用PCR扩增汇集的cDNA(来自所有条码细胞)。最后,cDNA被打碎,另一个Illumina适配器被连接到分子的另一端。最终的文库由一个包含细胞特异性条形码(用于识别来自不同细胞的读数)和分子特异性UMI(用于量化一个基因的表达)的读数组成,而第二个读数包含来自实际cDNA分子的序列,可用于将其与参考转录组对齐。(来源:Chromium Next GEMSingle Cell 3ʹ用户指南)。

基于5'和3'标签的协议之间的区别在于对转录本的哪一端进行测序。尽管3'协议更常用,但许多协议现在允许从任何一端测序(如10x Chromium支持这两端)。5'端测序的优点是我们可以获得有关转录起始位点(TSS)的信息,从而可以探索不同细胞之间是否存在不同的TSS使用。

实验设计

在进行scRNA-seq实验时,需要考虑几个因素。诸如每个细胞的成本,需要多少细胞,或对每个细胞进行多少排序等因素,都可能影响我们对协议的选择。另一方面,必须注意避免由于在不同时间处理的批次而产生的偏差,缺乏足够的复制也可能限制了可以进行的分析类型,从而限制了我们回答一些感兴趣问题的能力。

我应该选择什么协议?

最合适的平台取决于手头的生物问题。例如,如果人们对表征一个异质组织的组成感兴趣,那么基于液滴的方法更合适,因为它允许以一种基本无偏见的方式捕获大量的细胞。另一方面,如果人们对表征一个特定的细胞群感兴趣,而这个细胞群有一个已知的表面标记,那么最好是用FACS富集,然后以较高的测序深度对较少的细胞进行测序。

显然,如果对研究不同的异构体感兴趣,全长的转录物定量将更合适,因为标签协议在这方面的限制更大。相比之下,UMI只能与标签协议一起使用,它们可以改善基因水平的定量。

如果对罕见的细胞类型感兴趣(没有已知的标记),那么就需要对更多的细胞进行测序,这将增加实验的成本。Satija实验室已经开发了一个有用的工具来估计需要测序的细胞数量:https://satijalab.org/howmanycells/。

决定使用哪种方法的另一个方法是依靠专门用于比较不同协议的研究。这些研究的重点是敏感度(每个细胞检测到多少基因)、准确性(例如,与批量RNA-seq相比)以及恢复样品中所有细胞类型的能力(在市售的细胞混合物上测试)等问题。例如,Ding等人2020年的一项研究说明了低通量方法与高通量方法相比具有更高的灵敏度,如10x Chromium(如下图)。另一方面,低通量方法没有捕捉到他们样本中一些比较罕见的细胞类型,导致细胞群的特征不完整。

注,上图是:在外周血单核细胞(PBMCs)的商业混合物中,不同方法的转录物检测灵敏度。该图取自Ding等人,显示了a)每个细胞检测到的不同UMI的数量(对于使用基于标签的转录物定量的方法)和b)不同方法每个细胞检测到的基因数量。图中显示了两个实验复制的结果。

Ziegenhain等人的另一项研究(Ziegenhain et al. 2017)在同一小鼠胚胎干细胞(mESCs)样本上比较了五种不同的协议,得出了类似的结论。最后,Svensson等人(Svensson et al. 2017)的一项研究使用已知浓度的合成转录本(spike-ins)来衡量不同协议的准确性和敏感性。对比广泛的研究,他们也报告了协议之间的实质性差异(如下图)。

随着协议的发展和改进,以及量化技术噪音的新计算方法的出现,未来的研究可能会帮助我们进一步了解不同方法的优势。这些比较研究不仅有助于决定使用哪种协议,而且也有助于开发新的方法,因为基准测试使我们有可能确定哪些策略是最有用的。

除了不同协议之间在产量和灵敏度上的差异,在计划scRNA-seq实验时,成本也可能是一个决定性因素。很难精确估计一个实验的成本,尽管我们指出Satija实验室的这个工具作为一个起点:https://satijalab.org/costpercell/。例如,一些基于液滴的协议,如Drop-seq,比商业替代品如10x Chromium便宜。然而,它们要求实验室配备准备文库的设备,以及训练有素的工作人员和专门的时间(耗费工资)。

诸如细胞散列(Stoeckius等人)的方法可以进一步降低使用当前平台进行测序的成本。这种方法特别包括将寡聚糖标签附着在细胞膜上,允许每次实验加载来自多个样本的更多细胞,之后可以在分析过程中进行解复用。

数据方面的挑战

大量RNA-seq和单细胞RNA-seq之间的主要区别是,每个测序库代表一个单细胞,而不是一个细胞群。因此,在单细胞水平上没有办法进行 "生物复制":每个细胞都是独一无二的,不可能被复制。相反,细胞可以通过它们的相似性进行聚类,然后可以在相似细胞组之间进行比较(正如我们将在后面的课程中看到的)。

单细胞RNA-seq的另一大挑战是,我们每个细胞的起始材料数量非常少。这导致了非常稀疏的数据,其中大多数基因仍未被检测到,因此我们的数据包含许多零。这些可能是由于基因没有在细胞中表达(一个 "真正的 "零),或者基因表达了但我们无法检测到它(一个 "辍学")。这导致了细胞间的差异,这种差异并不总是生物性的,而是由于各细胞间PCR扩增不均和基因 "辍学"(在一个细胞中检测到一个基因,但在另一个细胞中没有(Kharchenko, Silberstein, and Scadden 2014))造成的技术问题。提高转录本捕获效率和减少扩增偏差是解决这些问题的办法,而且仍然是技术研究的活跃领域。然而,正如我们在本课程中所看到的,通过适当的数据规范化,有可能缓解其中的一些问题。

另一个需要考虑的重要方面是批次效应。即使使用不同的技术对相同的材料进行测序,也可以观察到这些影响(如下图),如果没有适当的规范化,可能导致不正确的结论。

处理样本的方式也应避免在实验控制的变量(如一种治疗、一种基因型或一种疾病状态)与准备和测序样本的时间之间产生混淆。例如,如果计划做一个实验,比较来自10个病人的健康和疾病组织,如果每天只能处理10个样本,最好是每天做5个健康的+5个疾病的一起处理,而不是一天准备所有健康的样本,另一天准备所有疾病的样本(图)。另一个考虑是确保组织样本的重复性。例如,当从一个器官采集组织时,从器官的不同部位采集多个样本可能是个好主意。或者考虑收集样本/复制体的时间(由于基因表达可能的昼夜变化)。总之,在进行scRNA-seq时,应考虑到实验设计中所有常见的最佳做法。

关键点

scRNA-seq是研究异质细胞群的理想选择。例如,确定组成一个组织的细胞类型,为不同的细胞类型定义 "转录指纹",研究细胞分化,探索由于疾病或环境因素导致的细胞组成变化,等等。

一个典型的样品制备工作流程包括分离单细胞(或细胞核),将RNA转化为cDNA,准备测序库(Illumina)和测序。

许多单细胞协议已经被开发出来,有些是公开的,有些是商业上提供的。这些协议主要在其产量(每次实验捕获多少细胞)、量化类型(全长或基于标签)和成本方面有所不同。

SMART-seq2是一种流行的低通量方法,提供全长转录物的定量。它非常适用于研究较小的细胞组的更多细节(例如不同的同种异形体使用,低表达转录物的特征)。

10x Chromium是一种流行的高通量方法,使用UMI进行转录本定量(从3'或5'端)。它非常适用于研究高度异质性的组织和大规模的细胞群。

当计划一个实验时,应注意避免由于批次效应造成的混淆,以及确保足够的复制水平来解决感兴趣的问题。

声明:本文是翻译单细胞官方文档,相关链接为:2 Introduction to Single-Cell RNA-seq | Analysis of single cell RNA-seq data

单细胞RNA-seq简介相关推荐

  1. 重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述)

    原文链接: https://www.embopress.org/doi/10.15252/msb.20188746 主编评语 这篇文章最好的地方不只在于推荐了工具,提供了一套分析流程,更在于详细介绍了 ...

  2. 单细胞RNA降维之UMAP

    单细胞RNA降维之UMAP UMAP 首先,UMAP是一种非线性降维的算法,相对于t-SNE,UMAP算法更加快速 该方法的原理是利用流形学和投影技术,达到降维目的 首先计算高维空间中的点之间的距离, ...

  3. Mila唐建团队新作:可迁移、可解释的单细胞RNA测序模型

    [栏目:前沿进展]近日,McGill大学的李岳老师和魁北克人工智能研究所Mila唐建老师团队共同提出了一种高效.易用.可拓展.可迁移.可解释的模型--scETM,用于单细胞RNA测序工作,并于Natu ...

  4. 一文掌握RNA seq,RNA seq课程大汇总

    RNA测序(RNA-seq)在过往十年里逐渐成为全转录组水平分析差异基因表达和研究mRNA差异剪接必不可少的工具.RNA-seq帮助大家对RNA生物学的理解会越来越全面:从转录本在何时何地转录到RNA ...

  5. Nature | 基于单细胞RNA测序绘制人类肺组织分子细胞图谱,成功鉴定多种未知细胞类型...

    单细胞RNA-seq技术已经在绘制器官基因表达谱研究中发挥了关键作用,但目前很难系统地鉴定和定位单个器官中所有分子细胞的类型,并创建完整的分子细胞图谱.近期发表的研究成果中,多个细胞类型特异性标记分子 ...

  6. 对一篇单细胞RNA综述的评述:细胞和基因质控参数的选择

    原文链接: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6072887 摘要 单细胞RNA测序技术的发展加深了我们对于细胞作为功能单元的理解,不仅能基于成 ...

  7. splatter包生成单细胞RNA测序数据

    Splatter是一个模拟单细胞RNA测序计数数据的软件包.它提供了一个简单的界面,用于创建可复制且文档充分的复杂模拟.可以从真实数据估计参数,并提供用于比较真实数据集和模拟数据集的函数. # if ...

  8. 【R语言】Splatter,一个用于简单模拟单细胞RNA测序数据的R包

    Splatter是一个用于模拟单细胞RNA测序数据的R包,本文概述并介绍Splatter的功能 一.参数功能 名称 功能 说明 可以通过splatEstimate函数估计 备注 nGenes -> ...

  9. 一文了解单细胞RNA测序的可视化与统计分析如何更简单高效

    单细胞RNA测序(scRNA-seq)的出现为探索单细胞水平的基因表达谱提供了前所未有的机会.目前,scRNA-seq已成为研究细胞异质性的关键生物学问题(尤其是在肿瘤学和免疫学研究中)的首选.然而, ...

  10. 单细胞RNA测序技术之入门指南

    单细胞RNA测序技术之入门指南 [字体: 大 中 小 ] 时间:2018年09月12日 来源:生物通 编辑推荐: 在这个飞速发展的测序时代,DNA和RNA测序已经逐渐成为"实验室中的家常菜& ...

最新文章

  1. 论文推荐:ReLICv2 ,新的自监督学习能否在ResNet 上超越监督学习?
  2. lucene基本原理
  3. 公众号推荐:Python入门、统计学、推荐系统、机器学习、深度学习、数据分析...
  4. Java垃圾回收(GC)、找垃圾的方式、GC Root、GC停顿、引用、垃圾收集算法、收集器、GC日志、安全点、安全区域
  5. Sublime Text 3 python和Package Control配置方法
  6. Android用Intent和Bundle传list
  7. 损失函数_SRGAN损失函数(目标函数)详解
  8. ASP.NET MVC Controller Overview摘录
  9. C++新特性探究(13.5):右值引用
  10. 回溯2--部分全排列
  11. pycharm windows 如何导入github仓库的项目代码
  12. LogServer日志详解
  13. 科技爱好者周刊(第 179 期):AR 技术的打开方式
  14. qdialog修改标题栏图标_qt – 如何在QDockWidget标题栏中显示图标?
  15. android 请求https请求,Android 实现 HttpClient 请求Https
  16. Cesium模型压平
  17. 【HTML】使用Vscode快速书写HTML
  18. 关于DBF文件格式的详细说明
  19. 系统主数据管理之物料(Item)四 Item的单位(UOM)
  20. 【QT-版本】QT版本选择问题

热门文章

  1. python单词词频字典_怎么用python进行词频统计
  2. Collaborative Filtering--【U2U2I】
  3. 采购与供应链职业人的8大天敌,你占几个
  4. SQL SERVER 2008 R2 下载地址
  5. C语言 字符串的链接
  6. Okta CEO 改口证实第三方账户受陷且影响客户,LAPSUS$扬言发动供应链攻击
  7. 通过Rsync进行3CX备份和录音文件冗余,确保3CX数据安全
  8. MFC操作ini文件方法
  9. 跟踪Spring源码(一)
  10. 用户信息管理系统(Javaweb实践练习项目,附源码)