大家好!为大家分享本课题组近期发表在Nucleic Acids Research的文章,题目为 “Entropy subspace separation-based clustering for noise reduction (ENCORE) of scRNA-seq data”,文章提出了一种基于表达密度谱的特征选择方法,能够有效进行特征子空间分离完成特征信息和噪音识别,并结合一致性分群策略,设计了一种单细胞转录组分群新算法(ENCORE)。

【背景介绍】

单细胞转录组测序技术使得我们能够捕获单个细胞的转录组信息,为复杂生物问题的研究提供更精细的分析手段。为了更有效地利用单细胞转录组数据、提取细胞异质性信息,我们需要使用高精度和高分辨率的聚类相关算法,因此近年来研究者们已经开发了大量单细胞转录组分群算法。这些算法通常包括归一化、特征选择、降维、距离计算、聚类、分群标记基因识别等关键步骤,新的算法也常是针对以上步骤进行改进。然而相比于其他步骤,特征选择的改进发展较为缓慢。多数算法选择在表达上具有高表达、高变异性的特征(基因或转录本)进行下游分析,该类方法容易受到噪音的干扰而丢失有效特征,导致结果被高表达的特征主导。

【设计思路】

为了解决目前特征选择所存在的问题,ENCORE提出了一种独特的子空间分离策略,用于降噪和特征选择,从而实现单细胞分群的优化。ENCORE的设计基于这样一个假设:在不考虑表达量的情况下,细胞间表达密度谱相似的特征可能携带相似的细胞异质性信息,因此将特征根据密度谱进行子空间分离后,细胞群在这些子空间中可能呈现更清晰的分布。具体过程如图1所示,主要包括子空间分离、子空间内分群、一致性分群三个步骤。首先对特征的表达密度谱进行分群,将对应特征分离到不同的子空间,这些子空间在各个维度上包含相当的异质性信息,因而更有利于提取异质性信息。随后ENCORE通过识别细胞簇来评估子空间的“熵”值,即子空间包含异质性信息的丰富程度。低熵子空间具有清晰的分群信息,细胞的分布规则;高熵子空间不具有清晰的分群信息,细胞的分布随机。接着ENCORE通过对低熵子空间的筛选实现更有效、准确的特征选择,该方法不仅能保留低表达的有效特征,而且对相似异质性特征的分群使得聚类信号更加集中。最后,ENCORE又利用新设计的一致性分群算法,实现了不同子空间分群信息的整合,增强了来自多个低熵子空间的共同信号并保留了各子空间的特有信号。在这种设计框架下,ENCORE可以在不同的单细胞转录组数据集上实现精确的细胞分群、二维可视化以及分群标记基因识别。

图1. ENCORE算法示意图

【数据介绍】

首先我们将ENCORE应用于12个标准数据集和浙大小鼠细胞图谱的大数据集,以评估ENCORE的子空间分离性能以及特征选择、降噪能力。从图2可以看出,无论是小数据集(图2A)还是大数据集(图2B),ENCORE的子空间分离方法均能生成多个具有不同信息量的子空间。其中图1A的子空间2,3,4呈现较规则的细胞群分布,子空间1的细胞群分布则相对不规则;图1B的子空间34和43相较于其余子空间也具有较好的分群信息,说明ENCORE可以识别小数据集(图2A)或大数据集(图2B)的低熵子空间。图3展示了Seurat与ENCORE特征选择的结果比较,ENCORE选取的特征在变异系数和均值上具有更随机的分布,说明其与传统算法在特征选择上存在较大差异。

图2. ENCORE子空间分离效果

图3. ENCORE与Seurat特征选择结果比较

接着,通过与四种广泛应用且高集成性的单细胞分群算法(Seurat, SIMLR, pcaReduce and t-SNE + K-means)进行比较,ENCORE验证了其分群的准确性和普适性。以12个具有已知实验分群标签的标准数据集作为测试数据集,并使用ARI(Adjusted Rand Index)和NMI(Normalized Mutual Information)作为分群准确性指标,两个指标的值越高说明算法预测分群与已知分群标签具有越好的一致性,即说明算法预测分群的准确性越高。如图4A所示,相比于其他算法,在所有数据集上,ENCORE都表现出最高或相当的分群准确性,即使是细胞数较少的数据集,ENCORE仍具有最好的分群准确性。由于这12个数据集来自不同测序平台,具有不同的数据量大小和测序深度,并且使用了不同的归一化方法,而ENCORE都表现出较好的分群准确性,说明ENCORE的分群性能更为稳健。同时,相较于其他算法,ENCORE的可视化结果不仅与聚类结果具有高度的一致性,而且更为清晰、直观(图4B)。

图4. ENCORE与其他算法的准确性及可视化结果比较

最后,为了评估了ENCORE对难分离数据集的信息提取能力,我们使用ENCORE对一个小鼠脂肪祖细胞数据集进行分析(图5)。尽管脂肪祖细胞间存在异质性,但是从单细胞转录组数据中识别清晰的分群和明显的标记基因还是困难的。从结果可以看出,ENCORE能够产生更清晰的细胞分型,并识别更具特异性的亚型标记基因,这些亚型标记基因的表达在热图上也能显示出清晰的模式(图5B)。接着,我们挑选了亚型标记基因Mgp(该基因为ENCORE推导的group 8的最优标志基因),对其功能展开初步探索。我们发现3T3-L1细胞中Mgp基因的过表达并不会影响成脂分化相关基因的表达,但是会显著提高Dio2基因的表达(图5D)。Dio2蛋白与甲状腺素(T4)向三碘甲状腺原氨酸(T3)转化相关。分析显示Mgp能够上调T3浓度,而又有报道显示T3能够刺激Mgp的表达上调,说明T3和Mgp之间存在潜在的正反馈回路(图5E)。这些结果表明,ENCORE能够从复杂的数据集中识别具有生物学意义的标记信息。

图5. ENCORE在小鼠脂肪祖细胞分群中的应用

【总结】

在这篇文章中,本课题组和复旦大学李晋课题组开发了一种新型scRNA-seq分析方法ENCORE。基于相似表达密度谱的特征具有相似异质性信息的假设,ENCORE将特征分到不同的熵子空间中,基于子空间内分群信息量来实现高效的特征选择,从而提高细胞分群的准确性。此外,在ENCORE中提出了一种新的一致性聚类方法,以增强来自多个子空间的共有信号,同时保留各子空间的特有信号。与已有算法相比, ENCORE在大多数数据集上具有更优的分群性能、准确的标记识别以及更清晰的可视化效果。对于不同测序平台和归一化处理的数据,ENCORE的性能也更加稳定。ENCORE为单细胞数据的聚类、二维可视化分析提供了新的思路和方法,在细胞异质性研究和识别群体标记方面展现出巨大潜力。

撰稿人:林黎

校稿人:宋佳

原文链接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkaa1157/6030236

不相关子查询的工作方式是_课题组工作|Nucleic Acids Research|基于表达密度谱的特征子空间分离及相关单细胞转录组分群新算法...相关推荐

  1. MySQL—不相关子查询(单行子查询)

    一.什么是子查询? 一条SQL语句含有多个select 举例: 1.查询所有比"CLARK"工资高的员工的信息 select * from emp where sal>(se ...

  2. mysql004子查询.相关子查询.不相关子查询

    子查询:相关子查询,不相关子查询 -- 不相关子查询 -- 一条SQL语句含有多个select,先执行子查询,在执行外部查询.子查询可以独立运行,成为不相关子查询. -- 需求1:查询所有比姓名为&q ...

  3. 相关子查询和不相关子查询

    相关子查询: 比如 select t.id,t.name,t.pass from student t where 80<=(select f.score from fwhere f.id=t.i ...

  4. SQL——相关子查询和不相关子查询

    SQL--相关子查询和不相关子查询 不相关子查询 相关子查询 在SQL中经常使用在"FROM/WHERE"字句中包含一个形如"SELECT-FROM-WHERE" ...

  5. oracle中带有in查询的子查询绑定变量方式

    前情提要: 在sql中我们经常会使用到带有in的子查询,例如:where id in(1,2,3),如果语句在数据库中出现,将会引起数据库的大量硬解析与共享池SQL碎片(简而言之就是影响数据库性能): ...

  6. mysql子查询一般分为几种_子查询一般分为几种

    一.mysql子查询基本知识 子查询就是在原有的查询语句中,嵌入新的查询,来得到我们想要的结果集. 子查询一般分为:where型子查询.from型子查询和exists型子查询. 1.where型子查询 ...

  7. 对校招生培养工作的建议_招生工作总结

    招生工作总结1 幼儿园的招生工作,不仅是幼儿园生存发展的关键,更是关系到全园教职工的生活生存. 我认为更好的做好招生工作,需要全园教职员工的共同努力,这不仅仅是园长的工作. 对于教师来说,应更好的做好 ...

  8. MySQL—不相关子查询(多行子查询)

    [1]查询[部门20中职务同部门10的雇员一样的]雇员信息. select * from emp where deptno=20 and job in (select job from emp whe ...

  9. python炸了找不到工作怎么办信用卡_没有工作怎么办信用卡 老司机教你这么“干”...

    一份稳定的工作和收入是成功申请信用卡的重要条件之一,但是如果你是自由职业者,又或者刚好你需要办信用卡时没有上班,是不是就不能申请信用卡了呢?其实不然,没有工作怎么办信用卡,看看老司机的经验. 1.以卡 ...

最新文章

  1. 关于mtl_transactions_interface表序列
  2. RedisDeskTopManager连接时提示:can't nonnect to redis-server
  3. 2019\National _C_C++_B\1.求2019<X<Y ,使2019*2019,X*X,Y*Y组成等差数列且X+Y最小.
  4. android 电话 快捷键,Android studio开发常用快捷键详解
  5. JS window事件全集解析 (转载)
  6. 小程序短视频项目———上传短视频业务流程简介
  7. 十进制与二进制,八进制,十六进制的转换
  8. 在Ubuntu 16.04 使用命令行安装Nvidia CUDA-9.0以及cudnn7
  9. 用matlab实现灰色预测gm11模型,用MATLAB实现灰色预测GM11模型
  10. Java调优案例分析与实战
  11. # Idea,2.5,软件安装,提示If you already have a 64-bit JDK installed ,defined a JAVA_HOME variable in Compu
  12. msp430是什么?
  13. Android显示——一帧的渲染过程(VSYNC)
  14. RFID固定资产管理系统是如何盘点固定资产的?
  15. STM32cubeIDE使用CCMRAM
  16. 【东哥视觉】做人做事禁忌
  17. JavaScript贷款计算器
  18. MySQL解决幻读详解
  19. MathType如何导入word
  20. 2019掘安杯原题复现

热门文章

  1. Spring集成基础知识
  2. 用于混合Spock 1.x和JUnit 5测试的Maven项目设置
  3. apache camel_Apache Camel中的断路器模式
  4. HTTP缓存与Spring示例
  5. 在即将发布的Camel 2.21版本中改进了使用Apache Camel和ActiveMQ Artemis处理大型消息的功能...
  6. Java命令行界面(第14部分):google-options
  7. 垃圾收集算法,垃圾收集器_弱,弱,最弱,利用专家参考来管理垃圾收集器
  8. Java的内置垃圾收集如何使您的生活更美好(大部分时间)
  9. spring 事件模型_Spring–设计领域模型和服务层
  10. antlr idea 入门_ANTLR:入门