在单细胞测序数据分析中,对细胞进行准确分类是数据分析的重要基础。在利用聚类算法将细胞进行分组后,需要通过鉴定不同细胞群特异表达的标记基因来注释细胞类型。同时,细胞标记基因在所有细胞类群中的表达模式也能够帮助判断聚类、标准化、批次效应校正等分析结果的准确性,进而进行参数优化。然而,如何准确鉴定不同细胞类型的细胞标记基因 (cell marker gene)仍面临巨大的挑战。

2022年1月19日,中国科学院遗传与发育生物学研究所的王秀杰研究组联合华中科技大学软件学院的裴小兵研究组在生物信息学期刊Briefings in Bioinformatics在线发表了题为Accurate and fast cell marker gene identification with COSG的研究成果,提出了一种基于余弦相似度的方法COSG,该方法能在单细胞RNA测序数据、单细胞ATAC测序数据和空间转录组数据中更准确和快速地鉴定出细胞标记基因。

细胞标记基因鉴定需要准确找出在目标细胞类群中具有表达特异性的基因。目前常用的细胞标记基因鉴定方法通常基于统计分析来鉴定在目标细胞类群和其余细胞之间存在表达差异的基因,并以此作为目标细胞类群的标记基因【1-2】,例如目前最为常用的标记基因鉴定方法Wilcoxon test【3-6】。然而,当比较一种类型的细胞和其余多种类型细胞时,统计学方法选择的差异表达基因有时并不是真正的细胞标记基因,因此无法保证鉴定得到的细胞标记基因在目标类群细胞中存在表达特异性。例如,仅在目标细胞和一小群非目标细胞中高度表达,而在其他细胞中不表达的基因会被基于差异表达分析的统计方法选为目标细胞的标记基因,但这样的基因并不具备细胞类型特异表达性。值得注意的是,基于差异表达分析的统计方法是大多数单细胞数据分析工具包中默认的细胞标记基因鉴定方法,包括常用的Scanpy【7】和Seurat【8】。此外,随着单细胞RNA测序技术的完善和普及,每次实验捕获的细胞数量迅速增加【9】,目前可用的细胞标记基因鉴定方法在处理包含大量细胞的数据时往往存在运算速度慢的问题。随着单细胞ATAC测序技术和空间转录组测序技术的发展,也越来越需要一种能够从不同类型测序数据中鉴定细胞标记基因的通用方法。

为解决上述问题,王秀杰组联合裴小兵组开发了基于余弦相似度的COSG算法,其核心思想是通过比较基因在n维细胞空间的向量夹角大小来描述基因在所有细胞中表达模式的相似性 (图1a)。在细胞空间内,每个维度代表一个细胞,每个基因在n维细胞空间内所对应的向量由n个基 (basis)组成,其中n为总细胞数。基因在每个基上的坐标代表该基因在每个细胞中的表达水平。因此,在n维细胞空间中,两个基因的余弦相似度等价于这两个基因所对应向量的夹角的余弦值。基因在所有细胞上的表达模式越相似,其对应向量的夹角也就越小。如果两个基因有相同的表达模式,那么无论它们的表达丰度是否存在差异,这两个基因所对应的向量之间的夹角为零。因此,余弦相似度的计算不受基因表达丰度值的影响【10】。同时,由于单细胞测序数据具有稀疏性 (包含大量零值)的特点,而余弦相似度对稀疏矩阵的计算非常高效,所以COSG能够更有效地鉴定出目标细胞类群中特异表达的基因。

在模拟数据和真实实验数据集上的评测结果表明,COSG鉴定出的标记基因或标记基因组区域具有更好的细胞类型特异性。同时,COSG具有很好的计算效率和可扩展性,能应用于超过百万细胞的大规模数据集,并在不到2分钟的时间内鉴定出超过100万个细胞的细胞标记基因,表明COSG相比于其他现有方法在准确性计算效率上具有明显优势 (图1)。


图1. COSG的计算流程和评测结果。(a) COSG的计算流程。(b) Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE)和COSG四种方法鉴定得到的RGL细胞前10个标记基因的富集得分比较。(c) Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE)和COSG在三个不同单细胞ATAC测序数据集上的运行时间比较。(d) Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE)和COSG鉴定得到的心脏成纤维细胞的前3个标记基因的表达模式。

除了单细胞RNA测序数据,COSG还能够有效应用于单细胞ATAC测序数据和空间转录组数据。不同数据类型包含不同特点,例如单细胞ATAC测序数据相比于单细胞RNA测序数据有着更低的测序深度,同时包含更多的特征,而空间转录组数据中每个检测位点 (spot)中往往包含属于多个细胞类型的细胞,给细胞类型鉴定带来更大的挑战。实验结果表明,COSG对不同类型数据细胞标记基因鉴定的准确性均优于其他方法 (图2)。


图2. Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE)和COSG在10x Genomics Visium的小鼠大脑空间转录组数据集上细胞标记基因鉴定效果的比较。(a) 10x Genomics Visium空间转录组从成年小鼠脑矢状面后部组织中检测到的3,355个信号位点的聚类结果。不同颜色代表不同的细胞分组。(b) UMAP投影展示(a)中的信号位点。不同颜色代表不同的细胞分组。(c)表达气泡图展示Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE) 和COSG四种方法鉴定得到的每个细胞类型的前3个细胞标记基因在所有细胞分组中的表达模式。

COSG程序的代码已通过GitHub网站开源发布。COSG程序的Python语言版本和R语言版本的代码链接分别为https://github.com/genecell/COSGhttps://github.com/genecell/COSGR,并且可以很方便地整合到常用的单细胞数据分析软件Scanpy【8】和Seurat【9】中。中国科学院遗传与发育生物学研究所王秀杰研究组的博士研究生戴敏为该论文的第一作者,中国科学院遗传与发育生物学研究所王秀杰研究员、华中科技大学软件学院的裴小兵教授为论文的共同通讯作者。

原文链接:https://doi.org/10.1093/bib/bbab579 (点击阅读原文直达)

参考文献

  1. Finak, G., McDavid, A., Yajima, M., Deng, J., Gersuk, V., Shalek, A.K., Slichter, C.K., Miller, H.W., McElrath, M.J., Prlic, M., et al. (2015). MAST: A flexible statistical framework for assessing transcriptional changes and characterizing heterogeneity in single-cell RNA sequencing data. Genome Biol. 16, 1–13.

  2. Soneson, C., and Robinson, M.D. (2018). Bias, robustness and scalability in single-cell differential expression analysis. Nat. Methods 15, 255–261.

  3. Elmentaite, R., Kumasaka, N., Roberts, K., Fleming, A., Dann, E., King, H.W., Kleshchevnikov, V., Dabrowska, M., Pritchard, S., Bolt, L., et al. (2021). Cells of the human intestinal tract mapped across space and time. Nature 597, 250–255.

  4. Litviňuková, M., Talavera-López, C., Maatz, H., Reichart, D., Worth, C.L., Lindberg, E.L., Kanda, M., Polanski, K., Heinig, M., Lee, M., et al. (2020). Cells of the adult human heart. Nature 588, 466–472.

  5. Ranzoni, A.M., Tangherloni, A., Berest, I., Riva, S.G., Myers, B., Strzelecka, P.M., Xu, J., Panada, E., Mohorianu, I., Zaugg, J.B., et al. (2021). Integrative single-cell RNA-Seq and ATAC-Seq analysis of human developmental hematopoiesis. Cell Stem Cell 28, 472-487.

  6. Squair, J.W., Gautier, M., Kathe, C., Anderson, M.A., James, N.D., Hutson, T.H., Hudelle, R., Qaiser, T., Matson, K.J.E., Barraud, Q., et al. (2021). Confronting false discoveries in single-cell differential expression. Nat. Commun. 12, 5692.

  7. Wolf, F.A., Angerer, P., and Theis, F.J. (2018). SCANPY: Large-scale single-cell gene expression data analysis. Genome Biol. 19, 15.

  8. Stuart, T., Butler, A., Hoffman, P., Hafemeister, C., Papalexi, E., Mauck, W.M., Hao, Y., Stoeckius, M., Smibert, P., and Satija, R. (2019). Comprehensive integration of single-cell data. Cell 177, 1888-1902.

  9. Svensson, V., Vento-Tormo, R., and Teichmann, S.A. (2018). Exponential scaling of single-cell RNA-seq in the past decade. Nat. Protoc. 13, 599–604.

  10. Haghverdi, L., Lun, A.T.L., Morgan, M.D., and Marioni, J.C. (2018). Batch effects in single-cell RNA-sequencing data are corrected by matching mutual nearest neighbors. Nat. Biotechnol. 36, 421–427.

往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

Briefings in Bioinformatics | 王秀杰/裴小兵合作开发单细胞组学细胞标记基因鉴定算法COSG...相关推荐

  1. BiB:王秀杰/裴小兵合作开发单细胞组学细胞标记基因鉴定算法COSG

    在单细胞测序数据分析中,对细胞进行准确分类是数据分析的重要基础.在利用聚类算法将细胞进行分组后,需要通过鉴定不同细胞群特异表达的标记基因来注释细胞类型.同时,细胞标记基因在所有细胞类群中的表达模式也能 ...

  2. 中科院遗传发育所王秀杰团队鉴定出10种潜在的2019-nCoV蛋白酶抑制剂

    iNature 从2019年12月开始,在中国发现了一种名为2019-nCoV的新型冠状病毒,可引起严重急性呼吸道症状(SARI)和快速流行.后来,确定了2019-nCoV在人与人之间的接触传播,并且 ...

  3. 突破传统生物3D打印技术局限-王秀杰/Charlie C.L. Wang/刘永进团队合作开发新型生物3D打印体系...

    生物3D打印(3D Bioprinting)技术利用3D打印机将含有细胞和生物材料的"墨水"打印出特定的形状结构,是最有希望实现在体外制造人类器官的新兴技术之一 [1-3].然而, ...

  4. Briefings in Bioinformatics|南开大学药学院林建平教授|用于天然产物靶标预测的机器学习算法的大规模比较

    今天我们来学习南开大学药学院林建平教授(学科方向:计算生物学)2022年发表在Briefings in Bioinformatics上的新作"用于天然产物靶标预测的机器学习算法的大规模比较& ...

  5. 你想要的宏基因组-微生物组知识全在这(2023.01)

    欢迎点击上方蓝色"宏基因组"关注我们! 宏基因组/微生物组是当今世界科研最热门的研究领域之一,为加强宏基因组学技术和成果交流传播,推动全球华人微生物组领域发展,中科院青年科研人员创 ...

  6. 你想要的宏基因组-微生物组知识全在这(2022.12)

    欢迎点击上方蓝色"宏基因组"关注我们! 宏基因组/微生物组是当今世界科研最热门的研究领域之一,为加强宏基因组学技术和成果交流传播,推动全球华人微生物组领域发展,中科院青年科研人员创 ...

  7. 你想要的宏基因组-微生物组知识全在这(2023.3)

    欢迎点击上方蓝色"宏基因组"关注我们! 宏基因组/微生物组是当今世界科研最热门的研究领域之一,为加强宏基因组学技术和成果交流传播,推动全球华人微生物组领域发展,中科院青年科研人员创 ...

  8. 你想要的宏基因组-微生物组知识全在这(2023.7)

    欢迎点击上方蓝色"宏基因组"关注我们! 宏基因组/微生物组是当今世界科研最热门的研究领域之一,为加强宏基因组学技术和成果交流传播,推动全球华人微生物组领域发展,中科院青年科研人员创 ...

  9. 你想要的宏基因组-微生物组知识全在这(2023.4)

    欢迎点击上方蓝色"宏基因组"关注我们! 宏基因组/微生物组是当今世界科研最热门的研究领域之一,为加强宏基因组学技术和成果交流传播,推动全球华人微生物组领域发展,中科院青年科研人员创 ...

最新文章

  1. 经历能让人变得更理智更成熟
  2. 解放程序员双手!GPT-3自动生成SQL语句 | 代码开源
  3. java中channelmessage,MessageStore支持的QueueChannel与Spring Integration Java Config
  4. [转]pycharm的一些快捷键
  5. element-ui upload组件 上传文件类型限制
  6. ih5怎么切换下一个页面_区块链是下一个风口?那PPT该怎么做?
  7. 自己动手写Docker系列 -- 4.1使用busybox创建容器
  8. Spring管理hibernate的事务的方法
  9. Pygame教程(非常详细)
  10. 多线程下载王者荣耀高清壁纸
  11. 访问任何dns都超时_如何使用动态DNS从任何地方轻松访问您的家庭网络
  12. Error: Java exception was raised during method invocation
  13. 我们来用Unity做一个局域网游戏(下)
  14. 拖拽图片在Label上显示
  15. 畜牧养殖APP系统开发源码
  16. Bootstrap 进度条媒体对象和 Well 组件
  17. 2022电赛C题:小车跟踪(方案1+核心代码)
  18. 从零开始的MySQL教程——上
  19. pythonocc 扩展数据_样条在pythonOCC
  20. mysql怎么给数据加序号_MySQL数据库之在mysql中给查询的结果添加序号列

热门文章

  1. 作者:刘峰(1974-),男,中国科学院计算机网络信息中心高级工程师
  2. 组合的输出(洛谷P1157题题解,Java语言描述)
  3. 比较决策的收益(洛谷P2705题题解,Java语言描述)
  4. 【C语言】通过原子操作实现加减乘除操作Ⅱ
  5. ****** 三十三 ******、软设笔记【存储器系统】-主存储器、辅存储器
  6. 发布你的程序包到Nuget
  7. -----------简单排序-------------
  8. 算法研究:插入类排序(简单插入,折半插入,希尔排序)
  9. CSS3中的动画效果记录
  10. Android基础之用Eclipse搭建Android开发环境和创建第一个Android项目(Windows平台)...