哈佛大学单细胞课程|笔记汇总 (七)

哈佛大学单细胞课程|笔记汇总 (八)

(九)Single-cell RNA-seq marker identification


  1. 识别每个cluster的markers


  • 可用于识别未知cluster并提高对假定细胞类型的信心

  • 鉴定每个cluster的保守markers



    • 在不止一种条件下有用,可识别在各种条件下保守的细胞类型标记。

  • 特定cluster之间的标记鉴定


    • 对于确定相同细胞类型(即具有相似标记的clusters)之间的基因表达差异很有用


    在Seurat中,对每个cluster进行marker识别是通过FindAllMarkers() 函数进行,需要对该cluster与其他clusters进行比较,将每个cluster中的细胞视为重复样品,并通过某种统计学检验进行差异表达分析(默认方法为Wilcoxon Rank Sum test)。


    • logfc.threshold: 相对于其他clusters平均表达的变化倍数值,取log2。默认值为0.25

      • 如果平均log2FC不满足阈值,则可能会错过只在目标簇中一小部分细胞表达,但不在其他簇中表达的细胞标记。

      • 由于不同细胞类型的代谢输出存在细微差异,可能会返回许多代谢/核糖体基因,这对于区分细胞类型身份没有帮助。

    • min.diff.pct: 某个cluster中表达基因的细胞百分比与其他所有clusters中该表达基因的细胞百分比之间的最小百分比差异。

      • 可能会错过在所有细胞中表达但在特定细胞类型中高度上调的那些细胞标志物。

    • min.pct: 在两个clusters中任一clusters的最少比例细胞中检测到的基因。默认值为0.1

      • 如果将其设置为非常高的值,则可能会导致许多假阴性,原因是并非在所有细胞中都检测到了所有基因(即使它已被表达)。


    ## DO NOT RUN THIS CODE ### Find markers for every cluster compared to all remaining cells, report only the positive ones
    markers <- FindAllMarkers(object = seurat_integrated, only.pos = TRUE,logfc.threshold = 0.25)

    NOTE: This command can quite take long to run, as it is processing each individual cluster against all other cells.


    由于使用的数据集中有不同条件的样本,因此最好的选择是找到保守标记。对应的函数需要在内部按样本组/条件分离出细胞,然后针对单个指定聚类执行差异基因表达测试。针对每种条件计算基因水平的p值,然后使用MetaDE R软件包中的meta-analysis方法跨组进行组合。


    DefaultAssay(seurat_integrated) <- "RNA"

    NOTE: Although the default setting for this function is to fetch data from the “RNA” slot, we encourage you to run this line of code above to be absolutely sure in case the active slot was changed somewhere upstream in your analysis. The raw and normalized counts are stored in this slot, and the functions for finding markers will automatically pull the raw counts.


    FindConservedMarkers() syntax:

    FindConservedMarkers(seurat_integrated,ident.1 = cluster,grouping.var = "sample",only.pos = TRUE,min.diff.pct = 0.25,min.pct = 0.25,logfc.threshold = 0.25)




    cluster0_conserved_markers <- FindConservedMarkers(seurat_integrated,ident.1 = 0,grouping.var = "sample",only.pos = TRUE,logfc.threshold = 0.25)


    • gene: gene symbol

    • condition_p_val: p-value not adjusted for multiple test correction for condition

    • condition_avg_logFC: average log2 fold change for condition. Positive values indicate that the gene is more highly expressed in the cluster.

    • condition_pct.1: percentage of cells where the gene is detected in the cluster for condition

    • condition_pct.2: percentage of cells where the gene is detected on average in the other clusters for condition

    • condition_p_val_adj: adjusted p-value for condition, based on bonferroni correction using all genes in the dataset, used to determine significance

    • max_pval: largest p value of p value calculated by each group/condition

    • minimump_p_val: combined p value

    NOTE: Since each cell is being treated as a replicate this will result in inflated p-values within each group! A gene may have an incredibly low p-value < 1e-50 but that doesn’t translate as a highly reliable marker gene.

    当查看输出结果时,建议寻找pct.1pct.2之间表达差异较大且倍数变化较大的高变基因。例如,如果pct.1 = 0.90并且pct.2 = 0.80,则结果可能不会像marker那样令人兴奋。当pct.2 = 0.1时,较大的差异将更具说服力。而是否大多数表达标记的细胞都在感兴趣的cluster中,这一点是最让人感兴趣的。如果pct.1较低,例如0.3,则结果可能不会那么有趣了。



    annotations <- read.csv("data/annotation.csv")

    NOTE: If you are interested in knowing how we obtained this annotation file, take a look at the linked materials(https://github.com/hbctraining/scRNA-seq/blob/master/lessons/fetching_annotations.md).


    # Combine markers with gene descriptions
    cluster0_ann_markers <- cluster0_conserved_markers %>% rownames_to_column(var="gene") %>% left_join(y = unique(annotations[, c("gene_name", "description")]),by = c("gene" = "gene_name"))View(cluster0_ann_markers)



    1. Run the FindConservedMarkers() function

    2. Transfer row names to a column using rownames_to_column() function

    3. Merge in annotations

    4. Create the column of cluster IDs using the cbind() function

    # Create function to get conserved markers for any given cluster
    get_conserved <- function(cluster){FindConservedMarkers(seurat_integrated,ident.1 = cluster,grouping.var = "sample",only.pos = TRUE) %>%rownames_to_column(var = "gene") %>%left_join(y = unique(annotations[, c("gene_name", "description")]),by = c("gene" = "gene_name")) %>%cbind(cluster_id = cluster, .)}


    map family syntax:

    map_dfr(inputs_to_function, name_of_function)

    现在使用这个函数找到之前未识别细胞类型的簇(cluster7 and cluster 20)的保守基因。

    # Iterate function across desired clusters
    conserved_markers <- map_dfr(c(7,20), get_conserved)

    Finding markers for all clustersFor your data, you may want to run this function on all clusters, in which case you could input 0:20 instead of c(7,20); however, it would take quite a while to run. Also, it is possible that when you run this function on all clusters, in some cases you will have clusters that do not have enough cells for a particular group - and your function will fail. For these clusters you will need to use FindAllMarkers().

    评估marker genes


    # Extract top 10 markers per cluster
    top10 <- conserved_markers %>% mutate(avg_fc = (ctrl_avg_logFC + stim_avg_logFC) /2) %>% group_by(cluster_id) %>% top_n(n = 10, wt = avg_fc)# Visualize top 10 markers per cluster

    我们发现cluster 7出现了许多热休克和DNA损伤基因。基于这些标记,cluster 7可能是应激或垂死的细胞。但当我们更详细地研究这些细胞的质量指标(即mitoRationUMI)后,我们发现看不到支持该结论的实际数据。同时如果我们更仔细地观察标记基因列表,我们还会发现一些与T细胞相关的基因和激活标记基因,则cluster 7可能是活化的(细胞毒性)T细胞。而且已经有了广泛的研究支持热休克蛋白与反应性T细胞在慢性炎症中诱导抗炎细胞因子的结合。因此在这个cluster中,我们需要对免疫细胞有更深入的了解,才能真正弄清结果并得出最终结论。

    cluster 20中我们并没有看见某个主题功能的基因富集,然后作者在 pct.1 vs. pct.2 发现一个基因TPSB2,它在cluster 20 中高表达,在其他的clusters中表达水平较低。此时我们谷歌这个基因会得到网站GeneCards ebsite(https://www.genecards.org/cgi-bin/carddisp.pl?gene=TPSB2&keywords=TPSB2):

    “Beta tryptases appear to be the main isoenzymes expressed in mast cells, whereas in basophils, alpha-tryptases predominate. Tryptases have been implicated as mediators in the pathogenesis of asthma and other allergic and inflammatory disorders.”

    因此,cluster 20可能代表肥大细胞。肥大细胞既是免疫系统的重要细胞,也是造血细胞系的重要细胞。研究发现,肥大细胞明显富含丝氨酸蛋白酶,例如TPSAB1TPSB2,两者均出现在我们的保守marker中。另一个不是丝氨酸蛋白酶的基因,而是已知的肥大细胞特异性基因,出现在我们的基因列表中的是FCER1A(编码IgE受体的亚基)。此外,我们看到GATA1GATA2出现在我们的列表中,它们不是肥大细胞标记基因,但是在肥大细胞中大量表达,并且是调节各种肥大细胞特异性基因的已知转录因子(Cell重磅综述:关于人类转录因子,你想知道的都在这)。

    marker 基因可视化

    我们以cluster 20的marker基因为例:

    # Plot interesting marker gene expression for cluster 20
    FeaturePlot(object = seurat_integrated, features = c("TPSAB1", "TPSB2", "FCER1A", "GATA1", "GATA2"),sort.cell = TRUE,min.cutoff = 'q10', label = TRUE,repel = TRUE)


    Violin plots are similar to box plots, except that they also show the probability density of the data at different values, usually smoothed by a kernel density estimator. A violin plot is more informative than a plain box plot. While a box plot only shows summary statistics such as mean/median and interquartile ranges, the violin plot shows the full distribution of the data. The difference is particularly useful when the data distribution is multimodal (more than one peak). In this case a violin plot shows the presence of different peaks, their position and relative amplitude.

    # Vln plot - cluster 20
    VlnPlot(object = seurat_integrated, features = c("TPSAB1", "TPSB2", "FCER1A", "GATA1", "GATA2"))



    关于分析的最后一组问题涉及与相同细胞类型相对应的cluster是否具有生物学上有意义的差异。有时返回的标记列表不能充分分隔某些cluster。比如我们先期已经知道clusters 0, 2, 4, 10, 和18均为CD4+ T cells,那么他们之间是否具有一定的生物学差异呢?FindMarkers() 函数可以对两组clusters进行对比分析,我们以cluster 2为例:

    # Determine differentiating markers for CD4+ T cell
    cd4_tcells <- FindMarkers(seurat_integrated,ident.1 = 2,ident.2 = c(0,4,10,18))                  # Add gene symbols to the DE table
    cd4_tcells <- cd4_tcells %>%rownames_to_column(var = "gene") %>%left_join(y = unique(annotations[, c("gene_name", "description")]),by = c("gene" = "gene_name"))# Reorder columns and sort by padj
    cd4_tcells <- cd4_tcells[, c(1, 3:5,2,6:7)]cd4_tcells <- cd4_tcells %>%dplyr::arrange(p_val_adj) # View data


    # Plot gene markers of activated and naive/memory T cells
    FeaturePlot(seurat_integrated, reduction = "umap", features = c("CREM", "CD69", "CCR7", "SELL"),label = TRUE, sort.cell = TRUE,min.cutoff = 'q10',repel = TRUE)

    根据这些图,cluster 0和2确实是幼稚T细胞。但是很难分辨是否是激活的T细胞。cluster 4和18可以说是活化的T细胞,但CD69的表达不如CREM明显。之后我们将其标记为幼稚T细胞,并且将其余的clusters标记为CD4 + T细胞



    # Rename all identities
    seurat_integrated <- RenameIdents(object = seurat_integrated, "0" = "Naive or memory CD4+ T cells","1" = "CD14+ monocytes","2" = "Naive or memory CD4+ T cells","3" = "CD14+ monocytes","4" = "CD4+ T cells","5" = "CD8+ T cells","6" = "B cells","7" = "Stressed cells / Activated T cells","8" = "NK cells","9" = "FCGR3A+ monocytes","10" = "CD4+ T cells","11" = "B cells","12" = "NK cells","13" = "CD8+ T cells","14" = "CD14+ monocytes","15" = "Conventional dendritic cells","16" = "Megakaryocytes","17" = "B cells", "18" = "CD4+ T cells", "19" = "Plasmacytoid dendritic cells", "20" = "Mast cells")# Plot the UMAP
    DimPlot(object = seurat_integrated, reduction = "umap", label = TRUE,label.size = 3,repel = TRUE)


    # Save final R object
    write_rds(seurat_integrated,path = "results/seurat_labelled.rds")


    • 通过实验验证识别出细胞类型的有趣marker。

    • ctrlstim组之间进行差异表达分析

      • 要进行此分析,必须进行生物学复制,并且还要有其他材料可以帮助完成此分析(https://github.com/hbctraining/scRNA-seq/blob/master/lessons/pseudobulk_DESeq2_scrnaseq.md)。

    • 如果试图确定细胞类型或细胞状态之间的进程,可以执行轨迹分析或谱系追踪。


      • 分化过程;

      • 随着时间的表达变化;

      • 细胞状态改变时的表达变化。



哈佛大学单细胞课程|笔记汇总 (九)相关推荐

  1. 哈佛大学单细胞课程|笔记汇总(1-9)

    哈佛大学单细胞课程|笔记汇总 为什么做单细胞? 如何得到单细胞原始数据并转换成分析需要的矩阵格式 质控前的数据准备 质控 归一化和主成分分析 聚类分析与可视化 marker识别与注释 单细胞转录组测序 ...

  2. 哈佛大学单细胞课程|笔记汇总 (八)

    哈佛大学单细胞课程|笔记汇总 (七) 哈佛大学刘小乐教授讲授的计算生物学和生物信息学导论 (2020 视频+资料) (八)Single-cell RNA-seq clustering analysis ...

  3. 哈佛大学单细胞课程|笔记汇总 (七)

    哈佛大学单细胞课程|笔记汇总 (六) 哈佛大学单细胞课程|笔记汇总 (五) (七)Single-cell RNA-seq clustering analysis-- graph-based clust ...

  4. 哈佛大学单细胞课程|笔记汇总 (六)

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.在线绘图.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞 ...

  5. 哈佛大学单细胞课程|笔记汇总 (五)

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.在线绘图.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞 ...

  6. 哈佛大学单细胞课程|笔记汇总 (三)

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.在线绘图.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞 ...

  7. 哈佛大学单细胞课程|笔记汇总 (二)

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析  ...

  8. 【CS231n】斯坦福大学李飞飞视觉识别课程笔记(九):最优化笔记(上)

    [CS231n]斯坦福大学李飞飞视觉识别课程笔记 由官方授权的CS231n课程笔记翻译知乎专栏--智能单元,比较详细地翻译了课程笔记,我这里就是参考和总结. [CS231n]斯坦福大学李飞飞视觉识别课 ...

  9. 送书 | 哈佛大学单细胞课程:笔记汇总前篇

    经典赏析 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析 (重磅综述:三 ...


  1. AdvStringGrid 垂直居中 、水平居中
  2. 移动端H5页面注意事项
  3. 2015年 第6届 蓝桥杯 Java B组 省赛解析及总结
  4. 恢复qsecofr密码
  5. C++:21---仿函数
  6. java jsp session_JSP中Session的使用
  7. php 关于日期的知识总结
  8. Vue 方法与事件处理器
  9. Pycharm TensorFolw配置
  10. Java通过 p12 建立ssl链接
  11. python import from区别,python中import与from方法总结
  12. pandorabox 潘多拉固件路由器作为无线打印机服务器记录
  13. c语言创意作业蜂鸣器,蜂鸣器c语言程序_c语言编写蜂鸣器发声
  14. 如何管理项目成本:工时管理
  15. 给仍在「 选品 」的跨境卖家提个醒!
  16. 现代化蔬菜大棚采用什么和计算机自动控制,温室大棚自动控制系统设计开题报告.doc...
  17. 机器学习-Sklearn-01(决策树)
  18. mindspore 1.3.0版本GPU环境下源码编译的正式工作——完整的编译过程
  19. 避免使用隐式类型转换
  20. php做宿舍门禁管理系统项目首选公司,宿舍人脸识别门禁系统,校园宿舍管理系统...


  1. HTML基础篇(一)
  2. Chkconfig 作用与原理小结
  3. 冒泡排序算法 Java 实现过程及详解
  4. 讲课系列——评价政策模型
  5. [附源码]JAVA+ssm基于远程协作的汽车故障诊断系统(程序+Lw)
  6. 成为一名数据分析师的新手指导(转)
  7. 生成mbn以及ap测编译mbn
  8. 编译trustzone提示“SConsEnvironmentError: No tool named ‘mbn_tools‘: not a Zip file”
  9. 【密码学篇】GM密码行业标准下载方法
  10. openfire java_C#连接基于Java开发IM——Openfire