「生信技能树」单细胞数据挖掘_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1pa4y1s76J?p=8

 #5.1 聚类pc.num=1:20#基于PCA数据scRNA <- FindNeighbors(scRNA, dims = pc.num) # dims参数,需要指定哪些pc轴用于分析;这里利用上面的分析,选择20scRNA <- FindClusters(scRNA, resolution = 0.5)table(scRNA@meta.data$seurat_clusters)

这里构建pc.nmu这个数列,相当于选取20个元素进行后续的计算。

Seurat识别细胞类群的原理(FindNeighbors和FindClusters) - 简书众所周知,seurat在降维之后主要依据两个函数来进行细胞分类,这里我们来深入了解一下seurat如何进行细胞分类的。首先我们来看有关分类的两个函数 我们来一一解决其中的问题...https://www.jianshu.com/p/ad6e616db6d6

findneighbors和findclusters是两种计算集合距离的方法,本质是用以判断两个集合的相似性。

dims在这里是选取的细胞数,resolution是分辨率,如果值越高,分的cluster越多,越低则产生的cluster越少。

  # 进行线性降维处理scRNA = RunTSNE(scRNA, dims = pc.num)DimPlot(scRNA, reduction = "tsne",label=T)?RunTSNEp3_1 <- DimPlot(scRNA, reduction = "tsne",label=T) +labs(tag = "E")p3_1

t-SNE

笔记 | 什么是TSNE - 知乎https://zhuanlan.zhihu.com/p/49073961里面有个英文教程,很适合理解t-SNE的基本原理。

本质是通过t分布转化高维数据的相似性信息并将之映射到低维的数据点中。

5.2 marker gene

  #5.2 marker gene#进行差异分析,一般使用标准化数据scRNA <- NormalizeData(scRNA, normalization.method = "LogNormalize")#结果储存在"data"slot里 scRNA@assays$RNA@来查看这个对象中的内容GetAssayData(scRNA,slot="data",assay="RNA")[1:8,1:4]#if test.use is "negbinom", "poisson", or "DESeq2", slot will be set to "counts

这里主要是将每个簇的marker基因筛选出来。

如果是获得的是DESeq2这类的数据,本身其使用的是counts数据,来进行差异分析和聚类。包含一些文库、细胞因子等信息等。

那么这里其实是使用了标准化之后的表达矩阵,因此直接使用了wilcox检验。

 #if test.use is "negbinom", "poisson", or "DESeq2", slot will be set to "countsdiff.wilcox = FindAllMarkers(scRNA)##默认使用wilcox方法挑选差异基因,大概4-5min# 这里有准备好的文件,根据位置可以修改# load("../../tmp/diff.wilcox.Rdata")head(diff.wilcox)dim(diff.wilcox)

得到的这里获得的data.frame就是diff.wilcox应该是每个基因在不同簇之间的差异p值。

基于wilcox进行差异检验获取基因。这里的%>%是管道函数,将前者直接作为后者的第一个元素进行计算。

在all.markers函数中就已经根据筛选要求将这些表达量中的基因筛选了出来。

  library(tidyverse)all.markers = diff.wilcox %>% select(gene, everything()) %>%subset(p_val<0.05 & abs(diff.wilcox$avg_log2FC) > 0.5)#An adjusted P value < 0.05and | log 2 [fold change (FC)] | > 0.5 #were considered the 2 cutoff criteria for identifying marker genes.dim(all.markers)summary(all.markers)

Tip:管道函数

就是把左件的值发送给右件的表达式,并作为右件表达式函数的第一个参数,就是管道函数。

例如:

anscombe_tidy <- anscombe %>%mutate(observation = seq_len(n()))

以上代码等价于:

anscombe_tidy=mutate(anscombe,observation = seq_len(n()))

扩展资料:

1、管道函数的作用

%>%来自dplyr包的管道函数,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存。

符号%>%,这是管道操作,其意思是将%>%左边的对象传递给右边的函数,作为第一个选项的设置(或剩下唯一一个选项的设置)

  top10 = all.markers %>% group_by(cluster) %>% top_n(n = 10, wt = avg_log2FC)# 所有基因先分组,再根据avg_log2FC进行排序。top10top10 = CaseMatch(search = as.vector(top10$gene), match = rownames(scRNA)) top10length(top10)# 检查是否在多个cluster中都是差异基因。length(unique(sort(top10))) p3_2 <- DoHeatmap(scRNA, features = top10, group.by = "seurat_clusters")# 将marker基因差异做个热图看一下每组的分布。p3_2p3_1 | p3_2 #下图

top_n()是取前多少以及后多少的一个函数,可根据tw进行选择所参考的参数。这里要注意dplyr包对该函数有个更新,可能后续会用新的语法。具体用法可以参见?top_n()

casematch()是将case中作为要给vector再在所有的scRNA中进行match,返回的就是match到的值,本例中就是基因名。

相当于再确认一次,在删除RNA中,并筛选相应的基因名,作为vector进入后续的分析和研究中。

而在length(unique(sort()))中就是将之排序后,再将重复的基因去掉,这样就能看有多少个独特的基因被筛选出来。

因为取了10个top基因,因此应该是获得cluster数*top基因数(10)的总的基因数目,进而再去看,去重的话剩多少个基因数目。

最后将marker基因作为差异进行作图,将结果拼图。

P 2.6 拼图,|为并列,/为换行。其余无殊。

【单细胞分析】P2.5、聚类,筛选marker基因,可视化相关推荐

  1. 单细胞基因可视化之热图改造修饰1

    热图不再过多介绍了,参考之前的内容(热图系列大全).单细胞基因可视化中热图也是比较受欢迎的,在分析完每群的marker基因之后,可以挑选显著的gene用seurat自带函数DoHeatmap可视化.当 ...

  2. 单细胞分析可视化工具盘点

    论文阅读 单细胞分析可视化工具盘点 首先:大概知道单细胞分析的十几种格式和可视化分析工具. 第二:输入格式中(下图表绿色标记):csv/txt格式是最常被接受的格式,有8个工具支持.更专业的格式,如h ...

  3. 跟着Cell学单细胞转录组分析(五):单细胞转录组marker基因鉴定及细胞群注释

    书接上回(跟着Cell学单细胞转录组分析(四):单细胞转录组测序UMAP降维聚类).完成数据降维和细胞聚类后,最主要的环节和工作就是确定各个细胞群,明确是什么类型的细胞,正群的细胞定群很关键,涉及到整 ...

  4. 单细胞测序流程(八)单细胞的marker基因转化和​GO富集分析

    系列文章目录 单细胞测序流程(一)简介与数据下载 单细胞测序流程(二)数据整理 单细胞测序流程(三)质控和数据过滤--Seurat包分析,小提琴图和基因离差散点图 单细胞测序流程(四)主成分分析--P ...

  5. 单细胞分析实录(8): 展示marker基因的4种图形(一)

    今天的内容讲讲单细胞文章中经常出现的展示细胞marker的图:tsne/umap图.热图.堆叠小提琴图.气泡图,每个图我都会用两种方法绘制. 使用的数据来自文献:Single-cell transcr ...

  6. 在线绘制富集分析多组气泡图和单细胞分析marker基因矩阵气泡图

    常规的GO或者KEGG通路富集分析结果通常以气泡图的形式展示,然而这个气泡图仅仅是一个比较的结果,如果想在一张图上展示多个比较的结果,就需要用到多组气泡图(图1,左侧). 单细胞RNA-seq分析结果 ...

  7. 单细胞分析实录(9): 展示marker基因的4种图形(二)

    在上一篇中,我已经讲解了展示marker基因的前两种图形,分别是tsne/umap图.热图,感兴趣的读者可以回顾一下.这一节我们继续学习堆叠小提琴图和气泡图. 3. 堆叠小提琴图展示marker基因 ...

  8. 单细胞测序流程(五)t-sne聚类分析和寻找marker基因

    系列文章目录 单细胞测序流程(一)简介与数据下载 单细胞测序流程(二)数据整理 单细胞测序流程(三)质控和数据过滤--Seurat包分析,小提琴图和基因离差散点图 单细胞测序流程(四)主成分分析--P ...

  9. 单细胞分析:marker鉴定(11)

    导读 前面我们已经确定了我们想要的簇,我们可以继续进行标记识别,这将使我们能够验证某些簇的身份并帮助推测任何未知簇的身份. 1. 学习目标 学会确定单个簇的marker 学会在聚类和marker识别间 ...

最新文章

  1. 【iOS UI】iOS 9 GUI 资源分享
  2. 变焦即可判断物体的距离
  3. python【数据结构与算法】并查集引入
  4. tensorflow中的seq2seq例子为什么需要bucket? 有关tensorflow 的sequence2sequence例子,为什么需要用到buckets,rnn不是可以处理任意长度的数据吗
  5. STM32 keil中编译遇到的问题
  6. P7078-[CSP-S2020]贪吃蛇【贪心,队列】
  7. 180页PPT,讲解人工智能技术与产业发展
  8. python中selenium中使用ajax_Selenium测试Ajax程序(转)
  9. sql alwayson群集 registerallprovidersip改为0_前沿观察 | 分布式SQL性能对比
  10. 使用 windows命令和iconv.exe批量转换文件编码
  11. python中的os模块几个常用的方法
  12. 灰度发布--Spring Cloud Gray
  13. oracle季度日均怎么算,求日均值,该如何处理
  14. 征信不好的看过来:征信黑名单能洗白吗?
  15. 逻辑回归阈值_逻辑回归算法
  16. 阴暗的底层阶级版罗密欧与朱丽叶——甲贺忍法帖
  17. 个人住房抵押贷款流程让你的贷款更轻松
  18. 牛客小白月赛5 - A 无关(relationship) (容斥)
  19. Zephyr与Linux线程切换
  20. 2022G3锅炉水处理考题模拟考试平台操作

热门文章

  1. h5 实现扫码二维码及条形码(js多种实现方式)
  2. Vant删除图片Vue版本
  3. Metric评价指标-Embedding Similarity
  4. 利用Lambda表达式从实体集合中筛选出符合条件的实体集合
  5. 人工智能的定义与发展史
  6. 【托福考场考点1】山东大学托福考点详情及考友评价
  7. arduino智能跟随小车
  8. Typora中的emoji图标标签
  9. juniper SRX55 简单配置
  10. 基于高通sdx12平台,简单介绍编译(bitbake)