今天在讨论群看到有群友提问 单基因GSEA怎么做?。之前也看到过这个概念,但一直不清楚这个是什么含义,一直以为是用单个基因做GSEA。如果之前看过生信宝典的一文掌握GSEA,超详细教程,一定会特别熟悉GSEA的原理和操作流程。当然越是理解,越是想不明白个基因怎么做GSEA。当然如果您不熟悉GSEA,建议先看上一篇文章。

后来群友点拨理解了,不是对单个基因做GSEA,是拿单个基因 (一般是感兴趣的基因)作为分组方式,探索与给定的单个基因相关的 (可以是表达相关,也可以是其它相关)基因富集在哪些调控通路和分子功能。

分组方法有两种,一种是定性分组,一种是定量相关

定性分组

根据感兴趣的单个基因的度量值如表达值进行分组,比如按照该基因表达中位数分组,该基因表达值高于中位数的样品为一组,低于中位数的样品为一组,构建一个cls文件。如下,假如有8个样品,其中4个样品中该基因表达高 (samp1samp3samp7samp8),4个样品中该基因表达低(samp 2 4 5 6),则cls文件如下 (一定注意样本顺序要一致):

8 2 1
#gene_high    gene_low
gene_high gene_high gene_high gene_high gene_low gene_low gene_low gene_low

调整后的表达矩阵格式如下 (注意列的对应,high对高的样品。)

Gene samp1 samp3 samp7 samp8 samp2 samp4 samp5 samp6
A 4 4 4 4 1 1 1 1
B . . . . . . . .C . . . . . . . .

后续的操作就不说了,还是看生信宝典的一文掌握GSEA,超详细教程,看完就都会了。

:也可以按照该基因表达的第一和三四分位数分组,小于第一四分位数的为一组,大于第三四分位数的为另一组。

相关性排序

与前面把样本分组不同,这里样本不进行分组了,而是把感兴趣基因的表达做为样本的一个属性。在做GSEA分析时,其它基因按照与感兴趣基因的表达相关性排序进行后续分析。

这时应该怎么准备cls文件呢?

咱们先以一个时间序列样本的cls文件为例:

  • #numeric为固定写法,第一行,不需要修改

  • #Time名字随便取,这里是时间序列,取名Time#是必须的。

  • 3行是每个样品的处理时间,00小时11小时;每个时间3个重复,所以写了3遍;总共5个时间点,15个样品。

#numeric
#Time
0 0 0 1 1 1 6 6 6 24 24 24 48 48 48

回到我们这个例子,还是8个样品,分别为samp 1 2 3 4 5 6 7 8,假如感兴趣基因是A,表达矩阵如下:

Gene samp1 samp2 samp3 samp4 samp5 samp6 samp7 samp8
A 9 8 7 6 3 4 1 2
B . . . . . . . .
C . . . . . . . .

这时对应的cls文件这么写(注意一一对应关系)。Aexpr随便起的一个名字,代表A基因的表达。

#numeric
#Aexpr
9 8 7 6 3 4 1 2

然后导入GSEA就可以分析了。需要注意的是选择合适的Ranking metric,如pearson相关性CosineManhattan 或Euclidean

基于相关性的GSEA操作展示

直接看动画,数据格式也有展示,GMT文件是自己整理的。这是1我们单细胞和群体转录组课程的一个小环节 (回头把这部分视频拆出来放到腾讯课堂供访问)。

公众号看不了动画,截图两张,点击阅读原文去查看吧。

讨论学习是个很好的方式,欢迎大家有问题发到train@ehbio.com,信息的,问题可重现的,或有意思的开放问题我们都会给予解决,写个推文发出,既方便自己,又方便他人。

当然如果类似转录组怎么分析宏基因组怎么分析,这样大的问题还是参加我们的线下培训班或购买网课吧,都在www.ehbio.com/Training

单基因GSEA怎么做?相关推荐

  1. 单基因gsea_单基因GSEA怎么做?

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.在线绘图.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞 ...

  2. 基因功能不确定?做一下单基因GSEA怎么样?

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.在线绘图.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞 ...

  3. 单基因GSEA,还是基于单基因表达谱分组后的GSEA?

    今天在讨论群看到有群友提问 单基因GSEA怎么做?.之前也看到过这个概念,但一直不清楚这个单是什么含义,一直以为是用单个基因做GSEA.如果之前看过生信宝典的一文掌握GSEA,超详细教程,一定会特别熟 ...

  4. 下载的长数据怎么分开R语言_TCGA数据库单基因gsea作业之COAD-READ

    我前面写过 单基因GSEA分析策略(数据分析免费做活动继续) ,然后马上就碰到了一个求助,复现下面的图表! 发表在Cancer Management and Research的简单数据挖掘杂志:Apo ...

  5. 推荐我们在B站免费的生信入门基础课程|测序原理,GO/GSEA/WGCNA

    点击**阅读原文**直达! 经典升级 | 第 17 期高级转录组分析和R数据可视化火热报名中!!! Nature重磅综述 |关于RNA-seq,你想知道的都在这 RNA-seq最强综述名词解释& ...

  6. 推荐我们在B站免费的转录组课程|测序原理,GO/GSEA/WGCNA

    点击**阅读原文**直达! 高级转录组调控分析和R语言数据可视化第十三期 (线上线下开课) Nature重磅综述 |关于RNA-seq,你想知道的都在这 RNA-seq最强综述名词解释&思维导 ...

  7. 推荐我们在B站免费的转录组课程

    点击**阅读原文**直达! Nature重磅综述 |关于RNA-seq,你想知道的都在这 RNA-seq最强综述名词解释&思维导图|关于RNA-seq,你想知道的都在这(续) Pathview ...

  8. 20W+喜爱的Pathview网页版 | 整合表达谱数据KEGG通路可视化

    Pathview网站简介 网址:https://pathview.uncc.edu/ 前段时间介绍了一个R包 - Pathview.它可以整合表达谱数据并可视化KEGG通路,操作是先自动下载KEGG官 ...

  9. 重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述)

    原文链接: https://www.embopress.org/doi/10.15252/msb.20188746 主编评语 这篇文章最好的地方不只在于推荐了工具,提供了一套分析流程,更在于详细介绍了 ...

最新文章

  1. OpenCV在Linux下的编译安装(Ubuntu )
  2. 双摄就能拍银河拍月亮,还有皮卡丘教你手势识别,这是Pixel 4和谷歌的一箩筐新硬件...
  3. 算法62---最长回文子序列长度(子串)、回文子序列总共个数(子串)【动态规划】...
  4. 嗅探软件和网络测试,决战无线网络 七款浏览器载入速度测试
  5. 算法复习——虚树(消耗战bzoj2286)
  6. syslog可能引起得问题_牙齿经常有问题?可能是这4个坏习惯引起的,要改正
  7. python *args **kargs
  8. Android 自定义锁屏的实现
  9. JS接口安全域名:XXX内容与下载文件不符,请检查文件内容或重新上传原始文件
  10. Delphi好书推荐
  11. 自己电脑中安装黑群辉NAS
  12. Matplotlib中的“plt”和“ax”到底是什么?
  13. js Console 对象 - Kaiqisan
  14. 数据可视化图表之面积折线图
  15. 人工智能AI编程基础(六)
  16. antd vue 多个下拉 联动_antd中select下拉框值为对象选中的问题
  17. 内网渗透思考(实践)
  18. outlook2010查看邮箱服务器,怎么设置Microsoft Outlook2010邮箱
  19. 转: VB.Net 中实现延迟的几种方法分析
  20. 软文写作技巧之三要素

热门文章

  1. 作者:陈维政,男,北京大学博士生。
  2. 【UML】交互建模中交互图允许的消息类型
  3. 如何成为一个Java高薪架构师?
  4. spring cloud服务发现注解之@EnableDiscoveryClient与@EnableEurekaClient 1
  5. HTML 字符实体 参考手册
  6. 使用git恢复未提交的误删数据
  7. 支持高并发的IIS Web服务器常用设置 II
  8. DEV全选多选小技巧
  9. 获取本机IP(考虑多块网卡、虚拟机等复杂情况)
  10. 在谈数据治理和数字化的时候,别忘了数据标准