生物信息学习的正确姿势

NGS系列文章包括NGS基础、在线绘图、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。

今天在讨论群看到有群友提问 单基因GSEA怎么做?。之前也看到过这个概念,但一直不清楚这个是什么含义,一直以为是用单个基因做GSEA。如果之前看过生信宝典的一文掌握GSEA,超详细教程,一定会特别熟悉GSEA的原理和操作流程。当然越是理解,越是想不明白个基因怎么做GSEA。当然如果您不熟悉GSEA,建议先看上一篇文章。

后来群友点拨理解了,不是对单个基因做GSEA,是拿单个基因 (一般是感兴趣的基因)作为分组方式,探索与给定的单个基因相关的 (可以是表达相关,也可以是其它相关)基因富集在哪些调控通路和分子功能。

分组方法有两种,一种是定性分组,一种是定量相关

定性分组

根据感兴趣的单个基因的度量值如表达值进行分组,比如按照该基因表达中位数分组,该基因表达值高于中位数的样品为一组,低于中位数的样品为一组,构建一个cls文件。如下,假如有8个样品,其中4个样品中该基因表达高 (samp1, samp3, samp7, samp8),4个样品中该基因表达低(samp 2 4 5 6),则cls文件如下 (一定注意样本顺序要一致):

8 2 1#gene_high    gene_lowgene_high gene_high gene_high gene_high gene_low gene_low gene_low gene_low

调整后的表达矩阵格式如下 (注意列的对应,high对高的样品。)

Gene samp1 samp3 samp7 samp8 samp2 samp4 samp5 samp6A 4 4 4 4 1 1 1 1B . . . . . . . .C . . . . . . . .

后续的操作就不说了,还是看生信宝典的一文掌握GSEA,超详细教程,看完就都会了。

:也可以按照该基因表达的第一和三四分位数分组,小于第一四分位数的为一组,大于第三四分位数的为另一组。

相关性排序

与前面把样本分组不同,这里样本不进行分组了,而是把感兴趣基因的表达做为样本的一个属性。在做GSEA分析时,其它基因按照与感兴趣基因的表达相关性排序进行后续分析。

这时应该怎么准备cls文件呢?

咱们先以一个时间序列样本的cls文件为例:

  • #numeric为固定写法,第一行,不需要修改

  • #Time名字随便取,这里是时间序列,取名Time#是必须的。

  • 3行是每个样品的处理时间,00小时11小时;每个时间3个重复,所以写了3遍;总共5个时间点,15个样品。

#numeric#Time0 0 0 1 1 1 6 6 6 24 24 24 48 48 48

回到我们这个例子,还是8个样品,分别为samp 1 2 3 4 5 6 7 8,假如感兴趣基因是A,表达矩阵如下:

Gene samp1 samp2 samp3 samp4 samp5 samp6 samp7 samp8A 9 8 7 6 3 4 1 2B . . . . . . . .C . . . . . . . .

这时对应的cls文件这么写(注意一一对应关系)。Aexpr随便起的一个名字,代表A基因的表达。

#numeric#Aexpr9 8 7 6 3 4 1 2

然后导入GSEA就可以分析了。需要注意的是选择合适的Ranking metric,如pearson相关性CosineManhattanEuclidean

基于相关性的GSEA操作展示

直接看动画,数据格式也有展示,GMT文件是自己整理的。这是1我们单细胞和群体转录组课程的一个小环节 (回头把这部分视频拆出来放到腾讯课堂供访问)。

公众号看不了动画,截图两张,点击阅读原文去查看吧。

讨论学习是个很好的方式,欢迎大家有问题发到train@ehbio.com,信息的,问题可重现的,或有意思的开放问题我们都会给予解决,写个推文发出,既方便自己,又方便他人。

当然如果类似转录组怎么分析, 宏基因组怎么分析,这样大的问题还是参加我们的线下培训班或购买网课吧,都在www.ehbio.com/Training

  • 这个只需一步就可做富集分析的网站还未发表就被CNS等引用超过350次

  • 什么,你算出的P-value看上去像齐天大圣变的庙?

  • DESeq2差异基因分析和批次效应移除

  • GO、GSEA富集分析一网打进

  • GSEA富集分析 - 界面操作

  • 无需写代码的高颜值富集分析神器

  • 去东方,最好用的在线GO富集分析工具

  • 没钱买KEGG怎么办?REACTOME开源通路更强大

  • 超简便的国产lncRNA预测工具LGC

  • 一文掌握GSEA,超详细教程

  • UCSC XENA - 集大成者(TCGA, ICGC)

  • ICGC数据库使用

  • TCGA数据库在线使用

  • BROAD开发的TCGA分析平台,强大的下载功能

  • cBioPortal功能强大的TCGA再分析平台

  • 这是数据更新最实时的TCGA网站,功能强大

  • 不懂R,如何进行GEO数据库表达谱的差异分析、富集分析、蛋白互作、可视化?

  • 典型医学设计实验GEO数据分析 (step-by-step) - Limma差异分析、火山图、功能富集

  • 典型医学设计实验GEO数据分析 (step-by-step) - 数据获取到标准化

  • 为什么GEO2R/GEOquery的结果可能是错的?

  • WGCNA分析,简单全面的最新教程

  • psych +igraph:共表达网络构建

  • 一文学会网络分析——Co-occurrence网络图在R中的实现

  • 一文看懂PCA主成分分析

往期精品(点击图片直达文字对应教程)

后台回复“生信宝典福利第一波”或点击

单基因gsea_单基因GSEA怎么做?相关推荐

  1. 单基因gsea_单基因想要简单分析发4分+,你要这样补实验!

    大家好,今天和大家分享的是2020年1月发表在Frontiers in Oncology(IF:4.848)上的一篇文章,作者研究了UBASH3B在前列腺癌中的mRNA和蛋白表达.通过构建lncRNA ...

  2. 单基因gsea_单基因如何干湿结合发5分+泛癌分析

    今天和大家分享的是2020年1月发表在EBioMedicine(IF:5.736)上的一篇文章,作者通过单因素.多因素cox回归分析.KM生存分析等途径建立了TP63亚型的表达对TCGA-膀胱癌(BL ...

  3. 单基因gsea_单基因纯生信分析系列 5+单基因突变新思路1

    各位小伙伴们好呀,虽然马上放长假了,但是今儿也是要认真工作的一天吆!小编今天给大家带来了一篇九月份刚刚发表在EBioMedicine(IF=5.736)杂志有关突变的文章.目前,TP53与KRAS/A ...

  4. 单基因gsea_单基因TCGA联合GEO干湿结合在胃癌中再发4分+

    大家好!今天跟大家分享的是2020年5月发表在Frontiers in Oncology(IF = 4.848)上的文章.文章利用了从TCGA及GEO数据库中搜集的胃癌(Gastric Cancer, ...

  5. 单基因GSEA怎么做?

    今天在讨论群看到有群友提问 单基因GSEA怎么做?.之前也看到过这个概念,但一直不清楚这个单是什么含义,一直以为是用单个基因做GSEA.如果之前看过生信宝典的一文掌握GSEA,超详细教程,一定会特别熟 ...

  6. 单基因gsea_筛到5分的核心基因以后你可以怎么做?

    这一次我们从一些已经发表的文章拆解,我们来看看,你找到了一个核心基因以后,你可以怎么做呢?我们就不说那么多废话了,直接用几篇文章的解读来带着大家领会一下如何去进行下一步的分析. Case1:预后标志物 ...

  7. 单基因gsea_又是神器!基于单基因批量相关性分析的GSEA

    有这样的使用场景么? 1.已经确定研究的基因,但是想探索他潜在的功能,可以通过跟这个基因表达最相关的基因来反推他的功能,这种方法在英语中称为guilt of association,协同犯罪. 2.我 ...

  8. 单基因gsea_【9月11日直播答疑】基于疾病的单基因进行生信分析软件GSEA

    常规的高通量数据分析思路是一种趋势分析.即从几万个基因中,通过逻辑的思路,一步一步的缩小范围,最终找到与疾病关联的关键基因/通路.这也是我们生信分析中比较常见的分析目标--寻找关键靶标基因. 但是,也 ...

  9. 单基因gsea_基于ssGSEA(单样本GSEA)的免疫基因集文章套路

    基于ssGSEA(单样本GSEA)的免疫基因集文章套路 --生信自学网光俊 今天我们给大家介绍下生信自学网的" 基于ssGSEA的免疫基因集文章套路"课程,该课程根据最新发表的5. ...

最新文章

  1. 《数据科学家养成手册》第八章---统计学
  2. Keil中的警告的解决
  3. Pytorch 网络模型的保存与读取
  4. 经典的代码风格-来自微软
  5. 开源数学软件zzllrr Mather小乐数学简介Summary
  6. Homebrew软件包管理器中发现RCE漏洞,小心你的Mac和Linux
  7. 《leetcode》two-sum
  8. POJ 2186 Popular Cows(Tarjan)
  9. ecshop程序结构说明
  10. 手动编译安装mysql-5.5.28a
  11. 什么是Github?
  12. ztree 后台异步加载_zTree异步加载实现
  13. java字符串反转及替换_字符串的反转及替换
  14. Linux Command - alien
  15. safari java插件故障_Safari Flash插件故障怎么办-Safari Flash插件故障解决方法 - 河东软件园...
  16. 影视后期视频制作系统——非编系统
  17. vmsd文件+服务器,VMWARE ESX中利用SnapShot(快照)文件恢复虚拟机数据
  18. 微信分享获得积分 jquery微信分享获得积分 原理
  19. 脉搏波形分析_国家脉搏2020年美国总统大选的推特分析
  20. 房地产行业分销渠道管理系统:促进渠道商内外沟通,提升成交效率

热门文章

  1. Vue路由传递params参数
  2. web前端:4_盒子模型与样式排版(手机壁纸切换)
  3. python中*args的使用
  4. 计算机反复蓝屏问题--ntoskrnl.exe
  5. 机械师曙光16电脑开机自动蓝屏怎么解决?
  6. java基础算法优化解决兔子数量以及拓展
  7. 【Java】编写程序完成一个简易的可以弹奏的钢琴
  8. apache-jmeter:点击可视化界面闪退和中文乱码Failed to write core dump
  9. L1 损失函数和 L2 损失函数
  10. verilog 赋值