生信学习之通路富集一(GO分析):

富集分析的理论知识

富集分析(Enrichment Analysis)是一种广泛应用于生物信息学研究的统计方法,主要用于检验一个基因集合中某些功能或特征的富集程度。富集分析的主要目的是从大量基因数据中找出有生物学意义的模式和功能。根据分析的目标和方法,富集分析可以分为以下几种类型:

基因本体论富集分析(Gene Ontology Enrichment Analysis):这是最常用的富集分析类型,用于检验基因集合中基因本体论(GO)条目的富集情况。这可以帮助研究者了解基因集合中的基因在生物学过程、分子功能和细胞组成方面的共同特征。

通路富集分析(Pathway Enrichment Analysis):这种类型的富集分析主要关注基因在代谢途径和信号传导通路中的作用。通过检测基因集合中通路的富集情况,研究者可以了解这些基因在生物体内的功能和调控机制。通路数据库如KEGG(Kyoto Encyclopedia of Genes and Genomes)和Reactome是进行通路富集分析的常用资源。

基因集富集分析(Gene Set Enrichment Analysis,GSEA):GSEA是一种旨在检测一个基因集合(如差异表达基因)与某些生物学特征(如基因本体论、通路、疾病、表型等)之间的关联的方法。GSEA可以帮助研究者了解基因集合与生物学功能和过程之间的关联,从而揭示潜在的生物学意义。

蛋白质-蛋白质相互作用富集分析(Protein-Protein Interaction Enrichment Analysis):这种类型的富集分析关注蛋白质之间的相互作用,帮助研究者了解基因集合中蛋白质在细胞信号和代谢过程中的功能。

基因表达调控富集分析:这种类型的富集分析关注转录因子、miRNA等调控因子对基因表达的调控作用。通过这种富集分析,研究者可以了解基因表达的调控机制和相互关系。

GO分析的理论知识

基因本体论(Gene Ontology, GO)是一个用于描述基因和基因产品属性的标准术语体系。它提供了一个有组织的方式来表示基因在生物体内的各种角色。基因本体论通常从三个层面对基因进行描述:细胞成分(Cellular Component,CC)、生物学过程(Biological Process,BP)和分子功能(Molecular Function,MF)。

细胞成分(Cellular Component,CC):这个层面描述了基因产物(如蛋白质)在细胞内的定位。例如,它们可能位于细胞核、细胞质、线粒体膜或其他细胞器上。这有助于了解基因产物在细胞内的作用和功能。

生物学过程(Biological Process,BP):这个层面描述了基因参与的生物学过程。这些过程可能包括细胞生长、信号传导、基因表达调控、代谢途径等。通过了解基因参与的生物学过程,我们可以更好地理解生物体的生理功能和疾病发生机制。

分子功能(Molecular Function,MF):这个层面描述了基因产物在分子层面的功能,通常涉及到与其他分子的相互作用或催化生化反应。例如,某个基因产物可能是一个酶,它能够催化某个特定的生化反应;或者它可能是一个结构蛋白,参与细胞骨架的组装和维持。

基因本体论为研究者提供了一个系统的方法来表示和共享关于基因和基因产品在生物体内的功能和过程的知识。这有助于促进基因功能研究的发展,提高研究效率,为疾病治疗和药物研发提供重要信息。

show一些相关的图


GO分析基本原理:

准备基因列表:首先,你需要一个待分析的基因列表,这通常是从实验数据中获得的差异表达基因或与特定条件相关的基因集合。

映射基因到GO条目:然后,需要将基因列表中的每个基因映射到相应的GO条目。这可以通过使用生物信息学工具和数据库(如DAVID、Ensembl、AmiGO等)来实现。

统计富集情况:接下来,需要计算每个GO条目在基因列表中的富集情况。这通常通过比较实际观察到的基因数目与根据背景基因组随机分布预期的基因数目之间的比例来完成。常用的统计方法包括超几何检验、Fisher精确检验和卡方检验等。

多重比较校正:由于GO富集分析涉及到大量假设检验,因此需要进行多重比较校正,以减少假阳性结果。常用的多重比较校正方法包括Bonferroni校正、Benjamini-Hochberg校正(FDR)等。

解释和可视化结果:最后,可以根据富集分析的结果对基因列表进行解释,找出具有生物学意义的功能、过程和分子功能。此外,还可以通过各种可视化工具(如Cytoscape、REVIGO等)将富集结果以图形形式展示,便于理解和交流。

基因本体论分析通过评估基因集合中特定生物学功能、过程或分子功能的富集程度,帮助研究者从基因表达数据中提取生物学意义。这有助于揭示基因在生物学过程和功能方面的关联,从而促进对生物体内的基因调控和作用机制的理解。

GO分析代码

// An highlighted block
degdf <- FindMarkers(scRNA1,ident.1 = "DapiNeg1",ident.2 = "DapiNeg2", logfc.threshold = 0.5,group.by = "orig.ident",ident=1)
degdf <- FindAllMarkers(scRNA1)saveRDS(degdf,"markers.rds")
# degdf<-readRDS("markers.rds")
# BiocManager::install("org.Hs.eg.db")
# BiocManager::install("rlang")
# BiocManager::install("vctrs",force = TRUE)
#
#
#
# install.packages("clusterProfiler")
# install.packages("GOSemSim")
#
#
#
# options(connectionObserver = NULL)
library(org.Hs.eg.db)
library(GOSemSim)library(clusterProfiler)
degs.list=rownames(degdf)
erich.go.BP = enrichGO(gene =degs.list,OrgDb = org.Hs.eg.db,keyType = "SYMBOL",ont = "BP",pvalueCutoff = 0.05,qvalueCutoff = 0.05)


GO项目的创立可以追溯到1998年,其成果和方法已被广泛采用并发表在众多研究论文中。以下是一些关于GO项目的重要出版物:

  1. Ashburner, M., Ball, C.A., Blake, J.A., Botstein, D., Butler, H., Cherry, J.M., Davis, A.P., Dolinski, K., Dwight, S.S., Eppig, J.T., Harris, M.A., Hill, D.P., Issel-Tarver, L., Kasarskis, A., Lewis, S., Matese, J.C., Richardson, J.E., Ringwald, M., Rubin, G.M., & Sherlock, G. (2000). Gene Ontology: tool for the unification of biology. Nature Genetics, 25(1), 25–29. https://doi.org/10.1038/75556

这篇论文是关于基因本体论项目的创立和初步实现的重要文献。作者介绍了项目背景、目标以及三个主要组成部分(细胞组件、生物过程和分子功能)的概念和实现。

  1. The Gene Ontology Consortium. (2017). Expansion of the Gene Ontology knowledgebase and resources. Nucleic Acids Research, 45(D1), D331–D338. https://doi.org/10.1093/nar/gkw1108

这篇论文描述了基因本体论知识库和资源的扩展,包括术语、注释和工具的发展。文章还介绍了GO项目在支持基因功能研究方面的最新进展。
更多生信知识欢迎交流v:coffeeiix(也可接单细胞转录组分析培训)

生信学习之通路富集一(GO分析)相关推荐

  1. 计算机通路的基本概念,【生信学习笔记】KEGG分子通路数据库

    原标题:[生信学习笔记]KEGG分子通路数据库 首先什么是一个通路? 通路可以定义为a series of actions among molecules in a cell,细胞中的分子的一系列的行 ...

  2. 送书 | 知乎阅读300w+的生信学习指南(更新版)

    先送书 在上周的留言送书活动中,恭喜下面这位读者获得书籍"Oracle高性能系统架构实战大全",请及时与生信宝典编辑(shengxinbaodian)联系. 2020过去三分之一了 ...

  3. 生信学习学的是什么?常识!

    生物信息学学的是什么?常识! 学习的是基本生物学概念的常识! 学习的是计算机基础的常识! 学习的是图形解读的常识! 学习的是统计的常识! 拦住生信学习脚步的不是技术有多难,而是有些常识你还不知道. 这 ...

  4. 知乎阅读三百万的生信学习指南

    作为本科学生物,硕博转行生物信息的人,经常会被人问起,为啥学习生物信息了呢?这背后通常会带着一些困惑,生物信息分析好不好学? 生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下 ...

  5. 生信学习——R语言练习题-初级(附详细答案解读)

    题目目录 1. 打开 Rstudio 告诉我它的工作目录. 2. 新建6个向量,基于不同的数据类型.(重点是字符串,数值,逻辑值) 3. 告诉我在你打开的rstudio里面 getwd() 代码运行后 ...

  6. 生信学习——R语言学习总结

    写在前面--经过了四十天断断续续的学习,算是对R语言有了初步的了解.其实使用R语言,无非就是对数据进行处理分析,然后把结果可视化.但是数据的千变万化,还有数以万计的函数.数据格式,使得这个过程变得很复 ...

  7. 【生信学习第一天】DEseq2 差异表达基因计算

    一.介绍 分析来自 RNA-seq 的计数数据的一项基本任务是检测差异表达的基因.计数数据以表格的形式呈现,其中报告了每个样本已分配给每个基因的序列片段的数量.其他检测类型也有类似的数据,包括比较 C ...

  8. 免费生信课程|多组学数据整合分析之转录组和蛋白质组分析

    搜索"基因组Genome",轻松关注不迷路 生科云网址:https://www.bioincloud.tech/ 01 课程简介 多组学技术是结合两种或两种以上组学研究方法,如基因 ...

  9. GO注释(生信学习)

    参考:GO分析学习笔记 (qq.com) 1.富集分析 前景基因:要重点研究的基因集 背景基因:所有的基因集 例:前景基因为对照组与处理组的差异基因 背景基因为对照组与处理组的所有基因 2.GO的构成 ...

最新文章

  1. linux存储实用程序,技术|使用 Linux 实用程序 gPhoto2 备份手机存储
  2. Spring Boot----基础
  3. Nginx使用Location匹配URL进行伪静态
  4. Python机器学习笔记:XgBoost算法(亲测)
  5. lodop打印不显示页码_Excel|13个Excel打印技巧汇总,打印技巧大全
  6. HDU 1207 汉诺塔II (递推)
  7. 位运算简介及实用技巧(二):进阶篇(1)
  8. centos linux 使用无线网卡,CentOS环境下安装无线网卡
  9. 卡常数技巧(未完结)
  10. B站商业化驶入深水区
  11. 医学信息化管理与建设
  12. Scrapy爬虫以及Scrapyd爬虫部署
  13. 对于运维以及运维开发工程师的一些了解
  14. 【Leetcode刷题Python】55. 跳跃游戏
  15. AI在实时音视频互动中应用的 n 种姿势
  16. 如何取消计算机关机,如何取消电脑自动关机
  17. 个人信用卡融资你了解过吗?
  18. 从SOD到OOD(spi_flash模块)
  19. 契约测试(上):什么是契约测试
  20. mysql的teqcher表结构_Mysql之库表操作(胖胖老师)

热门文章

  1. 离线地图瓦片下载 高德地图 谷歌地图 天地图 Mapbox地图 矢量 卫星地图下载
  2. 浏览器本地mysql_浏览器访问本地数据库
  3. 公告:Gear 与 Zenlink 达成战略合作
  4. CSS盒子模型AND浮动[附:常用工具ps]
  5. Maven打包的过程
  6. 【python学习】-matplotlib绘制双坐标柱状图
  7. 常用英语食品词汇- 海产类
  8. 静态链表(学习笔记)
  9. 【Java_项目篇1】--JAVA实现坦克大战游戏--坦克移动+添加敌方坦克(二)
  10. linux中gzip和gunzip命令的用法