GO富集介绍

每个基因都会对应有一个或多个GO term(也就是GO功能)。

富集涉及到两个概念:前景基因和背景基因。前景基因就是你关注的要重点研究的基因集,背景基因就是所有的基因集。比如做两个样本对照组和处理组的转录组测序,前景基因就是对照组vs处理组的差异基因,背景基因就是这两组样本的所有表达基因。再比如,我想知道与整个广东省相比,深圳市的大学生是不是显著更多(“大学生”就相当于深圳市民的其中一个GO term)。那么前景就是深圳市的人口,背景就是广东省的人口,每个个体都会有一个标签(如大学生、中学生、小学生等)。

具体介绍:

Gene Ontology分为分子功能,生物过程和细胞组成三个部分。蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对应到Term,即功能类别或者细胞定位。这也是GO富集的一个基础。

概念明晰:

功能富集需要有一个参考数据集,通过该项分析可以找出在统计上显著富集的GO Term。该功能或者定位有可能与研究的目的有关。

GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成,往往是在GO的第二层次。此外也有研究者挑选一些Term,而后统计直接对应到该Term的基因或蛋白数。结果一般以柱状图或者饼图表

为什么做基因富集分析?

我们在得到相关基因的表达后,做基因差异分析得到了好多差异基因(p值小的,也就是差异很显著的基因),做后续研究时不可能将所有差异基因都拿来做实验验证或者拿出来说明问题,这时候就需要挑选了,那怎么挑选呢?或者说拿什么标准来衡量我挑选的基因是否可信,有一个统一的挑选标准吗?

这就是富集分析需要做的,能够给出的结果。

富集分析一般包括以下步骤:

1.GO分析

根据挑选出的差异基因,计算这些差异基因同GO 分类中某(几)个特定的分支的超几何分布关系,GO 分析会对每个有差异基因存在的GO 返回一个p-value,小的p 值表示差异基因在该GO 中出现了富集。

GO 分析对实验结果有提示的作用,通过差异基因的GO 分析,可以找到富集差异基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。

2.Pathway分析

根据挑选出的差异基因,计算这些差异基因同Pathway 的超几何分布关系,Pathway 分析会对每个有差异基因存在的pathway 返回一个p-value,小的p 值表示差异基因在该pathway 中出现了富集。

pathway 分析对实验结果有提示的作用,通过差异基因的Pathway 分析,可以找到富集差异基因的Pathway 条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。与GO 分析不同,pathway 分析的结果更显得间接,这是因为,pathway 是蛋白质之间的相互作用,pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变而引起。而通过芯片结果得到的是编码这些蛋白质的mRNA 表达量的变化。从mRNA 到蛋白表达还要经过microRNA 调控,翻译调控,翻译后修饰(如糖基化,磷酸化),蛋白运输等一系列的调控过程,mRNA 表达量和蛋白表达量之间往往不具有线性关系,因此mRNA 的改变不一定意味着蛋白表达量的改变。

同时也应注意到,在某些pathway 中,如EGF/EGFR 通路,细胞可以在维持蛋白量不变的情况下,通过蛋白磷酸化程度的改变(调节蛋白的活性)来调节这条通路。所以芯片数据pathway 分析的结果需要有后期蛋白质功能实验的支持,如Western blot/ELISA,IHC(免疫组化),over expression(过表达),RNAi(RNA 干扰),knockout(基因敲除),trans gene(转基因)等。

3.基因网络分析

目的:根据文献,数据库和已知的pathway 寻找基因编码的蛋白之间的相互关系(不超过1000 个基因)。

GO数据的分析

GO官网的Term enrichment services提供丰富的GO terms分析,可以帮助研究者找到所提交的基因集中是否具有共同的GO术语或者有共同的上级GO术语(某些基因都在某个GO术语子集里),以帮助发现哪些输入基因可能具有某些共同特点(比如说都在某个催化反应中起作用,都是某类细胞器的组成成分,都在某个通路里执行功能等)。

当然,也许我们发现了(获得了)一些基因,想知道他在某一个物种里在哪些部分发挥功能,他在GO术语库中归属于哪一个目录层次,这时GO富集就起作用了。

到哪里找呢?

打开GO的官网tools菜单栏里边选择对应的工具即可,如下图所示:

640.jpg

实例展示

以下为实例展示GO数据库自带富集功能,以具体感觉富集的含义:

下面以一份蛋白质ID集为例,命名为protein.txt,格式为每行一个蛋白质ID,

分别使用GO官网提供的两个在线分析工具(下图蓝线)展示

740.jpg

展示一:GO slimmer

设置如下:

840.jpg

上述设置你要研究的目标基因或基因产物集(protein.txt),基因ID的格式为UniProtKB,要研究的GO参考集(背景集)是宏基因GO条目,提交,等待结果。

结果展示:

940.jpg

生物过程、细胞组分或者分子功能三大类里的GO术语选一个,

选择后具体信息如下:

术语信息:

640.jpg

本术语相关的术语:

640 (1).jpg

可以用不同形式展示,选择图表展示(graph view)如下:

740.jpg

在QuickGO里边查看:

子术语(Child Terms),注释等条目也都会一一列出来,更多信息各位可以自己去试试,在此以祖先图表(Ancestor Chart)为例展示:

可以看到祖先图表(Ancestor Chart)一栏,点选表格选项(chart options)可以看到更详细的图标内容,如下:

90.jpg

局部放大如下:

91.jpg

可以看到各个GO term子集的GO ID以及GO功能,连线的不同颜色代表不同的隶属关系,方框中的颜色条也代表不同物种等属性,这个具体的说明图例已经给出来了,如下:

92.jpg

展示二:Enrichment analysis

93.jpg

提交,结果如下:

点选图标,可以以图表格式查看,比如选择通路(pathway)

94.jpg

可以看到protein.txt里的蛋白质在这么多通路中起作用,最显著的是黄颜色这个蛋白质,可以说显著表达了。

其他的选项比如功能分类:

666.jpg

Protein.txt里的蛋白主要还是起结合蛋白作用(对应归类到binding这一GO术语中)的。GO数据库提供了其他几项选项,想要详细了解的可以自己试一下。

总结

Gene Ontology(GO)包含了基因参与的生物过程,所处的细胞位置,发挥的分子功能三方面功能信息,并将概念粗细不同的功能概念组织成DAG(有向无环图)的结构。GO常用于提供基因功能分类标签和基因功能研究的背景知识。利用GO的知识体系和结构特点,旨在发掘与基因差异表达现象关联的单个特征基因功能类或多个特征功能类的组合。

GO富集可以提供基因差异筛选的候选集,也可以帮助了解前景基因集在功能上的富集,得出基因潜在的可能功能。可以帮助研究者找到所提交的基因集中是否具有共同的GO术语或者有共同的上级GO术语(某些基因都在某个GO术语子集里),以帮助发现哪些输入基因可能具有某些共同特点(比如说都在某个催化反应中起作用,都是某类细胞器的组成成分,都在某个通路里执行功能等)。

linux下的go富集分析,GO富集分析(转载)-Go语言中文社区相关推荐

  1. linux6.5做bond1,Linux CentOS 7 多网卡配置bond模式 bond1 bond5 bond6-Go语言中文社区

    https://access.redhat.com/documentation/en-US/Red_Hat_Enterprise_Linux/7/html/Networking_Guide/sec-N ...

  2. linux iio 设备驱动,Linux设备驱动之IIO子系统——IIO框架数据读取-Go语言中文社区...

    IIO DATA ACCESS IIO数据获取 只有两种方法可以使用IIO框架访问数据; 通过sysf通道进行一次性捕获,或通过IIO字符设备进行连续模式(触发缓冲). One-shot captur ...

  3. java+创建metaq生产者_微服务架构【技术点4】windows下rocketMQ配置及java端生产者消费者配置-Go语言中文社区...

    参考资料 windows下配置rocketMQ 解压缩 系统环境变量配置 变量名:ROCKETMQ_HOME 变量值:MQ解压路径MQ文件夹名 启动NAMESERVER Cmd命令框执行进入至'MQ文 ...

  4. windows下统一mysql编码_mysql5.7 windows7编码统一utf-8-Go语言中文社区

    查看mysql数据编码 登录mysql服务,查看mysql数据库默认的编码 mysql> show variables like 'character%'; +----------------- ...

  5. linux 多线程聚集写程序,Linux篇二:Makefile写多线程多文件程序-Go语言中文社区...

    距离上次布置任务已经两个周了,虽然这是自己的业余学习,还是为自己的工作时间安排表示有待提高.. 废话不多说,直接上干货. 这次老师布置的任务要求是,Makefile写多线程.多文件调用.用上数学函数. ...

  6. Linux下使用Iptraf进行网络流量的分析

    Linux下使用Iptraf进行网络流量的分析 Posted on 2011/06/15 下面的教程我个人安装的时候,总是失败,在/usr/local/bin目录里没有iptraf这个文件,没有办法直 ...

  7. Linux下C/C++实现(网络流量分析-NTA)

    网络流量分析(NTA - Network Traffic Analysis) 就是捕捉网络中流动的数据包,并通过查看包内部数据以及进行相关的协议.流量.分析.统计等,协助发现网络运行过程中出现的问题. ...

  8. Linux下电骡aMule Kademlia网络构建分析2

    读代码读到现在,补充一点关于Kademlia网络的理论知识. Kademlia网络的基本原理 Kademlia 是一种结构化的覆盖网络(Structured Overlay Network).所谓覆盖 ...

  9. Linux下电骡aMule Kademlia网络构建分析3

    将本节点加入Kademlia网络 连接请求的发起 aMule在启动的时候,会起一些定时器,以便于定期的执行一些任务.其中比较重要的就是core_timer,相关code如下(amule-2.3.1/s ...

  10. Linux下电骡aMule Kademlia网络构建分析4

    aMule中联系人的管理 aMule中主要通过CContact,CRoutingBin和CRoutingZone这样几个类来管理它的联系人. CContact表示一个联系人,它包含了与一个联系人有关的 ...

最新文章

  1. 无论什么级别程序员,“微服务架构”都是你必须过的坎!
  2. android中实现返回首页功能
  3. django安装初步使用命令整理
  4. Linuxubuntu chmod和chown命令用法详细介绍
  5. stanford python中文分词
  6. ionic+AnjularJs实现省市县三级联动效果
  7. 世界杯29场点球大战的269个点球数据都在这里!霍金的公式帮了英格兰吗?
  8. Bootstrap 导入插件
  9. MFC开发-待整理 --VS调试 不会命中断点,源代码与原始版本不同的解决办法
  10. Mathematica颜色系,你喜欢哪一个?
  11. 本地管理表空间(LMT)
  12. 【ASP.NET MVC4】第一课:初识ASP.NET MVC,创建第一个ASP.NET MVC项目
  13. node安装以后npm下载失败全套处理方案
  14. tplink迷你路由器中继模式_TP-Link TL-WR708N迷你无线路由器中继模式怎么设置
  15. 对数幅度谱图像matlab,fft2绘制图像的对数幅度谱,比较图像旋转、平移和缩放后的频谱...
  16. 普渡大学计算机科学系可以转到计算机工程吗,2019美国普渡大学计算机专业研究生申请条件...
  17. h5微信f分享链接给对方获取对方手机号_微信电子贺卡链接制作工具
  18. 全面替代Microsoft Office、Microsoft visio和WPS的优秀开源文档编辑器LibreOffice
  19. EC20模块内置协议栈的开发笔记
  20. 电商类微信平台推广方法有哪些?

热门文章

  1. [后端开发]Http请求413错误解决方法
  2. 数据结构----复习题
  3. BLE广播包4种类型
  4. 一文简单了解互联网流量变现
  5. OAUTH之 钉钉第三方授权登录
  6. 卡耐基梅隆大学计算机熬夜,美国25所著名大学学生平均作息时间表 原来留学生的日子也不好过!...
  7. 小程序接入h5页面_h5页面和小程序交互
  8. python 散点图
  9. Python编程:re中findall()用法
  10. CCSP201902纸牌计数——解题报告