1. 有参物种使用gene ID的方法

1. 差异基因文件准备

只需要用到两列

  • ENTREZ_GENE_ID
  • logFC
geneNames   ENTREZ_GENE_ID  normalAve   tumorAve    logFC   pValue  qValue
CCL23   6368    95.05964624 5.566645819 -4.066608903    2.07E-31    5.99E-29
COLEC10 10584   1459.366228 83.66298626 -4.122671832    2.11E-31    6.00E-29
FAM189B 10712   383.9435808 1289.852064 1.747953745 2.17E-31    6.08E-29
CDC45   8318    12.20616678 258.9248256 4.38682126  3.59E-31    9.94E-29
RCAN1   1827    11046.97758 2309.590455 -2.257915165    3.90E-31    1.07E-28
N4BP2L1 90634   2644.65753  734.73331   -1.847750259    4.57E-31    1.23E-28
FCN3    8547    6777.184345 389.412555  -4.120767162    5.41E-31    1.44E-28
UHRF1   29128   15.89471347 327.8659692 4.353192433 5.73E-31    1.50E-28
HMMR    3161    25.23294528 407.9486624 4.008655285 8.18E-31    2.12E-28
NEK2    4751    18.88655007 390.7591103 4.36024922  9.48E-31    2.43E-28

选择基因的ID作为输入文件

6368
10584
10712
8318
1827
90634
8547
29128
3161
4751

2. 登陆kobas数据库

网站:http://kobas.cbi.pku.edu.cn/

进入 Gene-list-Enrichment
http://kobas.cbi.pku.edu.cn/anno_iden.php

输入数据类型:

  • Fasta Protein Sequence ——蛋白序列
  • Fasta Nucleotide Sequence——核酸序列
  • Tabular BLAST Output——blast输出的表格
  • Entrez Gene ID——基因ID
  • UniProtKB AC
  • Refseq Protein ID
  • Ensembl Gene ID

3. 选择

1. 输入类型选择:Gene ID

2. 物种选择:Homo sapiens (human)

3. 粘贴Gene ID列表

4. 数据库 Clear All取消Pathway、Disease、GO全部选项,只选择KEGG Patway

点击RUN

4. 在线分析完成,输出结果

5. 输出文件说明

统计学检验方法:超几何检验、FIsher精确检验
FDR校正方法:Benjamini and Hochberg,需要补充此方法

##Statistical test method: hypergeometric test / Fisher's exact test
##FDR correction method: Benjamini and Hochberg

输出表格:

  • Term KEGG的注释类
  • Database 数据库类型
  • ID Term对应的ID
  • input number 富集到这个Term的输入基因个数
  • Background number 数据库中富集到这个通路的总有基因数量
  • P-value P值
  • Corrected P-Value 校正后P值
  • Input 输入的Gene ID,如果多个,以|号分开
  • Hyperlink 网页链接

如链接:
http://www.genome.jp/kegg-bin/show_pathway?hsa04512/hsa:3161%09red

图片会将对应的Gene name标志为红色

6. 软件安装准备

由于bioconductor外网链接慢,使用conda的方法安装,同时安装依赖的包

conda install bioconductor-clusterprofiler

7. 画图

# 初始化环境
rm(list=ls())# 安装软件
#source("https://bioconductor.org/biocLite.R")
#biocLite()
#biocLite("clusterProfiler")
#biocLite("pathview")# 设置通路
setwd("/home/toucan/Project/001.kegg_map")# 加载库
library("clusterProfiler")
# 读入文件,不检测name
rt=read.table("input.txt",sep="\t",header=T,check.names=F)
rt# 构建gene id为行名称的,logFC
geneFC=rt$logFC
geneFC
gene <- rt$ENTREZ_GENE_ID
gene
names(geneFC)=gene
geneFC#kegg
# 保存输出文件
# 设定物种,qvalue小于0.05才输出,readable是否输出转换为gene name
kk <- enrichKEGG(gene = gene, organism = "human", pvalueCutoff = 0.05,qvalueCutoff = 0.05)
class(kk)
kkas.data.frame(kk)write.table(as.data.frame(kk),file="KEGG.xls",sep="\t",quote=F,row.names = F)# 生成barplot
pdf(file="KEGG.barplot.pdf")barplot(kk, drop = TRUE, showCategory = 12)pdf(file="KEGG.cnetplot.pdf")
# 生成网络图,需要通路描述列、输入gene ID列组成
#cnetplot(kk,categorySize = "geneNum", foldChange = geneFC)library("pathview")keggxls=read.table("KEGG.xls",sep="\t",header=T)
# 联网,将map图片下载
for(i in keggxls$ID){pv.out <- pathview(gene.data = geneFC, pathway.id = i, species = "hsa", out.suffix = "pathview")}

7. 输出结果

输出富集的表格:

ID  Description GeneRatio   BgRatio pvalue  p.adjust    qvalue  geneID  Count
hsa04110    Cell cycle  19/199  124/7431    5.54E-10    1.37E-07    1.31E-07    8318/7272/890/1870/701/4085/4998/4171/4175/898/23594/1031/4172/4616/8317/4176/4174/9134/993 19
hsa03030    DNA replication 11/199  36/7431 1.29E-09    1.60E-07    1.53E-07    2237/4171/4175/10535/5984/4172/5558/5424/23649/4176/4174    11
hsa03440    Homologous recombination    8/199   41/7431 1.03E-05    0.000849457 0.000811238 146956/8438/5888/7517/5424/641/7516/25788   8
hsa05222    Small cell lung cancer  11/199  93/7431 3.44E-05    0.002135572 0.002039489 1870/898/3910/4616/1282/3655/1284/9134/5743/3915/1163   11

每个通路生成三个文件

  • hsa03030.pathview.png
  • hsa03030.png
  • hsa03030.xml

输出富集的图片

输出伏击通路下载的map:
有差异基因显示,红色为正相关,绿色为负

同时,输出网站原始下载的,无颜色标注

非模式生物

以序列作为输入文件

>seq1
CTAATTTTGATGTAACAATAAGCAAATCCATCTCATTGACATGTCAACTTACCTTAATCTTTAATAAGTG
ATAAAGTCATATGTATGCCAAAAATTGCCTTAGCATTGCGTTATGACCTACCGTTAGTAGATGTCTGATT>seq2
AGTCTCGAATACAACTTGTTGCTGCGCGGACGCGAATCGCTCAGTACGGACGTCTTGAGCTCGAATCCTC
GGCCATATCTGTGCTCTCGATCGCAGCGTTTGCTAATTCGAAGATCGTGCTAATCGAAGTACCGAGAAAT

注意,物种应选择KO,但会笔记慢

显示:
不应该超过200行的输入文件

If you choose KO, Please input no more than 200 lines at one time.

运行中:

http://kobas.cbi.pku.edu.cn/wait_kobas.php?taskid=180629456069220
Your task is still running, your task id is 180629456069220, you can get the results automatically when the task is finished.
Also you can use the task id to fetch results at the result retrive page in the future.

等待输出

0055-【生物数据库】-如何进行RNA差异基因KEGG注释分析-kobas在线分析相关推荐

  1. geo数据差异分析_使用GEO数据库来筛选差异表达基因,KOBAS进行KEGG注释分析

    前言 本文主要演示GEO数据库的一些工具,使用的数据是2015年在Nature Communications上发表的文章Regulation of autophagy and the ubiquiti ...

  2. 基因功能注释分析的意义

    基因功能注释分析的意义 基因功能注释分析简介 基因功能的注释依赖于基因结构或者序列,将基因序列或蛋白序列和主流数据库进行比对获取该基因的功能信息,最终对预测的编码基因进行功能注释.常见的功能注释数据库 ...

  3. linux转录组kegg注释,转录组入门(8):差异基因结果注释

    作业要求 我们统一选择p<0.05而且abs(log2FC)大于1的基因为显著差异表达基因集,对这个基因集用R包做KEGG/GO超几何分布检验分析. 然后把表达矩阵和分组信息分别作出cls和gc ...

  4. 从seurat的findallmarkers得到的差异基因 进行富集分析clusterprolifer

    library(openxlsx)与library(xlsx)两个包经常出问题,报错往往都是他俩 建议只使用openxlsx 更快! #######差异分析 ##################### ...

  5. go kegg_差异基因的GO与KEGG注释

    写在前面 这个其实很简单啦!三个R包可以搞定的事情. 三个包分是:clusterProfiler,pathview,org.Hs.eg.db. clusterProfiler,pathview两个包用 ...

  6. RNA 10. SCI 文章中基因表达富集之 KEGG 注释

    全网最全 KEGG 注释结果绘图,直击 SCI 绘图标注,关注我,您最好的选择! 前言 1. KEGG 原理 KEGG(Kyoto Encyclopedia of Genes and Genomes) ...

  7. 单基因gsea_GSEA:基因集富集分析和ssGSEA:单样本基因集富集分析

    传统富集分析(基于超几何分布或者Fisher精确检验):关注一列差异基因是否是随机分布在某一感兴趣的基因集中(某通路的基因) 得到通路富集的结果时: (1).一条通路中既有上调基因又有下调基因,无法确 ...

  8. 基于TCGA数据库的差异基因分析实现

    1.数据下载 1.1 网页下载 1.2 TCGABiolinks下载 setwd("D:\Bioinformatics data analysis") if (!requireNa ...

  9. 差异基因 p log2foldchange_拟南芥的基因ID批量转换?差异基因,GO/KEGG数据库注释(转录组直接送你全套流程)...

    新手遇到的问题都是类似的,比如批量ID转换 虽然我写过大量的教程:ID转换大全   不过都需要R基础,因为是大批量转换啊! 但热心肠的植物生物信息学教学大佬还是友善的给出了解决方案 我也狗尾续貂制作了 ...

最新文章

  1. Java程序员必须掌握的常用Linux命令
  2. 不提拔你,就是因为你只想把工作做好
  3. 基于阿里云实现游戏数据运营(附Demo)
  4. sparkstreaming 读取mysql_第十篇|SparkStreaming手动维护Kafka Offset的几种方式
  5. 三通道的黑白图(不同于单通道的普通的黑白图片)
  6. uvm 形式验证_6.小白学uvm验证 - 寄存器模型
  7. 支持Android的Qt5预览
  8. 编写可维护的javascript代码--- 2015.11.21(基本格式化)
  9. EnableQ在企业员工满意度调查上的贡献
  10. java模拟刷百度排名无效_刷百度排名软件教程-软件设置问题
  11. Linux 杀毒软件ClamAV离线安装部署
  12. 哪里看计算机主板,电脑主板型号和参数在哪里查看
  13. oppo弹出android截屏对话框,oppo手机如何截图 oppo手机快捷键截屏方法【教程】
  14. 重做raid后,重启无法进入系统
  15. 关于小程序移动端调用微信API及腾讯地图实例,获取当前位置、逆地址解析、路线规划、地图展示
  16. Android 密码丢了,丢失密钥库密码
  17. VSCode查看gltf文件(glTF Tools插件)
  18. 抓住元宇宙的劲风,谁在点燃虚拟经济?
  19. W5500的以太网电路,正常线序连接的话可能必须做过孔交叉线序,能否在线路上做交叉处理?
  20. 华为鲲鹏HCIA考试-练习03

热门文章

  1. 大侠周鸿祎——腾讯,你丫动手吧!
  2. 从零搭建vue-ssr详细介绍
  3. ssm+Vue计算机毕业设计虚拟问诊系统(程序+LW文档)
  4. linux添加五笔输入法,RedHat Linux 9中vim升级方法及如何安装五笔输入法
  5. 怎样修改图纸中单个图块的基点 ?
  6. Tcpdf操作html转pdf带页眉和页脚
  7. Windows cmd卸载程序
  8. 云计算机有什么用,云电脑对玩家来说有什么作用
  9. 【檀越剑指大厂--redis】redis基础篇
  10. 计算机知识与技能竞赛配图,“高教杯”全国大学生先进制图技术与技能大赛