O.Sativa选用MSU或者RAPDB这两个数据库的genome和gtf文件,介绍一下MSU的ID,RAPDB的同理。The Rice Annotation Project (RAP)(https://rapdb.dna.affrc.go.jp/index.html)和Rice Genome Annotation Project (RGAP7,MSU)(http://rice.plantbiology.msu.edu/index.shtml)RAP格式为“Os-Chr-g-number”,MSU格式为“LOC_Os-Chr-g-number”。

1 AGRIGO2 http://systemsbiology.cau.edu.cn/agriGOv2/ 支持多种ID,包括MSU
2 RIGW http://rice.hzau.edu.cn/cgi-bin/rice2/enrichment 只支持水稻的转录本ID,可做KEGG
3 PlantGSEA http://structuralbiology.cau.edu.cn/PlantGSEA/analysis.php 只支持MSU ID
4 PANTHER http://www.pantherdb.org/ 可视化漂亮。支持Uniprot ID。MSU ID转换为 Uniprot ID(PlantGSEA)
5 CARMO:http://bioinfo.sibs.ac.cn/carmo/result.php?job_id=1625924324108758969 只更新到 2015年,支持 LOC ID

  • 将MSU ID(LOC)转换为 Uniprot ID,PlantGSEA
  • 将Uniprot ID粘贴到PANTHER
  • 出图, select ontology,包括GO分析,蛋白功能注释,Pathway分析
  • 显著性分析,statistical overrepresentation test, Use default settings

ID转化

  • 水稻的基因号大致分为两类,RAP格式为“Os-Chr-g-number”,MSU格式为“LOC_Os-Chr-g-number”。各种分析输入的基因号有指定要求,ID转换至关重要。
  • RAP《-》MSU:(OryzaExpress,RAP-DB,PlantGSEA)
  • OryzaExpress:http://bioinf.mind.meiji.ac.jp/OryzaExpress/ID_converter.php
  • RAP-DB:https://rapdb.dna.affrc.go.jp/tools/converter/run
  • PlantGSEA:http://structuralbiology.cau.edu.cn/PlantGSEA/
  • Ensemble Plants(http://plants.ensembl.org/index.html),
  • RIGW(http://rice.hzau.edu.cn/rice/)
  • biomaRt RAP转entrezgene_id(NCBI)
  • MSU转RAP转entrezid,MSU转uniprot(plantGSEA)转entrezid(david)

biomaRt

#1.Installation
BiocManager::install("biomaRt")
library(biomaRt)
#2.Data Import
a <- read.csv('testgene.txt',sep = '\t')
#3.getBM做ID转换
#getBM函数,四个参数。 getBM函数唯一用处,做各种ID转换。
#1.filter来控制根据什么东西来过滤,可是不同数据库的ID,也可以是染色体定位系统坐标。
#2.Attributes来控制我们想获得什么,一般是不同数据库的ID。
#3.Values是我们用来检索的关键词向量。
#4.Mart是我们前面选择好的数据库。#3.1建立与ensemble数据库的链接
#在ensemble plants上能看到所有已提交的物种信息
ensembl = useMart(biomart = "plants_mart",host = "http://plants.ensembl.org")
#查看ensemble plants都有哪些物种信息,并设置为该物种信息。
dataset <- listDatasets(mart = ensembl)
head(dataset)
ensembl = useMart(biomart = "plants_mart",host = "http://plants.ensembl.org",dataset="osativa_eg_gene")
#查看该dataset上都有哪些属性,方便后面做添加
attributes <- listAttributes(ensembl)

a=c(“LOC_Os07g34570”,“LOC_Os05g12630”,“LOC_Os12g31000”,“LOC_Os09g37910”)无结果
RAP:

3.2 正式做ID转换及信息添加
一般Ensemble ID以E开头的,RAP号是水稻的Ensemble ID。参数external_gene_name是平时称呼的基因名字。

supplement <- getBM(attributes =c("ensembl_gene_id",'external_gene_name',"description"),filters = "ensembl_gene_id",values = a,mart = ensembl)

转换成GO ID并附上GO描述

supplements <- getBM(attributes =c("ensembl_gene_id",'go_id','goslim_goa_description'),filters = "ensembl_gene_id",values = a,mart = ensembl)

转换成NCBI ID

supplements <- getBM(attributes =c("ensembl_gene_id",'entrezgene_id'),filters = "ensembl_gene_id",values = a,mart = ensembl)

ClusterProfile

  • GO数据库?以及BP,MF,CC的分类系统?超几何分布检验?不同的阈值过滤?筛选指标?

  • 超几何分布是统计学上一种离散概率分布。它描述了从有限N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出该指定种类的物件的次数(不放回)。

  • 拿不到结果?这个时候可以设置: pvalueCutoff = 0.9, qvalueCutoff =0.9 甚至为1,来不做筛选。而且基因集的大小也是被限制了。
    enrichGO(); dotplot()

  • 多组基因集的KEGG数据库富集
    compareCluster,在线获取KEGG数据库最新信息,考验网速:

  • 制作一个 DEG 数据框,其中有两列ENTREZID,是基因id,和new是分组信息
    xx.formula <- compareCluster(ENTREZID~new, data=DEG, fun=‘enrichKEGG’)
    dotplot(xx.formula, x=~GeneRatio) + facet_grid(~new)

  • 多组基因集走GO数据库富集
    构建一个数据框,list_de_gene_clusters, 含有两列信息:

list_de_gene_clusters <- split(de_gene_clusters$ENTREZID, de_gene_clusters$cluster)# Run full GO enrichment test
formula_res <- compareCluster(ENTREZID~cluster, data=de_gene_clusters, fun="enrichGO", OrgDb="org.Mm.eg.db",ont          = "BP",pAdjustMethod = "BH",pvalueCutoff  = 0.01,qvalueCutoff  = 0.05
)# Run GO enrichment test and merge terms
# that are close to each other to remove result redundancy
lineage1_ego <- simplify(formula_res, cutoff=0.5, by="p.adjust", select_fun=min
)

https://www.jianshu.com/p/bcdbf80701e2
https://www.jianshu.com/p/480c46ec1629

RNAseq-GO、biomaRt转换ID相关推荐

  1. edgeR/limma/DESeq2差异基因分析→ggplot2作火山图→biomaRt转换ID并注释

    请一定看这里:写下来只是为了记录一些自己的实践,当然如果能对你有所帮助那就更好了,欢迎大家和我交流 三者区别 三者区别 差异分析流程: 1 初始数据 2 标准化(normalization):DESe ...

  2. [生信]biomaRt 基因ID的转换

    [生信]基因ID的转换 Bioconductor系列之biomaRt 包的安装 选择数据库 三个主要函数getBM,getSequence,getLDS 几个实用的例子 例.对几个基因symbol,注 ...

  3. 关于RNA-seq 的那点事Count 数的标准化 (一) RPKM 和FPKM,TPM及C(R)PM

    图片来自网络 我们都知道,在RNA seq 测序的过程中,我们测完序的最终目的是想根据测序的结果,最终分析得到差异基因以及潜在可能的功能分析,那么在进行差异分析以及对表达量进行分析的时候,对基因原始的 ...

  4. BiomaRt 包进行基因ID转换

     R中两个常用的基因ID转换包:BiomaRt和clusterProlifer 1. clusterProlifer 总体来说clusterProlifer用起来是比较方便的,通过现成的org.*.e ...

  5. 生物信息学之rnaseq转录组分析流程--转换文件中的ensemble id到gene名

    生物信息学之rnaseq转录组分析--转换文件中的ensemble id到gene名 如何解决转录组分析中count之后遇到ensemble id的问题 一个将ensemble id转换成gene名的 ...

  6. seurat提取表达矩阵_GPL17586、GPL19251和GPL16686平台芯片ID转换

    芯片分析中经常会遇到Affymetrix Human Transcriptome Array 2.0芯片,由于目前还没有现成的R包可以用,因此分析方法也不统一.见生信技能树Jimmy老师HTA2.0芯 ...

  7. Ensemble ID格式及转换

    目录 Ensemble ID Ensemble ID 格式 Ensemble ID转换 bitr select biomaRt 转换 参考 吐槽 Ensemble ID Ensemble ID 是En ...

  8. 已知转录本test.ID,根据biomart包批量获得ensembl数据库中对应序列信息,并以fa格式输出

    该方法需要魔法,我已进行了调试,可以成功运行 转录本test.ID样式(ENSMUST00000040608.4),以xlsx形式储存 输入数据格式 library(Biostrings) libra ...

  9. RNA-seq第四期——HTSeq-count对reads进行计数

    对测序得到的reads进行计数,即基因表达的定量过程.根据reads和基因位置的overlap,以此来判断reads到底属于哪一个基因,同时对该reads总数进行计数,生成counts矩阵. 今日内容 ...

最新文章

  1. 5.15 pymysql 模块
  2. pb更新oracle表格,PB自定义retrieve刷新函数、PB导入excel表、打印
  3. OpenVINO FPS也可以达100帧
  4. 欧洲安全研究人员:黑客是如何泄露加密电子邮件
  5. python获取docx文档的内容(文本)
  6. css如何调整红心样式_css3实现的红心跳动效果
  7. flink(一个流处理,一个批处理)
  8. PAT-甲级之树遍历问题的总结
  9. plupload与springmvc分段上传视频
  10. Android Multimedia框架总结(十二)CodeC部分之OMXCodec与OMX事件回调流程
  11. CVPR 2018 挑战赛
  12. 使用 kotlin 开发 android 遇到的问题
  13. 免费图片库网站推荐(国外高清可商用)
  14. 微信小程序报错“对应的服务器证书无效”
  15. JFinal在使用oracle数据库时页面显示EL表达式获取不到值
  16. 清华月赛 大吉大利晚上吃鸡题解
  17. 使用Pytorch实现NLP深度学习
  18. 京东方GV185FHM-N10-DM30工业液晶屏 18.5寸全视角液晶屏
  19. CODING 研发管理系统上线全球加速,助力企业跨区域协作
  20. Delphi中资源文件使用详解

热门文章

  1. 8、设计模式-结构型模式-适配器模式
  2. SetRegistryKey函数
  3. Android OpenGL射线拾取手势旋转(二)
  4. 2016年全球100G和200G相干WDM光学系统出货量增长75%
  5. atomic与nonatomic,assign,copy与retain的定义和区别
  6. 年轻,误把unix当linux
  7. FPGA开发综合技巧
  8. linux删除垃圾文件夹,优雅地删除 Linux 中的垃圾文件第六季
  9. ads1115寄存器操作
  10. Ubuntu10.04下PDF中文无法显示或显示乱码的解决方法