整理参考:ID转换不用慌,biomart帮你忙

biomart官方指导

由于ID来自于不同的数据库,或者说命名的意图不同,所以对于同一个基因,总是有多个不同的ID,最常见的比如entrze ID、ensembl ID、HGNC ID、refseq ID等。

  1. Entrze ID:是美国NCBI数据库中的基因标识符,通常是由纯数字表示,比如人类TP53基因的Entrze ID是7157(注意,不同物种的基因ID是不同的);
  2. Ensembl ID:是欧洲生物信息数据库的基因标识符,人的基因都是以ENSG(ensembl gene)四个大写字母开始,后面跟着11位数字,所以ensembl ID的长度通常都是15位,比如人类TP53基因的ensembl ID是ENSG00000141510,值得注意的是ensembl ID不仅包含了两万多个蛋白质编码基因,同样也有很多的假基因、miRNA等,因此它的数量较多,有六万多个,比人类已知的基因数多得多
  3. HGNC ID: 是指由人类基因命名委员会(HUGO Gene Nomenclature Committee)指定的基因标识符,该委员会通常对基因赋予一个名字以及一个ID,比如人类TP53基因,其标准的symbol是TP53(相当于简称),标准的名称是tumor protein p53,HGNC ID 是11998。
  4. Refseq ID:美国NCBI提供的基因标准序列(参考序列)数据库,在该数据库中,人类TP53基因的ID是NG_017013

此外,与某个基因相关的还有GO ID、芯片探针ID、uniprot ID等。

Biomart数据库:是ensembl下属的一个网络数据库,里面包含非常多的信息。

biomaRt:是该网站的R语言接口,可以帮助用户在R语言中实现biomart的功能,因此使用该包时必须保证互联网连接通畅!

BiocManager::install("biomaRt")    #安装biomaRt(Bioconductor 3.9.0)
library(biomaRt)    #加载包
listMarts()    #查看目标数据库(mart),主要是版本号version,会定期更新
#               biomart               version
#1 ENSEMBL_MART_ENSEMBL      Ensembl Genes 102
#2   ENSEMBL_MART_MOUSE      Mouse strains 102
#3     ENSEMBL_MART_SNP  Ensembl Variation 102
#4 ENSEMBL_MART_FUNCGEN Ensembl Regulation 102
## version版本可能会一直更新,所以先用listMarts()函数查看一下,目前为103版#选择数据库和版本号
tmp_mart <- useMart(biomart = "ENSEMBL_MART_ENSEMBL",version = "Ensembl Genes 103")
listDatasets(tmp_mart)    #显示该数据库下所包含的数据集(dataset)
#                       dataset                           description     version
#1 abrachyrhynchus_gene_ensembl Pink-footed goose genes (ASM259213v1) ASM259213v1
#2     acalliptera_gene_ensembl      Eastern happy genes (fAstCal1.2)  fAstCal1.2
#3   acarolinensis_gene_ensembl        Anole lizard genes (AnoCar2.0)   AnoCar2.0
#4    acitrinellus_gene_ensembl        Midas cichlid genes (Midas_v5)    Midas_v5
#5        ahaastii_gene_ensembl    Great spotted kiwi genes (aptHaa1)     aptHaa1
#6    amelanoleuca_gene_ensembl                 Panda genes (ailMel1)     ailMel1
#...#因为要转化人的gene ID,所以选择人的数据集,版本为GRCh38.p13
my_mart <- useMart(biomart = "ENSEMBL_MART_ENSEMBL", dataset = "hsapiens_gene_ensembl",version = "Ensembl Genes 103")#转换基因ID: ncbi ID(即entrez ID)--> ensembl ID
test_genes <- c("10327","124","125","126","127","128","130","130589","131","160287")
gene_id_info<- getBM(attributes=c("ensembl_gene_id","entrezgene_id","hgnc_symbol"),filters = "entrezgene_id",values=test_genes , mart= my_mart)
#attributes参数是你需要返回的gene信息,需要什么类型都写上(listAttributes()可以查看所有gene attribute类型)
#filters参数是你当前能提供的gene的ID类型,而values的值就是ID类型的具体值,一般是一个向量
#结果返回一个包含attributes具体信息的data.frame,attributes为列名gene_id_info
#   ensembl_gene_id entrezgene_id hgnc_symbol
#1  ENSG00000117448         10327      AKR1A1
#2  ENSG00000187758           124       ADH1A
#3  ENSG00000196616           125       ADH1B
#4  ENSG00000248144           126       ADH1C
#5  ENSG00000198099           127        ADH4
#6  ENSG00000197894           128        ADH5
#7  ENSG00000172955           130        ADH6
#8  ENSG00000143891        130589        GALM
#9  ENSG00000196344           131        ADH7
#10 ENSG00000166800        160287     LDHAL6A#提取全部基因信息
gene_id_info<- getBM(attributes=c("ensembl_gene_id","entrezgene_id","hgnc_symbol"),filters = "chromosome_name",values=c(1:22,'X','Y'), mart= my_mart)

基因ID命名及相互转换相关推荐

  1. 使用集合映射和关联关系映射_使用R进行基因ID映射

    使用集合映射和关联关系映射 Inter-conversion of gene ID's is the most important aspect enabling genomic and proteo ...

  2. 常用数据库的基因ID

    1.Ensembl stable ID : Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不同的版本, ...

  3. 基因 ID 匹配利器

    一.背景 对于每个生物信息分析的人来说,ID 匹配(映射)是一项非常常见,但又很繁琐的任务.假设,我们有一个来自上游分析的 gene symbol 或报告的 ID 列表,然后我们的下一个分析却需要使用 ...

  4. Mybatis工作流程,附带mybatis的mapper文件和config配置文件模板。mapper文件和dao接口的关系——xml中的namespace和sql标签id命名要求。

    1. Mybatis工作流程 1.1 使用MySQL创建数据库girls并生成一个表boys,如下图. 1.2 创建该表对应的简单实体类Boys,如下图. 1.3 创建Dao接口以及和接口同名的map ...

  5. 差异基因 p log2foldchange_拟南芥的基因ID批量转换?差异基因,GO/KEGG数据库注释(转录组直接送你全套流程)...

    新手遇到的问题都是类似的,比如批量ID转换 虽然我写过大量的教程:ID转换大全   不过都需要R基础,因为是大批量转换啊! 但热心肠的植物生物信息学教学大佬还是友善的给出了解决方案 我也狗尾续貂制作了 ...

  6. MFC:ID命名和数字约定

    今天早上双击一个刚刚编译完成的应用程序,界面刚刚显示,又自动触发了一个菜单事件,打开了一个网页.真的很意外.关闭窗口,再次双击,又自动打开了一个网页,再关闭,再双击,又不自动打开网页了.这是什么情况? ...

  7. 关于Html class id 命名规范

    CSS命名规则 头:header 内容:content/containe 尾:footer 导航:nav 侧栏:sidebar 栏目:column 页面外围控制整体布局宽度:wrapper 左右中:l ...

  8. BiomaRt 包进行基因ID转换

     R中两个常用的基因ID转换包:BiomaRt和clusterProlifer 1. clusterProlifer 总体来说clusterProlifer用起来是比较方便的,通过现成的org.*.e ...

  9. 人类基因id转换的R包:GeoTcgaData

    一个非常全的人类基因id转换工具 ​ GeoTcgaData包中有一个id转换的函数:id_conversion_vector() , 它可以对人类的各种基因id进行转换.2019年9月第一次发布,目 ...

最新文章

  1. 【VMCloud云平台】SCCM(四)域内推送代理
  2. 开发板运行linux下虚拟机ubuntu的ping
  3. 【数据挖掘】决策树算法简介 ( 决策树模型 | 模型示例 | 决策树算法性能要求 | 递归创建决策树 | 树根属性选择 )
  4. CSU 1337 搞笑版费马大定理(2013湖南省程序设计竞赛J题)
  5. 扩展 GRTN:云原生趋势下的 RTC 架构演进
  6. SpringBoot maven项目如何打包进行发布?
  7. 电商网站前台模板_电商热潮汹涌,兴长信达PEC零售商城系统为企业注入新力量...
  8. shell 获取指定ip的丢包率
  9. 易语言解析html实例,易语言解析JSON教程
  10. dev cpp编译c语言,C语言实践|Dev cpp开发环境及其介绍
  11. php旅游管理系统,基于Laravel框架开发的旅游网站管理系统PHP源码
  12. jenkins 安装maven 插件
  13. mysql清空数据库_mysql命令行快速清空数据库的方法
  14. Spring框架学习
  15. 情人节程序员用HTML网页表白【嫦娥奔月(满屏泡泡)】 HTML5七夕情人节表白网页源码 HTML+CSS+JavaScript
  16. mysql函数循环查询的数据_MySQL 查询树结构、循环查询、查看函数、视图、存储过程...
  17. BW型、CB I型、CB II型和椭圆模拟低通滤波器设计的Matlab仿真
  18. ffmpeg生成dash点播
  19. matlab画图环形颜色渐变,Core Animation实战之环形颜色渐变进度条
  20. 从 0 搭建 Vite 3 + Vue 2.7 前端工程化项目

热门文章

  1. MYSQL实现2退3进7退8进
  2. 2018ap计算机考试时间,ap2018年考试时间是什么时候
  3. 炉石传说服务器维护时间2020,炉石传说2020年10月23日秋季发布会开始时间
  4. 2022护士资格证考试专业知识模拟题
  5. explicit关键字详解
  6. 剑指offer T58-1翻转单词顺序
  7. Stream流使用,收集成一个List或者Set集合,可以代替for循环使用
  8. STM32Cube学习(4)——UART串口
  9. CMM,CMMI,PSP,TSP
  10. C++string的erase