基因ID命名及相互转换
整理参考:ID转换不用慌,biomart帮你忙
biomart官方指导
由于ID来自于不同的数据库,或者说命名的意图不同,所以对于同一个基因,总是有多个不同的ID,最常见的比如entrze ID、ensembl ID、HGNC ID、refseq ID等。
- Entrze ID:是美国NCBI数据库中的基因标识符,通常是由纯数字表示,比如人类TP53基因的Entrze ID是7157(注意,不同物种的基因ID是不同的);
- Ensembl ID:是欧洲生物信息数据库的基因标识符,人的基因都是以ENSG(ensembl gene)四个大写字母开始,后面跟着11位数字,所以ensembl ID的长度通常都是15位,比如人类TP53基因的ensembl ID是ENSG00000141510,值得注意的是ensembl ID不仅包含了两万多个蛋白质编码基因,同样也有很多的假基因、miRNA等,因此它的数量较多,有六万多个,比人类已知的基因数多得多
- HGNC ID: 是指由人类基因命名委员会(HUGO Gene Nomenclature Committee)指定的基因标识符,该委员会通常对基因赋予一个名字以及一个ID,比如人类TP53基因,其标准的symbol是TP53(相当于简称),标准的名称是tumor protein p53,HGNC ID 是11998。
- Refseq ID:美国NCBI提供的基因标准序列(参考序列)数据库,在该数据库中,人类TP53基因的ID是NG_017013。
此外,与某个基因相关的还有GO ID、芯片探针ID、uniprot ID等。
Biomart数据库:是ensembl下属的一个网络数据库,里面包含非常多的信息。
biomaRt:是该网站的R语言接口,可以帮助用户在R语言中实现biomart的功能,因此使用该包时必须保证互联网连接通畅!
BiocManager::install("biomaRt") #安装biomaRt(Bioconductor 3.9.0)
library(biomaRt) #加载包
listMarts() #查看目标数据库(mart),主要是版本号version,会定期更新
# biomart version
#1 ENSEMBL_MART_ENSEMBL Ensembl Genes 102
#2 ENSEMBL_MART_MOUSE Mouse strains 102
#3 ENSEMBL_MART_SNP Ensembl Variation 102
#4 ENSEMBL_MART_FUNCGEN Ensembl Regulation 102
## version版本可能会一直更新,所以先用listMarts()函数查看一下,目前为103版#选择数据库和版本号
tmp_mart <- useMart(biomart = "ENSEMBL_MART_ENSEMBL",version = "Ensembl Genes 103")
listDatasets(tmp_mart) #显示该数据库下所包含的数据集(dataset)
# dataset description version
#1 abrachyrhynchus_gene_ensembl Pink-footed goose genes (ASM259213v1) ASM259213v1
#2 acalliptera_gene_ensembl Eastern happy genes (fAstCal1.2) fAstCal1.2
#3 acarolinensis_gene_ensembl Anole lizard genes (AnoCar2.0) AnoCar2.0
#4 acitrinellus_gene_ensembl Midas cichlid genes (Midas_v5) Midas_v5
#5 ahaastii_gene_ensembl Great spotted kiwi genes (aptHaa1) aptHaa1
#6 amelanoleuca_gene_ensembl Panda genes (ailMel1) ailMel1
#...#因为要转化人的gene ID,所以选择人的数据集,版本为GRCh38.p13
my_mart <- useMart(biomart = "ENSEMBL_MART_ENSEMBL", dataset = "hsapiens_gene_ensembl",version = "Ensembl Genes 103")#转换基因ID: ncbi ID(即entrez ID)--> ensembl ID
test_genes <- c("10327","124","125","126","127","128","130","130589","131","160287")
gene_id_info<- getBM(attributes=c("ensembl_gene_id","entrezgene_id","hgnc_symbol"),filters = "entrezgene_id",values=test_genes , mart= my_mart)
#attributes参数是你需要返回的gene信息,需要什么类型都写上(listAttributes()可以查看所有gene attribute类型)
#filters参数是你当前能提供的gene的ID类型,而values的值就是ID类型的具体值,一般是一个向量
#结果返回一个包含attributes具体信息的data.frame,attributes为列名gene_id_info
# ensembl_gene_id entrezgene_id hgnc_symbol
#1 ENSG00000117448 10327 AKR1A1
#2 ENSG00000187758 124 ADH1A
#3 ENSG00000196616 125 ADH1B
#4 ENSG00000248144 126 ADH1C
#5 ENSG00000198099 127 ADH4
#6 ENSG00000197894 128 ADH5
#7 ENSG00000172955 130 ADH6
#8 ENSG00000143891 130589 GALM
#9 ENSG00000196344 131 ADH7
#10 ENSG00000166800 160287 LDHAL6A#提取全部基因信息
gene_id_info<- getBM(attributes=c("ensembl_gene_id","entrezgene_id","hgnc_symbol"),filters = "chromosome_name",values=c(1:22,'X','Y'), mart= my_mart)
基因ID命名及相互转换相关推荐
- 使用集合映射和关联关系映射_使用R进行基因ID映射
使用集合映射和关联关系映射 Inter-conversion of gene ID's is the most important aspect enabling genomic and proteo ...
- 常用数据库的基因ID
1.Ensembl stable ID : Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不同的版本, ...
- 基因 ID 匹配利器
一.背景 对于每个生物信息分析的人来说,ID 匹配(映射)是一项非常常见,但又很繁琐的任务.假设,我们有一个来自上游分析的 gene symbol 或报告的 ID 列表,然后我们的下一个分析却需要使用 ...
- Mybatis工作流程,附带mybatis的mapper文件和config配置文件模板。mapper文件和dao接口的关系——xml中的namespace和sql标签id命名要求。
1. Mybatis工作流程 1.1 使用MySQL创建数据库girls并生成一个表boys,如下图. 1.2 创建该表对应的简单实体类Boys,如下图. 1.3 创建Dao接口以及和接口同名的map ...
- 差异基因 p log2foldchange_拟南芥的基因ID批量转换?差异基因,GO/KEGG数据库注释(转录组直接送你全套流程)...
新手遇到的问题都是类似的,比如批量ID转换 虽然我写过大量的教程:ID转换大全 不过都需要R基础,因为是大批量转换啊! 但热心肠的植物生物信息学教学大佬还是友善的给出了解决方案 我也狗尾续貂制作了 ...
- MFC:ID命名和数字约定
今天早上双击一个刚刚编译完成的应用程序,界面刚刚显示,又自动触发了一个菜单事件,打开了一个网页.真的很意外.关闭窗口,再次双击,又自动打开了一个网页,再关闭,再双击,又不自动打开网页了.这是什么情况? ...
- 关于Html class id 命名规范
CSS命名规则 头:header 内容:content/containe 尾:footer 导航:nav 侧栏:sidebar 栏目:column 页面外围控制整体布局宽度:wrapper 左右中:l ...
- BiomaRt 包进行基因ID转换
R中两个常用的基因ID转换包:BiomaRt和clusterProlifer 1. clusterProlifer 总体来说clusterProlifer用起来是比较方便的,通过现成的org.*.e ...
- 人类基因id转换的R包:GeoTcgaData
一个非常全的人类基因id转换工具 GeoTcgaData包中有一个id转换的函数:id_conversion_vector() , 它可以对人类的各种基因id进行转换.2019年9月第一次发布,目 ...
最新文章
- 【VMCloud云平台】SCCM(四)域内推送代理
- 开发板运行linux下虚拟机ubuntu的ping
- 【数据挖掘】决策树算法简介 ( 决策树模型 | 模型示例 | 决策树算法性能要求 | 递归创建决策树 | 树根属性选择 )
- CSU 1337 搞笑版费马大定理(2013湖南省程序设计竞赛J题)
- 扩展 GRTN:云原生趋势下的 RTC 架构演进
- SpringBoot maven项目如何打包进行发布?
- 电商网站前台模板_电商热潮汹涌,兴长信达PEC零售商城系统为企业注入新力量...
- shell 获取指定ip的丢包率
- 易语言解析html实例,易语言解析JSON教程
- dev cpp编译c语言,C语言实践|Dev cpp开发环境及其介绍
- php旅游管理系统,基于Laravel框架开发的旅游网站管理系统PHP源码
- jenkins 安装maven 插件
- mysql清空数据库_mysql命令行快速清空数据库的方法
- Spring框架学习
- 情人节程序员用HTML网页表白【嫦娥奔月(满屏泡泡)】 HTML5七夕情人节表白网页源码 HTML+CSS+JavaScript
- mysql函数循环查询的数据_MySQL 查询树结构、循环查询、查看函数、视图、存储过程...
- BW型、CB I型、CB II型和椭圆模拟低通滤波器设计的Matlab仿真
- ffmpeg生成dash点播
- matlab画图环形颜色渐变,Core Animation实战之环形颜色渐变进度条
- 从 0 搭建 Vite 3 + Vue 2.7 前端工程化项目