不同数据库采用的Gene 和 Protein 编号 ID 也不同的, 用不同数据库数据时需要 ID 转换.

常用

ID 示例 ID 来源
ENSG00000116717 Ensemble ID
GA45A_HUMAN UniProtKB/Swiss-Prot, entry name
A5PJB2_BOVIN UniProtKB/TrEMBL, entry name
A2BC19, P12345, A0A022YWF9 UniProt, accession number
GLA, GLB, UGT1A1 HGNC Gene Symbol
U12345, AF123456 GenBank, NCBI, accession number
NT_123456, NM_123456, NP_123456 RefSeq, NCBI, accession number
10598, 717 Entrez ID, NCBI
uc001ett, uc031tla.1 UCSC ID

Ensembl stable IDs

Ensembl stable ID 的结构是物种前缀, 数据类型, 如基因蛋白质, 数字. 不同版本在 Ensembl ID 后面加上小数点和版本号.

  • 常用物种前缀
前缀 学名
ENSCEL Caenorhabditis elegans (Caenorhabditis elegans)
ENSCAF Canis lupus familiaris (Dog)
ENSDAR Danio rerio (Zebrafish)
FB Drosophila melanogaster (Fruitfly)
ENS Homo sapiens (Human)
ENSMUS Mus musculus (Mouse)
ENSRNO Rattus norvegicus (Rat)
ENSXET Xenopus tropicalis (Xenopus)
  • 类型前缀
前缀 类型
E exon
FM Ensembl protein family
G gene
GT gene tree
P protein
R regulatory feature
T transcript

UniProt

UniProt 录入数据分配唯一 entry name.

  • UniProtKB/Swiss-Prot entry name
    UniProtKB/Swiss-Prot entry name 最多 11 位包含大写字母的字符串, 一般有着 “X_Y” 的形式, 其中 “X” 是最多五个便于记忆的蛋白质编号, “_” 是下划线, “Y” 是最多五个便于记忆的物种编号.

蛋白质编号示例:

Code(X) Recommended protein name Gene name
B2MG Beta-2-microglobulin B2M
HBA Hemoglobin subunit alpha HBA1
INS Insulin INS
CAD17 Cadherin-17 CDH17

物种编号示例:

Code Species
BOVIN Bovine
CHICK Chicken
ECOLI Escherichia coli
HORSE Horse
HUMAN Homo sapiens
MAIZE Maize (Zea mays)
MOUSE Mouse
PEA Garden pea (Pisum sativum)
PIG Pig
RABIT Rabbit
RAT Rat
SHEEP Sheep
SOYBN Soybean (Glycine max)
TOBAC Common tobacco (Nicotina tabacum)
WHEAT Wheat (Triticum aestivum)
YEAST Baker’s yeast (Saccharomyces cerevisiae)
  • UniProtKB/TrEMBL entry name
    UniProtKB/TrEMBL entry name 最多 16 位包含大写字母的字符串, 一般有着 “X_Y” 的形式, 其中 “X” 是 6 到 10 个字符组成的 accession number, “_” 是下划线, “Y” 是最多五个便于记忆的物种编号.
  • Accession Number
    UniProtKB 的 Accession Number 相当于数据库主键, 由 6 到 10 个大写字母或者数字组成. 其构成规律为: [OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z]0-9{1,2}

HUGO Gene Nomenclature Committee

  • Gene Symbol
    Gene Symbol 是表示基因的编码, 由大写字母构成, 或由大写字母和数字构成, 首位是字母.

如: GLA “galactosidase, alpha”; GLB “galactosidase, beta”; UGT1A1 “UDP glycosyltransferase 1 family, polypeptide A1” 再到 UGT1A13 代表了 13 个不同的 gene symbol.

NCBI

  • GenBank Accession Number
    GenBank 通用 accession number 由一个大写字母加上 5 个数字的组合, 或者两个大写字母加上 6 个数字的组合.
  • RefSeq Accession Number
    RefSeq 有一套特殊的 Accesion Number. 形式是: [A-Z]{2}[_][0-9]{6:}, 两个大写字母, 一个下划线, 6 个或更多数字.
Accession 前缀 类型 说明
AC_ Genomic Complete genomic molecule, usually alternate assembly
NC_ Genomic Complete genomic molecule, usually reference assembly
NG_ Genomic Incomplete genomic region
NT_ Genomic Contig or scaffold, clone-based or WGS
NW_ Genomic Contig or scaffold, primarily WGS
NS_ Genomic Environmental sequence
NZ_ Genomic Unfinished WGS
NM_ mRNA
NR_ RNA
XM_ mRNA Predicted model
XR_ RNA Predicted model
AP_ Protein Annotated on AC_ alternate assembly
NP_ Protein Associated with an NM_ or NC_ accession
YP_ Protein
XP_ Protein Predicted model, associated with an XM_ accession
ZP_ Protein Predicted model, annotated on NZ_ genomic records
  • Entrez ID
    Entrez 是 NCBI 能够对众多数据库进行联合搜索的搜索引擎, 其对不同的 Gene 编号, 每个 gene 的编号就是 entrez gene id. 由于 entrez id 相对稳定, 所以也被众多其他数据库, 如 KEGG 等采用. Entrez Gene ID 就是一系列数字, 也比较容易辨识. R 或网站都有众多的工具可以帮助从不同的 ID 转换为 entrez id 或者反向转换.

UCSC ID

UCSC ID 由小写字母和数字构成, 起始均为 uc, 然后三位数字, 三位小写字母, 最后有小数点和数字构成版本号.

如: uc010qfk.3, uc010qfk.3.

ID Mapping

  • Uniprot ID mapping 可以很方便地把 ID 转换为其他 ID 类型, 所包含的类型十分全面.
  • bioDBnet 网站提供了常见的 ID 转换的选项, 类型全面.
  • DAVID Gene ID Conversion Tool 可以把 Gene ID 转换为多种常用类型和 DAVID ID, 方便进一步用 DAVID 做 GO 分析.
  • BridgeDB 一套提供 ID 转换的框架.
  • Human genes converter 把常用的 Ensambl ID 或 Symbol 转换为 Gene 的 Entrez ID.

  • 水稻的基因号大致分为两类,RAP格式为“Os-Chr-g-number”,MSU格式为“LOC_Os-Chr-g-number”。各种分析输入的基因号有指定要求,ID转换至关重要。
  • 网页工具完成ID转换,如Ensemble Plants(http://plants.ensembl.org/index.html),RAP-Db(https://rapdb.dna.affrc.go.jp/),RIGW(http://rice.hzau.edu.cn/rice/)。
    Ensemble开发的R包-biomaRt
  • .OryzaExpress:http://bioinf.mind.meiji.ac.jp/OryzaExpress/ID_converter.php RAP/MSU互转
  • biomaRt RAP转entrezgene_id(NCBI)

ref:
https://www.cnblogs.com/wangshicheng/p/11171058.html

不同版本gene ID比较相关推荐

  1. 未转变者服务器3.26物品id,Unturned未转变者3.21版本物品ID代码汇总

    Unturned未转变者3.21版本物品ID代码大全.本文为大家带来的是最新3.21版本的全物品ID,供各位玩家们参考查阅. 3.21全物品ID大全 使用教程 输入指令方法:游戏中按回车(Enter) ...

  2. gene id对应基因名_前5名:用于计算机维修的Linux发行版,Blockly,Gene Kim等

    gene id对应基因名 欢迎来到Opensource.com每周前5名! 您是否想知道魔术是如何发生的? 当然这不是火箭科学,但我想您可能想知道我如何每周为您制作Weekly Top 5视频和文章. ...

  3. gene ID / Gene Symbol / Ensembl ID

    1. 各种ID名称介绍 Gene ID 也称Entrez ID/EntrezGene ID ,是 NCBI 使用的能够对众多数据库进行联合搜索的搜索引擎, 其对不同的 Gene 进行了编号, 每个 g ...

  4. FPKM值基因表达量的计算、基因ID转gene symbol的例子

    高通量测序数据一般公司都会提供两种矩阵,一种是Row counts,前面说过的用于差异基因的筛选.第二种是FPKM值,可以理解为转录组基因的表达矩阵,可以用于做热图和基因表达变化的比较.但是数据挖掘中 ...

  5. 常用生物信息 ID 及转换方法

    众多不同的数据库所采用的对 Gene 和 Protein 编号的 ID 也是不同的, 所以在使用不同数据库数据的时候需要进行 ID 转换. 常用数据库 ID ID 示例 ID 来源 ENSG00000 ...

  6. 生信数据库ID大总结-想踏入生信大门的你值得拥有

    花了差不多一周写了这个总结 希望对一些小伙伴有帮助 目录 各大生信资源的使用流行程度 生信数据库的霸主-NCBI以及Entrez检索系统 Gene查找好帮手-Entrez Gene数据库 人类基因命名 ...

  7. 常用数据库的基因ID

    1.Ensembl stable ID : Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不同的版本, ...

  8. BiomaRt 包进行基因ID转换

     R中两个常用的基因ID转换包:BiomaRt和clusterProlifer 1. clusterProlifer 总体来说clusterProlifer用起来是比较方便的,通过现成的org.*.e ...

  9. 人类基因id转换的R包:GeoTcgaData

    一个非常全的人类基因id转换工具 ​ GeoTcgaData包中有一个id转换的函数:id_conversion_vector() , 它可以对人类的各种基因id进行转换.2019年9月第一次发布,目 ...

最新文章

  1. 什么是B/S模式?什么是C/S模式?
  2. OV7670使用经验总结
  3. Go 语言中的 new() 和 make()的区别
  4. 技巧:在Silverlight 2应用程序中切换用户控件
  5. 前端学习(2026)vue之电商管理系统电商系统之实现分页功能
  6. 定期定量采购_?采购计划员必备:各种物料采购计划与订单制定的技巧与方法...
  7. Libevent源码分析-----配置event_base
  8. (72)仿真工具VCS仿真软件?
  9. php jquery 实例教程,php jquery 多文件上传简单实例
  10. Mac上的UML建模工具
  11. leapftp怎么用,掌握leapftp的使用方法只需6步
  12. 【SpringBoot】62、SpringBoot中接入xxl-job实现分布式任务调度
  13. CSS 基础教程:CSS 教程:什么是 CSS?
  14. matplotlib.colors(ListedColormap)
  15. AMD处理器与INTEL的区别
  16. 不推荐理财保险(分红险、投资连结险等)的几点理由---实际案例分析计算说明
  17. 分布式事务解决方案(总览)
  18. 【名企秋招】360公司2017年秋季校招开始喽~ 立即报名
  19. mysql怎样添加唯一标识_MySql设置唯一标识,主键等设置
  20. Qt-qss之QSlider滑动条美化

热门文章

  1. 再谈符号间干扰(一)
  2. 广州富力再引强援 95后潜力中锋桂宏加盟球队
  3. Nginx学习之负载均衡fair模块
  4. DWS和各异构数据库的差异对比
  5. Cocos Creator 键盘监听事件
  6. .NET环境下每日集成
  7. MongoDB操作命令
  8. 写给刚入门的前端工程师的前后端交互指南
  9. linux信号机制 - 用户堆栈和内核堆栈的变化【转】
  10. ios 状态栏 覆盖自定义View