代谢物常见的ID号有好几种,今天和大家一起来整理一下代谢物常见的ID号。

首先我们列一个清单(使用频率较高的代谢物ID):

CAS Registry Number

KEGG ID

Pubchem CID

HMDB ID

SMILES

InChI

InChIKey

01

CAS Registry Number

CAS Registry Number是我们向供应商采购代谢物的关键依据(以保障买到正确的代谢物)。CAS Registry Numberd的本质是代谢物到美国化学学会CAS注册数据库注册获得的注册号。

CAS Registry Number的格式为“[0-9]{2-7}-[0-9]{2}-[0-9]”,第一部分2至7位数字、第二部分2位数字为顺序号,第三部分一位数字为根据前两部分数字计算得到的校验码。比如:D-Glucose的CAS Registry Number为50-99-7;L-Glucose的CAS Registry Number为921-60-8。

https://www.cas.org/support/documentation/chemical-substances/faqs

02

KEGG ID

KEGG ID是KEGG: Kyoto Encyclopedia of Genes and Genomes数据库对代谢物建立的编号,该数据库包含了丰富的代谢物功能注释信息(尤其是代谢通路信息)。目前KEGG数据库收录的Compound数量约为19000个,其中约15000个ID对应唯一的代谢物结构,其余ID对应含部分相同子结构的一类代谢物结构。

KEGG ID的格式为“C[0-9]{5}”,“C”代表Compound的,后面五位数字为顺序号。比如:D-Glucose的KEGG ID为C00031;L-Glucose KEGG未收录。

https://www.genome.jp/kegg/

03

Pubchem CID

Pubchem CID是NCBI: National Center for Biotechnology Information数据库的子库Pubchem 数据库对代谢物建立的编号。Pubchem目前收录了近一亿个Compound的全面信息(物理、化学、生物特性等),是最大的开源化合物库。

Pubchem CID的格式为单纯的数字,也就是顺序号。比如:D-Glucose的Pubchem CID为5793;L-Glucose的Pubchem CID为10954115。

https://pubchem.ncbi.nlm.nih.gov

04

HMDB ID

HMDB ID是HMDB:The Human Metabolome Database数据库对代谢物建立的编号,该数据包含了丰富的代谢物来源和分布信息(尤其是代谢物相关疾病信息)。目前HMDB数据库收录的Compound数量约为120000个。

HMDB ID的数据格式发生过一次调整:新版的HMDB ID格式为“HMDB[0-9]{7}”,“HMDB”+7位数的顺序号;旧版的HMDB ID格式为“HMDB[0-9]{5}”,“HMDB”+5位数的顺序号。老版的已有HMDB ID号在HMDB和原有五位数的顺序号间添加00升级为新版的HMDB ID,新收录的代谢物只编写新版HMDB ID。比如:D-Glucose的HMDB ID为HMDB0000122;L-Glucose HMDB未收录。

http://www.hmdb.ca

05

SMILES

SMILES:The Simplified Molecular-inout Line-entry System 是一种线性描述代谢物结构的字符串。SMILES的本质是使用文本记录原子(节点)和键(边)从而记录代谢物结构(图)。

往往使用B、C、N、O、P、S、Cl、Br等字母来表示原子;使用.、-、=、#、$等符号来表示键;使用 ( ) 来表示分支。一个代谢物结构往往可以书写为多个SMILES,但是一个SMILES只会表示一个确定的代谢物结构。使用canonicalization 算法生成canonical SMILES可以保证一个代谢物结构只能书写为一个canonical SMILES。比如:D-Glucose的canonical SMILES为“C(C1C(C(C(C(O1)O)O)O)O)O”;L-Glucose的canonical SMILES为“C(C(C(C(C(C=O)O)O)O)O)O”。

http://opensmiles.org/opensmiles.html

06

InChI

InChI:The IUPAC International Chemical Identifier是一种用于描述代谢物结构信息的新型文本。InChI由国际理论(化学)与应用化学联合会和美国国家标准与技术研究院共同开发。InChI在设计之初就保证了InChI和代谢物结构的一一对应关系。InChI将化学结构信息拆分为不同的特征层(化学式层、连接层、电荷层、同位素层等)来分开描述以方便不同的使用需求。

InChI的格式为“InChI=1S/化学式层/原子连接层/氢原子层/其他层(可省略)”。其中“InChI=”表明ID类型,“1”为版本号,“S”为标准的InChI之意,化学式层、原子连接层和氢原子层必需包含其余层可以省略。比如:D-Glucose的InChI为“InChI=1S/C6H12O6/c7-1-2-3(8)4(9)5(10)6(11)12-2/h2-11H,1H2/t2-,3-,4+,5-,6?/m1/s1”;L-Glucose的InChI为“InChI=1S/C6H12O6/c7-1-3(9)5(11)6(12)4(10)2-8/h1,3-6,8-12H,2H2/t3-,4+,5+,6+/m1/s1”。

https://www.inchi.info

07

InChIKey

InChIKey由InChI衍生而来。InChIKey是InChI的一种“加密”形式,是固定长度的一串字符。

InChIKey的格式为“[A-Z]{14}-[A-z]{11}-[A-Z]{1}”,第一部分14个字母基于连接层和质子层、第二部分的前9个字母基于其余层、第二部分的后两个字母基于标准/非标准特征使用SHA-256编码,第三部分的唯一字母描述(去)质子层。比如:D-Glucose的InChIKey为“WQZGKKKJIJFFOK-GASJEMHNSA-N”;L-Glucose的InChIKey为“GZCGUPFRVQAUEE-VANKVMQKSA-N”。

https://www.inchi.info/inchikey_overview_en.html

可以根据InChI直接计算得到InChIKey;

由InChIKey得到InChI需要查表;

10亿之一的概率一个InChIKey会对应一个以上的InChI。

总结

CAS Registry Number、KEGG ID、PubChem CID和HMDB ID是数据库依赖的ID类型。

1.代谢物结构和ID之间没有内在的联系;

2.不能通过ID直接阅读(解析)出代谢物的结构;

3.不能由代谢物的结构直接编写出ID;

4.仅数据库管理者可以编写ID;

5.代谢物结构和ID之间的联系通过数据库提供的对应表记录;

6.不能确保ID和代谢物结构的一一对应。

SMILES和InChI是和结构强相关的ID类型。

1.熟悉规则的人或者程序可以直接阅读SMILES和InChI获得代谢物的结构而不用依赖数据库(表);

2.熟悉规则的人或者程序可以直接为结构确定的代谢物编写SMILES和InChI;

3.按照规则任何人都可以编写ID;

4.代谢物结构和ID之间的联系通过规则建立;

5.Canonical SMILES和InChI可以做到ID和代谢物结构的一一对应。

建议优先使用SMILES、InChI这种和结构强相关的ID。不同数据库之间做ID转换的时候,应通过代谢物的结构来做确认

代谢物常见的ID号你都搞明白了吗?相关推荐

  1. 相机拍的图,电脑上画的图,word里的文字,电脑屏幕,手机屏幕,相机屏幕显示大小一切的一切都搞明白了!...

    相机拍的图,电脑上画的图,word里的文字,电脑屏幕,手机屏幕,相机屏幕显示大小一切的一切都搞明白了! 先说图片 X×dpi=点数dot X是图片实际尺寸,简单点,我们只算图片的高吧,比如说拍了张图片 ...

  2. python20个常用语法_这20个常规Python语法你都搞明白了吗?

    原标题:这20个常规Python语法你都搞明白了吗? 还没关注? Python简单易学,但又博大精深.许多人号称精通Python,却不会写Pythonic的代码,对很多常用包的使用也并不熟悉.学海无涯 ...

  3. 常见数据库id号编码

    数据库id代表数据库的主键是每一个表所必须的,id号要唯一并且在众多代表事务中有意义这就需要一定的编码规则. 常用的的编码有: 1.数据库自增长ID或最大值加1   2.GUID   3.时间戳   ...

  4. python有多少种语法_这20个常规Python语法你都搞明白了吗?

    Python简单易学,但又博大精深.许多人号称精通Python,却不会写Pythonic的代码,对很多常用包的使用也并不熟悉.学海无涯,我们先来了解一些Python中最基本的内容. Python的特点 ...

  5. 线性回归方程b保留几位小数_线性回归的这些细节,你都搞明白了吗?

    欢迎关注"生信修炼手册"! 回归分析是一种广泛使用的统计工具,利用已有的实验数据,通过一个方程来定量的描述变量之间的关系,其中的变量可以分为两类 自变量,也称之为预测变量 因变量, ...

  6. mysql删除学生记录_mysql删除重复记录语句,删除除了 id 号不同,其他都相同的学生冗余信息...

    /** 在Mysql下执行: delete from my.stu where id not in( select min(id) id from my.stu group by code ) ; 用 ...

  7. 删除除了id号不同,其他都相同的学生冗余信息

    id 号    学号    姓名 课程编号 课程名称 分数 1        2005001  张三  0001      数学     69 2        2005002  李四  0001   ...

  8. 常见分布式ID生成方案

    文章目录 一.为什么要用分布式ID 1.什么是分布式ID 2.那么分布式ID需要满足哪些条件 二. 分布式ID有哪些生成方式 1.基于UUID 2.基于数据库自增ID 3.基于数据库集群模式 4.基于 ...

  9. MM32F103芯片J-Link调试无法读不到芯片 ID 号

    最近在使用MM32F103芯片,刚开始J-Link调试的时候可以正常下载与运行,后面遇到无法读取芯片的ID,确定 JTAG/SWD 硬件连接都是好的,可就是读不到芯片 ID 号. 经过回顾分析,是程序 ...

最新文章

  1. AI化身监工,上班还能摸鱼吗?
  2. 一个有意思的逻辑训练题目
  3. 数据绑定表达式(下):.NET发现之旅(二)
  4. CSS样式表margin和padding的区别
  5. 微信小程序外卖增长402%,茶饮下单最活跃
  6. python爬虫取腾讯视频评论
  7. asp.net 注册、卸载iis,iis重启命令
  8. 统计学名词解释 —— 3. 「简单随机样本」、「联合分布」与「联合密度」
  9. wamp mysql使用方法_wamp使用方法【总】
  10. Stacked Hourglass Networks - 堆叠沙漏网络结构详解
  11. 时序分析/约束(一):相关概念
  12. nginx中配置不输入端口(指定地址)访问项目的方法
  13. 双节有惊喜,思维导图优惠乐翻天
  14. 五大地形等高线特征_七年级所有知识点
  15. 查表法求sin和cos
  16. Word图文混排的“ 锚 “
  17. 【SQL Server】列转行 STUFF 函数
  18. 超级*** 04格式化左脑
  19. 就业与保障杂志就业与保障杂志社就业与保障编辑部2022年第3期目录
  20. 通过爬虫实现百度在线翻译

热门文章

  1. 如何从 0 到 1 搭建性能检测系统(修正版)
  2. literal_eval函数
  3. c语言里的pow函数
  4. 封闭式基金排行榜(20061201)[ZT]
  5. Pycharm 激活
  6. STC89C51系列单片机与ADC0832通信
  7. PAT乙级 1016 部分A+B
  8. pyqt 调用QT设计师创建的对话框
  9. java中的throw和throws区别
  10. fastboot刷机——理论