代谢物常见的ID号你都搞明白了吗？

代谢物常见的ID号有好几种，今天和大家一起来整理一下代谢物常见的ID号。

首先我们列一个清单（使用频率较高的代谢物ID）：

CAS Registry Number

KEGG ID

Pubchem CID

HMDB ID

SMILES

InChI

InChIKey

CAS Registry Number

CAS Registry Number是我们向供应商采购代谢物的关键依据（以保障买到正确的代谢物）。CAS Registry Numberd的本质是代谢物到美国化学学会CAS注册数据库注册获得的注册号。

CAS Registry Number的格式为“[0-9]{2-7}-[0-9]{2}-[0-9]”，第一部分2至7位数字、第二部分2位数字为顺序号，第三部分一位数字为根据前两部分数字计算得到的校验码。比如：D-Glucose的CAS Registry Number为50-99-7；L-Glucose的CAS Registry Number为921-60-8。

https://www.cas.org/support/documentation/chemical-substances/faqs

KEGG ID

KEGG ID是KEGG: Kyoto Encyclopedia of Genes and Genomes数据库对代谢物建立的编号，该数据库包含了丰富的代谢物功能注释信息（尤其是代谢通路信息）。目前KEGG数据库收录的Compound数量约为19000个，其中约15000个ID对应唯一的代谢物结构，其余ID对应含部分相同子结构的一类代谢物结构。

KEGG ID的格式为“C[0-9]{5}”，“C”代表Compound的，后面五位数字为顺序号。比如：D-Glucose的KEGG ID为C00031；L-Glucose KEGG未收录。

https://www.genome.jp/kegg/

Pubchem CID

Pubchem CID是NCBI: National Center for Biotechnology Information数据库的子库Pubchem 数据库对代谢物建立的编号。Pubchem目前收录了近一亿个Compound的全面信息（物理、化学、生物特性等），是最大的开源化合物库。

Pubchem CID的格式为单纯的数字，也就是顺序号。比如：D-Glucose的Pubchem CID为5793；L-Glucose的Pubchem CID为10954115。

https://pubchem.ncbi.nlm.nih.gov

HMDB ID

HMDB ID是HMDB：The Human Metabolome Database数据库对代谢物建立的编号，该数据包含了丰富的代谢物来源和分布信息（尤其是代谢物相关疾病信息）。目前HMDB数据库收录的Compound数量约为120000个。

HMDB ID的数据格式发生过一次调整：新版的HMDB ID格式为“HMDB[0-9]{7}”，“HMDB”+7位数的顺序号；旧版的HMDB ID格式为“HMDB[0-9]{5}”，“HMDB”+5位数的顺序号。老版的已有HMDB ID号在HMDB和原有五位数的顺序号间添加00升级为新版的HMDB ID，新收录的代谢物只编写新版HMDB ID。比如：D-Glucose的HMDB ID为HMDB0000122；L-Glucose HMDB未收录。

http://www.hmdb.ca

SMILES

SMILES：The Simplified Molecular-inout Line-entry System 是一种线性描述代谢物结构的字符串。SMILES的本质是使用文本记录原子（节点）和键（边）从而记录代谢物结构（图）。

往往使用B、C、N、O、P、S、Cl、Br等字母来表示原子；使用.、-、=、#、$等符号来表示键；使用 ( ) 来表示分支。一个代谢物结构往往可以书写为多个SMILES，但是一个SMILES只会表示一个确定的代谢物结构。使用canonicalization 算法生成canonical SMILES可以保证一个代谢物结构只能书写为一个canonical SMILES。比如：D-Glucose的canonical SMILES为“C(C1C(C(C(C(O1)O)O)O)O)O”；L-Glucose的canonical SMILES为“C(C(C(C(C(C=O)O)O)O)O)O”。

http://opensmiles.org/opensmiles.html

InChI

InChI：The IUPAC International Chemical Identifier是一种用于描述代谢物结构信息的新型文本。InChI由国际理论（化学）与应用化学联合会和美国国家标准与技术研究院共同开发。InChI在设计之初就保证了InChI和代谢物结构的一一对应关系。InChI将化学结构信息拆分为不同的特征层（化学式层、连接层、电荷层、同位素层等）来分开描述以方便不同的使用需求。

InChI的格式为“InChI=1S/化学式层/原子连接层/氢原子层/其他层（可省略）”。其中“InChI=”表明ID类型，“1”为版本号，“S”为标准的InChI之意，化学式层、原子连接层和氢原子层必需包含其余层可以省略。比如：D-Glucose的InChI为“InChI=1S/C6H12O6/c7-1-2-3(8)4(9)5(10)6(11)12-2/h2-11H,1H2/t2-,3-,4+,5-,6?/m1/s1”；L-Glucose的InChI为“InChI=1S/C6H12O6/c7-1-3(9)5(11)6(12)4(10)2-8/h1,3-6,8-12H,2H2/t3-,4+,5+,6+/m1/s1”。

https://www.inchi.info

InChIKey

InChIKey由InChI衍生而来。InChIKey是InChI的一种“加密”形式，是固定长度的一串字符。

InChIKey的格式为“[A-Z]{14}-[A-z]{11}-[A-Z]{1}”，第一部分14个字母基于连接层和质子层、第二部分的前9个字母基于其余层、第二部分的后两个字母基于标准/非标准特征使用SHA-256编码，第三部分的唯一字母描述（去）质子层。比如：D-Glucose的InChIKey为“WQZGKKKJIJFFOK-GASJEMHNSA-N”；L-Glucose的InChIKey为“GZCGUPFRVQAUEE-VANKVMQKSA-N”。

https://www.inchi.info/inchikey_overview_en.html

可以根据InChI直接计算得到InChIKey；

由InChIKey得到InChI需要查表；

10亿之一的概率一个InChIKey会对应一个以上的InChI。

总结

CAS Registry Number、KEGG ID、PubChem CID和HMDB ID是数据库依赖的ID类型。

1.代谢物结构和ID之间没有内在的联系；

2.不能通过ID直接阅读（解析）出代谢物的结构；

3.不能由代谢物的结构直接编写出ID；

4.仅数据库管理者可以编写ID；

5.代谢物结构和ID之间的联系通过数据库提供的对应表记录；

6.不能确保ID和代谢物结构的一一对应。

SMILES和InChI是和结构强相关的ID类型。

1.熟悉规则的人或者程序可以直接阅读SMILES和InChI获得代谢物的结构而不用依赖数据库（表）；

2.熟悉规则的人或者程序可以直接为结构确定的代谢物编写SMILES和InChI；

3.按照规则任何人都可以编写ID；

4.代谢物结构和ID之间的联系通过规则建立；

5.Canonical SMILES和InChI可以做到ID和代谢物结构的一一对应。

建议优先使用SMILES、InChI这种和结构强相关的ID。不同数据库之间做ID转换的时候，应通过代谢物的结构来做确认

代谢物常见的ID号你都搞明白了吗？相关推荐

相机拍的图，电脑上画的图，word里的文字，电脑屏幕，手机屏幕，相机屏幕显示大小一切的一切都搞明白了！...
相机拍的图,电脑上画的图,word里的文字,电脑屏幕,手机屏幕,相机屏幕显示大小一切的一切都搞明白了! 先说图片 X×dpi=点数dot X是图片实际尺寸,简单点,我们只算图片的高吧,比如说拍了张图片 ...
python20个常用语法_这20个常规Python语法你都搞明白了吗？
原标题:这20个常规Python语法你都搞明白了吗? 还没关注? Python简单易学,但又博大精深.许多人号称精通Python,却不会写Pythonic的代码,对很多常用包的使用也并不熟悉.学海无涯 ...
常见数据库id号编码
数据库id代表数据库的主键是每一个表所必须的,id号要唯一并且在众多代表事务中有意义这就需要一定的编码规则. 常用的的编码有: 1.数据库自增长ID或最大值加1 2.GUID 3.时间戳 ...
python有多少种语法_这20个常规Python语法你都搞明白了吗？
Python简单易学,但又博大精深.许多人号称精通Python,却不会写Pythonic的代码,对很多常用包的使用也并不熟悉.学海无涯,我们先来了解一些Python中最基本的内容. Python的特点 ...
线性回归方程b保留几位小数_线性回归的这些细节，你都搞明白了吗？
欢迎关注"生信修炼手册"! 回归分析是一种广泛使用的统计工具,利用已有的实验数据,通过一个方程来定量的描述变量之间的关系,其中的变量可以分为两类自变量,也称之为预测变量因变量, ...
mysql删除学生记录_mysql删除重复记录语句，删除除了 id 号不同,其他都相同的学生冗余信息...
/** 在Mysql下执行: delete from my.stu where id not in( select min(id) id from my.stu group by code ) ; 用 ...
删除除了id号不同,其他都相同的学生冗余信息
id 号学号姓名课程编号课程名称分数 1 2005001 张三 0001 数学 69 2 2005002 李四 0001 ...
常见分布式ID生成方案
文章目录一.为什么要用分布式ID 1.什么是分布式ID 2.那么分布式ID需要满足哪些条件二. 分布式ID有哪些生成方式 1.基于UUID 2.基于数据库自增ID 3.基于数据库集群模式 4.基于 ...
MM32F103芯片J-Link调试无法读不到芯片 ID 号
最近在使用MM32F103芯片,刚开始J-Link调试的时候可以正常下载与运行,后面遇到无法读取芯片的ID,确定 JTAG/SWD 硬件连接都是好的,可就是读不到芯片 ID 号. 经过回顾分析,是程序 ...

代谢物常见的ID号你都搞明白了吗？

代谢物常见的ID号有好几种，今天和大家一起来整理一下代谢物常见的ID号。

代谢物常见的ID号你都搞明白了吗？相关推荐

最新文章

热门文章