代谢物常见的ID号你都搞明白了吗?
代谢物常见的ID号有好几种,今天和大家一起来整理一下代谢物常见的ID号。
首先我们列一个清单(使用频率较高的代谢物ID):
CAS Registry Number
KEGG ID
Pubchem CID
HMDB ID
SMILES
InChI
InChIKey
01
CAS Registry Number
CAS Registry Number是我们向供应商采购代谢物的关键依据(以保障买到正确的代谢物)。CAS Registry Numberd的本质是代谢物到美国化学学会CAS注册数据库注册获得的注册号。
CAS Registry Number的格式为“[0-9]{2-7}-[0-9]{2}-[0-9]”,第一部分2至7位数字、第二部分2位数字为顺序号,第三部分一位数字为根据前两部分数字计算得到的校验码。比如:D-Glucose的CAS Registry Number为50-99-7;L-Glucose的CAS Registry Number为921-60-8。
https://www.cas.org/support/documentation/chemical-substances/faqs
02
KEGG ID
KEGG ID是KEGG: Kyoto Encyclopedia of Genes and Genomes数据库对代谢物建立的编号,该数据库包含了丰富的代谢物功能注释信息(尤其是代谢通路信息)。目前KEGG数据库收录的Compound数量约为19000个,其中约15000个ID对应唯一的代谢物结构,其余ID对应含部分相同子结构的一类代谢物结构。
KEGG ID的格式为“C[0-9]{5}”,“C”代表Compound的,后面五位数字为顺序号。比如:D-Glucose的KEGG ID为C00031;L-Glucose KEGG未收录。
https://www.genome.jp/kegg/
03
Pubchem CID
Pubchem CID是NCBI: National Center for Biotechnology Information数据库的子库Pubchem 数据库对代谢物建立的编号。Pubchem目前收录了近一亿个Compound的全面信息(物理、化学、生物特性等),是最大的开源化合物库。
Pubchem CID的格式为单纯的数字,也就是顺序号。比如:D-Glucose的Pubchem CID为5793;L-Glucose的Pubchem CID为10954115。
https://pubchem.ncbi.nlm.nih.gov
04
HMDB ID
HMDB ID是HMDB:The Human Metabolome Database数据库对代谢物建立的编号,该数据包含了丰富的代谢物来源和分布信息(尤其是代谢物相关疾病信息)。目前HMDB数据库收录的Compound数量约为120000个。
HMDB ID的数据格式发生过一次调整:新版的HMDB ID格式为“HMDB[0-9]{7}”,“HMDB”+7位数的顺序号;旧版的HMDB ID格式为“HMDB[0-9]{5}”,“HMDB”+5位数的顺序号。老版的已有HMDB ID号在HMDB和原有五位数的顺序号间添加00升级为新版的HMDB ID,新收录的代谢物只编写新版HMDB ID。比如:D-Glucose的HMDB ID为HMDB0000122;L-Glucose HMDB未收录。
http://www.hmdb.ca
05
SMILES
SMILES:The Simplified Molecular-inout Line-entry System 是一种线性描述代谢物结构的字符串。SMILES的本质是使用文本记录原子(节点)和键(边)从而记录代谢物结构(图)。
往往使用B、C、N、O、P、S、Cl、Br等字母来表示原子;使用.、-、=、#、$等符号来表示键;使用 ( ) 来表示分支。一个代谢物结构往往可以书写为多个SMILES,但是一个SMILES只会表示一个确定的代谢物结构。使用canonicalization 算法生成canonical SMILES可以保证一个代谢物结构只能书写为一个canonical SMILES。比如:D-Glucose的canonical SMILES为“C(C1C(C(C(C(O1)O)O)O)O)O”;L-Glucose的canonical SMILES为“C(C(C(C(C(C=O)O)O)O)O)O”。
http://opensmiles.org/opensmiles.html
06
InChI
InChI:The IUPAC International Chemical Identifier是一种用于描述代谢物结构信息的新型文本。InChI由国际理论(化学)与应用化学联合会和美国国家标准与技术研究院共同开发。InChI在设计之初就保证了InChI和代谢物结构的一一对应关系。InChI将化学结构信息拆分为不同的特征层(化学式层、连接层、电荷层、同位素层等)来分开描述以方便不同的使用需求。
InChI的格式为“InChI=1S/化学式层/原子连接层/氢原子层/其他层(可省略)”。其中“InChI=”表明ID类型,“1”为版本号,“S”为标准的InChI之意,化学式层、原子连接层和氢原子层必需包含其余层可以省略。比如:D-Glucose的InChI为“InChI=1S/C6H12O6/c7-1-2-3(8)4(9)5(10)6(11)12-2/h2-11H,1H2/t2-,3-,4+,5-,6?/m1/s1”;L-Glucose的InChI为“InChI=1S/C6H12O6/c7-1-3(9)5(11)6(12)4(10)2-8/h1,3-6,8-12H,2H2/t3-,4+,5+,6+/m1/s1”。
https://www.inchi.info
07
InChIKey
InChIKey由InChI衍生而来。InChIKey是InChI的一种“加密”形式,是固定长度的一串字符。
InChIKey的格式为“[A-Z]{14}-[A-z]{11}-[A-Z]{1}”,第一部分14个字母基于连接层和质子层、第二部分的前9个字母基于其余层、第二部分的后两个字母基于标准/非标准特征使用SHA-256编码,第三部分的唯一字母描述(去)质子层。比如:D-Glucose的InChIKey为“WQZGKKKJIJFFOK-GASJEMHNSA-N”;L-Glucose的InChIKey为“GZCGUPFRVQAUEE-VANKVMQKSA-N”。
https://www.inchi.info/inchikey_overview_en.html
可以根据InChI直接计算得到InChIKey;
由InChIKey得到InChI需要查表;
10亿之一的概率一个InChIKey会对应一个以上的InChI。
总结
CAS Registry Number、KEGG ID、PubChem CID和HMDB ID是数据库依赖的ID类型。
1.代谢物结构和ID之间没有内在的联系;
2.不能通过ID直接阅读(解析)出代谢物的结构;
3.不能由代谢物的结构直接编写出ID;
4.仅数据库管理者可以编写ID;
5.代谢物结构和ID之间的联系通过数据库提供的对应表记录;
6.不能确保ID和代谢物结构的一一对应。
SMILES和InChI是和结构强相关的ID类型。
1.熟悉规则的人或者程序可以直接阅读SMILES和InChI获得代谢物的结构而不用依赖数据库(表);
2.熟悉规则的人或者程序可以直接为结构确定的代谢物编写SMILES和InChI;
3.按照规则任何人都可以编写ID;
4.代谢物结构和ID之间的联系通过规则建立;
5.Canonical SMILES和InChI可以做到ID和代谢物结构的一一对应。
建议优先使用SMILES、InChI这种和结构强相关的ID。不同数据库之间做ID转换的时候,应通过代谢物的结构来做确认
代谢物常见的ID号你都搞明白了吗?相关推荐
- 相机拍的图,电脑上画的图,word里的文字,电脑屏幕,手机屏幕,相机屏幕显示大小一切的一切都搞明白了!...
相机拍的图,电脑上画的图,word里的文字,电脑屏幕,手机屏幕,相机屏幕显示大小一切的一切都搞明白了! 先说图片 X×dpi=点数dot X是图片实际尺寸,简单点,我们只算图片的高吧,比如说拍了张图片 ...
- python20个常用语法_这20个常规Python语法你都搞明白了吗?
原标题:这20个常规Python语法你都搞明白了吗? 还没关注? Python简单易学,但又博大精深.许多人号称精通Python,却不会写Pythonic的代码,对很多常用包的使用也并不熟悉.学海无涯 ...
- 常见数据库id号编码
数据库id代表数据库的主键是每一个表所必须的,id号要唯一并且在众多代表事务中有意义这就需要一定的编码规则. 常用的的编码有: 1.数据库自增长ID或最大值加1 2.GUID 3.时间戳 ...
- python有多少种语法_这20个常规Python语法你都搞明白了吗?
Python简单易学,但又博大精深.许多人号称精通Python,却不会写Pythonic的代码,对很多常用包的使用也并不熟悉.学海无涯,我们先来了解一些Python中最基本的内容. Python的特点 ...
- 线性回归方程b保留几位小数_线性回归的这些细节,你都搞明白了吗?
欢迎关注"生信修炼手册"! 回归分析是一种广泛使用的统计工具,利用已有的实验数据,通过一个方程来定量的描述变量之间的关系,其中的变量可以分为两类 自变量,也称之为预测变量 因变量, ...
- mysql删除学生记录_mysql删除重复记录语句,删除除了 id 号不同,其他都相同的学生冗余信息...
/** 在Mysql下执行: delete from my.stu where id not in( select min(id) id from my.stu group by code ) ; 用 ...
- 删除除了id号不同,其他都相同的学生冗余信息
id 号 学号 姓名 课程编号 课程名称 分数 1 2005001 张三 0001 数学 69 2 2005002 李四 0001 ...
- 常见分布式ID生成方案
文章目录 一.为什么要用分布式ID 1.什么是分布式ID 2.那么分布式ID需要满足哪些条件 二. 分布式ID有哪些生成方式 1.基于UUID 2.基于数据库自增ID 3.基于数据库集群模式 4.基于 ...
- MM32F103芯片J-Link调试无法读不到芯片 ID 号
最近在使用MM32F103芯片,刚开始J-Link调试的时候可以正常下载与运行,后面遇到无法读取芯片的ID,确定 JTAG/SWD 硬件连接都是好的,可就是读不到芯片 ID 号. 经过回顾分析,是程序 ...
最新文章
- AI化身监工,上班还能摸鱼吗?
- 一个有意思的逻辑训练题目
- 数据绑定表达式(下):.NET发现之旅(二)
- CSS样式表margin和padding的区别
- 微信小程序外卖增长402%,茶饮下单最活跃
- python爬虫取腾讯视频评论
- asp.net 注册、卸载iis,iis重启命令
- 统计学名词解释 —— 3. 「简单随机样本」、「联合分布」与「联合密度」
- wamp mysql使用方法_wamp使用方法【总】
- Stacked Hourglass Networks - 堆叠沙漏网络结构详解
- 时序分析/约束(一):相关概念
- nginx中配置不输入端口(指定地址)访问项目的方法
- 双节有惊喜,思维导图优惠乐翻天
- 五大地形等高线特征_七年级所有知识点
- 查表法求sin和cos
- Word图文混排的“ 锚 “
- 【SQL Server】列转行 STUFF 函数
- 超级*** 04格式化左脑
- 就业与保障杂志就业与保障杂志社就业与保障编辑部2022年第3期目录
- 通过爬虫实现百度在线翻译