一、KEGG概述

KEGG( Kyoto Encyclopedia of Genes and Genomes):京都基因和基因组百科全书

KEGG项目于1995年5月在日本教育、科学、体育和文化部的人类基因组计划下启动。计算资源由京都大学化学研究所超级计算机实验室提供。KEGG和相关软件工具中的所有数据都为日本GenomeNet服务的一部分提供。

KEGG由三个数据库组成:

(1)用于表示相互作用分子网络的pathway;

(2)用于收集所有完全测序的基因组和一些部分基因组的基因目录的GENES;

(3)以及用于化学品收集的LIGAND(配体)。

==================================================

二、产生背景

如何借助计算机全面的展示细胞和生物所包含的生物学信息是后基因组时代的重大挑战之一。科学家期望能够根据基因组中的信息,用计算机计算或者预测出的比较复杂的细胞中的通路或者生物的复杂行为,出于这个目的,日本京都大学生物信息学中心的Kanehisa实验室于1995年建立了生物信息学数据库KEGG。现在是基因组测序和其他高通量实验技术产生的大规模分子数据集的整合和解释的重要参考知识库。

==================================================

三、内涵

KEGG是一个数据库资源,用于从基因组和分子水平信息中了解生物系统的高级功能和效用,例如细胞,生物体和生态系统。它是生物系统的计算机表示,由基因和蛋白质(基因组信息)和化学物质(化学信息)的分子构建块组成,它们与相互作用,反应和关系网络的分子接线图的知识相结合(系统信息)。它还包含疾病和药物信息(健康信息)作为生物系统的扰动。

特点:人工创建了一个知识库,基于使用一种计算的形式捕捉和组织实验室得到的知识而形成的系统功能知识库。它是一个生物系统的计算机模拟。

KEGG具有强大的图形功能,来介绍众多的代谢途径以及各途径之间的关系。(2019年8月统计)

注:

(1)与药物标签整合的健康信息类别称为KEGG MEDICUS★

(2)Genes数据库里:储存基因组信息,包括完整和部分测序的基因组序列;[从ncbi的GeneBank中搜集而来]

(3)Pathway数据库:储存更高级的功能信息

(4)LIGAND数据库:包含关于化学物质、酶分子、酶反应等信息——化学信息类别统称为LIGAND

(5)LinkDB:链接世界上其他一些大型生物信息学数据库

==================================================

四、KEGG PATHWAY Database

数据库首页:https://www.genome.jp/kegg/pathway.html

KEGG数据库目前统计的数据:https://www.kegg.jp/kegg/docs/statistics.html,能看到有542条pathway。

KEGG PATHWAY是一组根据相关知识手动绘制的通路图,代表我们对分子相互作用、反应和关系网络的了解。这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系。基因组信息主要是从NCBI等数据库中得到的,除了有完整的基因序列外,还有没完成的草图。

——————————————————————————————————

【注:以下知识参考链接——https://www.jianshu.com/p/d7656c2e2cbe】

这里先补充KEGG KO数据库

数据库首页链接: https://www.genome.jp/kegg/ko.html

KEGG Orthology 简称KO,对于每个功能已知的基因,会把和其同源的基因所有基因都归为一类,就是每一个KO, 并赋予一个K number, 用该基因的功能作为这个KO的功能;基于同源基因具有相似功能的假设,把每个基因的功能进行了扩充,对于某个物种中功能研究的很清楚的基因,在不同的物种间搜寻该基因的同源基因,将这些同源基因定义为一个orthology,用该基因的功能作为该orthology 的功能,这样就将对于不同物种基因功能的研究都利用起来,提供了一个全面的研究基因功能的数据库。

对于一个具体的KO来说,在这个KO下是一系列基因,这些基因可以来源于不同的物种,但是具有相同的功能

举一个例子,对于 K00161 这个K number 来说,打开首页链接 http://www.genome.jp/kegg/ko.html , 在查询的文本框中输入K number, 如下图所示:

点击 Orthology table 按钮,跳转到下面的链接:https://www.kegg.jp/kegg-bin/view_ortholog_table?orthology=K00161,在该链接中,可以看到这个KO下对应的所有同源基因。

ko编号就是一个pathway,例如ko04722,这个通路不分物种,相当于所有物种这一通路的并集。

K编号表示一个基因,例如K02582(https://www.kegg.jp/kegg-bin/view_ortholog_table?orthology=K02582),是ko通路中的基本单元,某一K编号代表的不是某一具体物种的基因,而是所有物种的某一同源基因的统称。

pathway,module 等数据库都是建立在KO数据库的基础上的,KO可以说是KEGG中处于核心地位的一个数据库,所以理解KO数据库就特别的重要。

——————————————————————————————————

下面来说Pathway数据库

打开Pathway数据库首页:https://www.kegg.jp/kegg/pathway.html,可以看到Pathway的标识符和具体的pathway名称:

仅仅第一种参考通路是手动画出来的,其他的通路图都是通过计算产生的。pathway中的每一个框或线都对应一个或多个K编号、EC编号及R编号。

每个 Pathway图 由2-4个字母前缀代码和5个数字组成的组合(请参阅https://www.genome.jp/kegg/kegg3.html)。

(1)前缀含义如下:

① map - Reference pathway:对于代谢相关的通路,在reference pathway中,一个点同时表示一个基因,这个基因编码的酶或这个酶参加的反应

② ko - Reference pathway(KO):KO通路中的点只表示基因

③ ec - Reference pathway(EC):EC通路中的点只表示相关的酶

④ rn - Reference pathway(Reaction):Reaction通路中的点只表示该点参与的某个反应、反应物及反应类型

⑤ org - Organism-specific pathway map:对于所有的代谢和非代谢通路,K编号都被认为是基因的标识符,这个标识符在每一个物种中对应该物种中的某个基因,从而得到物种特异性的pathway。

【注:以上为pathway的五种类型,这5个内容是互相补充,相辅相成的。我们在使用时,常常需要穿梭使用。】

(2)以下列开头的数字用于不同类型的MAPs

① 011 全局图(链接到KO的线)

② 012 概述图(链接到KO的线)

③ 010 化学结构图(没有KO的扩展)

④ 07 药物结构图(没有KO的扩展)

⑤ 其他常规图(链接到KO的框)

KEGG PATHWAY 与 MODULE 和 NETWORK 数据库集成在一起,如下所示。 
       ① M-模块

② R-反应模块

③ N-网络

KEGG主页可以搜索的类型如:

  • map00010
  • ko00010
  • ec00010
  • rn00010
  • hsa00010

方框中一共标注了7种内容。分别为代谢过程、基因信息、环境信息、细胞内过程、组织信息、涉及的人类疾病和药物研究信息

每种内容包括如下内容:

1. 代谢

【注:map开头,没有kgml文件可下载】

2. 遗传信息处理

 【注:map开头,没有kgml文件可下载】

3.环境信息处理

【注:map开头,没有kgml文件可下载】

4.细胞过程 

【注:hsa开头,有kgml文件可下载】

5.组织系统

【注:hsa开头,有kgml文件可下载】

6.人类疾病 

【注:hsa开头,有kgml文件可下载】

7.药物开发

【注:map开头,没有kgml文件可下载】

==================================================

五、Pathway的数据表示形式

参考链接:https://cloud.tencent.com/developer/article/1626035

KGML 文件: pathway 信息更加直观的存储方式

KGML 是 KEGG Markup Language 的简写,用于存储pathway中的相关元素。

虽然通路图很生动,但是由于pathway的复杂性,我们很难只从图片就看到对应的基因等信息,KGML 文件作为存储pathway信息的另外一种格式,就能够很好的解决这个问题。

KGML 文件主要存储了3种相互作用关系,前两种关系都是某一条pathway 中所有的基本元素之间的关系,第三种则是pathway之间的关系。

(1)蛋白质之间的相互作用关系,通过 relation 链接不同的 gene/protein;

(2)生物小分子compound之间的相互反应 , 通过 reacton 连接不同的 compound;

(3)pathway-pathway 之间的相互关系;

KGML 文件有两种获取途径:

(1)第一种是通过KEGG API 获取, 示例,获取 hsa00020 对应的kgml文件:http://rest.kegg.jp/get/hsa00020/kgml

注:KEGG API 的具体用法参考——https://www.kegg.jp/kegg/rest/keggapi.html

(2)第二种是通过网页直接下载,示例,通过点击“Download KGML”下载对应的kgml文件:https://www.kegg.jp/kegg-bin/show_pathway?hsa00020

==================================================

六、EGG Pathway分类

【参考链接:https://www.jianshu.com/p/98886417590d】

一般,KEGG中存在三大类代谢图,每个数据路的pathway都有相应的唯一编号,如map00010,据此可在kegg数据库官网查询。

(1)第一类是 reference pathway:根据已有的知识绘制的、概括的、详尽的具有一般参考意义的代谢图。

通路图中的小框都是白色,方便个性化填充颜色,在KEGG中名字以map开头,节点代表某一基因、该基因编码的酶及这个酶参与的反应,比如map00010。http://www.genome.jp/kegg-bin/show_pathway?map00010

(2)第二类是  species-specific pathway:物种特有代谢通路图。

绿色小框为该物种特有的基因或酶,只有这些绿色的框有更详细的信息。KEGG中名字为特定物种种属英文缩写,比如人的糖酵解通路图,hsa00010。

http://www.genome.jp/kegg-bin/show_pathway?hsa00010

(3)第三类是 以ko/ec/rn开头的Reference pathway:ko通路中的节点只代表基因;ec通路中的节点只代表相关的酶;rn通路中的节点只表示该点参与的某个反应、反应物及反应类型。底色以蓝色表示。

例如同样是糖酵解代谢通路有三种类型:

http://www.genome.jp/kegg-bin/show_pathway?ko00010

http://www.genome.jp/kegg-bin/show_pathway?ec00010

http://www.genome.jp/kegg-bin/show_pathway?rn00010

==================================================

图中的符号的解释:

代谢通路图中,一般就是酶,方框里面的数字代表EC编号;小圆圈代表代谢物,点开会出现C00668的信息,C代表compound,00668是这种化合物在KEGG中的编号。

具体官方解释如下(附链接):http://www.genome.jp/kegg/document/help_pathway.html

认识 KEGG PATHWAY 数据库相关推荐

  1. KEGG pathway 数据库

    pathway 建立在ko 数据库的基础上,基于我们对生命活动中的分子相互作用和化学物质的反应的认识,构建了复杂的调控网络,采用通路图的形式,进行展示. 通路图中融合了ko, module, comp ...

  2. 手把手教你给KEGG pathway图标注颜色

    今天是六一儿童节,祝宝宝们节日快乐. KEGG是一个整合了基因.化合物.酶和系统功能的数据库,它利用图形来表征代谢通路,以及各种通路间的关系,使得研究者能够在系统层面了解所关注的代谢通路(pathwa ...

  3. pathway common:综合性的pathway数据库

    欢迎关注"生信修炼手册"! network based analysis, 基于网络的数据分析,是目前最常见的研究基因功能的方法,最典型的有pathway和蛋白质相互作用网络的分析 ...

  4. KEGG Drug 数据库

    kegg drug 数据库是一个药物相关信息的综合数据库,包括了在日本,美国,欧洲上市的的药物.所有在日本上市的药物,不论处方药还是非处方药,包括天然药物和中药,都会在Drug 数据中有对应的记录:对 ...

  5. KEGG Disease 数据库

    kegg disease 数据库收录了已经报告的各种疾病的信息,每个记录用H Number 唯一标识, 比如H00004. 在kegg 中,将疾病视作分子网络的一个不正常的状态.所有的遗传因素,环境因 ...

  6. KEGG Pathway Anonatation

    转载于 Original 2017-06-20 liuhui 生信百科 KEGG 数据库中,把功能相似的蛋白质归为同一组,然后标上 KO 号.通过相似性比对,可以为未知功能的蛋白序列注释上 KO 号. ...

  7. 微生信在线绘制KEGG Pathway通路分类汇总图

    KEGG Pathway分析是文献中几乎必备的一项功能分析.在pathway富集分析中,我们一般关注的是输入基因富集到哪些通路,但是殊不知,这些通路还可以进行分类汇总. 在KEGG官网(KEGG PA ...

  8. 从KEGG BRITE数据库下载数据

    因为笔者学习需要从KEGG BRITE数据库下载数据,在这里记录一下. 系统:UBUNTU22 结果

  9. KEGG Enzyme 数据库

    生物体内的大多数反应都需要酶的参与,酶在生命活动中发挥了重要作用.IUBMB/UPAC 国际标准化命名委员会对已经发现的酶都提供了标准化的的命名方式,叫做EC number. KEGG ENZYME ...

  10. KEGG在线数据库使用攻略

    本文转载自"美吉生物",己获授权. KEGG简介 KEGG是一个整合了基因组.化学和系统功能信息的数据库.把从已经完整测序的基因组中得到的基因目录与更高级别的细胞.物种和生态系统水 ...

最新文章

  1. 三层架构的原理及实现
  2. fastText中常见问题汇总
  3. Spark Operator资料收集
  4. Android构建流程——篇一
  5. 简单了解RestTemplate消息读取的转化
  6. 为什么中国这么多高薪程序员,开发不出Java, Typescript, Python, Rust, Node.js这些基础设施?...
  7. 一个正则表达式酿成的惨案
  8. 正则表达式提取括号里面的值
  9. diolog js_js组件-js插件-jquery插件-dialog对话框弹层
  10. gin mongodb restful api设计: 动态的patch接口
  11. 韩语在线翻译图片识别_最强文字识别APP
  12. 测试英语语法的软件,1Checker,一款实用的英语语法检测软件
  13. 智慧交管数字孪生IOC系统
  14. js把数字金额转换成中文大写数字
  15. Java中使用JCOM操作Word/Excel对象
  16. 2022年十一届认证杯B题
  17. Win7下的Linux通过Nat的VMnet8下的NAT方式进行上网
  18. MySQL数据库(四):多表查询、视图、事务、索引、函数、Go连接MySQL
  19. 21天好习惯第一期—15
  20. 怎样在matlab中查找函数的具体代码,几种查看Matlab函数源代码的方法

热门文章

  1. 最新即时通讯聊天安卓APP源码+全开源/Uniapp内核
  2. Web 项目中,MySQL 最新驱动下载、及配置
  3. 2021华为软件精英挑战赛的baseLine,Java版,仅供参考,无核心算法
  4. 单片机(ISIS 7 Professional):简易8x8矩阵LED灯代码项目
  5. html系统网页代码大全,html网页的代码大全
  6. OFD文件如何打印?怎么打开?如何转换PDF?
  7. 2019美赛A题—学习记录
  8. 怎么用屏幕录像工具录制游戏的精彩时刻
  9. 手机利用NFC功能复制门禁卡到小米手环上
  10. pandas: pd.concat([df1,df3],axis默认=0纵向拼接),concat常用于纵向拼接,默认outer join