linux转录组kegg注释,蛋白质组学KEGG注释详解
8种机械键盘轴体对比
本人程序员,要买一个写代码的键盘,请问红轴和茶轴怎么选?
一、KEGG简介
KEGG is a database resource for understanding high-level functions and utilities of the biological system, such as the cell, the organism and the ecosystem, from molecular-level information, especially large-scale molecular datasets generated by genome sequencing and other high-throughput experimental technologies.
(KEGG是一个数据库资源,用于从分子级信息,特别是基因组测序和其他高通量产生的大规模分子数据集中了解生物系统(如细胞,生物体和生态系统)高级功能和效用。)KEGG数据库可以分为3大部分,基因数据库、化学分子物质数据库及基于基因和化学分子物质相互关系而建立起来的代谢通路数据库,在KEGG数据库中,有一个“专有名词”KO(KEGG Orthology),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K标签,KEGG orthology (ko)代表的是某个代谢途径,k代表的是某个酶,c代表的是某个化合物,M代表的是某个模块,后面都会跟着编号。代谢通路图中的正方形代表酶,圆形代表代谢物,5.4.4.4代表的是EC编号。
1. KEGG在线注释工具:KAAS(KEGG Automatic Annotation Server):The method is based on sequence similarities,bi-directional best hit information and some heuristics, and has achieved a high degree of accuracy when compared with the manually curated KEGG GENES database.
在KEGG数据库中,有一个“专有名词”KO(KEGG Orthology),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K)标签。对于酶来说,40-70%的序列相似性对于功能的预测有90%的准确性。直系同源基因是来自于相同的祖先的基因分化,保存在不同的物种中的功能基因。在实际操作中,可以通过双向BLAST,来判断两个基因是否是BBH(bi-directional best hit),从而来判断两个基因是否是直系同源基因。因此,对在许多物种中的直系同源基因的鉴定是对新测序的基因功能预测的最便捷的途径。而KEGG 数据库就是通过KEGG Orthology (KO)系统来跨物种注释的一种机制。KAAS的整个预测流程如下图所示:
2.算法原理
KAAS注释软件在运行中提供两种策略,the bi-directional best hit information method(BBH method)和 the single-directional best hit information method (SBH method)。下面以BBH方法为例来讲解一下KAAS软件运行原理。
首先将要注释的基因作为 query,和KEGG数据库中的参考基因进行blast比对,输出的结果(E>10)称为homolog。同时把 KEGG数据库中的参考基因作为query,将要注释的基因作为reference,进行blast比对。实际上KEGG 在做注释的时候,并不是把所有的基因都作为 refernce,而是按照是否来自同一个基因组分成一个一个的小的 reference,分别进行 blast。
假设有两个基因组 A 和B,含有的基因分别为 a1,a2,a3…an;b1,b2,b3…bn 先用A作为 query,B作为refer,进行blast比对,A中的基因a1对B中的基因进行遍历,和基因b1有最高的 bit score。现在用B作为query, A作为refer,进行blast比对,B中的基因b1对A中的基因进行遍历,如果bits score最高的是a1,则a1和a2就是一个Bi-directional best hit (BBH),但也有可能不是a1,只能成为 Single-directional hit (SBH)。
BHR( Bi-directional hit rate)是KEGG在Bi-directioanl Best Hit 的基础上进行修改的一个选项,BHR = Rf* Rr。用刚才的A和B作为例子。Rf为用A作为query,B作为Refer, a1和B中的每一个基因都计算一次,Rf=Bits_score[a1-b1] /MaxBits_score[a1_b]。Blast Bits Score 是在 Blast raw score 换算过来的。分子是a1和B中的一个基因的Bit_score,分母是a1和B中基因最大的bit_score。反过来,可以计算一下Rr,即B作为query,A作为Refer。对每个 homolog 进行过滤的条件为Blast bits score > 60,bi-directional hit rate (BHR)>0.95
首先根据自己提交数据类型(Complete or Draft Genome、Partial Genome、Metagenomes),选择对应的提交界面。在这里我们选用Complete or Draft Genome,进入以下界面,并按照图中红色方框及文字指示进行操作。对于比对策略的选用,一般情况下对于单个完整的基因组都选用BBH,尽管速度稍慢(耗用时间为SBH的2倍),但准确性较高。而对于部分基因组及宏基因组,建议使用SBH。
4.对注释结果进行脚本解析
KAAS软件注释的结果保存在pathway.txt和kolist.txt两个文件中,然后进行脚本解析
解析脚本KEGG_annotation.pl#!/usr/bin/perl -w
use strict;
use Getopt::Long;
my $pathway; #pathway.txt
my $kolist; #kolist.txt
my $tag; #物种拉丁名缩写
my $pathway_name;
my %hash;
my %gene_desc;
Getopt::Long::GetOptions(
'p=s' => $pathway,
'k=s' => $kolist,
't=s' => $tag,
);
open FILE,$pathway;
while(){
chomp;
if(/^($tagd+ (.*)) (d+)/){
$pathway_name=$1;
}elsif(/ko:(Kd+) (.*)/){
$hash{$1}{$pathway_name}=1;
$gene_desc{$1}=$2;
}
}
open FILE,$kolist;
print "Protein accessiontKEGG KO No.tKEGG GenetKEGG pathwayn";
while(){
chomp;
print;
my @array=split/t/;
if($array[1] and $hash{$array[1]}){
print "t$gene_desc{$array[1]}t";
foreach my $k(keys %{$hash{$array[1]}}){
print "$k; ";
}
}
print "n";
}
参考文献:
Moriya, Yuki, et al. “KAAS: an automatic genome annotation and pathway reconstruction server.” Nucleic Acids Research 35.Web Server issue(2007):182-5.
5/8/2017 3:06:34 PM
linux转录组kegg注释,蛋白质组学KEGG注释详解相关推荐
- Revit 中注释族的应用详解及公共族库工具
一.Revit 中注释族的应用详解: 注释族是用来表示二维注释的族文件,它被广泛用于很多构件的二维视图表现.下面以一个实例来说明注释族的应用 1.注释族创建实例 用"公制常规注释.rft& ...
- Android 驱动(12)---Linux DTS(Device Tree Source)设备树详解
Linux DTS(Device Tree Source)设备树详解 Linux DTS(Device Tree Source)设备树详解之一(背景基础知识篇) Linux DTS(Device Tr ...
- 【Linux】定时任务crontab和at命令详解
[Linux]定时任务crontab和at命令详解 linux 系统则是由 cron (crond) 这个系统服务来控制的.Linux 系统上面原本就有非常多的计划性工作,因此这个系统服务是默认启动的 ...
- 高通平台msm8953 Linux DTS(Device Tree Source)设备树详解之二(DTS设备树匹配过程)
本系列导航: 高通平台8953 Linux DTS(Device Tree Source)设备树详解之一(背景基础知识篇) 高通平台8953 Linux DTS(Device Tree Source ...
- linux oracle 用户创建,LINUX下Oracle数据库用户创建方法详解
本文实例分析了LINUX下Oracle数据库用户创建方法.分享给大家供大家参考,具体如下: 1)登录linux,以oracle用户登录(如果是root用户登录的,登录后用 su - oracle命令切 ...
- Linux文本处理必杀技之awk应用详解
AWK是一个优良的文本处理工具,Linux及Unix环境中现有的功能最强大的数据处理引擎之一.这种编程及数据操作语言(其名称得自于它的创始人阿尔佛雷德·艾侯.彼得·温伯格和布莱恩·柯林汉姓氏的首个字母 ...
- Linux redis安装教程,Linux 下redis5.0.0安装教程详解
Linux redis5.0.0安装,教程如下所示: 1.从官网下载,然后传到服务器,tar -zxvf解压 2.进入redis ? 3.安装:make, (1)若提示:: gcc: Command ...
- Linux中history历史命令使用方法详解
在/etc/profile里添加如下:#History export HISTTIMEFORMAT="[%F %T]" HISTDIR=/home/common/.hist if ...
- linux查看根目录使用率,Linux 查看空间使用情况的实例详解
Linux 查看空间使用情况的实例详解 在日常的Linux巡检中,我们会遇到文件系统目录使用空间很高的情况,例如如下利用"df -h "查看到根目录空间使用超过80%.而我们仅仅知 ...
- linux的阻塞waitqueue,Linux阻塞控制 wait_event与wait_event_interruptible函数详解
Linux阻塞控制 wait_event与wait_event_interruptible函数详解 最近研究了一下linux驱动对进程的阻塞与非阻塞的控制,感觉linux对进程的控制真的是牛逼,各种进 ...
最新文章
- 色彩(颜色)空间原理(实现代码)
- ACM入门之【最小生成树】
- php glob() 列出目录及文件
- AppSettings和ConnectionStrings的区别
- servlet版本及容器和Java版本
- 检测到目标url存在内部ip地址泄露_Cendertron,动态爬虫与敏感信息泄露检测
- 冯鑫涉嫌犯罪被带走 暴风集团开盘即跌停
- 第11章 使用Vsftpd服务传输文件
- python 柱状图设置样式_python数据可视化之图表样式调整(三)
- Oracle定时器执行多线程
- junit不启用事务_JUnit禁用启用测试
- DSP技术-2-DSP的C语言同主机C语言的主要区别在哪里?
- DONET中常用的一些快捷键收集。
- 2021暑期实习:网易互娱游戏测试最新面经!
- 什么是PKI 体系(数字证书种类)
- Cannot uninstall 'wrapt'. It is a distutils installed project and thus we cannot accurately determin
- 天融信网络知识小百科——第六回:如何为交换机选配光模块?
- Cloudflare Radar 2021 年回顾
- 广州车展开幕:超定律智能纯电SUV埃安Y全球首发
- 磨金石教育摄影技能干货分享|有哪些让你难以忘怀的人文摄影照片