文章目录

  • 超快的基因组序列聚类注释在线工具WebMGA
    • 序列聚类cd-hit
    • 基因预测ORF prediction
    • 蛋白COG注释
    • 作者简介
    • 参考文献
    • 猜你喜欢
    • 写在后面

超快的基因组序列聚类注释在线工具WebMGA

撰文:周晗 中南大学

审稿:刘永鑫 中科院遗传发育所

(宏)基因组学是测序研究生物功能的新领域。如今测序技术一直在进步,成本也大幅下降,数据在大量增加,但数据分析是非常耗时的,并且(宏)基因组注释涉及广泛的计算工具,这些工具难以轻松掌握。少数可用Web服务器提供的工具也受到许多限制,例如有登录要求、无法大批量分析、等待时间过长、无法配置配件等等。如果你也遇到以上的困扰,那可以试一试今天要介绍的这款工具。

WebMGA是用于(宏)基因组快速分析的Web服务器,包含3个模块20多种常用的工具。访问网址:http://weizhong-lab.ucsd.edu/webMGA/。(图1)

图1. 服务器主页界面

这三个模块分别为:序列聚类、基因预测和功能注释。我们从每个模块中挑选一个工具进行演示。
(图2)

图2. 服务器的主要功能和对应的选项

cd-hit是用于蛋白质序列或核酸序列聚类的工具,根据序列的相似度对序列进行聚类来除去冗余的序列。它的引用量近7000次。

序列聚类cd-hit

cd-hit是一种贪婪的增量聚类方法,它解决了序列两两比对特别费时的问题,大大缩短了运行时间。首先我们选定分析方法后上传文件。可修改为认为合适的参数(一般默认参数即可)。
(图3)


图3. 以cd-hit-est为例,上传数据和参数设置页面。上传数据为标准核酸fasta格式文件。推荐填写邮箱地址。

上传成功后会显示如下页面。点击job status,对于10Mb的输入文件,一般1分钟后就可以查看结果了。
(图4)

图4. 任务提交成功页面

结果会整理成压缩包,可以直接下载压缩包。
(图5)

图5. 结果下载页面

下载的压缩包解压后,结果包含以下内容:
(图6)

图6. 下载结果文件列表,红框为重要结果

cd-hit主要有两个输出文件:一个是只含有所有代表序列(即去冗余后的序列)的FASTA文件;
(图7)

图7. 非冗余代表序列文件内容示例

另一个是以.clstr结尾的聚类信息文件,名为“output-sorted”。文件中以“>”开头的是一个聚类组。每组下面按序号排列,如图中Cluster 1组有19个聚类序列。每个聚类序列有一个百分比或“”,百分比代表该序列与代表序列的相似度,“”代表该序列即为代表序列。另一个“output.clstr”文件中仅含有代表序列的信息。
(图8)

图8. 聚类信息文件示例,*为代表序列

基因预测ORF prediction

ORF prediction可以从(宏)基因组序列中预测基因,上传要求的FASTA格式的DNA序列,对于2Mb的上传文件,只需3秒就可以查看结果了。
(图9)


图9. 宏基因组序列中基因预测页面

结果文件中包含以下内容。其中名为“OFR.fasta”的文件,就是预测好的结果文件。
(图10)

图10. 宏基因组序列中基因预测结果文件。红框为主要结果

这个预测结果文件可以直接上传到后面的注释工具。
(图11)

图11. 宏基因组序列中基因预测结果文件内容示例

蛋白COG注释

注释工具中我们以COG注释为例。COG(cluster of orthologous group——直系同源簇)是用不同种族的基因成对相似聚类法把它们划分成各种直系同源簇,从而可以用同一簇中的已知基因注释未知基因的功能。它的引用量现已上千。

COG注释作用:

  1. 通过已知蛋白对未知序列进行功能注释;
  2. 通过查看指定的COG编号对应的protein数目,存在及缺失,从而能推导特定的代谢途径是否存在;
  3. 每个COG编号是一类蛋白,将query序列和比对上的COG编号的proteins进行多序列比对,能确定保守位点,分析其进化关系。

上传之前基因预测的结果文件,对于大小为2Mb的基因组,大概3分钟就可以给出注释结果!还对每条序列的COG注释结果进行了COG分类,是不是非常快!COG功能注释结果中包含以下几个文件。
(图12)

图12. COG注释结果文件

“cog.txt”是按照COG同源蛋白的编号排出来的注释结果。
(图13)

图13. COG注释结果cog.txt文件示例

“cog-class.txt”是将蛋白归为25个大类,在每个分类上进行统计。
(图14)

图14. COG注释结果cog-class.txt文件示例

根据分类,可以统计数目,然后根据不同的分类做图进行比较。
(图15)

图15. COG归类结果常见柱状图展示方式

(图16)

图16. COG归类结果的热图展示

今天介绍的这个工具非常方便,并且运行速度很快,页面十分友好,掌握了会让大家的组学分析轻松很多。

作者简介

周晗,本科毕业于山东省第一医科大学,2018年硕士就读于中南大学资源加工与生物工程学院生物工程专业,在环境微生物工程课题组学习。具体研究内容为极端嗜盐微生物的比较基因组学分析和降解废水中有机物的相关研究。欢迎大家批评、指导和交流,zhhlzl@csu.edu.cn。

参考文献

Wu S , Zhu Z , Fu L , et al. WebMGA: a customizable web server for fast metagenomic sequence analysis[J]. BMC Genomics, 2011, 12.

Li W , Godzik A . Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences.[J]. Bioinformatics, 2006, 22(13):1658.

Noguchi H, Park J, Takagi T. MetaGene: prokaryotic gene finding from environmental genome shotgun sequences.[J]. Nucleic Acids Research, 2006, 34(19):5623-30.

Tatusov, R. L . The COG database: a tool for genome-scale analysis of protein functions and evolution[J]. Nucleic Acids Research, 2000, 28(1):33-36.

猜你喜欢

  • 10000+: 菌群分析
    宝宝与猫狗 提DNA发Nature 实验分析谁对结果影响大 Cell微生物专刊 肠道指挥大脑
  • 系列教程:微生物组入门 Biostar 微生物组 宏基因组
  • 专业技能:生信宝典 学术图表 高分文章 不可或缺的人
  • 一文读懂:宏基因组 寄生虫益处 进化树
  • 必备技能:提问 搜索 Endnote
  • 文献阅读 热心肠 SemanticScholar Geenmedical
  • 扩增子分析:图表解读 分析流程 统计绘图
  • 16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
  • 在线工具:16S预测培养基 生信绘图
  • 科研经验:云笔记 云协作 公众号
  • 编程模板: Shell R Perl
  • 生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

WebMGA:超快的基因组序列聚类注释在线工具相关推荐

  1. Kraken:使用精确比对的超快速宏基因组序列分类软件

    文章目录 Kraken:使用精确比对的超快速宏基因组序列分类 热心肠日报 摘要 主要结果 图1. Kraken序列分类算法 图2. 基于三个模拟宏基因组的分类程序准确性和速度比较 图3. 基于三个模拟 ...

  2. 如何对基因组序列进行注释

    基因组组装完成后,或者是完成了草图,就不可避免遇到一个问题,需要对基因组序列进行注释.注释之前首先得构建基因模型,有三种策略: 从头注释(de novo prediction):通过已有的概率模型来预 ...

  3. 基因组序列及注释数据下载

    1. 网站下载 NCBI   Download - NCBI Ensembl  Accessing Ensembl Data UCSC   https://hgdownload.soe.ucsc.ed ...

  4. Kraken2:宏基因组快速物种注释神器

    简介 kraken是基于k-mer精确比对,并采用最LCA投票结果快速宏基因组DNA序列进行物种注释的软件. 图. Kraken2分类基本原理 该文章于2014年发表于Genome Biology,目 ...

  5. databasemetadata获取表注释_宏基因组测序中短序列的注释

    宏基因组中短序列的注释是理解测序微生物群落潜在功能的重要步骤之一.单纯利用局部匹配的注释容易混淆那些蛋白同源性且局部序列非常相似的序列,进而不能真实准确反映复杂蛋白质家族中多变的结构和功能域. 今天我 ...

  6. linux下kegg注释软件,工具篇丨GO和KEGG富集不到通路?快试试这个超赞的功能分析工具吧...

    原标题:工具篇丨GO和KEGG富集不到通路?快试试这个超赞的功能分析工具吧 i生信 专注生物分析最前沿 定期解读生信文章 提供生信分析思路和套路 方便大家短平快发SCI GO和KEGG富集分析是我们在 ...

  7. MPB:微生物所东秀珠组-​​基于16S rRNA基因和基因组序列对细菌物种的初步鉴定...

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  8. metaProdigal:宏基因组序列中的基因和翻译起始位点预测

    文章目录 metaProdigal:宏基因组序列中的基因和翻译起始位点预测 热心肠日报 摘要 动机 Motivation 结果 Results 可用性 Availability 主要结果 表1. 大肠 ...

  9. STAR: ultrafast universal RNA-seq aligner STAR:超快的通用RNA-seq比对器

    STAR:超快的通用RNA-seq比对器 动机:因为不连续的转录本结构,相对短的片段长度,和测序技术持续增加的通量,高通量RNA-seq数据的准确比对是一个有挑战性且仍未解决的问题.当前可用的RNA- ...

最新文章

  1. sparkcore分区_Spark学习:Spark源码和调优简介 Spark Core (二)
  2. 【基础部分】之apache配置与应用
  3. 安徽省计算机二级大题教程,安徽省计算机二级例题
  4. DataNode启动后自动停止的问题( Incompatible clusterIDs in /xxx/xxx;namenode clusterID = xxxx;datanode clusterI)
  5. 实操|如何将 Containerd 用作 Kubernetes runtime
  6. MySQL(二)InnoDB的内存结构和特性
  7. 超融合平台安装oracle,超融合平台集成实施方案
  8. SQL Server 2016 – PolyBase教程
  9. 比波士顿动力快一步:两足机器人送快递,你不用跑出门也能收货了
  10. net 调用java_NET调用Java之100-Continue的坑
  11. Atitit java js groupby 分组操作法
  12. 图像处理的灰度化和二值化
  13. 带妹妹学密码系列4---流密码(ZUC)
  14. 酷播智能缓冲服务器,酷播服务器
  15. 深度学习和浅层学习的区别
  16. 6-1 哈夫曼树及哈夫曼编码分数
  17. 用sql查询姓名和身份证_查询,更新和身份
  18. 正态分布(normal distribution)与偏态分布(skewed distribution)
  19. 普通家电秒变智能,同为(TOWE)智能联动节能插排APZ-1014UMC3
  20. 盈亏计算html,外汇盈亏计算方法

热门文章

  1. 人工智能为人们减肥操碎了心
  2. 小米某程序员的忧虑:感觉互联网这两年要凉,突然想回家种地
  3. 物竞天择,适者生存,架构进化之路
  4. 分享10个我最满意的windows工具,极大提升工作效率
  5. 用leangoo做阶段式游戏新产品研发
  6. 微博更经济的异地容灾方案是怎么搞的
  7. PTA—输出全排列 (20分) 递归回溯思想
  8. 计算机网络各种传输介质说明
  9. 机器学习中的数学 人工智能深度学习技术丛书
  10. android内存池,两种常见的内存管理方法:堆和内存池