本文首先发布于“宏基因组”公众号原创。

作者:舟行天下
编辑:metagenome

前言

用usearch,這个usearch在序列搜索、聚类、去重、去嵌合体等序列操作有非常重要的作用。它由大神Robert Edgar开发,详情见文章:扩增子分析神器USEARCH简介

usearch这个软件的安装以及使用都非常方便,简直就是扩增子测序分析的神器!进入官网USEARCH我们可以看到作者提供32位的免费版本和64位的收费版本。免费提供的32位版本限制用户最多使用4G内存,依照本人数据量以及使用经验的话,大于40个样品可能就不能有效的跑完全部流程了。关于USEARCH的详细介绍请参考:《扩增子分析神器USEARCH简介》 由于该软件64位收费版确实有点贵,而且有的实验室老板不一定让买。那么有没有什么方法可以突破免费版本的内存限制呢? 小编在这里就要给大家发一个福利了,让你能无差别的使用usearch的绝大部分功能而且还不用收费。那就是用vsearch软件替代usearch部分功能,结合usearch一起使用。

vsearch简介

vsearch 是一个开源免费的64位,无内存限制的扩增子数据分析软件。该软件是专门针对Edgar大神开发的 USEARCH
软件而设计的(Edgar 2010)。作者在文章前言中就提到由于Edgar大神开发的 USEARCH不开源,并且没有给出其算法的详细描述,最主要是免费的版本只有32位,而且有4 GB的使用内存限制,所以他们想了想直接自己开发了一个与usearch功能类似的软件工大家使用。根据谷歌学术的统计数据,该软件从2 016年发表到现在已经被引用了218次。

从FIG.1可以看到:通过与USEARCH7和USEARCH8对比,VSEARCH在嵌合体检测过程准确性优于USEARCH。 (FIG.1)

从FIG.2可以看到:通过与USEARCH7和USEARCH8对比,VSEARCH的搜索准确率与USEARCH相当。 (FIG.2)

从FIG.2可以看到:通过与USEARCH7和USEARCH8对比,VSEARCH在聚类准确率上优于USEARCH的UPARSE功能。 (FIG.3)

vsearch主要的功能与参数都与usearch版本类似,其主要特点是开源免费,持续更新而且软件易于安装,且有各平台的版本。 在最新发布的vsearch版本中,作者也针对usearch10中的UNOISE去噪方法(详细介绍),在vsearch中加入了UNOISE方法用于聚类分析。

vsearch软件目前已经更新到了2.7.1版本,其Windows的安装版本链接是:vsearch; MAC版本的下载链接是:MAC_vsearch
)

usearch+vsearch实战操作

文中使用所有文件下载链接:https://pan.baidu.com/s/1yS-WgViAPeix0jTbhtYOKQ 密码:dmfy 然后我们将下载好的测试数据放在工作目录下面。

首先是vsearch的安装:

在linux中我们直接执行以下命令就可以直接安装了

##如何安装vsearch
wget https://github.com/torognes/vsearch/archive/v2.6.2.tar.gz
tar xzf v2.6.2.tar.gz
cd vsearch-2.6.2
./autogen.sh
./configure
make
make install  # as root or sudo make installmkdir -p seq # 原始数据 raw data

要想灵活的玩转vsearch加usearch软件,那我们首先要知道usearch免费版本的软件究竟是在你的分析流程中的哪几个步骤限制了你的 数据量大小,这样我们就可以在有需要替换的步骤用vsearch软件进行替换了。当你拿到拆分好的扩增子数据后我们通过进行的数据处 理流程如下图所示:(FIG.4)

从图中我们可以看到usearch在整个分析流程中主要的内存限制步骤是<Dereplication>; <Chimera checking>以及 <Match OTU>这三个步骤。而这三步分别对应着的vsearch步骤是<vsearch —derep_fulllength>; <vsearch —uchime_ref>以及<vsearch —usearch_global>。转化成一个可读的OTU table了。

Vsearch使用实战

# 目录
mkdir -p temp # 临时文件 temp directory for intermediate files
mkdir -p result # 最终结果 important results# 文件
# pipeline.sh 分析主流程
# rdp_16s_v16.fa  16S数据库
# seq/*.fq.gz 压缩的原始测序数据
# doc/design.txt 实验设计文件#Merge paired reads and label samples# 测序数据解压
gunzip seq/*# 依照实验设计批处理并合并for i in `tail -n+2 doc/design.txt | cut -f 1`;do
vsearch --fastq_mergepairs seq/${i}_1.fq --reverse seq/${i}_2.fq --fastqout  temp/${i}.merged.fq
done for i in `tail -n+2 doc/design.txt | cut -f 1`;do
vsearch --fastx_filter temp/${i}.merged.fq  --fastqout temp/${i}.merged.relabe.fq --relabel ${i}. &
done# 合并所有样品至同一文件
cat temp/*.merged.relabe.fq > temp/all.fq
ls -l temp/all.fq
less temp/all.fq
# remove useless file
rm temp/*.merged.fq
# 压缩原始文件节省空间
#gzip seq/*
# 3. Cut primers and quality filter
# Cut barcode 10bp + V5 19bp in left and V7 18bp in right
vsearch --fastx_filter temp/all.fq --fastq_stripleft 29 --fastq_stripright 18 --fastqout temp/stripped.fq
# 质量控制fastq filter, keep reads error rates less than 1%
vsearch --fastx_filter temp/stripped.fq --fastq_maxee_rate 0.01 --fastaout temp/filtered.fa
#761431 sequences kept (of which 0 truncated), 5627 sequences discarded.less temp/filtered.fa# 4. 去冗余与生成OTUs Dereplication and cluster otus
# 4.1 序列去冗余,推荐使用vsearch,并添加miniuniqusize为8,去除低丰度,增加计算速度
vsearch --derep_fulllength temp/filtered.fa --sizein --fasta_width 0 --sizeout --output temp/uniques.fa --minuniquesize 2## 如果用基于reference的去嵌合,# 细菌推荐用Gold数据库去除嵌合体可以下载rdp_gold.fa作为reference数据库
#wget http://drive5.com/uchime/rdp_gold.fa
#然后执行下面这条注释过的命令
#wget http://drive5.com/uchime/rdp_gold.fa
#vsearch --uchime_ref temp/filtered.fa --nonchimeras temp/filtered.nonchimera.fa --db ./rdp_gold.fa#聚类分析生产OTU代表性序列
vsearch --cluster_fast temp/uniques.fa --id 0.97 --centroids result/otus.fa --relabel OTU_ --uc temp/clusters.uc
## 嵌合体的检测与去除
#vsearch --uchime_ref temp/filtered.fa --nonchimeras temp/filtered.nonchimera.fa --db rdp_gold.fa# Create OTUs table创建OTU表格vsearch --usearch_global temp/filtered.fa --db result/otus.fa --id 0.97 --otutabout result/otutab.txt

Reference

  1. Rognes, T., Flouri, T., Nichols, B., Quince, C., & Mahé, F. (2016). VSEARCH: a versatile open source tool for metagenomics. PeerJ, 4, e2584.
  2. Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature Methods [Pubmed:23955772, dx.doi.org/10.1038/nmeth.2604].
  3. UNOISE2: Improved error-correction for Illumina 16S and ITS amplicon read. bioRxiv, 2016

Vsearch免费替代收费版的usearch相关推荐

  1. CDH 的Cloudera Manager免费与收费版的对比表

    CDH 特性 免费版 付费版 Deployment, Configuration & Management 系统管理 Automated Deployment & Hadoop Rea ...

  2. 关于GPL协议的理解(开源与商用、免费与收费)

     关于GPL协议的理解(开源与商用.免费与收费) 如果你使用并且修改了我的GPL软件,那么你的软件也必须要开源,否则就不能使用我的软件,你是否把你的软件商用和我没关系.比如,Oracle卖的不是软 ...

  3. Linux哪个版本免费,PureOS ,一款全新的免费Linux发行版

    PureOS PureOS GNU/Linux是一款新的基于Debian的和对用户友好的由笔记本电脑制造商 Purism 使用的发行版,刚刚通过自由软件基金会(FSF)认证为100%免费发行版(与Tr ...

  4. 免费版ESXi 与 收费版ESX 区别

    版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明 http://epie.blogbus.com/logs/28275842.html ESXi免费了,很多人开始尝试了,但是到底与昂贵 ...

  5. 免费和收费都只是形式 网文阅读最终还是比生态?

    快,这已经成为趣头条这类公司的明显特征.不仅是增长快.上市快,就连对新玩法的创新也走得比一般人快.这不,在网文免费阅读最近备受关注后,米读小说于近日推出了收费会员模式.原来,免费阅读平台也有" ...

  6. 宝塔面板5.9安装PHP,宝塔面板官方最新版安装;附宝塔5.9.1本地安装版,可安装收费版插件...

    宝塔面板官方最新版安装:附宝塔5.9.1本地安装版,可安装收费版插件 Whyfine • 2020 年 02 月 19 日 一.宝塔面板官方最新版安装 Centos安装命令:yum install - ...

  7. python安装要钱吗-python语言是免费还是收费的?

    python是免费的么? python是免费的,也就是开源的.编程软件的盈利方式就是你使用它, 用的人越多越值钱. 注:Python 是一个高层次的结合了解释性.编译性.互动性和面向对象的脚本语言. ...

  8. python软件是免费的吗-python语言是免费还是收费的?

    python是免费的么? python是免费的,也就是开源的.编程软件的盈利方式就是你使用它, 用的人越多越值钱. 注:Python 是一个高层次的结合了解释性.编译性.互动性和面向对象的脚本语言. ...

  9. 收费版APP三年总结(个人经验)

    各位朋友好,apop感觉这里的朋友有许多是以广告收入为主,所以apop来分享另外一块(收费版APP)的个人三年来的总结分享,希望对各位有帮助. 1.找到核心用户的需要,有明确的目标用户群(先在纸上构思 ...

最新文章

  1. HI3519V101支持的sensor
  2. HTML初级知识点总结(1.0)
  3. java事务不生效场景_springboot中使用@Transactional注解事物不生效的坑
  4. Java获取文件路径
  5. SQL Server 数据库使用备份还原造成的孤立用户和对象名‘xxx’无效的错误的解决办法...
  6. 软件工程(2019)结对编程第二次作业
  7. 145. Binary Tree Postorder Traversal
  8. 62个电脑常用快捷键大全,一次分享,果断收藏!
  9. Bootstrap带下拉的胶囊导航
  10. C和C++的互相调用【原创】
  11. c++简单的加法函数
  12. openstack安装newton版本dashboard+cinder(六)
  13. linux 下sqlplus里无法使用方向键的解决
  14. 疯狂程序员网址。。。
  15. 计算机指纹驱动程序,解决方法:联想笔记本指纹识别驱动程序安装教程[详细]...
  16. 卡诺模型案例分析_KANO模型案例分析---来自58学车
  17. 陈嘉哲:黄金原油跳水承压,日内或将延续,如何操作?附操作建议
  18. SendMessage和PostMessage及Windows消息机制简介
  19. 【火影忍者】荏苒间,指针又在十字路口【转帖】
  20. PTA Review of Programming Contest Rules

热门文章

  1. 谷歌和哈佛团队用深度学习预测余震;谷歌移交 Kubernetes 管理权,并承诺资助 900 万美元...
  2. 股民学堂:短线炒股绝招 值得一学
  3. Vue+Echarts+百度地图 小例子
  4. 【Arduino】mega2560 驱动grove 三色水墨屏
  5. 如何提高福禄克DTX-1800的测试余量
  6. 手写一套迷你版HTTP服务器
  7. python程序设计基础刘艳网课_智慧职教APPPython程序设计基础(九江职业技术学院)题目答案...
  8. vue使用 Font 字体 .ttf 格式
  9. ai修复图片 python_百度AI攻略:拉伸图像恢复
  10. 某寺庙,有小和尚、老和尚若干。有一水缸,由小和尚用水桶从井中提水入缸,老和尚用水桶从缸里取水饮用。水缸可容30桶水,水取自同一井中。水井径窄,每次只能容一个水桶取水。水桶总数为5个。每次入、取缸水仅为