本文“宏基因组”公众号原创。

作者:舟行天下
编辑:metagenome

前言

前面宏基因组公众号号推送过关于USEARCH的介绍及使用,详情见文章:扩增子分析神器USEARCH简介。USEARCH软件在扩增子测序分析上堪称神器!该软件依靠大神Robert Edgar开发的UPARSE,UNOISE等算法,在序列搜索、聚类、去重、去嵌合体等步骤的准确度以及效率上显著高于老牌的mothur,QIIME等软件,受到全世界研究者的喜爱,目前谷歌学术显示其已经被引用了6456次!!

由于USEARCH这个软件的安装以及使用都非常方便,不像QIIME软件一样,“让无数生信人尽折腰”。除了高通量数据处理外,USEARCH还提供了α和β(包括unifrac等)多样性分析,可以说功能非常全面!

进入官网USEARCH我们可以看到作者提供32位的免费版本和64位的收费版本。免费提供的32位版本限制用户最多使用4G内存,依照本人样本的数据量以及使用经验的话,大于40个样品可能就不能有效的跑完全部流程了。

由于该软件64位收费版确实有点贵,而且有的实验室老板不一定让买。那么有没有什么方法可以突破免费版本的内存限制呢?

小编在这里就要给大家发一个福利了,让你能无差别的使USEARCH的绝大部分功能,而且还不用收费。那就是用与USEARCH非常类似的VSEARCH软件替代USEARCH使用,不管你有多少样品,有多大的数据量,都能让你无忧无虑的使用和USEARCH几乎一模一样的功能进行数据分析。

VSEARCH简介

VSEARCH是一个开源免费的64位,无内存限制的扩增子数据处理分析软件。该软件是专门针对Edgar大神开发的 USEARCH 软件而设计开发的(Rognes,2016)。

VSEARCH作者在文章前言中就提到由于Edgar大神开发的USEARCH不开源,并且没有给出其软件中具体算法的详细描述。最主要的原因还有USEARCH免费的版本只有32位版本在使用时有4GB的使用内存限制。这帮生信大佬们不想花钱买USEARCH,所以他们直接自己开发了一个与USEARCH功能类似的软件VSEARCH供大家使用。根据谷歌学术的统计数据,该软件从2016年发表到现在也已经被引用了218次。

从FIG.1可以看到:通过与USEARCH7和USEARCH8对比,VSEARCH在嵌合体检测过程准确性优于USEARCH。

从FIG.2可以看到:通过与USEARCH7和USEARCH8对比,VSEARCH的搜索准确率与USEARCH相当。

从FIG.3可以看到:通过与USEARCH7和USEARCH8对比,VSEARCH在聚类准确率上优于USEARCH的UPARSE功能。

VSEARCH主要的功能与参数都与usearch版本类似,其主要特点是开源免费,持续更新而且软件易于安装,且有各平台的版本。

在最新发布的VSEARCH版本中,作者也针对USEARCH10中的UNOISE去噪方法(详细介绍),在VSEARCH中加入了UNOISE方法用于聚类分析。

VSEARCH软件目前已经更新到了2.7.1版本,

其Windows的安装版本链接是:Win Vsearch https://github.com/torognes/vsearch/releases/download/v2.7.1/vsearch-2.7.1-win-x86_64.zip;

MAC版本的下载链接是:MAC_vsearch https://github.com/torognes/vsearch/releases/download/v2.7.1/vsearch-2.7.1-macos-x86_64.tar.gz;

Linux版本的下载链接是Linux_vsearch https://github.com/torognes/vsearch/archive/v2.7.1.tar.gz

VSEARCH实战操作

文中使用所有测试数据已经放在百度云中,请后台回复vsearch获取测试数据下载链接。

首先是VSEARCH的安装:这里给大家介绍Linux版本的VSEARCH安装

在linux中我们直接执行以下命令就可以直接安装了

##如何安装VSEARCH
wget https://github.com/torognes/vsearch/archive/v2.7.1.tar.gz
tar xzf v2.7.1.tar.gz
cd vsearch-2.7.1
./autogen.sh
./configure
make
make install  # as root or sudo make install

要想灵活的玩转VSEARCH软件,那我们首先要知道整个数据的分析流程是什么样的,通常我们拿到扩增子测序的数据会进行:序列双端合并;去除两端接头,Fastqc质量检测;序列去重复;嵌合体检测;OTU聚类;分类信息注释等步骤。而USEARCH在整个分析流程中主要的内存限制步骤是<Dereplication>; <Chimera checking>以及 <Match OTU>这三个步骤。而这三步分别对应着的VSEARCH步骤是<vsearch –derep_fulllength>; <vsearch –uchime_ref>以及<vsearch –usearch_global>。

下面我将教大家如何从测序的原始序列拿到一个OTU矩阵表格

VSEARCH使用实战

# 目录
mkdir -p temp # 临时文件 temp directory for intermediate files
mkdir -p result # 最终结果 important results# 文件
# pipeline.sh 分析主流程
# rdp_16s_v16.fa  16S数据库
# seq/*.fq.gz 压缩的原始测序数据
# doc/design.txt 实验设计文件#Merge paired reads and label samples# 测序数据解压
gunzip seq/*# 依照实验设计批处理并合并
for i in `tail -n+2 doc/design.txt | cut -f 1`;dovsearch --fastq_mergepairs seq/${i}_1.fq --reverse seq/${i}_2.fq \--fastqout temp/${i}.merged.fq --relabel ${i}.
done # 合并所有样品至同一文件
cat temp/*.merged.fq > temp/all.fq
ls -l temp/all.fq# 3. 切除引物与质控 Cut primers and quality filter
# 请按实际修改,如Cut barcode 10bp + V5 19bp in left and V7 18bp in right
time vsearch --fastx_filter temp/all.fq \--fastq_stripleft 29 --fastq_stripright 18 \--fastqout temp/stripped.fq # 34s
# 质量控制fastq filter, keep reads error rates less than 1%
time vsearch --fastx_filter temp/stripped.fq \--fastq_maxee_rate 0.01 \--fastaout temp/filtered.fa # 30s
#761431 sequences kept (of which 0 truncated), 5627 sequences discarded.# 4. 去冗余与生成OTUs Dereplication and cluster otus
# 4.1 序列去冗余,推荐使用vsearch,并添加miniuniqusize为8,去除低丰度,增加计算速度
time vsearch --derep_fulllength temp/filtered.fa \--sizeout --minuniquesize 8 \--output temp/uniques.fa # 4s## 此处我们用基于reference的去嵌合,下载rdp_gold.fa作
#为reference数据库
#wget http://drive5.com/uchime/rdp_gold.fa# 聚类方式生成OTU
time vsearch --cluster_fast temp/uniques.fa \--id 0.97 --centroids temp/otus.fa \--relabel OTU_ # 7s Clusters: 1244 --uc temp/clusters.uc# 细菌可用Usearch作者整理的RDP Gold数据库去除嵌合体
# wget http://drive5.com/uchime/rdp_gold.fa
time vsearch --uchime_ref temp/otus.fa \--db db/rdp_gold.fa \--nonchimeras result/otus.fa # Create OTUs table
time vsearch --usearch_global temp/filtered.fa \--db result/otus.fa \--id 0.97 \--otutabout result/otutab.txt --threads 4 # 物种注释
#gunzip rdp_16s_v16.fa
# vsearch --usearch_global result/otus.fa --db db/rdp_16s_v16.fa --biomout out_tax.txt --id 0.97

以上命令都是小编悉心整理并测试的全套高通量下机数据处理流程命令,可以说是花钱都买不到的绝对干货!

看了这套命令你也能在你自己的电脑上来一套扩增子数据处理的全部流程了,让你再不用去看测序公司的眼色,同时欢迎大家多多分享,共同进步!

文中使用所有测试数据已经放在百度云中,请后台回复vsearch获取测试数据下载链接。

Reference

  1. Rognes, T., Flouri, T., Nichols, B., Quince, C., & Mahé, F. (2016). VSEARCH: a versatile open source tool for metagenomics. PeerJ, 4, e2584.
  2. Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature Methods [Pubmed:23955772, dx.doi.org/10.1038/nmeth.2604].
  3. UNOISE2: Improved error-correction for Illumina 16S and ITS amplicon read. bioRxiv, 2016

猜你喜欢

  • 热文:1高分文章 2不可或缺的人 3图表规范
  • 一文读懂:1微生物组 2寄生虫益处 3进化树
  • 必备技能:1提问 2搜索 3Endnote
  • 文献阅读 1热心肠 2SemanticScholar 3geenmedical
  • 扩增子分析:1图表解读 2分析流程 3统计绘图 4功能预测
  • 科研经验:1云笔记 2云协作 3公众号
  • 系列教程:1Biostar 2微生物组 3宏基因组
  • 生物科普 1肠道细菌 2人体上的生命 3生命大跃进 4细胞的暗战 5人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外1200+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

VSEARCH让你免费使用无内存限制的USEARCH相关推荐

  1. VSEARCH操作实战-免费使用无内存限制的USEARCH!

    前言 前面宏基因组公众号号推送过关于USEARCH的介绍及使用,详情见文章:扩增子分析神器USEARCH简介.USEARCH软件在扩增子测序分析上堪称神器!该软件依靠大神Robert Edgar开发的 ...

  2. 电脑录屏工具_这四款录屏工具,也许是电脑录屏软件中免费、无广告且最实用的,程序员必备...

    上期给大家推荐了手机中的免费且无广告录屏软件,这期给大家介绍四款在电脑端超级好用录屏软件,学习和工作.录游戏的时候再也不愁找不到好用的录屏软件啦,话不多说,马上开始 ! 01Win10自带录屏 当我们 ...

  3. 一见倾心,6个高质量Windows软件,免费、无广告

    下面推荐的5个软件虽然小众,却逆天好用,都是小编私藏好货. 1.火绒 火绒是一款电脑安全防护软件与某安全卫士相比,火绒实属"国产清流",自小编接触以来,逢人就推荐,它小巧干净,免费 ...

  4. 网站选择按钮点击无反应?_实用图片素材网站推荐,高清、免费、无版权!

    本文作者:果青奕奕 相信很多媒体和设计工作者,平时的工作任务之一就是寻找各种各样的素材,若是随便在搜索引擎上面找找就使用,就有可能侵权.碰到友好的版权方,会让你删除了事,要是运气差一点的,就有可能因版 ...

  5. 推荐小微企业做宣传视频或产品视频时用酷播云,免费,无广告

    推荐小微企业做宣传视频或产品视频时用酷播云,免费,无广告! * 适用的网站:小微型企业.学校.政府部门等 * 最大优势:免费.不会有优酷那种60秒.70秒的广告啦. 酷播云使用操作步骤(四步轻松完成) ...

  6. 5款免费的无代码工具可帮助你快速启动项目

    英文 | https://medium.com/geekculture/5-free-no-code-tools-to-help-your-startup-move-fast-7d48173ce4ce ...

  7. 德国php空间申请,德国host1free提供免费10G无广告可绑米PHP空间申请教程

    Host1Free是来自德国的虚拟主机服务商Host1Plus旗下网站,提供10G容量免费空间,150G月流量限制,最多可绑定5个域名建立5个独立网站,支持PHP5,最多创建2个MySQL数据库,可自 ...

  8. 免费下载无水印抖音视频

    今天,跟大家分享一个免费下载抖音视频的方法,可以去除抖音上的id水印.话不多说,直接上图. 1.复制手机端抖音链接. 点击这个分享图标 复制链接 发送到电脑,打开网页http://douyin.ads ...

  9. 开源阅读书源_阅读3.20.0518追书神器 海量书源 免费开源无广告

    特别声明所有软件皆来源于网上收集整理,仅供学习与交流技术,不得用作其它用途,如有侵犯你的权益,请联系我们,我们将于24小时内进行删除,谢谢你的配合! 1 阅读是一款开源免费的无人维护的电子书阅读应用程 ...

最新文章

  1. 我用python10年后,我发现学python必看这三本书!
  2. html5地理定位数据
  3. 关系数据库范式(1)
  4. 建站常用13种PHP开源CMS比较
  5. hibernate validate验证框架中@NotEmpty、@NotbBank、@NotNull的区别
  6. Python 统计列表中元素出现的次数
  7. ThreadLocal的第二种用法 part2
  8. OS- -文件系统(四)
  9. 前端session存储实例
  10. 十天冲刺---Day8
  11. Linux:tomcat安装/版本升级
  12. linux 反弹 socket,反弹shell基础
  13. 多出去面试,好处多多!
  14. Codeforces 719B Anatoly and Cockroaches(元素的交叉排列问题)
  15. html中文字怎么自动排版,CSS网页布局中文字排版九大技巧
  16. java mp3转wav_JAVA将MP3转为WAV
  17. python的web框架flask_PythonWEB框架之Flask
  18. Spark学习(6)-Spark SQL
  19. 小程序中时间计算(时、分、秒)
  20. 虚拟化(六):vmware 桌面虚拟化 horizon view 介绍

热门文章

  1. JVM内存结构、内存模型 、对象模型那些事
  2. 管理大师基本功:目标拆解能力
  3. c语言 free参数 指针,C语言之free函数以及野指针介绍
  4. ubuntu开辟虚拟内存
  5. 输入4个同学的姓名学号,语文数学英语信息计算平均成绩,按平均成绩高低排序输出java,c++实现
  6. 二叉排序树(二叉搜索树,二叉查找树)
  7. class没有发布到tomcat_SpringBoot内置tomcat启动原理
  8. go语言中的big包
  9. 利用矩阵奇异值分解(SVD)进行降维
  10. 使用wmi的snmp类查询计算机网卡信息的源代码,在java中使用SNMP和/或wmi / wmic进行进程到端口的映射...