前言

前面宏基因组公众号号推送过关于USEARCH的介绍及使用,详情见文章:扩增子分析神器USEARCH简介。USEARCH软件在扩增子测序分析上堪称神器!该软件依靠大神Robert Edgar开发的UPARSE,UNOISE等算法,在序列搜索、聚类、去重、去嵌合体等步骤的准确度以及效率上显著高于老牌的mothur,QIIME等软件,受到全世界研究者的喜爱,目前谷歌学术显示其已经被引用了6456次!!

USEARCH这个软件的安装以及使用都非常方便,不像QIIME软件一样,“让无数生信人尽折腰”。USEARCH在除了高通量数据处理外,它还提供了α和β(包括unifrac等)多样性分析,可以说功能非常全面!

进入官网USEARCH我们可以看到作者提供32位的免费版本和64位的收费版本。免费提供的32位版本限制用户最多使用4G内存,依照本人样本的数据量以及使用经验的话,大于40个样品可能就不能有效的跑完全部流程了。

由于该软件64位收费版确实有点贵,而且有的实验室老板不一定让买。那么有没有什么方法可以突破免费版本的内存限制呢?

小编在这里就要给大家发一个福利了,让你能无差别的使USEARCH的绝大部分功能,而且还不用收费。那就是用与USEARCH非常类似的VSEARCH软件替代USEARCH使用,不管你有多少样品,有多大的数据量,都能让你无忧无虑的使用和USEARCH几乎一模一样的功能进行数据分析。

VSEARCH简介

VSEARCH是一个开源免费的64位,无内存限制的扩增子数据处理分析软件。该软件是专门针对Edgar大神开发的 USEARCH  软件而设计开发的(Rognes,2016)。

VSEARCH作者在文章前言中就提到由于Edgar大神开发的USEARCH不开源,并且没有给出其软件中具体算法的详细描述。最主要的原因还有USEARCH免费的版本只有32位版本在使用时有4GB的使用内存限制。这帮生信大佬们不想花钱买USEARCH,所以他们直接自己开发了一个与USEARCH功能类似的软件VSEARCH供大家使用。根据谷歌学术的统计数据,该软件从2016年发表到现在也已经被引用了218次。

从FIG.1可以看到:通过与USEARCH7和USEARCH8对比,VSEARCH在嵌合体检测过程准确性优于USEARCH。

从FIG.2可以看到:通过与USEARCH7和USEARCH8对比,VSEARCH的搜索准确率与USEARCH相当。

从FIG.3可以看到:通过与USEARCH7和USEARCH8对比,我们可以看到VSEARCH在聚类准确率上优于USEARCH的UPARSE功能。

VSEARCH主要的功能与参数都与usearch版本类似,其主要特点是开源免费,持续更新而且软件易于安装,且有各平台的版本。

在最新发布的VSEARCH版本中,作者针对USEARCH10中的UNOISE去噪方法(详细介绍),在VSEARCH中也加入了UNOISE方法用于聚类分析,大家可以在以下实战命令中自行修改测试。

VSEARCH软件目前已经更新到了2.7.1版本,

其Windows的安装版本链接是:Win Vsearch https://github.com/torognes/vsearch/releases/download/v2.7.1/vsearch-2.7.1-win-x86_64.zip;

MAC版本的下载链接是:MAC_vsearch https://github.com/torognes/vsearch/releases/download/v2.7.1/vsearch-2.7.1-macos-x86_64.tar.gz;

Linux版本的下载链接是Linux_vsearch https://github.com/torognes/vsearch/archive/v2.7.1.tar.gz

VSEARCH实战操作

以下命令都是小编悉心整理并测试的全套高通量下机数据处理流程命令,可以说是花钱都买不到的绝对干货!

文中使用所有测试数据已经放在百度云中,请后台回复vsearch获取测试数据下载链接。

这里给大家介绍Linux版本的VSEARCH安装

在linux中我们直接执行以下命令就可以直接安装了

##如何安装VSEARCH
wget https://github.com/torognes/vsearch/archive/v2.7.1.tar.gz
tar xzf v2.7.1.tar.gz
cd vsearch-2.7.1
./autogen.sh
./configure
make
make install  # as root or sudo make installmkdir -p seq # seq文件中存入原始数据 raw data

要想灵活的玩转VSEARCH软件,那我们首先要知道整个数据的分析流程是什么样的,通常我们拿到扩增子测序的数据会进行:序列双端合并;去除两端接头,Fastqc质量检测;序列去重复;嵌合体检测;OTU聚类;分类信息注释等步骤。而USEARCH在整个分析流程中主要的内存限制步骤是<Dereplication>; <Chimera checking>以及 <Match OTU>这三个步骤。而这三步分别对应着的VSEARCH步骤是<vsearch —derep_fulllength>; <vsearch —uchime_ref>以及<vsearch —usearch_global>。

下面我将教大家如何从测序的原始序列拿到一个OTU矩阵表格

VSEARCH使用实战

# 目录
mkdir -p temp # 临时文件 temp directory for intermediate files
mkdir -p result # 最终结果 important results# 文件
# pipeline.sh 分析主流程
# rdp_16s_v16.fa  16S数据库
# seq/*.fq.gz 压缩的原始测序数据
# doc/design.txt 实验设计文件#Merge paired reads and label samples# 测序数据解压
gunzip seq/*# 依照实验设计批处理并合并
for i in `tail -n+2 doc/design.txt | cut -f 1`;dovsearch --fastq_mergepairs seq/${i}_1.fq --reverse seq/${i}_2.fq \--fastqout temp/${i}.merged.fq --relabel ${i}.
done # 合并所有样品至同一文件
cat temp/*.merged.fq > temp/all.fq
ls -l temp/all.fq# 3. 切除引物与质控 Cut primers and quality filter
# 请按实际修改,如Cut barcode 10bp + V5 19bp in left and V7 18bp in right
time vsearch --fastx_filter temp/all.fq \--fastq_stripleft 29 --fastq_stripright 18 \--fastqout temp/stripped.fq #
# 质量控制fastq filter, keep reads error rates less than 1%
time vsearch --fastx_filter temp/stripped.fq \--fastq_maxee_rate 0.01 \--fastaout temp/filtered.fa #
#xx sequences kept (of which 0 truncated), xxsequences discarded.# 4. 去冗余与生成OTUs Dereplication and cluster otus
# 4.1 序列去冗余,推荐使用vsearch,并添加miniuniqusize为8,去除低丰度,增加计算速度
time vsearch --derep_fulllength temp/filtered.fa \--sizeout --minuniquesize 8 \--output temp/uniques.fa # 4s## 此处我们用基于reference的去嵌合,下载rdp_gold.fa作
#为reference数据库
#wget http://drive5.com/uchime/rdp_gold.fa# 聚类方式生成OTU
time vsearch --cluster_fast temp/uniques.fa \--id 0.97 --centroids temp/otus.fa \--relabel OTU_ # 7s Clusters: 1244 --uc temp/clusters.uc# 细菌可用Usearch作者整理的RDP Gold数据库去除嵌合体
# wget http://drive5.com/uchime/rdp_gold.fa
time vsearch --uchime_ref temp/otus.fa \--db db/rdp_gold.fa \--nonchimeras result/otus.fa # Create OTUs table
time vsearch --usearch_global temp/filtered.fa \--db result/otus.fa \--id 0.97 \--otutabout result/otutab.txt #--threads 4 # 物种注释
#gunzip rdp_16s_v16.fa
# vsearch --usearch_global result/otus.fa --db db/rdp_16s_v16.fa --biomout out_tax.txt --id 0.97

看了这套命令你也能在你自己的电脑上来一套扩增子数据处理的全部流程了,让你不用去看测序公司的眼色,同时欢迎大家多多分享,共同进步!

文中使用所有测试数据已经放在百度云中,请后台回复vsearch获取测试数据下载链接。

Reference

  1. Rognes, T., Flouri, T., Nichols, B., Quince, C., & Mahé, F. (2016). VSEARCH: a versatile open source tool for metagenomics. PeerJ, 4, e2584.

  2. Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature Methods [Pubmed:23955772,  dx.doi.org/10.1038/nmeth.2604].

  3. UNOISE2: Improved error-correction for Illumina 16S and ITS amplicon read. bioRxiv, 2016

猜你喜欢

  • 热文:1高分文章 2不可或缺的人 3图表规范

  • 一文读懂:1微生物组 2寄生虫益处 3进化树

  • 必备技能:1提问 2搜索  3Endnote

  • 文献阅读 1热心肠 2SemanticScholar 3geenmedical

  • 扩增子分析:1图表解读 2分析流程 3统计绘图  4功能预测

  • 科研经验:1云笔记  2云协作 3公众号

  • 系列教程:1Biostar 2微生物组  3宏基因组

  • 生物科普 1肠道细菌 2人体上的生命 3生命大跃进  4细胞的暗战 5人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外120+ PI,1200+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

VSEARCH操作实战-免费使用无内存限制的USEARCH!相关推荐

  1. VSEARCH让你免费使用无内存限制的USEARCH

    本文"宏基因组"公众号原创. 作者:舟行天下 编辑:metagenome 前言 前面宏基因组公众号号推送过关于USEARCH的介绍及使用,详情见文章:扩增子分析神器USEARCH简 ...

  2. 第三章:Python基础の函数和文件操作实战

    本課主題 Set 集合和操作实战 函数介紹和操作实战 参数的深入介绍和操作实战 format 函数操作实战 lambda 表达式介绍 文件操作函数介紹和操作实战 本周作业 Set 集合和操作实战 Se ...

  3. Serverless 实战 —— 利用OneIndex-Serverless无成本搭建属于你自己的网盘

    Serverless 实战 -- 利用OneIndex-Serverless无成本搭建属于你自己的网盘 rsong 2019-07-29 6016浏览量 简介: 一.前言 Onindex-Server ...

  4. Kafka原理+操作+实战

    Kafka原理+操作+实战 前面我和大家交流了kafka的部署安装.对于部署安装这都是小意思,不值得太多的提及.重点还是需要知道kafka原理.熟练掌握kafka命令以及灵活用于kafka场景. 干货 ...

  5. citespace三天写论文!Bicomb操作实战

    相信大家都知道citespace运行的基础是矩阵,我们在citespace项目参数面板设置export matrics按钮为on,就可以导出矩阵数据,但是,当我们运行中文数据时,导出的矩阵数据存在乱码 ...

  6. Spring Cloud 微服务项目操作实战流程(完结)

    Spring Cloud入门项目操作实战流程 Day01~02 〇.Service - 业务服务结构 商品服务 item service,端口 8001 用户服务 user service,端口 81 ...

  7. 仿联想商城laravel实战---5、无刷新的增删改查(动态页面更新的三种方式(html))...

    仿联想商城laravel实战---5.无刷新的增删改查(动态页面更新的三种方式(html)) 一.总结 一句话总结: 直接js增加删除修改html 控制器直接返回处理好的页面 用双向绑定插件比如vue ...

  8. 一见倾心,6个高质量Windows软件,免费、无广告

    下面推荐的5个软件虽然小众,却逆天好用,都是小编私藏好货. 1.火绒 火绒是一款电脑安全防护软件与某安全卫士相比,火绒实属"国产清流",自小编接触以来,逢人就推荐,它小巧干净,免费 ...

  9. 推荐小微企业做宣传视频或产品视频时用酷播云,免费,无广告

    推荐小微企业做宣传视频或产品视频时用酷播云,免费,无广告! * 适用的网站:小微型企业.学校.政府部门等 * 最大优势:免费.不会有优酷那种60秒.70秒的广告啦. 酷播云使用操作步骤(四步轻松完成) ...

最新文章

  1. WR:城环所杨军组揭示亚热带水库浮游有壳虫群落构建受随机性过程影响比确定性过程更强...
  2. 戴森要搞能爬楼梯的吸尘器,两项专利设计现已提交
  3. 演示:通过实验取证IP报文的各个字段
  4. nginx和tomcat搭配使用,让nginx可以访问tomcat下面的静态资源
  5. 【BZOJ3669】【codevs3314】魔法森林,写作LCT,读作SPFA
  6. MySQL查看当前的连接信息
  7. 自然语言处理系列-1.什么是NLP?
  8. android中一些常用的VIEW动作类型
  9. 金融反欺诈-交易基础介绍
  10. c语言人机大战五子棋,五子棋人机大战将打响 祁观将与AI弈心五番棋对决
  11. 微商引流产品有哪些?做微商如何引流以及推广产品?
  12. 微信:一个必须研究的产品
  13. python控制手机模拟器_AppiumDesktop控制手机和安卓模拟器(附视频)
  14. [微信小程序开发者工具] × #initialize
  15. CTex:字体字号设置
  16. adjacent_find
  17. java计算机毕业设计招聘管理系统源码+系统+mysql数据库+lw文档
  18. 邮局问题【python】【c++】
  19. 在移动端打开 Google 的网页快照
  20. 微信开发者小程序项目拉取与推送

热门文章

  1. 程序员的幸福:上个月被裁拿赔偿,这个月找到涨薪50%的工作
  2. 为什么大公司一定要使用DevOps?
  3. 阿里、京东、美团、滴滴的 Dubbo / JVM / Spring 面试题及答案(2)
  4. Qt rviz 机器人
  5. 手机端登陆github产生ssl handshake aborted error如何解决?
  6. 使用html测试数据库连接与操作(含界面) 第二步 功能实现
  7. 前台传list到后台_实学:Java开发自己的博客系统-第十八篇(后台侧边栏菜单)...
  8. Python3中的字符串
  9. 3D 人体姿态估计简述
  10. 嵌入式的我们为什么要学ROS