前面介绍的SMURF流程的运行以失败告终了,不过这个是这篇文章的参考方法,至于这篇文章改进过的方法,还没有试过,这就试一下,顺便考虑是否能把6区的移植过来,搞个6R呢,可能,算法上有略微的区别,毕竟这篇Science研究的是肿瘤中的含量很少的微生物,用了严格的去污染策略,不管怎样,试试吧!

1、环境准备

类似上次那个流程,更加简单了些,只需要安装解压下。

# 安装MCR,这次是新版本的9.7
# 这是无图形界面安装的命令
sudo ./install -mode silent -agreeToLicense  yes
/usr/local/MATLAB/MATLAB_Runtime/v97/runtime/glnxa64:/usr/local/MATLAB/MATLAB_Runtime/v97/bin/glnxa64:/usr/local/MATLAB/MATLAB_Runtime/v97/sys/os/glnxa64:/usr/local/MATLAB/MATLAB_Runtime/v97/extern/bin/glnxa64# 下载地址,速度还可以,毕竟大公司
wget https://ssd.mathworks.com/supportfiles/downloads/R2019b/Release/4/deployment_files/installer/complete/glnxa64/MATLAB_Runtime_R2019b_Update_4_glnxa64.zip
# 解压,然后安装,这次不需要加环境变量了,因为变成了脚本的一个参数
# 建议新建一个文件夹解压,否则文件挺乱
sudo ./install
# 克隆脚本
git clone https://github.com/NoamShental/5R.git
# 开始运行示例还是出现了摄氏,发现是fastq压缩成了zip,解压就好啦,在这个文件夹example_fastq
# 文件结构如下
example_fastq/
├── RDB123_ATGAGTGC
│   ├── RDB123_ATGAGTGC_L006_R1_001.fastq
│   └── RDB123_ATGAGTGC_L006_R2_001.fastq
└── RDB1_TTGGTGCA├── RDB1_TTGGTGCA_L001_R1_001.fastq└── RDB1_TTGGTGCA_L001_R2_001.fastq
# 后面发现不建立一个样本一个文件夹也是可以的,脚本会自动复制文件到一个新的Samples文件夹
# 结构如下:Samples└── RDB1_TTGGTGCA├── RDB1_TTGGTGCA_L001_R1_001.fastq└── RDB1_TTGGTGCA_L001_R2_001.fastq
# 运行,看结果啦,好像全程使用不超过双核呢,还是样本少,跑不起来
./5R_linux/run_main_5R.sh /usr/local/MATLAB/MATLAB_Runtime/v97 ./example_fastq/RDB1_TTGGTGCA ./GG_5R ./example_results/5R_SMURF_example.txt 126

运行过程比较顺畅,基本不报错,除了两个warning

------------------------------------------
Setting up environment variables
---
LD_LIBRARY_PATH is .:/usr/local/MATLAB/MATLAB_Runtime/v97/runtime/glnxa64:/usr/local/MATLAB/MATLAB_Runtime/v97/bin/glnxa64:/usr/local/MATLAB/MATLAB_Runtime/v97/sys/os/glnxa64:/usr/local/MATLAB/MATLAB_Runtime/v97/sys/opengl/lib/glnxa64
Input params are:
Working on files in directory: ./example_fastq/RDB1_TTGGTGCA
Reconstruction using kmers of length: 126
WORKING ON SAMPLE : RDB1_TTGGTGCA
Part 1/1 - Block 1/2
Part 1/1 - Block 2/2
Number of reads: 299346
Percent of long enough reads: 1
Percent of good reads: 0.95608
Counting fasta write: 1
历时 5.675209 秒。
Mapped to primers 88% of unique reads
Mapped to primers 98% of read counts
Loading bacterial DB for region 1 out of 5 from original region 1
...
Loading bacterial DB for region 5 out of 5 from original region 5
Region 1 out of 5
Keep high freq: 8% of reads
Keep high freq: 89% of counts
Building matrix M
Building matrix A
--------------------------------------------
...
--------------------------------------------
Region 5 out of 5
Keep high freq: 5% of reads
Keep high freq: 90% of counts
Building matrix M
Building matrix A
--------------------------------------------
警告: Make sure PE is supported properly
> In solve_iterative_noisy (line 4)In reconstruction_func (line 40)In main_multiple_regions (line 56)In main_5R (line 57)
Region 1 out of 5
Keeping reads matched to DB: 95% of reads
Keeping reads matched to DB: 97% of counts
--------------------------------------------
...
--------------------------------------------
Region 5 out of 5
Keeping reads matched to DB: 98% of reads
Keeping reads matched to DB: 99% of counts
--------------------------------------------
Filter out columns (bacteria)
警告: TAKE PROPER CARE OF NOT AMPLIFIED REGIONS
> In solve_iterative_noisy (line 90)In reconstruction_func (line 40)In main_multiple_regions (line 56)In main_5R (line 57)
Normalize frequency counts
Build matrix A_L2
Making columns of A unique...
Removing included bacterias...
Removed 8844 out of 10189
警告: Found 721 bacterias with non even number of reads mapped
> In solve_iterative_noisy (line 178)In reconstruction_func (line 40)In main_multiple_regions (line 56)In main_5R (line 57)
Starting iterations...
Total iterations time: 1.1721
Building the Scott files for level: species
Loaded RDB1_TTGGTGCA

从过程来看,6V区的运行过程几乎完全一致,看看结果:

Total # of reads                                                        205605
domain  phylum  class   order   family  genus   species RDB1_TTGGTGCA
Bacteria        Actinobacteria  Acidimicrobiia  Acidimicrobiales        Unknown family  Unknown genus271        Unknown species1        0.002213
Bacteria        Actinobacteria  Actinobacteria  Actinomycetales Actinomycetaceae        Actinomyces     Actinomyces massiliensis        0.000603
Bacteria        Actinobacteria  Actinobacteria  Actinomycetales Actinomycetaceae        Actinomyces     Actinomyces naeslundii  0.000746
Bacteria        Actinobacteria  Actinobacteria  Actinomycetales Actinomycetaceae        Actinomyces     Actinomyces odontolyticus       0.000939

终于见到物种分类结果啦,未分类的它进行了自编号。

试试6V区行不行

# 复制一份出来,开始
cp -r 5R 6R
cd 6R
# 观察文件,替换6R需要的文件
│   ├── GreenGenes_201305_unique_up_to_3_ambiguous_16S_ffpe5regions_2mm_RL160_region1.mat
│   ├── GreenGenes_201305_unique_up_to_3_ambiguous_16S_ffpe5regions_2mm_RL160_region2.mat
│   ├── GreenGenes_201305_unique_up_to_3_ambiguous_16S_ffpe5regions_2mm_RL160_region3.mat
│   ├── GreenGenes_201305_unique_up_to_3_ambiguous_16S_ffpe5regions_2mm_RL160_region4.mat
│   ├── GreenGenes_201305_unique_up_to_3_ambiguous_16S_ffpe5regions_2mm_RL160_region5.mat
│   ├── GreenGenes_201305_unique_up_to_3_ambiguous_16S_headers.mat
│   └── taxonomy_db.mat
# 应该就是这几个文件啦,先删除,文件夹名字就不改啦,防止脚本不识别
rm GG_5R/*
# 物种注释文件吧?
cp ../SMURF/Green_Genes_201305/unique_up_to_3_ambiguous_16S/gg_rdp_taxa_name_calls.mat GG_5R/taxonomy_db.mat
# 序列文件
cp ../SMURF/Green_Genes_201305/unique_up_to_3_ambiguous_16S_amp6Regions_2mm_RL130/*  GG_5R/
# 再把测序文件拉来试试,先删除原来的
rm -r example_fastq/*
cp ../SMURF/Example/* example_fastq/

运行下,看看行不行啦

./5R_linux/run_main_5R.sh /usr/local/MATLAB/MATLAB_Runtime/v97 ./example_fastq ./GG_5R ./example_results/5R_SMURF_example.txt 126
# 报少个文件,好像是总的,复制原来的过来试试
cp ../5R/GG_5R/GreenGenes_201305_unique_up_to_3_ambiguous_16S_headers.mat GG_5R/
# 因为没有解压而报错
# WORKING ON SAMPLE : Samples
# 索引超出数组元素的数目(0)。
rm -r example_fastq/Samples/
gunzip example_fastq/*
# 还是报错了,应该是要修改matlab代码才能解决,还是转向qiime2-slide这个插件吧
Mapped to primers 0% of unique reads
Mapped to primers 0% of read counts
索引超出数组元素的数目(0)。出错 load_bact_DB (line 33)出错 reconstruction_func (line 9)出错 main_multiple_regions (line 56)出错 main_5R (line 57)MATLAB:badsubscript

SMURF(5R)-Science封面文章使用的16S新流程(二)相关推荐

  1. SMURF-Science封面文章使用的16S新流程

    肠道微生物是近两年的研究热点,但是去年登上Science封面的是一篇研究肿瘤中的微生物的文章,另人眼前一亮,有些肿瘤即使没有与外界环境相通,也是有微生物的存在的.外行看热闹,内行要看看他是具体怎么进行 ...

  2. 中国新冠研究登上Science封面,全球首次揭示新冠病毒人体蛋白受体结构

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:新智元 [导读]日前,西湖大学周强实验室的一项关于新冠病毒的研究登上了最新一期S ...

  3. NBT封面文章:水稻根系微生物组与氮肥利用效率关系(端午水稻专题)

    文章目录 中科院遗传发育所揭示籼粳稻根系微生物组与氮肥利用效率关系 评论 Reference 作者简介 白洋 储成才 张婧赢 刘永鑫 张娜 猜你喜欢 写在后面 今天端午节,祝大家节日快乐! 大家每年端 ...

  4. 手把手带你重现菌群封面文章全部结果图表

    文章简介 图表解读与绘制 1. 水稻根系微生物随时间变化吗? 2. 微生物组随时间变化的规律 3. 哪些菌门随时间呈现规律变化呢? 4. 哪些菌可以作为生育时间的biomarkers? 猜你喜欢 写在 ...

  5. 中国科学封面文章:水稻田间全生育期根系微生物组的变化规律

    文章简介 人类体内和植物根系都存在着数量庞大种类繁多的微生物群落(微生物组).肠道微生物组随人类年龄的演化规律关系到人们的健康.与之类似,植物根系微生物组随植物生长的变化规律对植物健康也非常重要,与农 ...

  6. Science Advances文章揭示长时记忆的神经动态表征机制

    记忆,即人类回忆过去发生的事情的能力,是神经科学家和心理学家最广泛研究的主题之一.过去的研究收集了大量的证据,表明记忆是一个动态的过程,而不是静态的.换句话说,记忆似乎是由一系列复杂的过程形成的,包括 ...

  7. 谷歌量子计算突破登Science封面!首次对化学反应进行量子模拟

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 今天,谷歌的量子计算机登上了Science封面,他们成功用12个量子比特模拟了二氮烯的异构化反应. 这已经是谷歌量子计算机第二次登上顶级学 ...

  8. AlphaZero登上Science封面:从小白开始制霸多个游戏

    DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现,其研究曾经两次登上 Nature.近日,AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级 ...

  9. Science封面6连发:人类最完整的基因组测序完成!

    全世界科学家近40年的努力,今天终于圆满了! Science连发6篇封面文章,宣布人类完整基因组测序计划正式完成. 据路透社.Science等报道,这项成果填补了前人几十年努力后仍然存在的空白,为全球 ...

  10. 发表 SCI 封面文章是一种怎样的体验?

    成楚旸 ,专栏"化学札记"已开通,欢迎关注 袁霖. 渠志倍 等 298 人赞同 谢邀. 因为老板比较在意这个,我们组又有专业美工,所以我们组比较好的paper都会试着投封面. 自己 ...

最新文章

  1. Java项目:车租赁管理系统(java+Gui+文档)
  2. 3.4 归一化网络的激活函数-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
  3. linux安装xgboost快速高效方法
  4. 字节跳动offer流程多长时间_字节跳动-运营实习生-面经实录(已Offer??)
  5. word 编辑域中的汉字_word中插入的cad对象无法双击编辑问题解决记录
  6. 03-15 截图、日志与录屏
  7. Android Robolectric 加载运行本地 So 动态库
  8. 什么是特洛伊木马病毒?
  9. 线性代数之 矩阵乘法的本质
  10. 360云盘服务器停止怎么找回,360云盘宣布关闭,老司机们的“珍藏”何去何从?...
  11. 山寨手机给正规手机仅仅是冲突吗?相互学习,正规国产机就不愁翻身。
  12. Don't let the things you own end up owing you
  13. matlab模拟塞曼图谱,塞曼效应理论与实验分析.doc
  14. PS 羽化工具使用
  15. PMM 监控原理以及部署
  16. 可燃气体在线监测无线传输终端
  17. IPV4 地址分类 A B C D E
  18. python仿真智能驾驶_自动驾驶仿真工程师
  19. 10天精读掌握:计算机组成与设计(COAD:Patterson and Hennessy) (第2天 2018/10.25)
  20. 云服务器部署安全组开放端口小结

热门文章

  1. 已知三角形的三条边长,求这个三角形的外接圆的半径
  2. ajax data=text,jQuery ajax dataType值为text json探索分享
  3. 二值图像快速细化算法
  4. sql服务器安全模式怎么修改,SQL Server 安全
  5. 计算机操作系统-4-设备管理
  6. 利用树莓派4搭建私有云盘
  7. Love to be loved by you Just one last dance
  8. js-beautify 不换行
  9. qpython3l表白编程_沫琼的喜欢 | LOFTER(乐乎) - 让兴趣,更有趣
  10. [EULAR文摘] 滑膜HIF-1a与类风湿关节炎的关节破坏