2021.12.04【宏基因组】|宏基因组流程搭建进展梳理
- 分析框架
- 质控
- 过滤
- trimmomatic PE {input.R1} {input.R2} {output.R1_PE} {output.R1_UNPE} {output.R2_PE} {output.R2_UNPE} LEADING:3 TRAILING:3 SLIDINGWINDOW:5:20 MINLEN:50 -phred33
- 去重
- echo \"{input.R1}\" > {params.sample_ID}_merge.fastuniq ;echo \"{input.R2}\" >> {params.sample_ID}_merge.fastuniq;fastuniq -i {params.sample_ID}_merge.fastuniq -t q -o {output.R1_uniq} -p {output.R2_uniq} -c 0
- 去宿主
- bwa mem -k 30 -R \'@RG\\tID:foo\\tSM:bar\\tLB:Abace\' -t {threads} {params.genome} {input.R1} {input.R2} > {output}
- samtools view -bS {input} -o {output}
- samtools sort {input} -o {output}
- samtools view {input.bam_file}|awk -F '\t' '$3==\"*\"{{print $1}}'|uniq|seqtk subseq {input.R1} -> {output.nohost_file_R1};samtools view {input.bam_file}|awk -F '\t' '$3==\"*\"{{print $1}}'|uniq|seqtk subseq {input.R2} -> {output.nohost_file_R2}
- 报告
- gzip -c {input.nohost_file_R1} > {output.clean_R1}; gzip -c {input.nohost_file_R2} > {output.clean_R2};fastqc -o {output.fastqc_dir} --extract -q {output.clean_R1} {output.clean_R2}
- 过滤
- Reads-based
- 物种注释:MetaPhIAn
- cat {input.clean_R1} {input.clean_R2} > {params.combine_file};humann --input {params.combine_file} --output {output.result}
- 功能注释:Humann
- humann --input 02.align/nohost/4a_combine.fq --output 05.Annotation/4a/
- 物种注释:Kraken2
- 物种注释:MetaPhIAn
- contigs-based
- 组装:Megahit
- megahit -t {threads} -1 {input.clean_R1} -2 {input.clean_R2} -o {output.dir} --k-min 35 --k-max 95 --k-step 20 --min-contig-len 500 -m 0.1;cp {output.dir}/final.contigs.fa {output.assembly_fa}
- 统计Coverage:pileup
- pileup.sh in={input.bam} ref={input.genome} out={output.covstats} overwrite=true
- 预测:prodigal
- prodigal -i {input.contig} -o {output.gff} -f gff -p meta
- 特别注释
- cd {params.sample_id};mkdir -p card dbCAN phi vfdb tcdb signalp;cd phi;/home/tanchaojun/anaconda3/envs/wgs/bin/diamond blastx -p 6 -k 1 -e 0.00001 --db /home/tanchaojun/database/phi/phi --query ../../../{input.genomic_cds} --out phi_result;cd ../vfdb;/home/tanchaojun/anaconda3/envs/wgs/bin/diamond blastx -p 6 -k 1 -e 0.00001 --db /home/tanchaojun/database/vfdb/vfdb_setA --query ../../../{input.genomic_cds} --out vfdb_result;cd ../tcdb;/home/tanchaojun/anaconda3/envs/wgs/bin/diamond blastx -p 6 -k 1 -e 0.00001 --db /home/tanchaojun/database/tcdb/tcdb --query ../../../{input.genomic_cds} --out tcdb_result;cd ../signalp;signalp -fasta ../../../{input.genomic_cds} -gff3 -mature -prefix signalp_result;cd ../dbCAN;/home/tanchaojun/anaconda3/envs/run_dbcan/bin/run_dbcan.py --db_dir /home/tanchaojun/database/dbCAN --hmm_cov 0.35 --hmm_eval 1e-15 --hmm_cpu 8 --dia_eval 1e-102 --dia_cpu 8 --out_dir ./ --out_pre dbCAN_result ../../../{input.genomic_cds} prok;cd ../card;/home/tanchaojun/anaconda3/envs/rgi/bin/rgi main -n 8 --input_sequence ../../../{input.genomic_cds} --output_file card_result --clean;
- EGGNOG、CAZy、COG注释
- cp {input.cds_fa} {params.sample_id}/cds.fa;cd {params.sample_id};mkdir -p eggnog COG;cd eggnog;emapper.py --cpu 20 --itype CDS -i ../../../{input.cds_fa} -o out --override -m diamond --evalue 0.001 --score 60 --pident 40 --query_cover 20 --subject_cover 20 --tax_scope auto --target_orthologs all --go_evidence non-electronic --pfam_realign none --report_orthologs --decorate_gff yes --data_dir /home/tanchaojun/anaconda3/envs/eggnog/lib/python3.7/site-packages/data;cd ../../../
- cp scripts/anno/COG/* {params.sample_id};cp scripts/anno/eggnog/* {params.sample_eggnog};cd {params.sample_eggnog};perl emapper2anno.pl out.emapper.annotations > ../COG/eggnog.anno.xls;cd ../COG;python COG.py fun2003-2014.tab ../eggnog/out.emapper.annotations;/usr/bin/Rscript 7.eggnog.plot.R DrawAnnotationPic.R.txt COG.pdf
- mkdir -p {params.CAZy_dir}&&cd {params.CAZy_dir};/home/tanchaojun/anaconda3/envs/run_dbcan/bin/run_dbcan.py --db_dir /home/tanchaojun/database/dbCAN --hmm_cov 0.35 --hmm_eval 1e-15 --hmm_cpu 8 --dia_eval 1e-102 --dia_cpu 8 --out_dir ./ --out_pre dbCAN_result ../../../{input.cds_fa} prok
- 物种注释:NR(尚未加入)
- 组装:Megahit
- 后期分析(尚未补充完成)
- 物种与功能组成分析
- Venn
- heatmap
- 物种、功能关系图
- 物种组成图
- 样本比较分析
- UPGMA聚类分析
- 层级聚类热图
- PCA
- PCoA
- 组间比较分析
- AMOVA
- 物种与功能组成分析
2021.12.04【宏基因组】|宏基因组流程搭建进展梳理相关推荐
- TS:git clone出现 fatal unable to access ‘httpsgithub.com...‘的解决办法(已解决)-2021.12.04
TS:git clone出现 fatal: unable to access 'https://github.com/-'的解决办法(已解决)-2021.12.04 目录 文章目录 TS:git cl ...
- ubuntu 12.04(64位)下搭建android5.0开发环境 (win7 虚拟机)
2019独角兽企业重金招聘Python工程师标准>>> 本文介绍在WIN7操作系统通过在虚拟机VMWARE和Ubuntu下搭建了一个android5.0编译环境的操作过程,包括LIN ...
- Ubuntu 12.04下Pomelo开发环境搭建(转)
关于Pomelo的开发之前一直是在Win7下搞的,最近决定迁移到Ubuntu下,我用的是Ubuntu 12.04,个人认为Ubuntu下搭建Pomelo开发环境,最重要的工作就是安装Nodejs,搞定 ...
- Nature子刊:宏基因组中挖掘原核基因组的分析流程
宏基因组中挖掘原核基因组的分析流程 从宿主相关的短读长鸟枪宏基因组测序数据中恢复原核基因组 Recovering prokaryotic genomes from host-associated, s ...
- NBT:牛瘤胃微生物组的4941个宏基因组组装基因组(MAG)
牛瘤胃微生物组的参考基因组集 用于瘤胃微生物组生物学和酶发现的4,941个瘤胃宏基因组组装基因组集 Compendium of 4,941 rumen metagenome-assembled gen ...
- 纽约伊坎医学院房刚组诚聘博士后: 表观基因组, 宏基因组, 精准医疗
纽约伊坎医学院房刚组诚聘博士后: 表观基因组, 宏基因组, 精准医疗 实验室介绍 美国西奈山伊坎医学院(Icahn School of Medicine at Mount Sinai, US News ...
- Nature子刊:宏基因组组装基因组实现谱系解析
宏基因组组装基因组实现谱系解析 MAGs achieve lineage resolution Nature Microbiology [IF: 17.745] DOI:https://doi.org ...
- Microbiome:宏基因组分箱流程MetaWRAP分析实战和结果解读
文章目录 MetaWRAP-a flexible pipeline for genome-resolved metagenomic data analysis 分析实战 0.下载肠道宏基因组数据 1. ...
- Microbiome:宏基因组分箱流程MetaWRAP安装和数据库布置
文章目录 简介 工作原理 优势 功能模块 软件安装 数据库配置 **CheckM数据库** **KRAKEN数据库** **NCBI_nt** **NCBI物种信息** **人类基因组bmt索引** ...
最新文章
- 查看mysql的编码格式
- SSM框架整合(一)
- C语言解决汉诺塔问题
- 利用JQuery jsonp实现Ajax跨域请求 .Net 的*.handler 和 WebService,返回json数据
- Android 中的BroadCastReceiver【转】
- JavaScript 模块化编程(一):模块的写法
- [翻译] 物理引擎javascript实现
- qt 如何 指针 自动 释放内存_要是面试官再问你智能指针的问题,就拿这篇文章“盘他”!!!...
- 区间树(segment tree)
- 深度学习框架间互操作的工具:MMdnn
- Android Studio 创建/打开项目时一直处于Building“project name”Gradle project info 的解决...
- 有哪些将英文文献翻译为中文的网站或软件?
- 盘点python socket 中recv函数的坑
- Java程序编写 • 【第4章 程序:随机本周菜品;简易计算器】
- 软件易用性测试怎么做?
- 思维导图☆三招十八式
- 哮喘病人小气道上皮细胞 (Asthma) Small airway epithelial cells 培养解决方案
- Android 智能机顶盒之蓝牙遥控器开机自动配对
- asp.net打印错误日志
- .net mysql sqlhelper_「谢灿asp.net三层架构」5、DAL中公共类-SqlHelper类应该这样写