# 估算测序深度、reads数目、N50等值(自写perl程序):

$ perl ~/TangerScript/fqStat -i sunset.raw.subreads.fastq -g 372m

统计结果如下:

# 基因组组装三步走1. Correction 2. Assembly 3. Polish 

## Step1: canu组装(1. Correction 2. Assembly)

$ (nohup) canu -s spec.txt -p sunset -d sunset-auto genomeSize=400m -pacbio-raw sunset.raw.subreads.fastq &

$ cat spec.txt  注:spec文件为配置文件,根据不同服务器设置不同的参数。

   ### 组装初步结果如下(自写perl程序):

$ cd /public1/home/Serenity/Sunset_Assembly/Canu-sunset-auto-201704

$ perl ~/perl_scripts/faSize.pl sunset.contigs.fasta

   ### 抽取unassembled.fasta中reads>5的contigs(自写python程序)

$ python ~/python_scripts/extract_faread_filter.py sunset.unassembled.fasta

   ### 将上一步结果与 sunset.contigs.fasta合并

$ cat sunset.contigs.fasta sunset.unassembled.fastareadfilter > sunset.all.contigs.fasta

## Step2: 第一轮矫正(3. Polish): quiver——取至少50x的三代数据做校正

$ cd /public1/home/Serenity/Sunset_Assembly/Canu-sunset-auto-201704/canu-quiver

$ ln -s ../sunset.all.contigs.fasta .

$ perl ~/TangerScript/runQuiver.pl -i sunset.all.contigs.fasta -d /public4/zhangxt/DATA/Papaya/sunset/baxh5 -t 16    注:run Quiver矫正,-t 设置节点数16-24

$ for i in {1..27};do qsub script/script.${i}.pbs; done     注:结束后检查outcmp里面的文件数目,检查无误后提交quiver.sh脚本

$ qsub quiver.sh   注:结束后得到consensus.fasta文件便是quiver校正后的基因组文件

 

## Step3: 第二轮矫正(3. Polish): pilon——取至少50x的二代数据做校正

$ cd /public1/home/Serenity/Sunset_Assembly/sunset-reseq-raw-data

   ### 首先统计read长度、read数目、总碱基数

$ zcat papaya_S1FR_CAGATC_L000_R1.fastq.gz | awk 'NR==2{a=length($1)}END{print "read length:"a"\nread num:"NR/4"\ntotal base:"a*NR/4*2"\n"}' > papaya_S1FR_CAGATC_L000_R1.fastq.gz.qstat.txt

$ cat papaya_S1FR_CAGATC_L000_R1.fastq.gz.qstat.txt   注:测序深度=total base/372000000

   ### bwa mem进行align

$ bwa index -a bwtsw consensus.fasta

$ bwa mem -t 24 -R '@RG\tID:S1FR_CAGATC\tSM:S1FR_CAGATC\tPL:Illumina\tLB:lib1' consensus.fasta papaya_S1FR_CAGATC_L000_R1.fastq.gz papaya_S1FR_CAGATC_L000_R2.fastq.gz > papaya_S1FR_CAGATC_L000.sam

$ samtools view -bS papaya_S1FR_CAGATC_L000.sam > papaya_S1FR_CAGATC_L000.bam

$ samtools sort papaya_S1FR_CAGATC_L000.bam -o papaya_S1FR_CAGATC_L000.sorted.bam

$ samtools index papaya_S1FR_CAGATC_L000.sorted.bam

$ qsub run_pilon.sh

$ cat run_pilon.sh    注:在本实验室服务器指定13节点或者14节点,因为这两个节点内存比较大,java设置内存300G,线程设置12以上 

   ### 组装最终结果如下:

$ perl ~/perl_scripts/faSize.pl sunset_pilon.fasta

 注:N50大概达到了1.2M,总基因组大小大概组装到了330M

 

                                             

转载于:https://www.cnblogs.com/Datapotumas/p/6863584.html

组装三代番木瓜基因组——by Serenity Fang相关推荐

  1. Pacbio 纯三代组装复活草基因组

    对于植物等真核生物基因组来说,重复序列, 多倍体,高杂合度等特征在利用二代数据进行组装的时候都会有很大的问题: 利用二代数据组装出来的基因组,大多达不到完成图的水准,通常只是覆盖到编码蛋白的基因区域, ...

  2. MECAT:PC组装人的基因组

    MECAT:PC组装人的基因组 MECAT 测序技术 组装简史 今天给大家推荐一款牛叉的三代组装软件,号称资源浪费少,绿色又环保,而且在个人笔记本上毫无压力的软件--MECAT. 看到这个题目,大多数 ...

  3. 一种PacBio测序数据组装得到的基因组序列的纠错方法技术 (专利技术)

    一种PacBio测序数据组装得到的基因组序列的纠错方法技术 技术编号:17008244阅读:83留言:0更新日期:2018-01-11 04:20 本发明专利技术提供一种PacBio测序数据组装后序列 ...

  4. 一种PacBio测序数据组装得到的基因组序列的纠错方法

    技术领域 本发明涉及生物信息技术领域,更具体的说,它涉及一种PacBio测序数据组装得到的基因组序列的纠错方法. 背景技术 PacBio是一家测序仪公司,提供第三代测序技术测序平台,他们的测序仪产生的 ...

  5. 「三代组装」使用新版Falcon进行三代测序基因组组装

    这里的新版指的是PacBio公司在2018年9月发布pb-assembly, 而这篇文章是在2018年9月30日发的. 今年早些时候在参加三代培训时,听说PacBio会在今年对Falcon进行一些改变 ...

  6. Nature Plants|植物基因组测序20年回顾与展望:三代HiFi基因组时代

    2021年11月29日,美国密歇根州立大学在<Nature Plants>期刊在线发表题为"Representation and participation across 20 ...

  7. 线粒体和叶绿体的基因组特点_如何组装植物叶绿体基因组

    可能出现的问题: *个人电脑上遇到不能collect memery的情况,是电脑内存较少,建议分成用2G左右的数据进行组装. * Seed.fasta #用于起始组装的种子序列,NOVOPlasty安 ...

  8. 基因组组装程序linux,基因组组装软件SOAPdenovo安装使用

    一.下载并安装这个软件 下载地址进下面,但是下载源码安装总是很困难,我直接下载bin文件可执行程序. 解压进入目录 首先make 然后make install即可 安装总是失败,我也不知道怎么回事,懒 ...

  9. 使用Kaiju无组装计算宏基因组数据物种注释相对丰度

    关于Kaiju Kaiju是一款直接通过宏基因组数据Read获得物种注释信息并计算读数与相对丰度的软件.它的主要方法是将Read核酸序列翻译为蛋白序列然后在相应的数据库中进行精确比对,确认物种分类信息 ...

  10. NBT:宏基因组二、三代混合组装软件OPERA-MS

    文章目录 宏基因组二.三代测序混合组装软件OPERA-MS 热心肠日报 摘要 主要结果 图1. OPERA-MS工作流程图 图2. 宏基因组数据混合组装基因组评测 图3. 组装虚拟肠道微生物组 图4. ...

最新文章

  1. Zabbix基本配置及监控主机
  2. TCP/IP拥塞控制复习
  3. 在 OpenGL ES 2.0 上实现视差贴图(Parallax Mapping)
  4. python断点续传下载_Python版本,图片,视频断点续传下载
  5. 前后端分离时代,Java 程序员的变与不变!
  6. 3dmax导出到unity3d下分割动画
  7. static变量 java
  8. objectvie-c 数组特别遍历方法
  9. ThinkPHP5访问去除/public/index.php
  10. JDK/Java SE官方文档汇总
  11. 周鸿祎谈华为鸿蒙系统;百度回应“用搜索引擎填高考志愿”;腾讯首次全面公开开源路线图 | 极客头条...
  12. html打开网页一段时间字幕滚动,网页代码:求一个隔段时间可停顿的滚动字幕代码...
  13. Msm8937+android7.1.1编译环境搭建及编译
  14. 学习笔记——meta analysis
  15. 网易详述8个月全过程:员工申请仲裁要求支付61万赔偿
  16. 幻灯片自动播放的实现
  17. DCDC--Burst Mode和Pulse Skipping Mode
  18. python 隐函数作图(原创简单方法)
  19. swf to html5 movie maker,SWF to Video Converter Pro(Flash转换视频格式)
  20. 笔记本拆c面_【神舟战神笔记本K680C使用总结】C面|做工|插槽|温度|指纹_摘要频道_什么值得买...

热门文章

  1. Shaolin - HDU 4585 - 树堆
  2. oracle18c静默安装教程,CentOS7无图形化界面静默安装oracle18c
  3. Visio 画流图 程序流图 斜线
  4. Word文档转PDF的方法有哪些?我们如何Word转PDF?
  5. Java实现微信统一服务消息
  6. 如何制作flash视频动画
  7. 7723java世界Ol,《世界OL》装备镶嵌
  8. 前端开发学习(七七)
  9. OA办公系统审批流程是什么?
  10. linux压缩文件命令_Linux 系统压缩和解压 zip 格式文件