如何用软件模拟NGS数据

为了评价一个工具的性能,通常我们都需要先模拟一批数据。这样相当于有了参考答案,才能检查工具的实际表现情况。因此对于我们而言,面对一个新的功能,可以先用模拟的数据测试下不同工具的优缺点。有如下几个工具值得推荐一下:

  • 'wgsim/dwgsim': 从全基因组中获取测序reads
  • 'msbar': EMBOSS其中一个工具,能够从单个序列中模拟随机突变
  • 'biosed': EMBOSS的一个工具,可以按照我们给定突变位点模拟
  • 'ReadSim': 专门用于模拟PacBio/Nanopore这类仪器产生的long read
  • 'Art': 目前最复杂的模拟工具,能够模拟测序仪测序引入的错误位点
  • 'Metasim': 用于模拟宏基因组得到的reads
  • 'Polyester': 用于模拟RNA-seq

值得注意的是,这些工具模拟效果是有限,比如建库操作中超声破碎会出现的误差就很难模拟。但是最好的用途就是看看不同生物学事件在数据的情况,比如说发生了“大规模倒置”的基因组得到的数据比对到参考基因组上会是什么情况。

使用dwgsim进行模拟

wgismdwgsim能够根据参考基因组模拟出测序reads,主要是二倍体基因组的SNPs和插入缺失(INDEL)多态位点。wgism容易安装,但是参考答案是以简单的文本格式保存,不容易可视化。dwgsimwgism启发,虽然安装稍微麻烦了点,但是参考答案是以VCF格式保存,很方便可视化。

# 请先安装好ncurse
# 安装dwgsim
mkdir -p ~/scr
mkdir -p ~/.local/bin
cd ~/src
git clone --recursive https://github.com/nh13/DWGSIM.git
cd DWGSIM
make
ln -s ~/src/DWGSIM/dwgsim ~/.local/bin/dwgsim
ln -s ~/src/DWGSIM/dwgsim_eval ~/.local/bin/dwgsim_eval

简单地模拟一批数据

# efetch 需要用到conda安装启动
# conda create -n entrez entrez-direct
# conda activate entrez
# 获取参考基因组
efetch -db=nuccore -format=fasta -id=AF086833 > genome.fa
# 模拟数据
~/.local/bin/dwgsim genome.fa data

会得到如下数据

|-- data.bfast.fastq.gz # 用于bfast
|-- data.bwa.read1.fastq.gz # 用于BWA的R1
|-- data.bwa.read2.fastq.gz # 用于BWA的R2
|-- data.mutations.txt
|-- data.mutations.vcf # VCF形式擦

随后将这批数据用BWA比对,以bcftools检测变异和参考答案比较一下。

# conda install bwa samtools bcftools
bwa index genome.fa
bwa mem genome.fa data.bwa.read1.fastq.gz data.bwa.read2.fastq.gz | samtools sort -o data.bwa.bam
samtools mpileup -uf genome.fa data.bwa.bam | bcftools call -mv -o data.bwa.vcf
samtools index data.bwa.bam

利用使用IGV可视化,检查分析结果和真集的一致性

IGV检查

说明samtools+bcftools找变异这个组合其实还是靠谱的,至少在动植物领域研究里应该够用。

biostar handbook|如何模拟NGS测序结果相关推荐

  1. 如何用软件模拟NGS数据

    如何用软件模拟NGS数据 为了评价一个工具的性能,通常我们都需要先模拟一批数据.这样相当于有了参考答案,才能检查工具的实际表现情况.因此对于我们而言,面对一个新的功能,可以先用模拟的数据测试下不同工具 ...

  2. biostar handbook: 第一周笔记汇总+第二周任务布置

    第一周笔记汇总 昨天和一位也在自学生信的同学交流自学的心境,他在我的唆使之下也在简书更新自己的笔记,可以搜索小郑的学习笔记.期间,他说道 非常庆幸自己能够坚持把自己学到的知识和困惑以文字的形式记录下来 ...

  3. 燃石22Q2财报信息及肿瘤NGS测序行业感想

    燃石22Q2财报信息及肿瘤NGS测序行业感想 1.泛司退市 1.1 家底有限 1.2 每季度亏出1个小目标 1.3 退市后的猜想 2.燃司挺住 2.1 燃司的钱还可以烧2年 2.2 业务有突破希望 2 ...

  4. 肿瘤NGS测序行业背景介绍

    肿瘤NGS测序行业背景介绍 1.行业基本情况 1.1 行业分类 1.2 主管部门 1.3 行业监管 1.4 行业法规 1.5 医保报销流程 2.肿瘤基本介绍 2.1 肿瘤基础概念 2.2 癌症分期 2 ...

  5. blacklist regions:NGS测序数据中的黑名单

    欢迎关注"生信修炼手册"! 在NGS的数据分析,尤其是chip_seq类型的数据分析汇总,经常会看到这样一个概念blacklist regions,直译过来就是黑名单区域.什么样的 ...

  6. (一)概述:NGS测序在病原微生物检测中的应用

    ❝ NGS 技术在临床上的应用逐步趋于成熟,从早期的肿瘤基因检测,到如今大热的微生物病原核酸检测,NGS 技术以其快速.准确和高分辨率的特点,发挥着无可替代的作用. ❞ 微生物在地球上无处不在,从陆地 ...

  7. NGS测序基础梳理03-图解边合成边测序(Sequencing by Synthesis)

    本文介绍Illumina平台边合成边测序(Sequencing by Synthesis,SBS)原理.过程,数据拆分. 写作时间:2020. 继上一篇簇生成后,下一步就开始测序. 本文将了解到什么? ...

  8. NGS测序嵌合体是个需要去除的错误扩增序列

    嵌合体(chirmas)是指一个PCR产物来自2个甚至更多模板分子,产生的原因被认为是延伸未完全导致的(chimeras might be created due to incomplete exte ...

  9. biostar handbook(四)|生物数据及其下载和基本操作

    2017/11/9 第一版: 生物数据库,基本数据类型(genbank, fasta/fastq),数据上传站点 2017/11/12 第二版:如何利用esearch, efecth快速获取SRR序列 ...

最新文章

  1. 安全访问服务边缘(SASE)是什么?
  2. autoencoder
  3. NN如何在表格数据中战胜GBDT类模型
  4. 拔掉数据库的电源会怎样?阿里云数据库新型灾备架构,让云端容灾有“备”无患
  5. python3中的int类型占64位,有没有什么办法来强制Python来使用64位整数的Windows?
  6. mysql的jar包文件在哪找_java连接mysql要导入的jar包在哪。
  7. Python面试题解析之网络编程与并发
  8. 【转】对JavaScript调用堆栈和setTimeout用法的深入研究
  9. IBM DB2关键特性解析:DB2分区特性
  10. 火狐8下,QQ邮箱大附件下载无法识…
  11. Win10 DirectShow
  12. 北京挪动推出神州行5元卡套餐
  13. 实用网站集锦(2021-11-20)
  14. SpringBoot单元测试断言 assertions
  15. 域自适应的理解(简单易懂)
  16. 5 Mysql数据保护
  17. C++简单贪吃蛇游戏——入门游戏编程(详细)
  18. Chart.js 中文文档(整理)
  19. 戏子多秋用计算机怎么弹,戏子多秋 - 刘雨Key - 5SING中国原创音乐基地
  20. 从一次“并发修改字段业务”引出多版本并发控制与InnoDB锁

热门文章

  1. 姜宁:开源不是简单的代码开放,是依托项目构建一个共同体丨COSCon'20 专访
  2. Mysql实现监控数据统计分析:Druid开源分布式系统与阿里巴巴的Druid数据库连接池
  3. 带头结点的单链表的操作(C语言)
  4. 西门子s7-200smart PLC通讯协议(TCP)
  5. 在网上买卖基金的方法【推荐】
  6. android 丢帧率测试,Android流畅度测试
  7. WIN11开机后键盘失灵解决方案
  8. Matlab使用交叉验证
  9. 商户怎样选择商业wifi进行移动营销
  10. 大端模式 vs 小端模式