NGS数据分析实践:00. 变异识别的基本流程

变异识别过程可以分成3大块:1. 原始数据质控;2. 数据预处理;3. 变异识别。大致可以细分为6个部分:(1) 原始测序数据的质控;(2) read比对,排序和标记PCR重复序列;(3) Indel区域局部重比对;(4) 碱基质量值重校正(Base Quality Score Recalibration,BQSR);(5) 变异检测;(6) 变异结果质控和过滤。

详细的变异识别流程可以参考下图:

Altmann A, Weber P, Bader D, Preuss M, Binder EB, Müller-Myhsok B. A beginners guide to SNP calling from high-throughput DNA-sequencing data. Hum Genet. 2012 Oct;131(10):1541-54. doi: 10.1007/s00439-012-1213-z.

此次实践操作的数据,采用多重PCR靶向扩增子测序技术,在Illunima Hiseq X Ten测序平台上进行双末端(paired-end,PE)测序。两端的读长read1和read2各测150bp(PE150),DNA插入片段(即被测序的DNA片段)的长度约为220bp,因此会出现reads测通(overlap)的现象。测通可以将插入片段的信息,完整还原为单条tags,以正确统计信息(表达量、拷贝数)的生物学意义。

整个实践预计包括以下部分:
1. 分析环境的配置—— conda。
2. 数据的准备——原始测序数据 + 参考基因组数据 + 注释数据库。
3. 数据质量的评估——fastqc + multiqc。
4. 序列比对、排序、标记PCR重复——bwa + samtools + picard。
5. Indel 区域局部重比对 —— gatk。
6. 碱基质量值重校正——gatk。
7. 变异识别——bcftools + gatk + freebayes + varscan。
8. 变异过滤——bcftools + gatk + vcftools。
9. 变异注释——annovar。
……


参考阅读:
从零开始完整学习全基因组测序数据分析:第3节 数据质控
从零开始完整学习全基因组测序数据分析:第4节 构建WGS主流程
生信技能树 - 外显子组软件
A beginners guide to SNP calling from high-throughput DNA-sequencing data

NGS数据分析实践:00. 变异识别的基本流程相关推荐

  1. NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式

    NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式 4. bed格式 5. Wiggle/Bigwig/bedgraph格式 5.1 W ...

  2. NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式

    NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式 2. sam和bam格式 系列文章: 二代测序方法:DNA测序之靶向重测序 NGS数据分析实践:00. 变异识别的基本流程 ...

  3. NGS数据分析实践:02. 参考基因组及注释库的下载

    NGS数据分析实践:02. 参考基因组及注释库的下载 1. 参考基因组数据 2. 已知的SNP和Indel变异数据 3. annovar注释所需数据库的下载 4. 其他数据库 系列文章: 二代测序方法 ...

  4. NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式

    NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式 3. gtf/gff格式 3.1 gtf格式 3.2 gff格式 3.3 GTF格式与GFF异同点 系列文章: 二代测序方 ...

  5. NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正

    NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正 1. 序列比对 1.1 参考基因组建索引 1.2 序列比对 2. 排序 3. PCR重复标记 ...

  6. NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC

    NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC 前言 1. FastQC 1.1 帮助信息及运行代码 1.2 报告解读 1.3 小结 文接上篇:NGS数据分析实践:04. 准 ...

  7. NGS数据分析实践:04. 准备测序数据

    NGS数据分析实践:04. 准备测序数据 文接上篇:NGS数据分析实践:03. 涉及的常用数据格式[5] - vcf格式 本次NGS数据,采用多重PCR靶向扩增子测序技术,在Illunima Hise ...

  8. NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC

    NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC 2. MultiQC 2.1 帮助信息及运行代码 2.2 报告解读 2.3 小结 文接上篇:NGS数据分析实践:05. 测序 ...

  9. 互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(一)——简介入门

    互联网电商大数据环境 --数据分析实践培训精华笔记(一) 工作内容 项目:DW数据库建设/经分/客户精准营销/推荐系统需求/移动端数据分析 数据:流量数据/交易数据B2C/会员与活动数据/物流与配送数 ...

最新文章

  1. php mysql execute语法_PHP PDOStatement::execute讲解
  2. gdal java shp_【GDAL/OGR】利用GDAL/OGR读取shp文件并转换为json文件(Java版)
  3. JSP学习笔记(一):JSP语法和指令
  4. 7-1 最大子列和问题 (20 分)
  5. Think Bayes - 我所理解的贝叶斯定理
  6. 蓝桥杯2015初赛-星系炸弹-日期计算
  7. [蓝桥杯2016初赛]方格填数
  8. 高可用—Keepalived安装部署使用详解
  9. {Azure} 常用链接
  10. AngularJs的基础——$http请求数据
  11. MacOS上的一些隐藏的快捷小技巧
  12. Android 整合新浪微博SDK问题
  13. ubuntu python3.7 gblic问题_glibc
  14. 小程序项目:基于微信小程序的超市购物系统——计算机毕业设计
  15. git 错误 Reinitialized existing Git repository
  16. iOS 模仿系统的抖动动画
  17. [精华] SCO UNIX安装参考
  18. 送快递的,收快递的电话
  19. php的jaxa接口,GitHub - jaxamu/weap
  20. 【论文汇总】Semantic-Segmentation(语义分割)

热门文章

  1. 研究亥姆霍兹线圈轴线磁场分布(3)
  2. 2018.12.30【NOIP提高组】模拟A组 JZOJ 5353 村通网
  3. 7-5 计算2个复数之和与之积
  4. SAP-License-3种方法帮您有效减少License许可证授权支出
  5. 【财务管理 I】价值观念
  6. [长安战疫-cazy] Web题解
  7. VR全景打造数字化校园名片
  8. 这些年盘过的航模、车模、船模
  9. ibm服务器 t系列,IBMT
  10. break跳出两个嵌套的for循环