全基因组数据CNV分析简介
欢迎关注”生信修炼手册”!
除了利用aCGH和snp芯片来检测CNV之外,也可以通过NGS数据来分析CNV, 比如全基因组和全外显子测序。针对全基因组CNV的检测,还针对开发了一种称之为CNV_seq的测序策略,指的是低深度全基因组测序,只需要5X的测序深度,就可以有效的检测CNV。
本文根据一篇2015年的综述来简单介绍下全基因组CNV分析的策略,文章标题如下
Whole-genome CNV analysis: advances in computational approaches
链接如下
https://www.frontiersin.org/articles/10.3389/fgene.2015.00138/full
根据软件的基本原理,可以分为以下4大类别,图示如下
1. Read-Pair(RP)
RP是最早出现的算法,利用双端测序插入片段长度分布来检测CNV, 也称之为PEM,pair end mapping方法。双端测序插入片段长度分布如下图所示
当插入片段长度过长或者过短时,都代表着基因组发生了结构变异,如上图中的两个阈值,图示如下
以上两幅图来自文献Jan O. Korbel et al.Science 318, 420 (2007)
当计算出来的插入片段长度小于cutoff I时,说明相比reference, 实际检测样本中对应区域插入了部分碱基,相反地,如果计算出来的插入片段长度大于cutoff D时,说明相比reference, 实际检测样本对应区域插入了部分碱基。
受到测序读长的影响,该方法适用于检测中等长度的insertion和deletion, 对过小的插入不敏感,而且比较依赖比对的准确性,无法分析低复杂度的segmental duplication区域。
采用该策略的部分软件列表如下
BreakDancer
PEMer
Ulysses
2. Split-read(SR)
SR方法利用一端能够比对,另外一端比对不上的reads来识别CNV。另外一端比对不上,可能是存在CNV, 通过将单独的reads进行拆分,使其能够正确比对到参考基因组上,拆分的点就是CNV的断裂点。
只利用了单端reasd, 读长进一步受到限制,所以该方法只适用于检测小规模的插入和缺失,采用该策略的部分软件列表如下
Pindel
PRISM
SVseq2
Gustaf
3. Read-Depth(RD)
RD方法利用拷贝数和对应区域测序深度的相关性来进行分析,基本模型是缺失区域的测序深度相对低,而插入区域的测序深度相对高。该算法采用滑动窗口的方式,统计每个窗口内的测序深度分布,然后根据不同窗口测序深度的分布来预测CNV区域,图示如下
上图来自文献Genome Res. 2011. 21: 974-984
类似芯片中的log ratio值,在RD方法中,会根据区域对应的测序深度来判断对应的CNV数目。在该类方法中,滑动窗口的大小对结果影响较大,当窗口很大时,一些长度很短的small cnv信号就会被掩盖。
相比RP和SR两种方法,RD可以进行CNV分型,明确CNV的数目,RP和SR只能检测断点的位置, 而且RD可以检测大规模的CNV, 是目前较为主流的算法。采用该策略的部分软件列表如下
CNVnator
ERDS
ReadDepth
CNVrd2
4. Assembly(AS)
AS方法利用测序得到的短序列进行组装,将组装的contig与参考基因组进行比较,从而确定发生了结构变异的区域。组装的精确依赖测序读长和算法的准确度,而且组装对硬件资源的消耗特别大,并不是一个理想的CNV检测的算法,这里就不做过多的介绍了。
以上4种是最基本的算法理念,还有很多软件会综合其中的某几种算法来检测CNV, 比如speedseq中集成的lumpy软件,综合利用RP,SR, RD三种方式来检测CNV。
比对准确性是基于NGS的策略检测结果准确的前提,mapping的准确率和二代测序对基因组的覆盖度都会影响到CNV的检测结果,同时在计算测序深度时GC含量差异带来的PCR扩增偏移,也需要进行校正,通过设置对照样本,能够有效的减少系统误差的干扰,更好的进行CNV的检测。
综上所述,每种算法各有其优缺点,综合使用多种策略有助于提高检测结果的准确性和敏感性,同时设置对照样本,可以更加有效的分析拷贝数的变化。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!
全基因组数据CNV分析简介相关推荐
- 拷贝数变异(Copy number variation, CNV)分析简介
拷贝数变异(Copy number variation, CNV)分析简介 拷贝数变异简介(CNV) CNV,即拷贝数变异(Copy number variation, CNV),是由基因组发生重排而 ...
- 易基因|全基因组cfDNA甲基化分析提高了早期乳腺癌无创诊断成像的准确性
大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 乳腺癌早期发现是提高患者预后和生存率的关键.基于乳房X线片和超声技术的乳腺影像报告和数据系统(BI-RADS)被广泛用于乳腺癌的早期诊断 ...
- 一个全基因组重测序分析实战
Original 2017-06-08 曾健明 生信技能树 这里选取的是 GATK best practice 是目前认可度最高的全基因组重测序分析流程,尤其适用于 人类研究. PS:其实本文应该属于 ...
- 精准医学:新发现!全基因组cfDNA甲基化分析或可用于胰腺癌早期诊断应用
易点评: 作为消化道常见恶性肿瘤之一,胰腺癌在肿瘤领域素有"癌症之王"的称号,据柳叶刀杂志记载,胰腺癌大多一经发现即为中晚期,确诊后的五年生存率约10%,是预后最差的恶性肿瘤之一. ...
- 易基因:全基因组DNA甲基化分析揭示DNMT1在斑马鱼模型听觉系统发育中的作用 | 胚胎发育
大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 听力障碍通常与内耳发育不全或损伤有关,是影响生活质量的严重健康问题.因此研究听觉器官发生过程中的关键基因对于探索听力损伤的潜在策略至关重 ...
- 从一次数据库会话阻塞根因诊断看全链路数据智能分析
指标是数据库运维中十分关键的元素,不仅仅是监控告警,巡检.故障溯源.问题分析.性能优化等也都依赖于各种各样的指标,因此构建指标体系是数据库自动化运维的基础. 一些运维系统中,设计理念重算法,轻指标,认 ...
- 基于全基因组的基因家族分析的初尝试
参考:简书https://www.jianshu.com/p/9f96fc7438aa 以搜索ZEB的人类的基因家族成员为例 一. 搜索已知数据库 1.在NCBI Gene上搜索ZEB1 点击summ ...
- SpeedSeq:快速的基因组数据分析软件
欢迎关注"生信修炼手册"! SpeedSeq是一款开源的基因组数据变异分析软件,主要功能如下 alignments, 序列比对 variant detection, 变异检测 fu ...
- 全基因组重测序基础及高级分析知识汇总
全基因组重测序基础及高级分析知识汇总 oddxix 已关注 2018.09.20 17:04 字数 11355 阅读 212评论 0喜欢 6 转自:http://www.360doc.com/cont ...
最新文章
- 深入理解计算机系统:网络编程 上
- python的代码有哪些_简单python代码类型有哪些?
- cannot和can not的区别 666666
- spring实现IOC的思路和方法
- linux上配置spark集群
- python单元测试unittest
- 【重难点】【JUC 03】怎么实现一个线程安全的队列、手写模拟实现一个阻塞队列
- 刺激味蕾的甜品果汁饮品psd分层海报素材,愉悦使用图层!
- Android Studio出现cannot resolve symbol httpclient解决方法
- 简单的SQL数据脱敏
- Android 杂七杂八记录
- 探究京东商城的数据建模
- 物联网可靠连接——PLC-IOT电力线载波通讯
- Beta冲刺第二周王者荣耀交流协会第五次会议
- 2020北京邮电大学计算机学院复试经验分享
- 算法笔记 胡凡 codeup 吃糖果
- 关闭win10的繁体字快捷键ctrl+shift+f
- 迪士尼照片_迪士尼经典游戏,《狂热》和更多Linux游戏新闻
- Navicat使用指南(一)
- java - 随机生成人名/指定位数字符串/手机号 --工具方法
热门文章
- 算法竞赛入门经典 每日一题(wyh的吃鸡)
- 蚂蚁CMS分类信息系统-蚂蚁CMS分类信息系统搭建配置教程
- Openwrt在AR9331交叉编译工具链
- PMS 包解析源码流程 - 修改定制应用icon
- 使用Altium Designer 20绘制双层板以及四层板
- RGB-D Salient Object Detection with Cross-Modality Modulation and Selection
- python建站有什么缺点_python有哪些建站系统?
- C语言习题——字符串旋转结果
- cfa的pv怎么用计算机算,CFA考点解析:如何用计算器Amort键计算interest rate
- Python安装教程之anaconda篇