2020.9.12丨变异检测的原理应用方向
- 变异检测的原理&技术要点
- 定义:变异检测是指 通过测序 技术对某一物种个体或群体的基因组进行测序及差异分析,获得单核苷酸多态性SNP )、插入缺失 InDel )、结构变异( SV )、拷贝数变异CNV )等大量的遗传变异信息用于开发分子标记建立遗传多态性数据库,为后续揭示进化关系、挖掘功能基因等奠定数据基础。
- 按照片段大小分类:
- 单碱基:SNP
- SNP (单核苷酸多态性)主要是指在基因组水平上由单个核苷酸的变异所引起的 DNA 序列多态性,包括单个碱基的转换、颠换等。利用 GATK软件对群体数据进行变异检测及过滤,进一步 过滤 SNP 的 reads 支持数小于 4 的位点,得到高可信度的 SNP
- 1-50bp:InDel
- InDel 是指基因组中小片段的插入和缺失序列,其长度在 1 50bp 之间。我们采用 GATK 软件进行个体 InDel 的检测。 Small InDel 变异一般比SNP 变异少,同样反映了样品与参考基因组之间的差异,并且编码区的 InDel 会引起移码突变,导致基因功能上的 变化。
- 50-1000bp:SV
- SV
- (结构变异)指基因组水平上大片段的插入、缺失、倒置、易位等序列。可利用 Lumpy, Manta, Delly 软件,基于 pair endreads 比对到参考基因组上面的关系及实际 insert size 大小检测样品与参考基因组间的插入( insertion INS )、缺失 deletionDEL )、倒置 inversion INV )、染色体内部迁移 intra chromosomal translocation ITX )、染色体间的迁移 interchromosomal translocation CTX 。
- SV
- 大于1000bp:CNV
- 拷贝数异常
- (copy number variations, CNVs 是属于基因组结构变异( structural variation ),根据大小可分为两个层次:显微水平microscopic )和亚显微水平 ( 。显微水平 的基因组结构变异主要是指显微镜下可见的染色体畸变 , 包括 整倍体或非整倍体、缺失、插入、倒位、易位、脆性位点等结构变 异。亚微水平的基因组结构变异是指 DNA 片 段 长 度 在 1Kb 3Mb 的基因组结构变异 , 包括缺失、插入、重复、重排、倒 位、 DNA 拷贝数目变化等,这些统称为 CNV (也称为拷贝数多态性 (copy number polymorphisms, CNPs )。
- 单碱基:SNP
- 名词解释
- 测序深度 :测序得到的总碱基数与基因组大小的比值。
- 覆盖率: 指测序获得的序列占整个基因组的比例,与测序深度正相关。
- 比对率( mapping rate )):反映了样本测序数据与参考基因组的相似性 需要 70 %%,最好
- 90% 以上。
- 二、三代变异检测简介&应用方向
- 简介
- 全基因组重测序(WGS )):对基因组序列已知的个体进行全基因组测序,并在个体或群体水平上进行差异性分析的方法。
- 优势:获得的基因组信息全面,高分文章青睐,循环使用性高
- 不足:成本高
- 简化基因组测序:指用限制性内切酶对基因组进行简化,只对酶识别位点相关的 DNA 进行高通量测序。
- 优点:快速、简便、低成本
- 不足:
- 1) 只能获得 SNP 等信息, SV 、 CNV 检测可靠性较低
- 2) 用酶切的片段进行测序,基因组覆盖度低,获得变异信息不全
- 3) 建库前需要进行酶切评估,建库分析结果,受酶切评估结果和基因组组装质量所限
- 4) 多数应用在影响因子 5 分以下的期刊,如 BMC 、 Plos one 等
- 检测数据量推荐:检测 SNP 5 10 × ;检测 InDel 10 15 × SV 15 20 × CNV 30 ×
- 全基因组重测序(WGS )):对基因组序列已知的个体进行全基因组测序,并在个体或群体水平上进行差异性分析的方法。
- 检测分析流程
- 流程图
- 流程推荐软件
- 分析流程:使用软件
- 数据质控:Fastqc
- 比对:BWA
- SNP、 InDel 检测 :GATK
- SV检测: Manta、 Delly
- CNV检测 :CNVnator
- 注释:ANNOVAR
- 圈图绘制:Circos
- 应用方向
- 基于二代测序检测到的SNP 位点,后续可分别做群体进化、 GWAS 、 BSA 、遗传图谱,具体的应用方向如下所示:
- 优势和短板
- 三代优势
- 长 读长
- 处理重复区域;
- 提供连续的基因组装配;
- 均衡的测序覆盖度
- 没有偏好性 (GC%, 序列复杂度
- 能够进行完整基因组测序;
- 无测序系统偏差
- Random errors wash out in final consensus 在最终的一致性序列中,去除了随机错误
- 提供准确的基因组序列。
- 长 读长
- 二代短板
- 读长短:导致组装不完全无法跨越重复序列
- 覆盖度不均一;G/C 或 A/T 富含区域是 重灾区 无法达到真正意义上的全
- 基因组测序;
- 扩增等因素导致系统错误 (指测序的准确率
- 适用于 SNP 检测 不适用大范围的结构变异检测
- 三代优势
- 三代检测类型
- CLR与CSS
- 图示
- 两种测序模式对比
- CLR检测SV
- CLR检测SV数据量推荐
- 构建 CLR 文库, 15 30 × 测序深度时, SVs 检测准确度和检出率在 80 85%
- 对于大片段 SV 检出率、准确度更高。
- 图示
- CLR检测SV混样的可行性
- 图示
- CLR检测SV分析流程
- 图示
- CLR检测SV数据量推荐
- HiFi变异检测SNP、InDex
- SNV检测 15 × 可检测到 99.5%的变异,至少需要 10 ×;
- InDel 17 × 可检测到与 NGS 相当的变异(90% );
- SV 检测15 × 检测到 95% 的变异 。
- 文献参考
Accurate circular consensus long
read sequencing improves variant detection and assembly of a human genome 2019 Nature Biotechnology
- 分析流程
- 图示
- CLR与CSS
- 简介
- 总结
- 1.与 CLR 相比, HiFi 检测到的SV 边界更好,断点更明显;
- 2. CLR 变异一般用于检测 SV可以和二代数据联合起来;HiFi 可检测 SNP 、 InDel 、SV 等;
- 3. CLR 检测推荐测序深度 30 ×以上; HiFi 推荐 15 × 的测序深度。
- 思路一:有参考基因组
- CLR :长读长的优势,碱基准确度相对较差的劣势,建议三代数据检测并结合二代数据进行纠错
- CCS HiFi :较高的碱基准确度,可同时检测 SNP/ InDel /SV ,无需二代数据校准
- 可基于长读长对基因组补 gap ,获得更精确信息。
- 思路二:无参考基因组
- CLR :组装参考基因组
- CCS HiFi :较高的碱基准确度,更有利于分型与重复区域的组装,更节省时间周期
- 组装完成后,基于所测二代和三代数据进行结构变异检测,提高数据利用率。
2020.9.12丨变异检测的原理应用方向相关推荐
- 突变检测软件 测试数据库,合作文章|变异检测软件技能大PK,谁才是Battle King?...
DNA变异是个体间遗传变异的重要来源之一.第二代测序技术(NGS)和第三代测序技术(TGS)都在遗传变异研究中大放异彩.许多变异检测工具可以用来解析二代或三代数据,但是目前没有软件能兼顾灵敏性和特异性 ...
- [原]基因组变异检测概述
考虑到cnblog不适合基因组领域这种类型的文章,进过多番折腾,终于用jekyll+github搭了个独立博客www.huangshujia.me,现在博客已经搬迁! 首先,在开始之前我觉得有必要稍微 ...
- 基因组变异检测概述(SNP、InDel、SV)
首先,在开始之前我觉得有必要稍微科普缓冲一下,以便不使得不熟悉生物信息或基因组的客官们疑惑.O(∩_∩)O! 1.基因组:每个人都有一个基因组,这里的"基因组"并不只是" ...
- 基因组大数据变异检测算法的并行优化
基因组大数据变异检测算法的并行优化 基因组大数据变异检测算法的并行优化 崔英博1, 黄春1, 唐滔1, 杨灿群1, 廖湘科1, 彭绍亮2,3 1 国防科技大学计算机学院,湖南 长沙 410073 2 ...
- CRISPR/Cas最新研究进展(2020年12月快报)
即将过去的12月份,有哪些重大的CRISPR/Cas研究或发现呢?小编梳理了一下这个月报道的CRISPR/Cas研究方面的新闻,供大家阅读. 1.开发出CiBER-seq新技术,可同时分析细胞中的多达 ...
- 大盘点 | 2020年5篇目标检测算法最佳综述
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨Cynthia Yawain 编辑丨极市平台 本文为极市平台原创整理,如需转载,请联系极市小编. ...
- 信安教程第二版-第12章网络安全审计技术原理与应用
第12章 网络安全审计技术原理与应用 12.1 网络安全审计概述 227 12.1.1 网络安全审计概念 227 12.1.2 网络安全审计相关标准 227 12.1.3 网络安全审计相关法规政策 2 ...
- 基因-高通量测序-变异检测
基因变异检测 本周的任务是弄清楚基因检测是什么,本来以为挺简单的,后来发现自己基本的染色体都忘干净了. 基因变异检测看名字就知道是针对基因的,但是基因是什么呢?感觉基因像是一种抽象的概念,那么 ...
- ECCV 2020 论文大盘点-目标检测篇
本文盘点ECCV 2020 与目标检测相关的研究,包含目标检测新范式.密集目标检测.点云目标检测.少样本目标检测.水下目标检测.域适应目标检测.弱监督目标检测.训练策略等,总计 41 篇,其中 2 篇 ...
最新文章
- 查找Windows文件来历的好方法
- 为什么SQL正在击败NoSQL,这对未来的数据意味着什么
- 为什么有那么多人选择“人工智能”,真的有那么好吗?
- 解决java compiler level does not match the version of the inst
- 也谈压缩感知(compressive sensing)
- 6.4两种给定两个均不超过9的正整数k和n,要求编写程序求k+kk+kkk++…+kk…k (n个k,不是n个k乘积)之和
- docker hub上镜像手动下载_Docker 下载镜像
- YDOOK:VSC VisioStudio Code 设置 鼠标滚轮缩放字体大小 滚轮控制字体放大缩小
- Real-Time Rendering——18.5 Multiprocessing多处理
- 学校计算机考证要交费吗,大家好,请问技校考证要交几百元费用是否可以?
- 单片机学习笔记-基础知识
- 自然语言处理的词法分析、句法分析、语义分析
- python 006 __ 小斌文档 | 特殊字符的使用
- 帝国php漏洞,帝国cms远程代码执行漏洞-1
- 《Python数据分析与挖掘实战》第7章-聚类+绘制雷达图
- 【无标题】SEO优化
- 线程池 (通俗易懂)
- AGV自导航机器人执行的安全标准
- 记录关于利用txt文件划分训练集、测试集与验证集
- 10本好书读物推荐,职场管理者必读,建议收藏
热门文章
- 智慧养老解决方案:ZigBee技术在智慧养老中的作用-新导智能
- 智慧养老解决方案-智慧养老具体方案之一-新导智能
- NCL将Grib文件转换成nc文件 JRA55文件说明
- 医嘱共享与his系统和医保服务器,事半功倍!医院HIS系统下连带医嘱组合是如何工作的?...
- K12在线教育发展前景分析
- 2021年卫生技术副高考试成绩何时查询,2021年卫生资格考试成绩公布是什么时候?-中国卫生人才网...
- 用户注册填写手机号接收短信验证码怎么实现?
- 图片验证码自动识别,使用tess4j进行验证码自动识别(java实现)
- python语言高空坠球_”健身铁球高空坠落,遂宁女婴被砸身亡之谜?“
- ubuntu 耳机有电流声的解决办法