Masked, soft-masked 和 unmasked
Ensembl 参考基因组有三大类,masked, soft-masked and unmasked。一般而言,比对的时候推荐使用unmasked 参考基因组。Masking用于检测和隐藏散布的重复序列和低复杂度的DNA区域,以便可以使用比对工具对其进行正确处理。(Masking 这个词不太好翻译,意思见下面引用原文)

“Masking is used to detect and conceal interspersed repeats and low complexity DNA regions so that they could be processed properly by alignment tools.”

Masked genome
Masked基因组也分两类,Masked, soft-masked。

Masked 基因组,也叫 hard-masked DNA sequences,重复和低复杂基因组区域被识别出来并用许多的‘N’代替。使用masked 基因组可能会造成错误的read mapping和变异识别 (variant calls)。

我们不建议你使用masked genome,因为它缺失了一些信息(如在比对结束后,有些unique序列并非真正的unique序列),无法保证100%的准确性和敏感性。此外,它可能会提高了falsely mapped reads的数量。

soft-masked genome
soft masked genomes 中的重复和低复杂基因组区域则是用小写字母替换了原有的大写字母。

soft-masked genome包含了用小写字母标记的重复序列,因此使用soft-masked genome可提高比对质量,且不会损害敏感性。但是应该注意,大多数比对工具都没有考虑到soft-masked区域,例如BWA,tophat,bowtie2等工具在比对时始终使用所有碱基,无论它们是否为小写核苷酸。这就是为什么与unmasked genome相比,使用soft-masked genome并没有实际的好处。有时候你也可以看到repeat-masked genome,这是用特别的工具如RepeatMasker, 进行masking得到的。RepeatMasker会遍历DNA序列,寻找重复序列和低复杂度区域。默认参数的情况下,会用‘N’替代。

unmasked genome
建议使用unmasked genome,如果你不想丢失信息。如果你想过滤数据,最好是在比对后进行。

例如:WES分析,我们建议使用最新的unmasked参考基因组。

一句话总结:用unmasked genome就可以了,使用最新版本的基因组时,需要看看相应的注释文件是否也已经更新。

基因组Masked作用相关推荐

  1. 易基因|作物育种:DNA甲基化在大豆优良品种培育中的作用研究成果

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 多项研究表明,DNA甲基化对植物的育种.生长发育.疾病抗性等方面起到了重要的调控作用.近年来,DNA甲基化在植物育种领域的研究进展极为迅 ...

  2. 科普长文揭秘生命为何会具有主观能动性

    来源:混沌巡洋舰 动物的免疫系统依赖于被称为巨噬细胞的白细胞吞噬并吞噬入侵者.这些细胞有着坚定的决心和热情: 在显微镜下,你可以看到一个像球状的巨噬细胞在玻璃片上追逐一个细菌,它的猎物试图通过红细胞的 ...

  3. ded汉语意思_DED是什么意思

    1. Based on the previous research on the stress and temperature characteristics of embed ded piezoel ...

  4. 一文读懂:十大DNA甲基化研究核心问题

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. DNA甲基化是最早被发现.也是研究最深入的表观遗传调控机制之一,近年来关于DNA甲基化的研究成果屡屡见刊.小编翻阅各类文献,为大家总结了 ...

  5. 中医科学院院士团队解析丹参纯合基因组和新基因簇在丹参酮合成中的作用

    丹参始载于<神农本草经>,为丹参(Savia miltiorrhiza)的干燥根及根茎,药用历史悠久,具有祛癖止痛.活血通经.凉血消痈的功效,目前国内销售前十的中成药中有七种以丹参作为主要 ...

  6. DAP-seq技术鉴定全基因组水平上的ZjVND7靶基因,揭示酸枣全基因组复制在调节木质部导管分化和耐旱性中的作用

    全基因组复制对生物体的影响是多方面的.全基因组加倍后,基因剂量效应.修饰的互作调控.快速遗传和表观遗传的修饰和变化,都会对基因组产生强烈影响,进而影响基因表达,最终导致形态.生理和适应性等性状方面的差 ...

  7. 易基因:全基因组DNA甲基化分析揭示DNMT1在斑马鱼模型听觉系统发育中的作用 | 胚胎发育

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 听力障碍通常与内耳发育不全或损伤有关,是影响生活质量的严重健康问题.因此研究听觉器官发生过程中的关键基因对于探索听力损伤的潜在策略至关重 ...

  8. 宏基因组应用_宏基因组及宏转录组测序揭示极端环境微生物的生态学作用

    中山大学与千年基因合作应用宏基因组及宏转录组测序对极端环境酸性矿山废水(Acid mine drainage, AMD)中的微生物群落进行研究,相关成果于11月7日发表于The ISME Journa ...

  9. 基因组注释1. 重复序列repeatmasker, trf

    本文转自"美格基因",已获授权 基因组注释(Genome annotation)是利用生物信息学方法和工具,对基因组所有基因和其他结构进行高通量注释. 基因组注释主要包括:基因组组 ...

  10. 【翻译】使用EGSEA进行简单有效的基因组测试

    目录 1. 摘要 2. 介绍 3. 小鼠乳腺的基因表达谱 3.1 用EGSEA分析RNA-seq数据 3.1.1 RNA-seq数据的读取,预处理和标准化 3.1.2 基因集测试 3.1.2.1 探索 ...

最新文章

  1. SAP零售业解决方案
  2. IBM GSA Senior DBA招聘
  3. 北京语言大学计算机调剂,北京语言大学2019考研调剂通知
  4. Win7旗舰版系统开启硬盘ahci模式的方法
  5. js遍历数组foreach_JavaScript forEach –如何在JS中遍历数组
  6. Java 集合框架详解
  7. 为你的 Swift Packages 命名
  8. vue 下配置标题栏 title 图标及文字的具体步骤
  9. padding卷积的两种方式“SAME”和“VALID”
  10. jquery文档就绪的三种书写方式
  11. R语言-层次分析法--AHP
  12. 求mn的最大公约数和最小公倍数c语言,c语言如何求最大公约数和最小公倍数
  13. oracle设计案例,Oracle课程设计案例精编
  14. 皮亚诺的数概念起点和算术公理1-2告诉我们什么?—— 皮亚诺读后之四
  15. 微信公众号答题功能搭建
  16. 键盘里Insert作用
  17. zabbix_sender安装和使用
  18. 阿里云服务器数据迁移
  19. signature=1e204f749b869312ed61b58560de4b88,Walter F. Wright's Art and Substance in George Meredith
  20. 2020.7.18【算协集训】[第1次积分赛]

热门文章

  1. 【Halcon视觉】中心线提取
  2. [ROS] KDL + DH 参数 + 正解
  3. Jackson初次学习
  4. nginx反向代理 负载均衡
  5. 【百度云破解】Aria2GUI使用教程
  6. android境外支付
  7. 校园英语杂志校园英语杂志社校园英语编辑部2022年第15期目录
  8. SpringBoot整合JDBC的Druid数据源
  9. no javac in (/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin)
  10. OSChina 周三乱弹 —— 东京不热,北海道有点热