之前我写过一篇利用3D-DNA流程基于Hi-C提升基因组组装,那个时候我做的项目并不多,也没有遇到坑,直到最近我用3D-DNA流程进行基因组组装,发现结果出乎意料

Fig1

在上图中,蓝色框表示组装出来的scaffold,其余则是3D-DNA认为的debris,也就是边角料。谁能想到一个基因组有那么多的边角料呢?

经 @上海欧易生物-鲍志贵的提醒,我检查了genome.0.hic, 也就是初步组装的结果,发现结果好的惊人。

Fig2

谁能想到,越纠错结果越错呢?现在的问题是,既然错误已经存在了,那么应该如何处理呢?

最容易的解决方法就是设置 -r 0, 也就是不纠错,直接用genome.0.hic的结果开始拆分染色体,后续通juicebox(https://github.com/aidenlab/Juicebox/wiki)手动处理潜在组装错误。这其实并没有解决问题,而是躲避了问题。于是我去阅读了3D-DNA 发表在science上文章的附录,和run-asm-pipeline.sh的源代码,功夫不负有心人,终于被我定位到了问题的关键所在。

run-asm-pipeline.sh的651-750是3D-DNA流程的核心算法: misjoin-correction. 其中下面的代码是用来找到潜在的mis-assembly, 用于后续纠错

bash ${pipeline}/edit/run-mismatch-detector.sh -p ${parallel} -c ${editor_saturation_centile} -w ${editor_coarse_resolution} -d ${editor_coarse_region} -k ${editor_coarse_stringency} -n ${editor_fine_resolution} ${genomeid}.${ROUND}.hic
bash ${pipeline}/edit/run-coverage-analyzer.sh -w ${editor_coarse_resolution} -t ${editor_repeat_coverage} ${genomeid}.${ROUND}.hic

输出的 mismatch_narrow.at.step.${ROUND}.bedrepeats_wide.at.step.${ROUND}.bed 后续会被3D-DNA用于编辑原始的contig/scaffold。我分别统计了这两者的数量和长度, 其中mismatch长度为1,也就是没有发现组装错误,而重复区域则非常可怕

awk '{print $3-$2}' repeats_wide.at.step.0.bed | sort -k1,1nr | head
13775000
11450000
9200000
7075000
5325000
4350000
4225000
4225000
4175000
4100000

最长的重复区域居然长达13 Mb, 想想都不太可能啊(我统计了另一组数据,长度最长为50K)。显然这就是问题的所在,接下来就该解决问题了。

既然是重复区域出了问题,我翻阅了参数列表,找到了一个与其相关的参数,即--editor-repeat-coverage, 默认是2,我们可以运行run-coverage-analyzer.sh, 测试不同参数下(-t)下的重复序列长度情况,从而确定一个比较合适的大小。

bash /opt/biosoft/3d-dna/edit/run-coverage-analyzer.sh -w 25000 -t 3 genome.0.hic

此外,我还查阅了在Google Group上相关的讨论,发现这个问题是由于文库导致(Most likely it is due to coverage biases in your experiment. Load the tracks associated with repeats to help highlight. You can increase --editor-repeat-coverage to help mitigate.)

Highly likely repeats is main problem of this assembly. Significant part of Hi-C reads are filtered as below MAPQ but checking reads shows non-unique mapping at least one side of such reads, and it can be result of presence large fraction of repeats. As well as remapping reads to selected after JBAT chromosome-size scaffolds shows coverage anomalies looks like crosses with much more higher contact frequency than other genome, probably corresponding to condensed repeats. And can i ask your advise how should we deal with such repeats mark with repeatFinder and hardmask before reads mapping or something else? And we try to increase editor-repeat-coverage parameter.

参考资料:

  • https://groups.google.com/g/3d-genomics/c/f6P_gJC-jMo/m/ADY8GBH2AAAJ

http://www.taodudu.cc/news/show-3055382.html

相关文章:

  • ppt_第十章_DNA非卷积视觉技术
  • POJ 3691 AcWing 1053 修复DNA
  • Leetcode187-Repeated DNA Sequences
  • DNA编码与肽计算
  • DNA序列 UVa1368
  • DNA序列对齐问题
  • DNA排序算法--代码
  • DNA排序
  • DNA旋转特效
  • c语言字符串dna,DNA (C语言代码)
  • dna计算机原理和基本特征,DNA计算机原理(Ⅲ)
  • DNA 序列问题
  • DDR电流大小
  • matlab中电流表在哪儿,电流表的符号
  • 电流采样电路
  • 基于matlab的电流滞环控制,电流滞环控制matlab
  • 机器人电焊电流电压怎么调_电焊电流的调节技巧
  • 三极管电流放大原理
  • foc学习笔记3——电流环
  • 电流镜
  • FOC 电流采样为什么不准?你忽略了这个细节
  • 电流源电路
  • 电流
  • 添加51la统计代码步骤
  • WordPress正确使用51la统计来统计网站访问数据[WP教程]
  • 一次营销页面的事件统计-51la操作,网站统计
  • 对比了百度统计和CNZZ后,我最终选择了51LA
  • 产品介绍 | 51LA短链分发平台
  • 51la和百度都有微信版统计,那个更好用些呢?
  • 51.la站长统计

使用3D-DNA流程,结果不升反降怎么破?相关推荐

  1. 你必须知道的3D建模流程,最后一步是关键

    构建3D模型主要可以通过三维制作软件.扫描仪器生成.平面图像渲染三种方式进行,一个3D模型文件,主要包括的就是"网格(材质.动画)"和"贴图"两个部分. 传统3 ...

  2. ZAM 3D 制作简单的3D字幕 流程(二)

    ZAM 3D 制作简单的3D字幕 流程(二) 原文:ZAM 3D 制作简单的3D字幕 流程(二) 原地址:http://www.cnblogs.com/yk250/p/5663907.html 文中表 ...

  3. 游戏世界里面的武器道具辣么帅,你不想做一把属于自己的战斗武器吗?次世代3D武器制作流程

    游戏世界里面的武器道具辣么帅,你不想做一把属于自己的战斗武器吗?次世代3D武器制作流程 游戏世界里面的武器道具辣么帅,你不想做一把属于自己的战斗武器吗?次世代3D武器制作流程

  4. 2022年考研「怪」象:国家分数线全面上升,部分院校的计算机类复试线却不增反降?...

    今年,你上岸了吗? 作者 | 郑宇宏    编辑 | 陈彩娴 来源 | AI科技评论 我们知道,不久前2022年研考国家分数线公布,各学科全面上涨,引来众多考生的一片哀嚎.在微博上,"#考研 ...

  5. 荣耀老熊科普荣耀9X升降全面屏 一升一降皆是技术的沉淀

    作为全面屏探索者,荣耀在手机设计上展现出的高超技艺确实是令不少用户与友商们叹为观止的.荣耀是所有手机厂商中唯一一个集齐了三种全面屏探索方式.荣耀Magic2魔法全视屏.荣耀V20魅眼全视屏以及荣耀9X ...

  6. 双十一买联想拯救者刃7000P血亏,三个月不到反降了500RMB

    双十一买了台联想拯救者,还是预售,交了定金的. 结果不到三个月,反降500RMB!血亏! 配置一条一条对过去,完全一样. 找天猫管家,说是保价7天. 找联想客服,说是保价15天. TMD的垃圾XXXX ...

  7. 山西汾酒亮眼业绩背后:9大流通股东集体增持,研发费用不增反降

    ■文 | 尚义 山西汾酒前三季度取得了非常不错的成绩,在大力拓展市场和大幅增加营业成本的背景之下,公司产品销售出现了大幅增加,这也带动了公司营业收入.净利润均出现大幅度增长,然而,在完美的业绩背后,山 ...

  8. 信息通信研究院徐志发:区块链金融的“一升一降三创新” | 数博会2017

    中国信息通信研究院产业与规划研究所副所长 徐志发 雷锋网(公众号:雷锋网)报道,5月27日,2017全球区块链技术发展论坛在贵阳举办.中国信息通信研究院产业与规研究所副所长徐志发先生出席并发表了区块链 ...

  9. 卷积神经网络精确率不增反降_姿态跟踪论文研读--(1)利用卷积神经网络学习人体姿态估计特征...

    摘要 本文介绍了一种新的结构,就是利用多层卷积神经网络结构和模块化学习技术来习得低维特征和高维弱空间模型,以此来进行人体姿态估计.无约束的人体姿态估计是计算机视觉领域中最困难,最棘手的问题之一,而我们 ...

最新文章

  1. app获取个人信息是否合法_APP隐私合规介绍和实施方案
  2. 记录今天学习SQL遇到的一个小问题
  3. airflow sql_alchemy_conn mysql_搭建AirFlow—— 一段波折后的总结
  4. 没有这项技术,《赛博朋克2077》就算残废?
  5. 常用的rpm和yum的一些命令
  6. centos7 yum 安装lnmp
  7. 网络监控系统中如何选择工业交换机?
  8. python xlrd使用_python处理Excel xlrd的简单使用
  9. python个人微信支付接口_Python实现微信小程序支付功能
  10. mysql text 查询速度_数据库学习之让索引加快查询速度(四)
  11. c++ Static理解
  12. java代码post接口请求 用 hutool工具类
  13. Unity的Scrollbar
  14. verilog将像素数据写入txt_【测试工具】测试数据生成工具datafaker
  15. exec还原oracle,详解通过Backup Exec来实施Oracle灾难恢复
  16. web前端之CSS——web字体详解
  17. 32 位和 64 位版本的 Office 2010 之间的兼容性
  18. SAP Pa studay,Material master
  19. Http状态码406(Not Acceptable) 错误问题解决方法
  20. Unity新创建的物体是灰色的,而且无法通过白色材质球给予纯白色(结果还是灰色)

热门文章

  1. C++打卡1-夫妇和驴
  2. CodeVS 1697-⑨要写信
  3. Unity 3D中OnTriggerEnter实现靠近物体就显示 远离就消失
  4. 移动学习 AndroidStudio内存优化分析—hprof文件分析
  5. 每股收益再创新高,增长速度趋于减缓:上市公司半年报业绩波澜不惊
  6. 工程师评测 | RK3568开发板上手测试
  7. 解决 Unexpected token u in JSON at position 0
  8. all CUDA-capable devices are busy or unavailable in function ‘setDevice‘
  9. 省市区三级行政区代码(包含港澳台)sql2
  10. 项目经理如何写年终总结,范文+PPT模板