1. 什么是单倍型?

image

同源染色体:同源染色体,一个来自母本,一个来自于父本。

单倍型:单倍体基因型的简称。遗传学上指在单条染色体上一系列遗传变异位点的组合。

2. 单倍型组装的意义?

目前,大多数二倍体基因组组装都忽略了同源染色体之间的差异,将基因组组装成一个假的单倍体序列,这是二倍体类型的组装的人为共识。这种人为的共识可能导致基因注释的不精确生物学解释的错误

为了深入研究的需要,更多的物种需要将来自父母的遗传信息都获得,因此参考基因组就需要获得两个单倍体基因组,也就是单倍型基因组

目前单倍型技术主要应用领域包括:

  • 在医学上探索致病机理,挖掘致病基因,寻找疾病治疗新方法;
  • 在群体遗传学上分析等位基因间差异,追踪个体亲缘关系,了解生物迁徙模式和进化历史;
  • 在农业上发掘优异等位基因变异,探索杂种优势理论等。

3. 如何进行单倍型组装?

早期已经提出了几种算法来生成单倍型解析的程序集,也称为分阶段程序集。FALCON-Unzip,Supernova等使用相对短距离的序列数据进行定相,但只能解析高达9Mb的单倍型人类样品。这些方法无法逐步完成着丝粒或长重复。扩展FALCON-UnzipFALCON-Phase使用Hi-C连接相控序列模块,可以生成更长的单倍型,但无法实现染色体长的定相。

近年出现了几种有效的单倍型组装方法。

方法1:Trio-binning (Illumina+Pacbio)

由美国国家人类基因组研究所、Pacific Biosciences公司及阿德莱德大学等单位的研究人员开发,发表在2018年10月22日的Nature Biotechnology杂志上。

Trio binning首先使用来自两个亲本基因组的高精度短读长数据将子代的长读长序列划分为单倍型特异性的集合,然后每个单倍型独立组装,形成一个完整的二倍体重建。

组装方法

image

  • 1)测序:两个亲本分别二代Illumina测序,对F1代进行三代PacBio测序。
  • 2)分割三代数据:使用两个亲本的二代数据获取单倍型特异性k-mers。利用特异性k-mer将三代数据分割
  • 3)利用分割的数据分别组装

优缺点

Trio binning是一种简便、准确、高效的二倍体参考基因组组装方法。在拟南芥、人类及牛单倍型组装中表现良好,但Trio binning对样本具有很高的要求,必须能够获取双亲的二代数据。

在进行数据分割时一部分杂合子reads不能明确地划分为亲本单倍型:如果双亲在某个位点上都是杂合,那么这个位点无法给reads提供有效的kmer信息,并且不能被唯一地分配给一个亲本单倍型;同样如果父本在一个位点是杂合子,而母本是纯合的,从母本单倍型来看也不能分割。在标准的trio-binning中,不能被区分的杂合reads在两个亲本数据集中都会使用。因此,这两个等位基因可能存在于一个单倍型组合中,并引入错误。另外还可能存在将reads错误划分到其中一个亲本的情况。

方法2:DipAsm(HiFi+Hi-C)

由李恒、Evan E. Eichler、George M. Church等人联合开发的新的基因组组装方法,发表在2020年12月7日的Nat Biotechnol 杂志上。

DipAsm使用HiFi数据和Hi-C数据,可以在1天之内生成染色体规模的分相组装,具有98-99%的准确性。

组装方法

image

  • 1)Peregrine:Pacbio HiFi reads 组装成不分相位的congtig;
  • 2)HiRise / 3D-DNA:结合Hi-C数据生成不分相位的scaffold;
  • 3)DeepVariant :Hi-C reads mapping到scaffold上call 杂合snp;
  • 4)WhatsHap和HapCUT2:处理HiFi reads和Hi-C reads杂合snp;
  • 5)WhatsHap:根据相位分割reads;
  • 6)Peregrine:分割的reads分别组装。

优缺点

DipAsm将促进高质量的精准医学以及个体单倍型变异和种群多样性的研究,但DipAsm使用SNP信息进行定相,这对于长度长数据准确性要求高,也就是需要使用 PacBio HiFi,否则将增加SNP的错误率,部分涉及长SV的高度杂合区域会出现错误。

方法3:strand seq + long reads

由德国杜塞尔多夫海因里希·海涅大学Tobias Marschall和美国华盛顿大学Evan E. Eichler合作,使用单细胞链测序和长读取实现了亲本数据非依赖的全阶段人基因组组装,2020年12月7日发表在Nature Biotechnology上。

组装方法:

Strand-seq具有三个重要功能:

  • 1)它可以按染色体对reads或contig进行排序;
  • 2)它可以定序和定向contig;
  • 3)它提供了一个染色体范围内的相位信号,而与物理距离无关。

image

步骤:

    1. 使用长reads组装成不分相位的contig;
    1. Strand-seq比对到congtig上,contig进行排序和连接,形成染色体;
    1. 长reads mapping到 染色体上call SNVs;
    1. WhatsHap:利用SNVs 分割长reads;
    1. wtdbg2 , Flye, Canu or Peregrine2:分割的reads分别组装。

优缺点:

组装准确(质量值> 40)且高度连续(contig N50> 23 Mbp)、转换错误率低(0.17%)、并可提供了全相单核苷酸变体、插入缺失结构变体等。

Strand-seq是一种单细胞技术,它不需要亲本或配子,这种技术利用基因图谱技术对染色体、单倍型和scaffold的长序列进行聚类; 然而,生成Strand-seq数据的困难限制了它在少数模型物种中的应用。

单倍型基因组组装方法相关推荐

  1. Nat Biotechnol | 大神李恒团队开发不依赖于亲本的单倍型基因组组装工具hifiasm

    对基因组相关研究而言,单倍型基因组组装是研究结构,进化与变异的最理想方式.随着长读长测序技术的进步,高质量单倍型组装已经成为了可能.然而,大部分组装算法的结果仍是混合多个单倍型的压缩序列,而不是完整的 ...

  2. 叶绿体基因组组装方法

    叶绿体基因组组装 getorganelle组装叶绿体基因组 安装 conda install -c bioconda getorganelle 安装叶绿体基因组databases get_organe ...

  3. JGG|李素华/张兴坦/李超团队在染色体水平组装马铃薯甲虫两套单倍型基因组...

    点击蓝字,关注我们 作为最重要的非谷物粮食作物,马铃薯常年面临环境中各种生物胁迫,马铃薯甲虫(Leptinotarsa decemlineata Say)就是其中之一.马铃薯甲虫起源于美国和墨西哥,属 ...

  4. Nature方法 | 三代长读长宏基因组组装软件metaFlye

                    简介                  标题:metaFlye:基于重复图的可拓展长序列宏基因组序列组装 metaFlye: scalable long-read me ...

  5. 使用hifiasm组装hifi基因组的方法介绍

    目前用于Pacbio HIFI测序数据的组装软件主流上有:FALCON.Hifiasm.Hicanu.NextDenovo. Hifiasm的使用 介绍 Hifiasm是用于PacBio Hifi读取 ...

  6. 宏基因组组装质量评估新方法-MAGISTA

    谷禾健康 尽管地球上微生物类群的繁多,但只有一小部分得到了培养和有效命名.因为大多数菌无法在非常特定的条件下培养分离鉴定. 在过去十年中,宏基因组研究的重要性已经凸显,因为它能够评估细菌基因库并发现当 ...

  7. 基因组组装的那些困扰,用单倍体基因组一一破解!

    动植物基因组非常复杂,基因组大小.杂合度.GC含量.倍性等都会影响着基因组组装的难度和结果.特别是目前动植物基因组大多采用二倍体或多倍体材料直接进行测序组装,对于复杂基因组如高杂合.大基因组等,组装的 ...

  8. ALLHIC使用 | HiC辅助基因组组装(三)

    安装 git clone https://github.com/tangerzhang/ALLHiC cd ALLHiC chmod +x bin/* chmod +x scripts/* expor ...

  9. 使用ALLHiC基于HiC数据辅助基因组组装

    使用ALLHiC基于HiC数据辅助基因组组装 基因组组装大致可以分为三步(1)根据序列之间的重叠情况构建出contig,(2)基于二代的mate pair文库或光学图谱将contig搭建成scaffo ...

最新文章

  1. 深度学习发展简要笔记
  2. get 和post 方式请求数据
  3. 入门Leaflet之小Demo
  4. Vscode配置C语言问题
  5. GJM: Unity3D基于Socket通讯例子 [转载]
  6. 错误记录(八)could not initialize proxy - no Session
  7. python学习基础语法_python学习-基础语法
  8. 乐视android系统耗电量大,乐视手机突然充电慢耗电快,怎么解决?
  9. js map遍历 修改对象里面的值_前端面试之你必须要懂的原生JS
  10. 百度图片保存显示服务器错误,百度UEditor编辑器本地上传正常在服务器中上传图片失败的解决办法...
  11. 镜像站(整理各个镜像站资源)
  12. 使用Blender导出多个动画的GLTF模型
  13. 小程序开发API之监听加速计wx.startAccelerometer
  14. URL Scheme 简介
  15. 搜索引擎常用技巧——英文资料篇
  16. 山东莱芜市民在省内91家医院就医可即时结算
  17. matlab验证dtft移位性质,matlab 实验四 信号的谱分析.doc
  18. 如何从TI官方网站导入例程
  19. 【python】将bytes转换为float* 每四字节转化为float
  20. 个人微信号发送zabbix告警信息

热门文章

  1. Entering emergency mode. Exit the shell to continue.。。。
  2. Java poi XWPFDocument 操作2007Word,实现参数替换、新增 插入 替换 表格数据、创建饼状图、柱形图、折线图
  3. 打工人的「周游世界」,AI算法帮你实现,泪目!
  4. 电动汽车充电站的最优选址matlab程序
  5. VC遍历INI配置文件
  6. Reliable, Scalable, and Maintainable Applications 高可靠、易扩展、易运维应用
  7. 动手学ocr·十讲--学习笔记一
  8. 关于汉字转拼音的Pinyin4j工具使用
  9. linux shell -常用脚本
  10. 第八届蓝桥杯B组国赛总结