人类基因组包括22条常染色体(1-22),2条性染色体(X,Y)和线粒体DNA(mtDNA)。高通量测序的reads比对至参考基因组是后续数据分析的基础。因此,参考基因组的质量是至关重要的。目前,广泛使用的版本是GRCH37和GRCH38。2009年,the Genome Reference Consortium (GRC)发布了第19版人类基因组GRCH37,也常被称为hg19。GRCH37被广泛应用于数据分析。2013年,GRC发布了GRCH38。但由于注释工具、数据库的不健全及升级基因组工作繁杂,时至今日,GRCH37仍被相当程度地使用。

根据GRC的官方文件,GRCH38是最精确的人类基因组。GRCH38基于金标准Sanger测序组装,读长约为1000bp,精确度是高通量测序的10倍。与GRCH37相比,GRCH38替换了8000个等位基因位点,校正了数个组装错误的基因组区域,补全了gap,添加了着丝粒序列,在178个区域组装了261条alternate loci,丰富了基因组的多样性

已发表的论文认为GRCH38是GRCH37的重大升级,可提供更精确的生物信息学和基因组学分析。我们设计了实验量化基于GRCH38和GRCH37的数据分析差异。

结果

不算线粒体DNA,GRCH37 和GRCH38分别有3095677412和3088269832个核苷酸。最常用的线粒体基因组是1999年剑桥发布的rCRS,因此两者线粒体基因组是一样的。在基因组fasta文件中,’N’表示gap或者未注释区域,GRCH37共有234350281个‘N’,而GRCH38中有150630719个,减少了83719562个,占比35.7%。从表1中看出,每条染色体上的‘N’数量都有减少。有文献研究表明GC含量影响Illumina测序深度及测序均一性,这与后续的CNV检测密切相关。GC位点的总数从GRCH37的1170371008增加到GRCH38的1200551672,共计增加了30180664个核苷酸。

外显子可以编码氨基酸,是人类基因组最重要的组成部分。从Ensembl (GRCh37 v37.75, GRCh38 v38.82)下载最新的Gene Feature Format (GTF)文件统计外显子区域。外显子区域由GRCH37的75231228个核苷酸增加到GRCH38的95505476个,约有26.9%的增幅。从全基因组水平看,外显子占比由2.43%增至3.09%。外显子区域扩大的主要原因有3个:i.在GRCH38中,外显子的总数从327058个增加到457748个;ii.每个基因的外显子数从13个增加到19个;iii.每个外显子核苷酸的中位数从140增加到146。

我们分别用GRCH38和GRCH37分析了30个WES样本,然后从染色体统计、比对、SNV、indel、CNV和SV等多个维度比较了分析结果差异。

比对是高通量测序数据分析中非常重要的一步。总有部分reads无法比对至参考基因组,有论文指出改进基因组可以提高比对率。从图2看出,30个WES样本的比对率都得到了提高,提高均值为0.0017%。外显子区域的比对率明显提高,约为3.22%,主要原因是外显子区域扩大,相应地内含子的比对率降低了2.70%。

使用GRCH37时,检测到4656461个SNV,GRCH38时只有4617859个。这表明,改进后的GRCH38产生更少的假阳性SNVs。非同义变异是我们关注的重点,虽SNV总数变少,但GRCH38比GRCH37多了22622个非同义变异,主要原因是外显子区域增加。使用LiftOver 转化参考基因基因组坐标后显示,两种基因组中93%SNV和88%indel是一致的,且质量值和覆盖度并无差异。

GRCH37检测到3702个CNV,GRCH38检测到3732个。其中,88.4%CNV是一致的。两种基因组都检测到了更多的重复片段。使用GRCH37,我们检测到了371558个结构变异,GRCH38检测到了271825个结构变异。83%的结构变异同时在两个基因组中检测到。结构变异检测难度大,且有较高的假阳性率。分析结果显示,GRCH38中结构变异数少得多(少26.8%)。虽然我们没有金标准来计算真阳性率和真阴性率,但变异数量减少预示着假阳性率降低。

结论

重组人类基因组是一项费时又费力的任务,截止2018,人类基因组已经发布了20个版本。GRCH38中一个重要的技术进步是葡萄胎的应用。葡萄胎没有从卵子获得染色体,精子的染色体发生了复制,因此没有等位基因变异,可用于获得基因组上高度同源区域的reads。GRCH38并不是完美的人类基因组,其主要缺陷在着丝粒的区域。该区域包括数百万个碱基,序列高度重复。GRCH37着丝粒区域以gap形式存在,GRCH38建立模型推测的,虽不准确,但还是向前迈进了一大步。

人类基因组仅代表在基因组位点上的1个等位基因位点。参考等位基因是根据一个小群体的基因组确定的,可能并不是主要等位基因(人群频率>50%)。在某些情况下,检测的目标人种没有参考等位基因存在。目前的检测软件,如GATK,Platypus都允许一个位置存在多种等位基因。

基于GRCH37和GRCH38的WES样本数据分析显示,我们明确了GRCH38可以得到更准确的分析结果。GRCH38具有更好的比对效果,对后续CNV及结构变异的检测都具有正面影响。综上所述,GRCH38是人类基因组从GRCH37迈出的一大步,基因组准确度的提升对于高通量测序数据分析具有明显的积极意义

如何判断基因组的重复区域_人类参考基因组GRCh37 VS GRCh38相关推荐

  1. 如何判断基因组的重复区域_利用宏基因组数据组装巨病毒基因组的优势与限制...

    科学实验往往来自人们的奇思妙想,今天给大家分享一个有趣的研究,作者将已知巨病毒颗粒掺入到废水样品中,再尝试通过宏基因组从数据中恢复巨病毒基因组,从而判断此方式对于巨病毒研究的可靠性和有效性.测试结果到 ...

  2. 关于人类参考基因组及注释文件,一篇就够了

    最近随着课题进展拿到二代测序数据,想要在学校通过VPN连接之前工作单位时的服务器传输数据进行生信分析,传输成功的可能性几乎为零,借着这个原由,也下了决心开始启用现在实验室给我分配的的服务器账号,意味着 ...

  3. linux基因组文件,科学网-NGS基础 - 参考基因组和基因注释文件-陈同的博文

    NGS基础 - 参考基因组和基因注释文件 同步滚动:关 参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参 ...

  4. 玩转基因组浏览器之自定义IGV的参考基因组

    欢迎关注"生信修炼手册"! IGV软件内置了很多的参考基因组,全部放在亚马逊的云服务器上,完整的参考基因组列表见如下链接 http://software.broadinstitut ...

  5. 如何判断基因组的重复区域_Nat Comm. | 15万人类基因组中多核苷酸变异(MNV)的起源及功能研究...

    前沿生物大数据分析(93) 撰文:存在一棵树 IF=11.878 推荐度:⭐⭐⭐⭐⭐ 亮点:通过基因组聚合数据库(gnomAD)对125,748个外显子组数据和15,708个全基因组测序数据的MNV变 ...

  6. BWA MEM比对人类参考基因组详解

    在获得下机数据后,做的第一步是质控.质控工具有很多,这里就不做一一介绍了.这里讲如何使用BWA MEM将质控合格的数据比对到参考基因组上. BWA是一款基于BWT的快速比对工具,其由三个算法组成.这三 ...

  7. 人类完整基因组测序意味着什么

    2022年三月底,<科学>杂志连发6篇封面文章,宣布人类完整基因组测序计划正式完成.这项跨越3年的研究成果,填补了20年前测序结果留下的空白,是人类基因组研究的一个重大里程碑.这次的完整测 ...

  8. NGS基础 - 参考基因组和基因注释文件

    参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参考基因组和参考转录组信息. Ensembl(http:/ ...

  9. linux基因组文件,转录组入门(四):了解参考基因组及基因注释

    转录组入门(4):了解参考基因组及基因注释 任务列表 1.在UCSC下载hg19参考基因组: 2.从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的结构,比如TP53,KRAS, ...

最新文章

  1. php 代码规范 工具,PHP工具篇:PHPStorm IDE使用CodeSniffer代码规范化管理
  2. 写文件函数 Linux C fwrite,C文件读写函数介绍(转)
  3. 在windows下使用vim
  4. 安装仅限于用于sharepoint_酒泉汗蒸房设计施工厂家,家庭汗蒸房安装厂家
  5. addr2line探秘(没有core怎么办)
  6. Caffe应用篇----文件格式转换
  7. PostgreSQL增强版命令行客户端(pgcli)
  8. js中 json详解
  9. html:(8):span标签和q标签
  10. pcdmis怎么导出模型_从代数几何到导出代数几何:复形的几何
  11. 学习编程技术常见的疑问,你敢说你没有过一个吗?信你个鬼!
  12. matlab表达一次函数,[转载]MATLAB数据拟合例子(一次函数、指数函数、双曲线)...
  13. python 基础之文件
  14. 今日恐慌与贪婪指数为83 贪婪程度大幅上升
  15. WAP网站制作(WAP网站建设)全攻略教程一
  16. 关于举办“2022年(第15届)中国大学生计算机设计大赛”通知
  17. 【第007问 Unity中如何进行UV动画?】
  18. python文件查重_海量文件查重SimHash和Minhash
  19. 「HNOI 2009」图的同构记数
  20. 新华社-中国移动联手打造盘古搜索 2月22日上线

热门文章

  1. 使用Keil语言的嵌入式C编程教程(下)
  2. Laravel7使用Auth进行用户认证
  3. SimpleDateFormat 日期,时间格式转化
  4. Android Activity从右边到左边跳转(overridePendingTransition)
  5. CSS单位分析及CSS颜色表示法、颜色表(调色板)
  6. MyBatis-Spring(四)--MapperFactoryBean实现增删改查
  7. bitset类型, 标准库类型
  8. short s1 = 1; s1 = s1 + 1;有错而short s1 = 1; s1 += 1正确
  9. 阅读10、11、12章
  10. 判断两直线段是否相交