如果使用基于GRCH37的衍生参考基因组版本,建议使用hs37d5,这几个版本的基因组的主要区别介绍如下:

1)GRCH37,b37,hs37d5(b37+decoy)与hg19、GRCH38(hg38)的来源: hg19来自UCSC,GRCH37来自NCBI,b37来自千人基因组第一期,建议使用的是b37的升级版hs37d5,来源于千人基因组计划第二期,也是目前Broad正在使用的两个基于hg19的基因组版本之一(另一个版本无hs37d5,即decoy序列)。

2)GRCH37,b37和hs37d5的区别: 可以将hs37d5理解为b37的升级版,b37为GRCH37的升级版。b37在GRCH37的基础上进行命名和坐标系统规范,包括线粒体和GL开头的一些没有定位到基因组的序列;hs37d5在b37基础上增加了一条病毒序列(疱疹病毒),一条decoy序列(hs37d5,来自BAC或者质粒克隆等,没有具体的变异检测的作用,但是能增加比对率,以及提升正确的比对率),并且在Y染色体上把X,Y染色体的同源区mark 成了N。

3) hg 19与hs37d5的区别: hg19与hs37d5的坐标系统一样,1-X,Y染色体碱基信息一模一样。区别是(不考虑scaffold的区别):

  • 线粒体有差别(版本不一样,hs37d5用的是修正版的NC_012920,而hg19是老版的NC_001807),建议使用NC_012920(也有基于hg19更新线粒体信息的hg19基因组)。

    • UCSC参考基因组中有大小写碱基,小写表示在repeat区(Repeats from RepeatMasker and Tandem Repeats Finder)。
    • 染色体编号表示不同,hg19带有chr,hs37d5直接是染色体编号

4)hs37d5和GRCH38(hg38)的区别: GRCH38是GRCH37的升级版,总体组装的碱基数量,基因的坐标位置等许多信息的更新,具体区别可参考PPT

每次基因组版本的升级,比如从hg18到hg19,再到hg38,坐标系统已经不一样,所以分析过程中使用了某个基因组,去公共数据库查询频率,位置等信息时,都要对应到使用的参考基因组查询相关信息,才能保持信息的一致性。另外,如果需要,基因组坐标间也能通过LiftOver进行转换。

5)以下是hg19和GRCH37衍生版本之间差异及信息的说明网址,可供参考:https://wiki.dnanexus.com/Scientific-Notes/human-genome

人参考基因组不同版本区别 CRCH37 vs b37 vs hg19 vs hsd537 vs GRCH38相关推荐

  1. 构建index所需的参考基因组以及各种版本的注释文件

    文章目录 一.参考基因组 1. UCSC 2. ensemble 3. NCBI 4. gencode 二.基因组注释文件(GFF,GTF) 1. UCSC 2. ensemble 3. NCBI 4 ...

  2. 常用或特别的人类fasta参考基因组下载链接

    Fasta格式是一种基于文本用于表示核酸序列或多肽序列的格式,一般情况下可在大型的国际基因组网站的ftp链接下载到,文件后缀名多为".fasta".".fa". ...

  3. 关于人类参考基因组及注释文件,一篇就够了

    最近随着课题进展拿到二代测序数据,想要在学校通过VPN连接之前工作单位时的服务器传输数据进行生信分析,传输成功的可能性几乎为零,借着这个原由,也下了决心开始启用现在实验室给我分配的的服务器账号,意味着 ...

  4. NBT:牛瘤胃微生物组的参考基因组集

    文章目录 牛瘤胃微生物组的参考基因组集 热心肠日报 摘要 主要结果 图1. 来自牛瘤胃4,941个末培养和Hungate系列基因组的进化树 图2. 末培养基因组与Hungate和发表数据比较 图3. ...

  5. linux基因组文件,转录组入门(四):了解参考基因组及基因注释

    转录组入门(4):了解参考基因组及基因注释 任务列表 1.在UCSC下载hg19参考基因组: 2.从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的结构,比如TP53,KRAS, ...

  6. NGS数据分析实践:02. 参考基因组及注释库的下载

    NGS数据分析实践:02. 参考基因组及注释库的下载 1. 参考基因组数据 2. 已知的SNP和Indel变异数据 3. annovar注释所需数据库的下载 4. 其他数据库 系列文章: 二代测序方法 ...

  7. 如何判断基因组的重复区域_人类参考基因组GRCh37 VS GRCh38

    人类基因组包括22条常染色体(1-22),2条性染色体(X,Y)和线粒体DNA(mtDNA).高通量测序的reads比对至参考基因组是后续数据分析的基础.因此,参考基因组的质量是至关重要的.目前,广泛 ...

  8. Nature子刊:涵盖20多万个基因组的人体肠道微生物参考基因组集

    Nature子刊:涵盖20多万个人体肠道微生物基因组的参考基因组集 A unified catalog of 204,938 reference genomes from the human gut ...

  9. python3各版本区别-Python2 与Python3的版本区别实例分析

    本文实例讲述了Python2 与Python3的版本区别.分享给大家供大家参考,具体如下: 现在还有些开源模块还没有更新到python3 ,不了解版本区别,无法对不合适的地方进行更改. 由于只追求向P ...

最新文章

  1. Ubuntu:安装deb文件包
  2. linux中lsof命令详解!
  3. tableau实战系列(四十六)-如何用Tableau实现动态报表?​某咖啡店的销售数据报表(看板)​
  4. python续行_python中如何优雅续行和换行
  5. backtrader期权回测框架
  6. 在程序中设置infopath中的整型等域值时出错解决方法
  7. php 上传根目录不存在,Linux 下 ---ThinkPHP 图片上传提示:上传根目录不存在!请尝试手动创建...
  8. 作者:郑纬民,男,清华大学教授、博士生导师,中国计算机学会理事长。
  9. PHP使用ajax的post方式下载excel文件简单示例
  10. Python机器学习:贝叶斯文本分类器
  11. sharepoint 特别信息 --- 自个乐去吧~~
  12. sysbench0.5 mysql_sysbench 0.5安装步骤
  13. 大数据可视化类型有哪些
  14. java多线程和长连接,三方转换通信的实践(2)——数据库端服务程序
  15. java路径通配符_java实现路径通配符*,**,?
  16. 哪些项目适合写进Java程序员面试简历?推荐这10类
  17. Hadoop 简介 及 安装
  18. 计算机学霸电视剧,最好看九部青春校园剧推荐
  19. 电信物联网卡查询平台具备什么功能
  20. 火山快手伪原创视频热门

热门文章

  1. puppeteer做页面监控
  2. 达梦数据库 图形化界面安装详细教程
  3. ORB_SLAM2 运行TUM RGBD数据集过程记录
  4. 计算机语言栏在哪里,语言栏没了-语言栏消失了,怎么办?我电脑的语言栏为什么开机时总不找不见了?总 爱问知识人...
  5. 小米机顶盒怎么看电视直播?可以看电视直播的各种好用软件推荐
  6. 今天被领导表扬了,说我认真做事、仔细有条理
  7. 汽车半主动悬架系统的减振特性分析
  8. mipi白皮书 在5G下 IOT
  9. 蓝桥杯 试题 算法训练 数字游戏 C++ 详解
  10. 一文了解什么是FTP协议