Biobank genetic data探析(二)——Imputaion

1. 什么是imputation?

Imputation即为“补全”,初次接触到这个概念是利用scRNA-seq数据补全空间转录组数据,即利用计算方法解决空转检测到的mRNA类别少的问题。而在GWAS当中,则是利用reference数据集,补全那些芯片中没有检测到的variants。如UKBB所述,Affymatrix Axiom芯片只能测约80万个SNPs,而经imputation后我们实际能获得~96 million SNPs信息。

而作为reference的数据集,一个是 1000 Genomes phase 3 dataset,主要用以解决非欧洲祖籍人群的imputation;一个则是Haplotype Reference Consortium,为UKBB imputation主要的参考数据集。

再进一步深入之前,我们需要弄清楚genotype(基因型)与haplotype(单体型)的区别:基因型即为染色体单个位点的不同导致的形状变化,我们可以理解为一个genotype call就是一个SNP(此处包含INDEL);而单体型则是一组SNPs,它们通常在同一个染色体上的不同位点,具有强的连锁不平衡性,是从父母亲直接继承下来的一套遗传信息,彼此之间有你就有我。

而著名的HapMap计划就是去发现人类基因组中这些成套的SNPs(即单体型),而每个单体型也有一些marker SNPs,这就为genotype imputation奠定了基础。

UKBB的imputation方法是用了2012年发表在Nature Genetics上的Fast and accurate genotype imputation in genome-wide association studies through pre-phasing。文章提出了pre-phasing的方法,即先将芯片中测得的snps估计成一个个haplotype,然后再去通过Haplotype Reference Consortium数据集进行补全。

2. 数据集描述

2.1 Haplotypes

  • 文件大小:0.06TB。
  • 共有这两类文件:ukb22438_cN_b0_v2.bgen与ukb22438_cN_b0_v2.bgen.gbi

2.2 UKB imputation from genotype

  • 文件大小:2.6TB。
  • 文件包含:
    1. ukb22828_cN_b0_v3.bgen
    2. ukb22828_cN_b0_v3.bgen.bgi
    3. ukb22828_cN_b0_v3.mfi.txt
    4. ukb22828_cN_b0_v3.sample
  • 官方描述:

The Imputed genotype calls are in BGEN v1.2 format (.bgen, .sample, .bgi) see Resource 12 for details of the formats. The sample file lists the order of the samples in the .bgen files. The list of variants in the files can be found with bgenix (https://bitbucket.org/gavinband/bgen/wiki/bgenix). The 1st column of the marker list file is ‘alternate_ids’ which is a unique identifier for each marker. For markers in the genotype data set ‘alternate_ids’ is the genotype marker id (rs_id in SNP-QC file). The second column is rsid or the reference panel marker_id, it is not guaranteed to be unique. The alleles in the imputation are aligned with REF/ALT, first_allele is the ref allele on the fwd strand.

2.3 BGENv1.2 file format

  • UKBB开发了一种新的数据压缩、数据索引形式——BGENv1.2,对于这类文件的官方文档附在以下链接:bgen12formats.pdf,New vision。
  • 文件的读取:
    1. 命令行软件使用:如PLINK,qctool v2,SNPTEST, LDstore, Mega2, FINEMAP, STITCH, hail,BOLT-LMM, bgenix等软件均支持该文件形式。
    2. R语言:rbgen包可以用来将数据直接读入R。链接:rbgen。
    3. python:bgen-reader,pybgen等库。

3. 参考文献

  • Bycroft, Freeman, Petkova et al, “The UK Biobank resource with deep phenotyping and genomic data”, Nature (2018), https://doi.org/10.1038/s41586-018-0579-z

4. 后续

  • Genotype QC information
  • 文献阅读以及复现
  • Whole exome sequcing data

Biobank genetic data探析(二)相关推荐

  1. matplotlib工具栏源码探析四(自定义工具项图标)

    在matplotlib工具栏源码探析二(添加.删除内置工具项)和matplotlib工具栏源码探析三(添加.删除自定义工具项)两篇文章中,仔细观察会发现,不论内置工具项还是自定义工具项都没有图标,但是 ...

  2. 高通量测序技术和序列拼接算法探析

    高通量测序技术和序列拼接算法探析 时间:2019-05-27 来源:计算机科学 作者:周卫星,石海鹤 本文字数:16853字 摘    要: 高通量测序 (High-throughput Sequen ...

  3. 中文分词工具探析(一):ICTCLAS (NLPIR)

    [开源中文分词工具探析]系列: 开源中文分词工具探析(一):ICTCLAS (NLPIR) 开源中文分词工具探析(二):Jieba 开源中文分词工具探析(三):Ansj 开源中文分词工具探析(四):T ...

  4. SpringCloud源码探析(三)-Nacos集群搭建与配置管理

    1.概述 上一篇文章SpringCloud源码探析(二)-Nacos注册中心分析了nacos单机版的部署以及SpringBoot整合nacos,nacos不仅仅可以作为注册中心,也可以作为配置中心.本 ...

  5. 计算机 微课 论文,探析毕业论文怎么写 关于微课和电脑论文范例30000字

    <微课在中职计算机Flash课程中的应用探析> 该文是关于微课和电脑方面毕业论文怎么写和探析有关论文范例. 谢菲 [摘 要]作为一种新型的教学手段,微课时间短.容量小.内容精,对中职计算机 ...

  6. 全球及中国建筑产业十四五建设机会与运营风险探析报告2022版

    全球及中国建筑产业十四五建设机会与运营风险探析报告2022版 --------------------------------------------- [修订日期]:2021年11月 [搜索鸿晟信合 ...

  7. 中国太阳能热水器市场营销模式探析与品牌格局调研报告2022版

    中国太阳能热水器市场营销模式探析与品牌格局调研报告2022版 HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS-- [修订日期]:2021年11月 [搜索鸿 ...

  8. 实录 | 平安人寿资深算法工程师姚晓远:对话生成模型的探析与创新

    1 月 10 日(周四)晚 8 点,平安人寿智能平台团队资深算法工程师姚晓远在 PaperWeekly 直播间为大家带来了对话生成模型的探析与创新主题分享,并且介绍了平安人寿基于业务场景的技术探索成果 ...

  9. 今晚直播 | 平安人寿资深算法工程师姚晓远:对话生成模型的探析与创新

    随着深度学习的发展,人机对话技术取得重大突破,成为人工智能领域的热点研究问题. 人机对话作为人机交互系统的核心功能之一,发挥着十分重要的作用.相比其他传统交互方式,人机对话可在聊天的过程中完成输入信息 ...

  10. 直播 | 平安人寿资深算法工程师姚晓远:对话生成模型的探析与创新

    随着深度学习的发展,人机对话技术取得重大突破,成为人工智能领域的热点研究问题. 人机对话作为人机交互系统的核心功能之一,发挥着十分重要的作用.相比其他传统交互方式,人机对话可在聊天的过程中完成输入信息 ...

最新文章

  1. Alluxio及其典型应用场景
  2. uniapp原生子窗体(弹出层为例子)
  3. Codeforces Round #260 (Div. 1) A - Boredom DP
  4. 编码GBK的不可映射字符
  5. 子集和问题 算法_子集问题 主要是去重算法
  6. 【汇编语言】王爽 - 内中断复习
  7. 曼彻斯特编码_两种编码方式以及两种帧结构
  8. 关于面试题的一些想法
  9. 数据结构C语言版第二版(名师严蔚敏最新力作)人民邮电出版社
  10. 2009年9月手机搜索热门关键词排行榜
  11. web前端在线预览,编辑word文件的方法汇总(2021-7-14更新)
  12. selenium中整个页面的截图及局部截图(方法分析)
  13. PHP框架设计之 ThinkPHP5 源码解析
  14. 随机小姐姐404单页网站源码
  15. SuperMap iDesktop 提取影像边界裁剪去除无值区域处理方案
  16. Java利用Set集合去重复
  17. HDU 5952 Counting Cliques(2016ACM/ICPC亚洲区沈阳站-重现赛)
  18. idea git 日常使用
  19. 读《富兰克林传 绪》有感
  20. Linux安装expect

热门文章

  1. springboot+redis实现文章浏览量记录
  2. C64x+中断控制器
  3. python实现·数据结构与算法之单向链表
  4. 腾讯云申请免费短信验证码
  5. ERP基础数据 华夏
  6. linux显卡驱动重装
  7. x的x分之一次方极限x趋于0_x分之e的x次方减一的极限
  8. java面试英语自我介绍_程序员面试英文自我介绍
  9. AutoCAD .Net 创建椭圆Ellipse
  10. Nodejs中如何调用腾讯云的短信验证码接口并对接口进行安全限制