Biobank genetic data探析(三)——Genotyping process and sample QC

一. 总览

  • Category 100313
  • 这类数据包含了Affymetrix做Genotype calling的pipeline的流程信息(后续分析中可能用不到),以及样本质量控制的信息(下游分析中估计是必用了)。

二. 数据集描述

2.1 Genotyping process

查看之后发现这部分不是很重要,毕竟genotype call和imputation数据我们都有了,放一些官方描述心中大致有个数。

2.1.1 Genotype measurement batch

  • UKbiobank链接
  • 数据是按批次发出来的,每批次大概3700人,不是很重要的信息。

2.1.2 Genotype measurement plate

  • UKBB链接
  • This field indicates on which 96-well plate a particular sample was measured.

2.1.3 Genotype measurement well

  • UKBB链接
  • Genotype measurements were conducted using 96-well plates. This field indicates the position within a plate of the well used to contain a particular participants sample.

2.1.4 Sex inference X probe-intensity

  • Affymetrix metric used for determining sex. Measures average probe intensity on a set of non-polymorphic probes on the X chromosome. Note this set of probes are not in the genotype calls.

2.1.5 Sex inference Y probe-intensity

  • Affymetrix metric used for determining sex. Measures average probe intensity on a set of non-polymorphic probes on the Y chromosome. Note this set of probes are not in the genotype calls.

2.1.6 Affymetrix quality control metric “Cluster.CR”

  • Affymetrix quality control metric. Corresponds to sample-specific call rate for each individual, computed using probesets internal to Affymetrix7

2.1.7 Affymetrix quality control metric “dQC”

  • Affymetrix quality control metric. Measures the resolution of the distributions of intensity ‘contrast’ values, based on intensities of probe sequences for non-polymorphic genome locations. See Affymetrix SNP-polisher documentation for details. Note that values were rounded to 2 decimal places for individuals type on the UKBiobank array, and 5 decimal places for individuals typed on the UKBiLEVE array.

2.1.8 DNA concentration

  • 用来做genotype的每个样本的DNA浓度。

2.1.9 Phasing

  • 每个样本的常染色体和X,Y是否做了phasing。

2.2 Sample QC

做样本或者SNPs质控的文件。在做GWAS之前,为了防止假阳性的SNP,质控过程是必须的!
以下数据的详细描述及实现的细节,可以在Genome-wide genetic data on ~500,000 UK Biobank participants文章中找到。

2.2.1 Genetic sex

  • Field ID: 22001
  • 通过染色体情况判断出的真实生理性别,如果与病人自述性别不一致,这一类样本就应该被排除掉。
  • Data coding

2.2.2 Genetic kinship to other participants

  • Field ID: 22021
  • 在整个人群中,有亲缘关系的样本,选择的cohort中,需要排除掉那些有亲缘关系的样本。
  • Data coding

2.2.3 Genetic ethnic grouping

  • Field ID: 22006
  • 做完PCA后,具有相似的祖先并自我认为是white British的人群。
  • 自己也可以去做PCA-UMAP看看分群效果。

2.2.4 Sex chromosome aneuploidy

  • Field ID: 22019
  • 性染色体不是XX或者XY的样本,需要被排除!(共651例)。

2.2.5 Outliers for heterozygosity or missing rate

  • Field ID: 22027
  • 在群体中基因型杂合率以及缺失率离群的样本,说明他们的genotype结果质量很差,也需要被排除!(968例)

2.2.6 Heterozygosity

  • Field ID:22003
  • 通过对芯片中一系列高质量的marker计算得到的个体杂合率,覆盖几乎每一个人群(0.122974-0.223048)。

2.2.7 Heterozygosity, PCA corrected

  • Field ID:22004
  • 群体分层PCA校正后计算的杂合率,用来排除那些离群的杂合率和缺失率,即得到2.2.5的数据(0.124131-0.222262)。

2.2.8 Missingness

  • Field ID:22005
  • 根据芯片中高质量marker的缺失得到的缺失率(0.0001469-0.1048)。

2.2.9 Genetic principal components

  • Field ID:22009
  • 主成分分析的结果,包含488170个样本的40个主成分。

2.2.10 Used in genetic principal components

  • Field ID:22020
  • 那些样本的基因数据用来做主成分分析了(共407048个正例)

三. 总结

这些数据我们可以在DNAnexus平台利用spark Jupyter直接获取,并直接筛选,为我们做sample QC提供了数据与方法。

四. 后续

  • Whole exome sequencing data
  • GWAS文献
  • GWAS流程实战详解

Biobank genetic data探析(三)相关推荐

  1. matplotlib工具栏源码探析四(自定义工具项图标)

    在matplotlib工具栏源码探析二(添加.删除内置工具项)和matplotlib工具栏源码探析三(添加.删除自定义工具项)两篇文章中,仔细观察会发现,不论内置工具项还是自定义工具项都没有图标,但是 ...

  2. SpringCloud源码探析(三)-Nacos集群搭建与配置管理

    1.概述 上一篇文章SpringCloud源码探析(二)-Nacos注册中心分析了nacos单机版的部署以及SpringBoot整合nacos,nacos不仅仅可以作为注册中心,也可以作为配置中心.本 ...

  3. 高通量测序技术和序列拼接算法探析

    高通量测序技术和序列拼接算法探析 时间:2019-05-27 来源:计算机科学 作者:周卫星,石海鹤 本文字数:16853字 摘    要: 高通量测序 (High-throughput Sequen ...

  4. 中文分词工具探析(一):ICTCLAS (NLPIR)

    [开源中文分词工具探析]系列: 开源中文分词工具探析(一):ICTCLAS (NLPIR) 开源中文分词工具探析(二):Jieba 开源中文分词工具探析(三):Ansj 开源中文分词工具探析(四):T ...

  5. 计算机 微课 论文,探析毕业论文怎么写 关于微课和电脑论文范例30000字

    <微课在中职计算机Flash课程中的应用探析> 该文是关于微课和电脑方面毕业论文怎么写和探析有关论文范例. 谢菲 [摘 要]作为一种新型的教学手段,微课时间短.容量小.内容精,对中职计算机 ...

  6. 全球及中国建筑产业十四五建设机会与运营风险探析报告2022版

    全球及中国建筑产业十四五建设机会与运营风险探析报告2022版 --------------------------------------------- [修订日期]:2021年11月 [搜索鸿晟信合 ...

  7. 中国太阳能热水器市场营销模式探析与品牌格局调研报告2022版

    中国太阳能热水器市场营销模式探析与品牌格局调研报告2022版 HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS-- [修订日期]:2021年11月 [搜索鸿 ...

  8. 大一新生计算机课word知识,大学新生计算机基础分层考试结果探析与启发.doc

    大学新生计算机基础分层考试结果探析与启发 大学新生计算机基础分层考试结果分析及启发 摘要:对计算机分层考试的结果进行统计分析,得出的主要结论包括:取消大学计算机基础课程是不合适的:大学新生对计算机基础 ...

  9. 新工科背景下的大数据体系建设探析

    新工科背景下的大数据体系建设探析 王元卓,于建业 中国科学院计算技术研究所,北京 100190 北京物资学院信息学院,北京 101149   摘要:大数据产业迅猛发展,对大数据人才培养提出了巨大挑战. ...

  10. 【天光学术】语言学论文:英语认知语言学和心理语言学的融通互补探析(节选)

    摘 要:心理语言学的主要研究范畴为通过分析大脑与语言的关系, 探索人类在加工语言过程中的神经心理机制.认知语言学则是源于体验哲学, 研究受社会环境影响的认知在语言理解与接受上的表现.具体到英语, 研究 ...

最新文章

  1. 《大话数据结构》第9章 排序 9.9 快速排序(上)
  2. RvaToFileOffset 内存偏移转成文件偏移(滴水课后作业)
  3. 网站 HTTP 升级 HTTPS 完全配置手册
  4. Python实现邮件发送
  5. 敏而好学,不耻下问。
  6. 北师大计算机学院调剂,北师大数学科学学院2020年硕士研究生调剂方案
  7. 小米wifi linux 客户端下载,小米无线wifi安装_小米无线wifi客户端下载[最新版]-下载之家...
  8. iOS 截屏 长图 拼图
  9. 三相滤波器怎么接线_三相电源滤波器作用 详解三相电源滤波器
  10. Vue el-upload插件上传批量文件
  11. 【WINAPI】CreateSemaphore_信号量
  12. idea中各种颜色的含义
  13. linux获取ip上网,linux dhcp 获取ip地址能上网,设置静态ip地址则不能上网
  14. 市场调研—全球及中国活化部分凝血活酶时间测试(APTT测试)行业研究及十四五规划分析报告
  15. 【编程题】【Scratch四级】2019.12 抽奖
  16. react06-RenderProps
  17. “重感知·轻地图”重新定义自动驾驶
  18. Java解压Jar文件
  19. 有些视频不显示IDM的下载按钮
  20. DDoS攻击--Syn_Flood攻击防护详解(TCP)

热门文章

  1. Unite Beijing 2018 | 精彩游戏案例议题曝光
  2. nssa和stub_ospf中stub区域和nssa区域的主要区别是什么?
  3. 解决 MDK 5 无法生成 .axf 文件的问题
  4. 快速将 gif 图转成 jpg 图片
  5. 如何利用魔棒工具抠图_PS怎么用魔棒工具扣图
  6. mysql两张大表关联查询_关于mysql当中给数据量特别大的两个表做关联查询的时候解决查询速度很慢的解决方法...
  7. 常见的浏览器与内核你知道都有哪些吗?
  8. 通过 PPT 快速给证件照换底色
  9. 小说平台系统开发(PHP)
  10. linux系统需要英语好吗,英语不好,基本上没有条件去做Linux工作了