相关性:一对个体的遗传相关性强度。传统的GWAS假设所有的受试者都是不相关的,即没有一对个体比二级亲属关系更密切(三代内)。如果没有适当的校正,包含亲属可能会导致对SNP效应大小的标准误差的估计有偏差。
#检查你分析的数据集是否有神秘的相关性是很重要的。
#假设是一个随机总体样本,在本教程中,我们将排除所有超过pihat阈值0.2的个体。
#查看pihat>0.2的个体对。
--genome调用IBS/IBD计算,并且之后在plink.genome文件中写入报告。
--min删除PI_HAT值低于给定截止值的行。

plink --bfile HapMap_3_r3_10 --extract indepSNP.prune.in --genome --min 0.2 --out pihat_min0.2

less pihat_min0.2.genome

第一列为个体对中第一个个体的FID,第二列为个体对中第一个个体的IID,第三列为个体中第二个个体的FID,第四列为个体对中第二个个体的IID,第五列为从.fam或.ped文件中推断出的相关类型,第六列为IBD共享预期值,基于.fam/.ped的关系,第七列到第九列为P值,第十列为IBD占比(例如:P(IBD=2) + 0.5P(IBD=1)),第十一列为成对表型代码(1,0,-1 = case-case, case-ctrl, ctrl-ctrl对),第十二列为IBS距离,即(IBS2 + 0.5IBS1) / (IBS0 + IBS1 + IBS2),第十三列为IBS 二项分布检验,第十四列为HETHET: IBS0 SNP比值(期望值2)


#现在我们将再次寻找具有pihat >0.2的个体。

plink --bfile HapMap_3_r3_11 --extract indepSNP.prune.in --genome --min 0.2 --out pihat_min0.2_in_founders

#“pihat_min0.2_in_founders.genome”显示,在排除所有非创始人后,HapMap数据中只剩下1对pihat大于0.2的个体。
#根据Z值,这可能是一个完整的同胞或DZ双胞胎对。值得注意的是,它们在HapMap数据中并没有被赋予相同的家族身份(FID)。
#对于每一对“相关”个体,pihat >0.2,我们建议取消呼叫率最低的个人。

plink --bfile HapMap_3_r3_11 --missing

#在我们的数据集中,个体13291 NA07045的呼叫率较低。

vi 0.2_low_call_rate_pihat.txt
i
13291  NA07045
# Press esc on keyboard!
:x
# Press enter on keyboard

#删除具有pihat>0.2的“相关”对中呼叫率最低的个体

plink --bfile HapMap_3_r3_11 --remove 0.2_low_call_rate_pihat.txt --make-bed --out HapMap_3_r3_12

#恭喜你! !您刚刚成功地完成了第一个教程!你现在可以进行一个适当的基因QC。
#在下一个教程中,使用脚本:2_Main_script_MDS.txt,你需要以下文件:

- The bfile HapMap_3_r3_12 (i.e., HapMap_3_r3_12.fam,HapMap_3_r3_12.bed, and HapMap_3_r3_12.bim

- indepSNP.prune.in

PLINK-GWAS学习7------数据质控之亲缘关系质控相关推荐

  1. Plink GWAS学习笔记

    目录 0 准备 1 遗传数据的质量控制 1.1 对个体及SNP缺失率进行筛选 1.2 性别质控 1.3 最小等位基因频率MAF 1.4 哈温平衡检验 1.5 杂合率检验 1.6 去掉亲缘关系近的个体 ...

  2. GWAS学习笔记(一):质量控制(QC)

    本系列文章采用的数据集与代码来自https://github.com/MareesAT/GWA_tutorial. 该教程获得了许多人的推荐,是一份很详细的step-by-step guide. 本文 ...

  3. 这可能是程序员学习大数据架构师的最佳之路!另附送1024G学习资料!

    随着大数据时代的到来,[这次国家教育部的改革要动真格了],JAVA程序员们仅有的一点点竞争力很快就不复存在,为什么这么说呢? 人生别只顾低头拉车,更要抬头看路! 国家教育部全面改革:大数据领衔 所有高 ...

  4. 《预训练周刊》第17期:深度迁移学习与数据增强改善2型糖尿病预测、钢琴补谱应用...

    No.17 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第17期&l ...

  5. AI寒冬论作者再发文:「深」度学习对数据的理解太「浅」了

    http://blog.itpub.net/29829936/viewspace-2641915/ 2019-04-18 14:29:14 AI 寒冬论作者 Filip Piekniewski 再次发 ...

  6. 零基础学习大数据开发需要多久能工作?

    IT行业是最近10年的热点,那么IT行业中的热点又是谁呢?在当今的互联网时代相信没有哪个行业能够出ABC左右,所谓的ABC就是AI + Big Data + Cloud. 当然,这三者中大数据的影响力 ...

  7. MATLAB中深度学习的数据集合

    简 介: 本文总结了部分MATLAB中用于深度学习的数据集合. 关键词: MATLAB,DEEPLENARING #mermaid-svg-xPWl4yTsAw5Z4HFe {font-family: ...

  8. 零基础学习大数据人工智能,学习路线篇!

    大数据处理技术怎么学习呢?首先我们要学习Python语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后. Python:Python 的排名从去年开始就借助人工智能持续上升,现在它 ...

  9. 写给初学大数据的你,从零开始学习大数据开发的完整学习路线

    最近很多人都想学习大数据开发,但是却不知道如何开始学习,今天专门整理了一份针对大数据初学者的大数据开发学习路线. 下面分十个章节来说明大数据开发要学习的内容: 互联网科技发展蓬勃兴起,人工智能时代来临 ...

最新文章

  1. HPE第四季度财报数据喜忧参半
  2. C#实现Base64编码与解码
  3. Android下Opengl ES实现单屏幕双眼显示
  4. UC浏览器云标签怎么用 UC浏览器云标签使用方法
  5. 计算机启动需输入两次密码,为什么我的电脑要2次启动才能启动我电脑设置了启动密码后就一定要2 爱问知识人...
  6. windows server 2008R2 部署WSUS 服务
  7. @程序员,如何轻松实现数据可视化?
  8. 二选一数据选择器2-1 MUX
  9. Manacher (马拉车算法)
  10. 帆软报表参数传给网络报表_统计图表FineReport中程序数据集传参使用解决方案...
  11. Oracle快速复制一张表
  12. 曾鸣:互联网的本质是什么?| 内部干货
  13. 中望3D 2021 “基准面”之“动态基准面”模式
  14. 1、misa统计SRR结果
  15. 笔记本硬盘坏了还能恢复数据吗 笔记本硬盘坏了怎么修复
  16. 硬件IIC和软件IIC区别
  17. 【Java-数据类型】
  18. 小程序引用阿里iconfont
  19. python使用scrt时间戳画图
  20. 外包公司“混”了2年,我只认真做了5件事,如今顺利拿到阿里 Offer。

热门文章

  1. 聊聊项目测试时间不足怎么办
  2. 教育大国芬兰儿童编程作家讲述“编程思维”
  3. heic文件怎么转换成jpg?建议收藏这些方法
  4. 黑色星期五!!  mysql 数据损坏了~~
  5. 游戏夜读 | 什么是黑色一分钟?
  6. 智能制造体系架构分析与工业互联网应用
  7. 【PAT】1111 Online Map (30 分)
  8. html怎么实现地球自转,纯CSS3实现地球自转的教程
  9. [Unity2D入门教程]简单制作仿植物大战僵尸游戏之⑤制作更多的敌人Attacker以及防御者Defender
  10. 单片机ch2o程序_我做的甲醛检测的单片机源码