plink描述性统计--等位基因频率、缺失值
0.3 描述性统计
0.3.1 等位基因频率
--freq
,产生的文件后缀为.frq,该文件包含基因型的等位基因和最小等位基因频率(MAF)和每个SNP的等位基因编码的信息。
plink --bfile hapmap-ceu --freq --out Allele_Frequency
$ head Allele-Frequency.frqCHR SNP A1 A2 MAF NCHROBS1 rs12565286 C G 0.0678 1181 rs12138618 A G 0.05833 1201 rs3094315 G A 0.1552 1161 rs3131968 A G 0.125 1201 rs12562034 A G 0.09167 1201 rs2905035 A G 0.125 1201 rs12124819 G A 0.3417 1201 rs2980319 A T 0.125 1201 rs4040617 G A 0.125 120
- CHR(性染色体的染色体数或编码);
- SNP(变异名,大多数SNP为rsID);
- Al(等位基因I,通常是次要的等位基因[即频率较低]);
- A2(等位基因2,通常是主要的等位基因),
- MAF(等位基因I频率);
- NCHROBS(等位基因观察数)。
--within
,通过分类变量进行分层。
0.3.2 缺失值
1) 个体和变异缺失值
--missing
,产生两个文件,.imiss,个体缺失信息;.lmiss,SNP缺失信息。
$ plink --bfile hapmap-ceu --missing --out missing_data
查看个体缺失信息,每一行代表个体。missing_data.imiss
$ head missing_data.imissFID IID MISS_PHENO N_MISS N_GENO F_MISS
1334 NA12144 Y 15077 2239392 0.006733
1334 NA12145 Y 19791 2239392 0.008838
1334 NA12146 Y 13981 2239392 0.006243
1334 NA12239 Y 14072 2239392 0.006284
1340 NA06994 Y 16080 2239392 0.007181
1340 NA07000 Y 26113 2239392 0.01166
1340 NA07022 Y 17467 2239392 0.0078
1340 NA07056 Y 12133 2239392 0.005418
1341 NA07034 Y 20425 2239392 0.009121
- FID(家庭ID)
- IID(家族内ID)
- MISS_pHENO(缺失表型的是/否)
- N _MISS(缺失基因型检测(calls)数)
- N _ GENO(潜在有效calls数)
- F_MISS(缺失call率)
查看SNP缺失信息,.lmiss
$ head missing_data.lmissCHR SNP N_MISS N_GENO F_MISS1 rs12565286 1 60 0.016671 rs12138618 0 60 01 rs3094315 2 60 0.033331 rs3131968 0 60 01 rs12562034 0 60 01 rs2905035 0 60 01 rs12124819 0 60 01 rs2980319 0 60 01 rs4040617 0 60 0
- CHR(染色体编码)SNP(变异标识符)N_MISS(缺失基因型calls数,不包括强制性缺失)
- N_GENO(潜在价值call数)
- F_MISS(缺失call率)
- 只出现在家系内数据的列是CLST(集群标识符)和N-CLST(集群大小)
2) 筛选filter
(1)--filter-controls
,筛选具有二元表型的控件
(2)--filter-males
,基于基因型数据仅保留雄性
(3)--filter-females
,基于基因型数据仅保留雌性
(4)--filter-founders
,仅保留founders,它排除了所有至少有一个已知亲本的样本,fonders数据是在数据集中没有父母信息的个体。
(5)--filter-nonfounders
,founders的反面
$ plink --bfile hapmap-ceu --filter-females --make-bed --out hapmap_filter_females30 people removed due to gender filter (--filter-females).
参考:
An Introduction to Statistical Genetic Data Analysis.
plink描述性统计--等位基因频率、缺失值相关推荐
- plink, vcftool计算等位基因频率(allele frequency,vcf)
计算等位基因频率有两种方式,第一种用vcftool计算: /path/to/vcftools --vcf file.vcf --freq --chr 1 --out filefreq 很简单的一个命令 ...
- Python之pandas:利用describe函数统计【类别型】特征/离散型变量的描述性统计信息(包括个数count、unique、top及其freq、first、last)之详细攻略
Python之pandas:利用describe函数统计[类别型]特征/离散型变量的描述性统计信息(包括个数count.unique.top及其freq.first.last)之详细攻略 目录 利用d ...
- 发掘数据中的信息 -- 数据探索之描述性统计
在如今这个大数据时代,数据的价值得到普遍的认可.可是,数据为什么有价值呢?如果,数据只是静静地躺在服务器中,又或是默默地流淌在网络中,它们又能带来什么? 数据就如同海边的沙子,潮起潮落,岁月轮转,它们 ...
- python画直方图成绩分析-使用Python进行描述性统计
2 使用NumPy和SciPy进行数值分析 2.1 基本概念 1 from numpy importarray2 from numpy.random importnormal, randint3 #使 ...
- python花萼长度表_python描述性统计实践
1.加载相关库和数据集 使用的库主要有:pandas.numpy.sklearn.matplotlib.seaborn 使用的数据集:sklearn库中的鸢尾花数据集 import pandas as ...
- 用python做频数分析_使用Python进行描述性统计
2 使用NumPy和SciPy进行数值分析 2.1 基本概念 1 from numpy import array 2 from numpy.random import normal, randint ...
- 数据挖掘之数理统计与描述性统计
一.数理统计概念 1.基本概念释义 定义:在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体.组成总体的每个基本单元叫个体.从总体 XXX 中随机抽取一部分个体 X1,X2,...,Xn ...
- Python描述性统计
目录 1 描述性统计是什么? 2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值.中位数.众数) 2.3 发散程度(极差,方差.标准差.变异系数) 2.4 偏差程度( ...
- 统计学之数据的描述性统计(基础)
数据的描述性统计 一篇笔记,至少我还在努力 目录: 数据的集中趋势: 众数,中位数,平均数,分位数,极差 算术平均数,加权平均数,几何平均数 数据的离中趋势: 数值型数据:方差,标准差,极差,平均差 ...
最新文章
- 北工大计算机学院教授,北工大计算机学院计算机科学与技术导师介绍:杨宇光...
- Ubuntu16安装CUDA9.0+Anaconda+Tensorflow1.8GPU(2018.08.20最新)
- 讲mysql执行流程书籍_MySQL 基础架构 1. 一条SQL查询语句的执行过程(个人学习笔记)...
- Excel关于使用图形的妙招技法
- opencv中查看mat位图的像素幅度(Cv::matStep)
- 只有经验丰富的开发人员才能教您有关Java的5件事
- JavaScript 弹出窗口总结
- 智能会议系统(6)---高效视频会议系统
- NSString删除换行符号
- 中国自主可免费使用的一站式 IoT 集成开发环境 RT-Thread Studio 发布!
- 汇编指令对应的机器码_汇编语言输出“welcome to you!”
- 处理器虚拟化——VMX
- iPhone屏幕数据
- 椭圆曲线上两种基本的运算:点集运算、P+Q详解
- Python的堆与优先队列
- Javascript笔记大全01,会持续更新~
- LeetCode报错:Line 1034:Char9
- MMA-Mathematica定义函数
- mysql 架构 ~ binlog_server
- win10系统如何添加Editplus到鼠标右键
热门文章
- 正在空谈「空谈“误国”」
- java强行访问别人qq空间_疯人院:如何使用javascript来获取QQ空间最近访客好友。...
- 想要不被裁,看一看 13 年华为老兵的宝贵经验
- 域服务器 文件服务器,域服务器文件服务器
- 华为智慧屏看鸿蒙,AI加持的另类彩电之华为智慧屏带你体验鸿蒙
- 《大话西游3》首曝海报 韩庚唐嫣分饰至尊宝和紫霞
- 某数4代cookie生成-2
- “裸考”通过CATTI考试的经历
- 苹果iphone手机如何设置支付宝限额 几个步骤轻松设置完成支付限额
- 【11g体系结构,4】AMM(内存分配自动管理)