0.3 描述性统计

0.3.1 等位基因频率

--freq,产生的文件后缀为.frq,该文件包含基因型的等位基因和最小等位基因频率(MAF)和每个SNP的等位基因编码的信息。

plink --bfile hapmap-ceu --freq --out Allele_Frequency
$ head Allele-Frequency.frqCHR          SNP   A1   A2          MAF  NCHROBS1   rs12565286    C    G       0.0678      1181   rs12138618    A    G      0.05833      1201    rs3094315    G    A       0.1552      1161    rs3131968    A    G        0.125      1201   rs12562034    A    G      0.09167      1201    rs2905035    A    G        0.125      1201   rs12124819    G    A       0.3417      1201    rs2980319    A    T        0.125      1201    rs4040617    G    A        0.125      120
  1. CHR(性染色体的染色体数或编码);
  2. SNP(变异名,大多数SNP为rsID);
  3. Al(等位基因I,通常是次要的等位基因[即频率较低]);
  4. A2(等位基因2,通常是主要的等位基因),
  5. MAF(等位基因I频率);
  6. NCHROBS(等位基因观察数)。

--within,通过分类变量进行分层。

0.3.2 缺失值

1) 个体和变异缺失值

--missing,产生两个文件,.imiss,个体缺失信息;.lmiss,SNP缺失信息。

$ plink --bfile hapmap-ceu --missing --out missing_data

查看个体缺失信息,每一行代表个体。missing_data.imiss

$ head missing_data.imissFID       IID MISS_PHENO   N_MISS   N_GENO   F_MISS
1334   NA12144          Y    15077  2239392 0.006733
1334   NA12145          Y    19791  2239392 0.008838
1334   NA12146          Y    13981  2239392 0.006243
1334   NA12239          Y    14072  2239392 0.006284
1340   NA06994          Y    16080  2239392 0.007181
1340   NA07000          Y    26113  2239392  0.01166
1340   NA07022          Y    17467  2239392   0.0078
1340   NA07056          Y    12133  2239392 0.005418
1341   NA07034          Y    20425  2239392 0.009121
  1. FID(家庭ID)
  2. IID(家族内ID)
  3. MISS_pHENO(缺失表型的是/否)
  4. N _MISS(缺失基因型检测(calls)数)
  5. N _ GENO(潜在有效calls数)
  6. F_MISS(缺失call率)

查看SNP缺失信息,.lmiss

$ head missing_data.lmissCHR          SNP   N_MISS   N_GENO   F_MISS1   rs12565286        1       60  0.016671   rs12138618        0       60        01    rs3094315        2       60  0.033331    rs3131968        0       60        01   rs12562034        0       60        01    rs2905035        0       60        01   rs12124819        0       60        01    rs2980319        0       60        01    rs4040617        0       60        0
  1. CHR(染色体编码)SNP(变异标识符)N_MISS(缺失基因型calls数,不包括强制性缺失)
  2. N_GENO(潜在价值call数)
  3. F_MISS(缺失call率)
  4. 只出现在家系内数据的列是CLST(集群标识符)和N-CLST(集群大小)
2) 筛选filter

(1)--filter-controls,筛选具有二元表型的控件

(2)--filter-males,基于基因型数据仅保留雄性

(3)--filter-females,基于基因型数据仅保留雌性

(4)--filter-founders,仅保留founders,它排除了所有至少有一个已知亲本的样本,fonders数据是在数据集中没有父母信息的个体。

(5)--filter-nonfounders,founders的反面

$  plink --bfile hapmap-ceu --filter-females --make-bed --out hapmap_filter_females30 people removed due to gender filter (--filter-females).

参考:
An Introduction to Statistical Genetic Data Analysis.

plink描述性统计--等位基因频率、缺失值相关推荐

  1. plink, vcftool计算等位基因频率(allele frequency,vcf)

    计算等位基因频率有两种方式,第一种用vcftool计算: /path/to/vcftools --vcf file.vcf --freq --chr 1 --out filefreq 很简单的一个命令 ...

  2. Python之pandas:利用describe函数统计【类别型】特征/离散型变量的描述性统计信息(包括个数count、unique、top及其freq、first、last)之详细攻略

    Python之pandas:利用describe函数统计[类别型]特征/离散型变量的描述性统计信息(包括个数count.unique.top及其freq.first.last)之详细攻略 目录 利用d ...

  3. 发掘数据中的信息 -- 数据探索之描述性统计

    在如今这个大数据时代,数据的价值得到普遍的认可.可是,数据为什么有价值呢?如果,数据只是静静地躺在服务器中,又或是默默地流淌在网络中,它们又能带来什么? 数据就如同海边的沙子,潮起潮落,岁月轮转,它们 ...

  4. python画直方图成绩分析-使用Python进行描述性统计

    2 使用NumPy和SciPy进行数值分析 2.1 基本概念 1 from numpy importarray2 from numpy.random importnormal, randint3 #使 ...

  5. python花萼长度表_python描述性统计实践

    1.加载相关库和数据集 使用的库主要有:pandas.numpy.sklearn.matplotlib.seaborn 使用的数据集:sklearn库中的鸢尾花数据集 import pandas as ...

  6. 用python做频数分析_使用Python进行描述性统计

    2 使用NumPy和SciPy进行数值分析 2.1 基本概念 1 from numpy import array 2 from numpy.random import normal, randint ...

  7. 数据挖掘之数理统计与描述性统计

    一.数理统计概念 1.基本概念释义 定义:在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体.组成总体的每个基本单元叫个体.从总体 XXX 中随机抽取一部分个体 X1,X2,...,Xn ...

  8. Python描述性统计

    目录 1 描述性统计是什么? 2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值.中位数.众数) 2.3 发散程度(极差,方差.标准差.变异系数) 2.4 偏差程度( ...

  9. 统计学之数据的描述性统计(基础)

    数据的描述性统计 一篇笔记,至少我还在努力 目录: 数据的集中趋势: 众数,中位数,平均数,分位数,极差 算术平均数,加权平均数,几何平均数 数据的离中趋势: 数值型数据:方差,标准差,极差,平均差 ...

最新文章

  1. 北工大计算机学院教授,北工大计算机学院计算机科学与技术导师介绍:杨宇光...
  2. Ubuntu16安装CUDA9.0+Anaconda+Tensorflow1.8GPU(2018.08.20最新)
  3. 讲mysql执行流程书籍_MySQL 基础架构 1. 一条SQL查询语句的执行过程(个人学习笔记)...
  4. Excel关于使用图形的妙招技法
  5. opencv中查看mat位图的像素幅度(Cv::matStep)
  6. 只有经验丰富的开发人员才能教您有关Java的5件事
  7. JavaScript 弹出窗口总结
  8. 智能会议系统(6)---高效视频会议系统
  9. NSString删除换行符号
  10. 中国自主可免费使用的一站式 IoT 集成开发环境 RT-Thread Studio 发布!
  11. 汇编指令对应的机器码_汇编语言输出“welcome to you!”
  12. 处理器虚拟化——VMX
  13. iPhone屏幕数据
  14. 椭圆曲线上两种基本的运算:点集运算、P+Q详解
  15. Python的堆与优先队列
  16. Javascript笔记大全01,会持续更新~
  17. LeetCode报错:Line 1034:Char9
  18. MMA-Mathematica定义函数
  19. mysql 架构 ~ binlog_server
  20. win10系统如何添加Editplus到鼠标右键

热门文章

  1. 正在空谈「空谈“误国”」
  2. java强行访问别人qq空间_疯人院:如何使用javascript来获取QQ空间最近访客好友。...
  3. 想要不被裁,看一看 13 年华为老兵的宝贵经验
  4. 域服务器 文件服务器,域服务器文件服务器
  5. 华为智慧屏看鸿蒙,AI加持的另类彩电之华为智慧屏带你体验鸿蒙
  6. 《大话西游3》首曝海报 韩庚唐嫣分饰至尊宝和紫霞
  7. 某数4代cookie生成-2
  8. “裸考”通过CATTI考试的经历
  9. 苹果iphone手机如何设置支付宝限额 几个步骤轻松设置完成支付限额
  10. 【11g体系结构,4】AMM(内存分配自动管理)