在之前的一篇文章中,我们用到了vcftools来过滤得到的原始vcf文件,不过由于时间关系,过滤的参数还有待优化。其实我后来请教了师兄师姐,得知我们应当先了解vcftools的具体参数,然后选择自己所需参数去过滤数据,随后根据跑出来的树的结果不断调整范围直至吻合心目中理想的结果。

所以我去看了原版的vcftools使用手册VCFtools

然后总结了一些对于我来说比较用得上的,下面结合最近的计算结果写一写。

首先是一些基本选项:

•输入文件选项,用以定义需要过滤的VCF文件,例:

--vcf filename

如果文件是压缩的,那么可以输入

--gzvcf filename

输出文件选项,为vcftools生成的所有文件定义输出文件名前缀:

--out output_prefix

如果省略此步骤那么默认生成的文件在当前工作目录中具有前缀“out.”

筛选位点参数

排除标识符与<染色体>匹配的位点

--not-chr <chromosome>

保留具有匹配ID的SNP(例如dbSNP rsID)。此命令可以多次使用,以保留多个SNP。

--snp <string>

包括或排除文件中给定的SNP列表。该文件应包含SNP ID列表(例如dbSNP RSID),每行一个ID。不需要标题行。

--snps <filename>
--exclude <filename>

仅包括次要等位基因计数大于或等于“-mac”值且小于或等于“-max mac”值的位点。

--mac <integer>
--max-mac <integer>

仅包括次要等位基因频率大于或等于“-maf”值且小于或等于“-max maf”值的位点。

--maf <float>
--max-maf <float>

仅包括平均深度值(包括所有个体)大于或等于“-min meanDP”值且小于或等于“-max meanDP”值的场地。

--min-meanDP <float>
--max-meanDP <float>

根据Wigginton, Cutler and Abecasis (2005)的定义,使用精确测试评估Hardy-Weinberg平衡点。p值低于此选项定义的阈值的站点被视为不在HWE范围内,因此被排除在外。

--hwe <float>

根据缺失数据的比例排除站点(定义为介于0和1之间,其中0表示完全缺失的站点,1表示不允许缺失数据)。

--max-missing <float>

仅包括质量值高于此阈值的站点。

--minQ <float>

提供包含要在后续分析中包括或排除的个人列表的文件。每个单独的ID(如VCF标题行中的定义)应包含在单独的行中。如果两个选项都使用,则在“-remove”选项之前执行“-keep”选项。提供多个文件时,将保留所有保留文件中的个人联合减去所有删除文件中的个人联合。不需要标题行。

--keep <filename>
--remove <filename>

仅包括大于或等于“-minDP”值且小于或等于“-maxDP”值的基因型。此选项要求为所有站点指定“DP”格式标签。

--minDP <float>
--maxDP <float>

输出统计结果

输出后缀为“.frq”的文件中每个位点的等位基因频率。
--freq

生成包含每个个体的平均深度的文件。此文件的后缀为“.idepth”

--depth

使用阶段单倍型输出报告r2、D和D'统计数据的文件。这些是群体遗传学文献中经常报道的LD的传统测量方法。输出文件的后缀为“.hap.ld”。此选项假定VCF输入文件具有阶段性单倍型。

--hap-r2

此选项用于根据Weir and Cockerham’s1984年的论文计算Fst估计值。这是Fst的首选计算方法。提供的文件必须包含VCF文件中对应于一个总体的个体列表(每行一个个体)。此选项可多次用于计算两个以上总体的Fst。这些文件还将包含为“-keep”选项。默认情况下,计算是基于每个站点进行的。输出文件的后缀为“.weir.fst”。

--weir-fst-pop <filename>

这些选项可与“-weir fst pop”一起使用,以窗口方式而不是以每个站点为基础进行fst计算。这些参数指定所需的窗口大小和窗口之间所需的步长。

--fst-window-size <integer>
--fst-window-step <integer>

计算每个个体的杂合度。具体地说,近亲繁殖系数F是使用矩量法估计每个个体的。结果文件的后缀为“.het”。

--het

根据Hardy-Weinberg平衡测试(由Wigginton, Cutler and Abecasis (2005)定义)报告每个场地的p值。结果文件(后缀为“.hwe”)还包含观察到的纯合子和杂合子数量以及hwe下相应的预期数量。

--hardy

输出文件格式

这些选项用于在应用用户指定的筛选选项后,从输入VCF或BCF文件生成VCF或BCF中的新文件。输出文件的后缀为“.recode.vcf”或“.recode.bcf”。默认情况下,信息字段将从输出文件中删除,因为信息值可能因重新编码而无效(例如,如果删除个人,则可能需要重新计算总深度)。此行为可能被以下选项覆盖。默认情况下,BCF文件作为BGZF压缩文件写入。

--recode
--recode-bcf

这些选项可与上述重新编码选项一起使用,以定义要保留在输出文件中的信息键名称。此选项可多次用于保留更多信息字段。第二个选项用于将所有信息值保留在原始文件中。

--recode-INFO <string>
--recode-INFO-all

vcftools手册重要参数集合相关推荐

  1. 使用ADO.NET的参数集合来有效防止SQL注入漏洞

    SQL注入漏洞是个老话题了,在以前做ASP做开发时,就经常需要用字符串的过虑等方式 来解决这个问题,但有时候确做的不够彻底,往往让***钻了空子. 那么目前在我们.NET中,不管是用WINFORM开发 ...

  2. SpringMVC获取请求参数-集合类型

    1.创建User实体类 ```java public class User {private String username;private int age;public String getUser ...

  3. lamda获取参数集合去空_(转)Java8使用lambda表达式进行集合的遍历

    本文转自 我们经常会用到各种集合,数字的,字符串的还有对象的.它们无处不在,哪怕操作集合的代码要能稍微优化一点,都能让代码清晰很多.在这章中,我们探索下如何使用lambda表达式来操作集合.我们用它来 ...

  4. mysql 存储过程参数集合_MySQL存储过程

    MySQL存储过程 存储过程是一组预先编译好的SQL语句的集合 好处:提高了代码的重用性 简化操作 减少了编译次数并且减少了和数据库连接次数,提高效率 创建存储过程#语法  参数列表包含三部分  参数 ...

  5. lamda获取参数集合去空_lambda表达式对集合的遍历

    lambda表达式对集合的遍历 引言: 从去年年末就一直想好好看一下lambda表达式,可是一直没有静下心来看. 这次项目里用的对集合操作几乎都是通过lambda表达式方式的.没办法,就只好去学习了. ...

  6. 金仓数据库KingbaseES数据库参考手册(服务器配置参数14. 版本和平台兼容性)

    目录 14.1. KingbaseES老版本 ¶ 14.2. 平台和客户端兼容性 ¶ 14.3. 一般特性兼容性 ¶ 14.1. KingbaseES老版本 ¶ array_nulls 属性 描述 类 ...

  7. 金仓数据库KingbaseES数据库参考手册(服务器配置参数12. 客户端联接默认)

    12.1. 语句动作 ¶ client_min_messages 属性 描述 类型 enum 默认值 NOTICE 级别 USER---用户级 控制被发送给客户端的 消息严重级别 .有效值是 DEBU ...

  8. lamda获取参数集合去空_JAVA集合框架知识

    1. Vector用法和ArrayList区别 (1) Vector的特有方法有哪些? void addElement(E obj) 将指定的组件添加到此向量的末尾,将其大小增加1. (2) Vect ...

  9. lamda获取参数集合去空_集合源码解析之LinkedList

    在日常开发中,最常用的List是ArrayList其次便是LinkedList了.上次我们已经研究过了ArrayList,今天来深入学习下LinkedList... 概述 LinkedList顾名思义 ...

  10. 金仓数据库KingbaseES数据库参考手册(服务器配置参数4. 连接和认证)

    4.1. 连接设置 ¶ listen_addresses 属性 描述 类型 string 默认值 * 级别 KINGBASE---实例级 指定服务器在哪些 TCP/IP 地址上监听客户端连接.值的形式 ...

最新文章

  1. GC分析工具使用-gceacy分析堆栈
  2. python opencv 保存摄像头视频,以及fourc编码的介绍
  3. c语言enum能自定义吗,18、C语言 —— 枚举enum
  4. IoAttachDevice源码
  5. 全球顶级大学,在中国录取率却不足0.5%,答案一针见血!
  6. C++学习之路 | PTA乙级—— 1047 编程团体赛 (20 分)(精简)
  7. 显示桌面 图标 创建可以新建一个txt文件,把以下内容放入,名字改为显示桌面 .scf...
  8. 【测试能力提升】Jira 和禅道数据库分析,方便你写周报、写总结、出报告
  9. DP动态规划之背包问题(一)
  10. pkl文件与pickle.dump,pickle.load
  11. 计算机房电器设备功率密度,WP155_R0_数据中心空间和功率密度需求的计算.pdf
  12. Pycharm下载与安装教程
  13. windows系统服务器怎么锁屏,使用Windows 8的十个小贴士:自定义锁屏
  14. 获取公众号的关注链接
  15. 苹果申请新专利,iPhone或取消刘海设计
  16. gbt7714在overleaf中如何把英文作者大写变小写
  17. 很多语言转换成javaScript,介绍,转载
  18. Android音视频视频基础(H264)
  19. 头疼的动态规划:跳木板
  20. 计算机台式机硬盘,台式机装硬盘怎么安装_台式电脑硬盘安装教程-win7之家

热门文章

  1. 台湾成功大学起诉苹果Siri专利侵权 库克哥凌乱了
  2. JavaWeb查漏补缺
  3. 如何给服务器文件设置权限,如何设置服务器文件权限
  4. c++之 推箱子小游戏
  5. android 色彩管理,你买的贵价屏幕只是半成品?谈谈色彩管理那点事
  6. java中final关键字。PS:转自海子
  7. NNDL 实验五 前馈神经网络(3)鸢尾花分类
  8. MDK中编译报错 Error: L6218E: Undefined symbol SystemInit (referred from startup_cmsdk_cm0.o).
  9. 台式计算机怎么开声音,台式机如何使用耳机说话
  10. 制作PPT怎样设计图片才有观赏性