在对vcf的操作有这样三个软件:

Vcftools:主要用于群体分析,文本处理的功能不是很强大,虽然这个软件也可以拆分样本,但是这种拆分不涉及文件的处理,只是保留在分析流程里。GATK 3.x:这个软件最大的问题就是需要参考基因组,而且序列长度各个方面都要与待处理的文件一致这样就给我们的数据处理带来一定的麻烦。Bcftools:涉及文本的处理,功能很强大,后续随着我的分析还要继续介绍。

利用Bcftools按样本拆分文件主要利用了“--view”这个软件包,主要代码如下:

bcftools view -S 3k_china_indA 3k_SNP_all.vcf -O v -o 3k_china_indA.vcf 

这里面三个参数:

    -s, --samples [^]<list>       comma separated list of samples to include (or exclude with "^" prefix)-S, --samples-file [^]<file>  file of samples to include (or exclude with "^" prefix)-o,   --output-file <file>          output file name [stdout]-O,   --output-type <b|u|z|v>       b: compressed BCF, u: uncompressed BCF, z: compressed VCF, v: uncompressed VCF [v]

就可以完成了。

转载于:https://www.cnblogs.com/muuyouzhi/p/9303389.html

【BCFTOOLS】按样本拆分VCF文件相关推荐

  1. 使用bcftools提取指定样本的vcf文件(extract specified samples in vcf format)

    1.下载安装bcftools. 2.准备样本ID文件,这里命名为samplelistname.txt,一个样本一行,如下所示: sample1 sample2 sample3 3.输入命令: bcft ...

  2. gvcf文件与vcf文件

    gvcf文件与vcf文件都是vcf文件,不同之处在于gvcf文件会记录更多的信息,这里更多的信息指的是未突变的位点的覆盖情况,从下面的图我们可以直观的看出两者的区别 可以看到,gvcf文件也分两种,一 ...

  3. R语言丨根据VCF文件设计引物,自动识别两样本差异SNP位点,调用samtools获取上下游参考序列

    根据变异位点设计引物序列 今天碰到一个新问题:假如有一个vcf文件储存了两个样品的变异位点基因型数据,每行代表一个位点,我现在想找出两样本差异的SNP位点,再把差异位点用[REF/ALT]的形式表示, ...

  4. 实操 | 合并VCF文件的几种方法及注意事项

    背 景 在基因组分析领域的很多不同场景中,需要合并VCF文件. VCF文件.简单来说,就是记录样本基因型的文件.但多数VCF文件不只记录了基因型,也包含有关该基因型的来源的细节. 其它文件.VCF文件 ...

  5. R语言丨根据VCF文件自动填充对其变异位点并生成序列fa文件

    根据VCF文件自动填充对其变异位点并生成序列fa文件 首先提出一个问题: 假如有一个重测序结果VCF文件,里面包含了很多个样本在几百个突变位点(snp和iad)的基因型数据,现在想根据这份原始数据,得 ...

  6. VCF文件中QUAL和GQ的区别

    最近开始分析vcf文件, 于是去搜了相关VCF格式解读的博客. 大部分关于这两个指标的解读如下,都是描述质量值的,但也没说具体啥区别. QUAL:Phred格式(Phred_scaled)的质量值,表 ...

  7. VCF文件与vcftools简单介绍

    在用于存储reads比对结果的SAM/BAM格式提出之后(2009年),用于存储变异检测结果的格式VCF( variant call format )也被提出(2010年),与此同时作者还提供了配套的 ...

  8. 生成Yolox检测负样本-对应空文件夹txt、批量文件重命名、批量转化三通道去除小图

    1.生成Yolox检测负样本-对应空文件夹txt import os.path import cv2 from tqdm import tqdmpath = r"G:\pachong\fuy ...

  9. 大文件拆分小文件求top_将文件拆分为流

    大文件拆分小文件求top 上周,我讨论了类Pattern新的(@since 1.8)方法splitAsStream只能根据流的需要从字符序列中读取字符序列,并且不能继续进行模式匹配以创建所有可能的元素 ...

最新文章

  1. VoIP系列:VoIP的劣势
  2. wamp配置多少站点
  3. NXP (I.MX6ULL) GPT高精度延时定时器
  4. Linux IO复用区别与epoll详解
  5. Linux下send错误代码32
  6. 记录 CAP定理和BASE特性
  7. html阶梯统计,html,_有什么图表可以显示阶梯费率,html - phpStudy
  8. 套壳python_“完全自主设计、开发和实现”的编程语言,被指是Python的套壳产品?...
  9. linux DISPLAY变量
  10. Intellij IDEA创建包(package)问题解决方案
  11. c语言课程设计学生成绩管理系统作业,C语言学生成绩管理系统课程设计word版
  12. Android学习路线指南-------任玉刚
  13. 【中医学】8 中药-1
  14. 第071封“情书”:绳命20181008 Create and Simulate a Procedural Rope<Entagma>Houdini 2018
  15. 《DFC-Net:Deep Flow-Guided Video Inpainting》论文笔记
  16. c语言括号里三种字符,c语言的基本数据类型都有什么,麻烦知道用大括号分类,非常感谢...
  17. c语言求1平方根,c语言求平方根公式
  18. JAVA技术交流(学习群):51194570;JAVA技术交流(应用群):51194804
  19. 云模型的介绍及python简单实现
  20. 【机器学习算法】支持向量机(support Vector Machine,SVM)

热门文章

  1. K8S的 Custom Resource Definition(CRD)之初体验
  2. Python Django 重写delete方法实现单个对象的删除
  3. Java 程序中使用 MongoDB教程
  4. 上传镜像文件到服务器,通过把docker镜像保存为文件载入到别的服务器
  5. linux安装crontab软件包,Linux 服务器 Crontab 的安装及使用
  6. Host Switch Plus结合nginx使用
  7. arduino电源接口直径多大_求助:Arduino UNO(如下图)有三种供电方式:USB供电,5v(供应芯片,下面一排接口中“...
  8. c++算术溢出_二进制安全之堆溢出(系列)——CTF环境配置
  9. 电脑如何测网速_Macbook Pro怎么查看网速Mac怎么测网速?
  10. vscode / 杂项