欢迎关注”生信修炼手册”!

有很多的软件可以进行GWAS分析,不同软件要求的输入文件格式不尽相同,最常见的文件格式就是plink中的ped/map文件,除此之外还有gen/sample文件格式。

分型文件保存的是样本中SNP位点的分型结果,有样本和SNP分型结果两类信息,首先来看下ped/map系统,ped文件主要用于记录样本的分型结果和其他的表型信息,内容示意如下

每列之间用空格分隔,第一列为样本对应的family id, 第二列为样本的id, 第三列表示父亲样本的id, 第四列表示母亲样本的id, 第五列表示性别,1是男性,2是女性,第六列表示样本的表型信息,没有就用0填充,后面的每一列代表一个snp位点的分型结果。

map文件用于记录SNP位点的信息,内容如下所示

每列之间用空格分隔,第一列为snp位点所在的染色体名称,第二列为snp id,第三列是snp位点的连锁距离,没有的话用0表示,第四列为snp位点在染色体上的位置。

在ped/map文件系统中,ped文件表示样本的家系关系和分型结果,map文件表示snp位点的metadta, 再来看下gen/sample系统,gen文件的内容示意如下

每列之间用空格分隔,第一列为snp位点所在的染色体名称,第二列为snp id,第三列为染色体的位置,第四列为不同样本中该位点的分型结果,0代表ref allle, 1代表alt allel, 每两列对应一个样本。sample文件内容如下所示

前两行内容固定,后续每一行代表一个样本,,miss表示缺失分型结果的位点比例,以上只是该文件最基本内容的展示,还可以有更多的列,用来描述样本的表型信息。gen/sample系统的命名更加直观,gen就是genotype的简写,表示SNP位点分型的结果,sample则表示样本的信息。

在实际操作中,我们经常要做的就是格式转换,文件格式的转换是非常繁琐却又必须要掌握的一项技能,gtool是一款专门针对genotype data数据进行格式化的小工具,网址如下

https://www.well.ox.ac.uk/~cfreeman/software/gwas/gtool.html

经典的应用场景如下

  1. 从大的分型结果中提取子集

  2. 从ped格式转换成gen格式

  3. 从gen格式转换成ped格式

  4. 合并多个分型结果

  5. 对分型结果的正负链进行校正

每个功能对应了一个运行模式,具体用法如下

1. Subset

从分型结果中提取子集,对样本和SNP进行筛选,对应的运行模式为-S,  基本用法如下

gtool -S \
--g  input.gen \
--s  input.sample \
--og filter.gen \
--os filter.sample \
--sample_id filter.sample.id.txt \
--inclusion filter.snp.id.txt

-g-s指定输入的genotype data, --og--os指定输出的genotype data, --sample指定需要保留的样本id, --inclusion指定需要保留的snp id。

2. PED convert to GEN

将ped格式转换为gen格式,对应的运行模式为-P, 基本用法如下

gtool -P \
--ped input.ped \
--map input.map \
--og  out.gen \
--os  out.sample

3. GEN convert to PED

将gen格式转换为ped格式,对应的运行模式为-G, 基本用法如下

gtool -G \
--g   input.gen \
--s   input.sample \
--ped out.ped \
--map out.map \

4.  Merge

合并多个分型结果,对应的运行模式为-M, 基本用法如下

gtool -M \
--g input1.gen input2.gen \
--s input1.sample input2.sample \
--log merge.log

5. Orient

将SNP位点统一调整成正链,对应的运行模式为-O, 基本用法如下

gtool -O \
--g input.gen \
--strand input.strand \
--og output.gen \
--log orient.log

--strand参数指定一个文件,描述SNP位点的方向,是一个空格分隔的两列文件,第一列为SNP在染色体上的位置,第二列为对应的正负链信息,内容示意如下

对于负链的SNP位点会进行反转,在显示allel对应的碱基时以正链进行展示。以上就是gtool的基本用法,更多细节参数请参考官方文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

gtool:操作genotype data的利器相关推荐

  1. linux命令 三大利器,awk、grep、sed是linux操作文本的三大利器,也是必须掌握的linux命令之一...

    awk.grep.sed是linux操作文本的三大利器,也是必须掌握的linux命令之一.三者的功能都是处理文本,但侧重点各不相同,其中属awk功能最强大,但也最复杂.grep更适合单纯的查找或匹配文 ...

  2. R向量化操作(Data Transformations)

     Data Transformations split(x, f, drop = FALSE, -),x是待划分的向量或数据框,f是定义了组关系的因子变量. library(MASS) g <- ...

  3. TCGA肿瘤数据分析专题

    欢迎关注"生信修炼手册"! 癌症作为人类健康的头号杀手,其研究的意义不言而喻.目前世界范围内已经有大量的肿瘤相关数据,鉴于公共数据库的数据挖掘成为一种趋势. GEO是一个国际化的开 ...

  4. 不会linux也没关系,点击鼠标即可完成的LDSC分析来了

    欢迎关注"生信修炼手册"! LDSC分析基于已有的GWAS结果,即gwas summary数据,可以评估性状的遗传力,分析两个性状间的遗传相似度.相比GREML, 其运算速度快,更 ...

  5. DNA甲基化数据分析专题

    欢迎关注"生信修炼手册"! DNA 甲基化作为重要的表观遗传学的标记,能够调控基因的表达,在生长发育和疾病相关研究领域都有着重要意义.测定甲基化的手段有很多,芯片作为一种成熟的手段 ...

  6. 想要进行gene prioritization分析,请看这里!

    欢迎关注"生信修炼手册"! 通过GWAS分析可以识别到与性状关联的SNP位点,然而从生物学角度出发,我们更想了解的是哪些基因或者通路导致了这些位点与性状的关联现象.为了解决这一问题 ...

  7. mRNA数据分析专题

    欢迎关注"生信修炼手册"! mRNA是基因实时表达的产物,研究mRNA可以探究基因表达以及调控的规律:同时也可以用于发现基因结构的变化,比如可变剪切,融合基因等事件,本文整理了mR ...

  8. GWAS中的Gene-Gene Interactions如何分析?看这里

    欢迎关注"生信修炼手册"! 在遗传学中,当两个基因相互作用然后导致对应性状的出现,说明两个基因间存在相互作用.在之前的文章中,介绍了很多的基因相互作用模型,列表如下 互补作用 积加 ...

  9. GWAS数据分析专题

    欢迎关注"生信修炼手册"! 全基因组关联分析是目前研究复杂疾病易感性的最有效手段之一,通过芯片或者高通量测序得到全基因组规模的SNP分析结果,再结合卡方,费舍尔精确检验,线性回归等 ...

  10. 一文掌握inbreeding coefficient近交系数的计算

    欢迎关注"生信修炼手册"! inbreeding coefficient,中文翻译为近交系数,近婚系数,近亲交配系数等等,用大写字母F表示.要理解这个概念,首先要搞清楚" ...

最新文章

  1. PMCAFF产品众测 | 对话随手攒CEO聊聊产品的设计、推广和改进
  2. Mybatis 一对多 结果集映射 简单入门 易懂
  3. 物联网 android前景,物联网现状及未来前景分析
  4. 写接口是什么意思啊_科普贴:果汁包装上写NFC到底是什么意思?
  5. python开发流程视频_自学Python的步骤和方法,Python入门全面视频无偿分享,使用Python开发的一些优点...
  6. lumen 下使用自定义配置文件
  7. app源码 php,PHP大型B2B2C商城源码带APP源码
  8. 计算机基础算术加法,计算机基础第二章:算术逻辑单元(How Computes Calculate——The ALU)...
  9. MPEG4视频压缩编码技术详解
  10. linux修改时区为UTC
  11. 关于学习的时间定律-21小时、1000小时、5000小时、10000小时
  12. 个人注册PowerBI账号申请
  13. 距阵乘以一个未知距阵得单位矩阵 怎么算_一个人可以 DIY 出什么高逼格的东西?...
  14. 荣耀magic4.0系统是鸿蒙系统吗,快,不依赖于高刷!荣耀30 Pro+升级Magic UI 4.0后体验...
  15. 一位大学生的自我救赎之路
  16. Developing a Large Scale Application with a Single Page Application (S
  17. libcurl库编译方法
  18. 苹果ipv6审核解决方案
  19. 车牌识别停车计费系统性能表现二 计费系统功能强大
  20. 苹果定时开关机怎么设置_苹果手机设置自动开关机

热门文章

  1. python:批量修改文件夹名称
  2. [Python]更改图片底色
  3. 八爪鱼 ajax 循环采集,网页数据采集五大循环方式详解 - 八爪鱼采集器
  4. 微信公众号H5合成图片长按下载
  5. 华为2019校招笔试题之处理字符串(python版)
  6. 关于写好一篇英文学术论文(及搞好本领域学术研究)的一些想法
  7. git 清除 commit 记录
  8. 链家40岁员工删除公司9T数据,被判7年
  9. 微信支付提示:支付失败,如果已经扣款,资金会在0~3个工作日内原路退回
  10. Linux驱动开发-编写MMA7660三轴加速度传感器