plink格式文件的介绍及相互转换

  • 1. map/ped 文件
  • 2. bim/fam/bed文件
  • 3. plink格式文件的相互转换
  • 4. 利用plink进行数据预处理(修剪SNP集)
  • 5. 总结

Plink常用的文件格式有两套:map/ped 和 bim/fam/bed。两组文件均没有列名,且每一列表示的意思是一定的。几种格式之间可以相互转换。推荐使用BED/BIM/FAM这种格式,读取速度快。

1. map/ped 文件

.map文件
格式说明链接:http://www.cog-genomics.org/plink/1.9/formats#map
map格式的文件, 主要是图谱文件信息, 主要包括染色体名称, 所在的染色体和所在染色体的坐标。

map文件包括:

第一列:染色体编号(1-22, X, Y or 0 if unplaced), 未知为0;
第二列:SNP名称(字符或数字), 如果不重要, 可以从1编号, 注意要和bed文件SNP列一一对应;
第三列:染色体的摩尔位置(可选项, 可以用0);
第四列:SNP物理坐标;

示例:

1 snp1 0 1
1 snp2 0 2
1 snp3 0 3

示例说明:这里有3个SNP, 分别名为snp1, snp3, snp3 (第二列);这三个SNP在第一个染色体上 (第一列);第三列为0;第四列为SNP所在染色体的坐标。

.ped文件
格式说明链接:http://www.cog-genomics.org/plink/1.9/formats#ped
ped格式的文件, 主要包括SNP的信息, 包括个体ID, 系谱信息, 表型和SNP的分型信息。

.ped 文件主要有 6 列,后面都是基因型:

第一列: Family ID # 如果没有, 可以用个体ID代替;
第二列: Individual ID # 个体ID编号;
第三列: Paternal ID # 父本编号;
第四列: Maternal ID # 母本编号;
第五列: Sex (1=male; 2=female; other=unknown) # 性别, 如果未知, 用0表示;
第六列: Phenotype (0=unknown; 1=unaffected; 2=affected) # 表型数据, 如果未知, 用0表示;
第七列以后: 为SNP分型数据, 可以是AT CG或11 12, 或者A T C G或1 1 2 2;

示例:

1 1 0 0 1 0 G G 2 2 C C
1 2 0 0 2 0 A A 0 0 A C
1 3 1 2 1 2 0 0 1 2 A C
2 1 0 0 1 0 A A 2 2 0 0
2 2 0 0 2 2 A A 2 2 0 0
2 3 1 2 1 2 A A 2 2 A A

示例说明:数据包括两个家系 (第一列);每个家系有三个个体 (第二列);第三列父本编号;第四列母本编号;第五列性别;第六列表型值;第七、八列为第一个基因型;第九、十列为第二个基因型;第十一、十二列为第三个基因型。

2. bim/fam/bed文件

格式说明链接:http://www.cog-genomics.org/plink/1.9/formats 或 http://www.cog-genomics.org/plink/2.0/formats

.bim文件
bim文件存储每个遗传变异(通常是SNP)的相关信息,每一行代表一个遗传变异,共6列:
第一列:染色体编号(常用整数标记,如22表示第22条染色体,性染色体和线粒体染色体用’X’/‘Y’/‘XY’/‘MT’表示,而’0’ 代表染色体信息缺失);
第二列:变异标识符,这个就相当与每一个遗传变异的编号,常见的SNP可以采用以“rs”开头的编号;
第三列:每个遗传变异在基因组上的位置,用摩尔根或者厘摩尔根表示;
第四列:碱基对的坐标;
第五列:等位基因1(A1),通常是次要等位基因(minor allele);
第六列:等位基因2(A2),通常是主要等位基因(major allele)。

.fam文件
fam存储的是样本家系等信息,共6列:
第一列:家系编号(‘FID’);
第二列:个体编号(‘IID’; 不能是 ‘0’);
第三列:父系编号 (‘0’ 表示父系信息缺失);
第四列:母系编号(‘0’ 表示母系信息缺失);
第五列:性别编号(‘1’ = 男, ‘2’ = 女, ‘0’ = 性别未知);
第六列:表型值 (‘1’ = 对照, ‘2’ = 病例, ‘-9’/‘0’/表示表型缺失)。

.bed文件
bed存储基因型信息,是plink中的二元等位基因表。
解释详见 http://www.cog-genomics.org/plink/1.9/formats#bed
注意:此处的bed文件与 UCSC Genome Browser’s BED format 中的bed文件格式是完全不同的东西。

3. plink格式文件的相互转换

参考:https://zzz.bwh.harvard.edu/plink/dataman.shtml

#1. bed/bim/fam 转为 ped/map
#input files: test.bed; test.bim; test.fam  #output files: test1.ped; test1.map
plink --file test --recode --out test1 #2. ped/map转为二进制格式 bed/bim/fam
#input files: test.ped; test.map  #output files: test2.bed; test2.bim; test2.fam
plink --file test --make-bed --out test2#3.SNP编码成加性(字母 012)
# http://zzz.bwh.harvard.edu/plink/dataman.shtml#recode
# 注:默认编码方式:两个等位均为major allele,则编码为0;杂合等位编码为1;两个minor等位编码为2。
#input files: test.ped; test.map  #output files: test.raw
plink --file test --recodeA --out test
# ped文件中, SNP的分型是1 1 2 2 或 11 22  或 AA TT 或 AA 22,均采用该命令进行转换,且不影响结果。#4.vcf转ped/map
#input files: test.vcf;  #output files: test.ped; test.map
plink --vcf test.vcf --recode --out test   # 当出现错误,无法读取chrom时,加 --allow-extra-chr,可以强制程序接受编号
vcftools --vcf test.vcf --plink --out test#5.bed/bim/fam转vcf
#input files: test.bed; test.bim; test.fam  #output files: test.vcf
plink --bfile test --export vcf --out test
plink --bfile test --recode vcf-iid --out test  plink --bfile filename --a1-allele file.bim 6 --make-bed --out newfilename # a1 a2在bim文件中替换位置。

4. 利用plink进行数据预处理(修剪SNP集)

(1) 删除基因型缺失率大于5%、次要等位基因频率小于0.01的SNPs

plink --file hapmap --geno 0.05 --maf 0.01 --out hapmap --make-bed

(2) 基于连锁不平衡的SNP修剪(窗宽500、删除LD大于0.1的SNP对中的一个、每次将窗口向前移动10个SNP)

plink --file hapmap --indep-pairwise 500 10 0.1
plink --file hapmap --extract plink.prune.in --make-bed --out prunedhapmap

(3) 基于随机采样保留部分SNPs(例如只随机保留20%的SNP)

plink --file hapmap --thin  0.2 --out hapmap --make-bed

(4) 采用上述所有步骤并输出bed、bim、fam文件

plink --file hapmap --geno 0.05 --maf 0.01 --indep-pairwise 500 10 0.1 --thin 0.2
plink --file hapmap --extract plink.prune.in --make-bed --out prunedhapmapplink --bfile cluster_remove --recode --out data --noweb #由bed文件转为ped、map文件
plink --file data --geno 0.05 --maf 0.01 --indep-pairwise 500 10 0.1 --thin 0.2
plink --file data --extract plink.prune.in --make-bed --out pruneddata

(5) 将23andme原始数据文件转化为.ped文件

plink --23file File.txt --make-bed --out NewFile

(6) 将多个数据合并
其中fileset3.txt中包含要合并的文件名。

plink --file genom0 --merge-list filesets3.txt --make-bed --out combdata

(7) 筛选vcf文件中的SNPs
在file.txt中, snp名字作为一列,无header,输出格式为vcf

vcftools --gzvcf test.vcf --snps snps.txt --recode --recode-INFO-all --out filter.snp

5. 总结

File 第1列 第2列 第3列 第4列 第5列 第6列 第7列 第8列 第9列 第10列 第11列 第12列 说明
.map 染色体 rsID 摩尔位置 物理坐标 图谱文件信息
.ped FID IID PID MID Sex 表型 SNP1_A1 SNP1_A2 SNP2_A1 SNP2_A2 个体ID, 系谱信息, 表型和SNP的分型信息
.raw FID IID PID MID Sex 表型 SNP1_A SNP2_G 个体ID, 系谱信息, 表型和SNP的分型信息
bed chr chrStart chrEnd name score strand ThickStart ThickEnd ItemRgb BlockCount Block Sizes Block Starts UCSC Genome Browser’s BED format
.bed SNP数据,二进制格式
.bim chr rsID 摩尔位置 物理坐标 A1 A2 SNP位置信息
.fam FID IID PAT MAT Sex 表型 家系表型信息
.vcf chr pos ID REF ALT QUAL FILTER INFO FORMAT sample1 sample2 sample3 variant call format

参考阅读:

plink格式的map文件和ped文件,https://blog.csdn.net/weixin_42948291/article/details/103333306
GWAS | 原理和流程 | 全基因组关联分析 | Linkage disequilibrium (LD)连锁不平衡 | 曼哈顿图 Manhattan_plot | QQ plot,https://www.cnblogs.com/leezx/p/9013615.html

plink格式文件的介绍及相互转换相关推荐

  1. TASSEL软件导入plink格式文件报错

    之前介绍过Excel的SNP数据(Excel格式的SNP数据怎么变为plink格式),转为plink的方法,如果要导入plink格式中,会报错: 报错:显示超过区间 problem: string i ...

  2. 【ASE+python】实现将poscar格式文件批量转换为xsd格式文件

    将poscar格式文件批量转换为xsd格式文件 ASE介绍 ASE安装 ASE的ase.io.read()与ase.io.write() ase.io.read() ase.io.write() 单份 ...

  3. elf格式转换为hex格式文件的两种方法

    这周工作终于不太忙了,可以写点笔记总结一下了. 之前的文章如何在Keil-MDK开发环境生成Bin格式文件,介绍了如何在Keil开发环境使用fromelf软件,将生成的axf文件转换为bin文件,这次 ...

  4. elf格式转换为hex格式文件的两种方法 1

    这周工作终于不太忙了,可以写点笔记总结一下了. 之前的文章如何在Keil-MDK开发环境生成Bin格式文件,介绍了如何在Keil开发环境使用fromelf软件,将生成的axf文件转换为bin文件,这次 ...

  5. 3m格式的文件怎么转换成mp3_一招就能让PDF与其他格式文件相互转换,这样的大招你值得拥有...

    大家都知道,现在不少的大佬比起用Word.Excel等等这些格式文件,它们更喜欢使用PDF文件.而我们不管是将Word.Excel等文件转换成PDF,还是将PDF转换成其他格式文件,都是一件麻烦事,更 ...

  6. c语言打开xls文件格式,Excel2017如何打开et格式文件?Excel2017打开.et文件的方法介绍...

    使用Excel2017如何打开后缀名为.et的文件?如果电脑里有.et文件,那么系统默认的打开软件是WPS表格,但是很多人的电脑里安装的多是Excel办公软件,那么有没有什么办法将其转换成Excel可 ...

  7. 常用视频文件的介绍(二):MP4--常用存储和光盘视频格式文件

    文章目录 MP4文件格式介绍 MP4的各个部分 相关文章 MP4文件格式介绍 MP4是一套用于音频.视频信息的压缩编码标准,由国际标准化组织(ISO)和国际电工委员会(IEC)下属的"动态图 ...

  8. Flink大数据实时计算系列-列式存储parquet文件格式介绍、Flink进行rowformat格式文件保存

    Flink大数据实时计算系列-列式存储parquet文件格式介绍 Flink进行rowformat格式文件保存 列式存储parquet文件格式介绍

  9. 图文介绍csh是什么格式文件以及csh文件用什么打开

    内容提要:文章介绍csh是什么格式文件,.csh文件是Photoshop中的自定形状格式文件.并详细介绍csh文件用什么打开的方法.对PS感兴趣的朋友可加PS学习交流群:142574315 Photo ...

  10. 简要介绍一下Dos/Windows格式文件和Unix/Linux格式文件(剪不断理还乱的\r\n和\n)

    DOS文件(windows格式文件)中,按一下ENTER就是输入了\r\n,这就是回车换行 MAC文件里,用\r换行 UNIX文件里,用\n换行 自己尝试了一些\r \n的组合,归纳了下规律: win ...

最新文章

  1. 臭名昭著的数据清理和准备问题,如何利用AI完美解决?
  2. python开发工具
  3. latex字体_[LaTeX 引擎] XeLaTeX + macOS,通过字体名调用发行版字体
  4. 实现文件上传进度条功能
  5. centos 输入密码正确进不去系统
  6. 虚拟主机 php .htacess,LiteSpeed添加虚拟主机+支持htaccess图文教程
  7. Java lamda表达式快速分组
  8. 移动设备的界面设计尺寸
  9. Linux命令详解-mkdir
  10. div+css强制(不)换行 .
  11. 使用软件测试路由器性能报告,小米路由器网络性能初步测试报告
  12. 基于达索系统3DE平台实现企业数字化转型的场景应用
  13. 鹅长微服务发现与治理巨作PolarisMesh实践-上
  14. (1)输入直角三角形的两个直角边的长度a,b,求斜边c的长度 (2) 编写一个程序,用于两个数的交换
  15. OSChina 娱乐弹弹弹——问世间情为何物,直教人生死相许
  16. 阿里P8熬了一个月肝出这份32W字Java面试手册,在Github标星31K+
  17. 基于HMM的语音合成理论知识
  18. .NET 6 之 ABP vNext 初体验
  19. 去哪儿旅游网站采集程序的设计与实现
  20. 基于matlab的电炉温度控制算法比较,基于matlab的电炉温度控制算法比较及仿真研究...

热门文章

  1. Git GitHub Gitee使用方法
  2. Win10系统在哪里卸载软件
  3. 对象数组中根据某个属性名的值相同,求某一项的和。
  4. 服务器两广豪杰维护,逆水寒11月22日更新到几点 世界boss即将掉落逆水之寒
  5. UVM基本介绍(UVM class hierarchy、验证平台、树状图)
  6. javascript 图(Graphs)算法与说明
  7. 如何使用Hyper-V Manager和Powershell合并Hyper-V检查点
  8. Android中淡入淡出动画
  9. 嵌入式平台WIFI AP模式测试
  10. 数学基础——数理逻辑