plink格式文件的介绍及相互转换
plink格式文件的介绍及相互转换
- 1. map/ped 文件
- 2. bim/fam/bed文件
- 3. plink格式文件的相互转换
- 4. 利用plink进行数据预处理(修剪SNP集)
- 5. 总结
Plink常用的文件格式有两套:map/ped 和 bim/fam/bed。两组文件均没有列名,且每一列表示的意思是一定的。几种格式之间可以相互转换。推荐使用BED/BIM/FAM这种格式,读取速度快。
1. map/ped 文件
.map文件
格式说明链接:http://www.cog-genomics.org/plink/1.9/formats#map
map格式的文件, 主要是图谱文件信息, 主要包括染色体名称, 所在的染色体和所在染色体的坐标。
map文件包括:
第一列:染色体编号(1-22, X, Y or 0 if unplaced), 未知为0;
第二列:SNP名称(字符或数字), 如果不重要, 可以从1编号, 注意要和bed文件SNP列一一对应;
第三列:染色体的摩尔位置(可选项, 可以用0);
第四列:SNP物理坐标;
示例:
1 snp1 0 1
1 snp2 0 2
1 snp3 0 3
示例说明:这里有3个SNP, 分别名为snp1, snp3, snp3 (第二列);这三个SNP在第一个染色体上 (第一列);第三列为0;第四列为SNP所在染色体的坐标。
.ped文件
格式说明链接:http://www.cog-genomics.org/plink/1.9/formats#ped
ped格式的文件, 主要包括SNP的信息, 包括个体ID, 系谱信息, 表型和SNP的分型信息。
.ped 文件主要有 6 列,后面都是基因型:
第一列: Family ID # 如果没有, 可以用个体ID代替;
第二列: Individual ID # 个体ID编号;
第三列: Paternal ID # 父本编号;
第四列: Maternal ID # 母本编号;
第五列: Sex (1=male; 2=female; other=unknown) # 性别, 如果未知, 用0表示;
第六列: Phenotype (0=unknown; 1=unaffected; 2=affected) # 表型数据, 如果未知, 用0表示;
第七列以后: 为SNP分型数据, 可以是AT CG或11 12, 或者A T C G或1 1 2 2;
示例:
1 1 0 0 1 0 G G 2 2 C C
1 2 0 0 2 0 A A 0 0 A C
1 3 1 2 1 2 0 0 1 2 A C
2 1 0 0 1 0 A A 2 2 0 0
2 2 0 0 2 2 A A 2 2 0 0
2 3 1 2 1 2 A A 2 2 A A
示例说明:数据包括两个家系 (第一列);每个家系有三个个体 (第二列);第三列父本编号;第四列母本编号;第五列性别;第六列表型值;第七、八列为第一个基因型;第九、十列为第二个基因型;第十一、十二列为第三个基因型。
2. bim/fam/bed文件
格式说明链接:http://www.cog-genomics.org/plink/1.9/formats 或 http://www.cog-genomics.org/plink/2.0/formats
.bim文件
bim文件存储每个遗传变异(通常是SNP)的相关信息,每一行代表一个遗传变异,共6列:
第一列:染色体编号(常用整数标记,如22表示第22条染色体,性染色体和线粒体染色体用’X’/‘Y’/‘XY’/‘MT’表示,而’0’ 代表染色体信息缺失);
第二列:变异标识符,这个就相当与每一个遗传变异的编号,常见的SNP可以采用以“rs”开头的编号;
第三列:每个遗传变异在基因组上的位置,用摩尔根或者厘摩尔根表示;
第四列:碱基对的坐标;
第五列:等位基因1(A1),通常是次要等位基因(minor allele);
第六列:等位基因2(A2),通常是主要等位基因(major allele)。
.fam文件
fam存储的是样本家系等信息,共6列:
第一列:家系编号(‘FID’);
第二列:个体编号(‘IID’; 不能是 ‘0’);
第三列:父系编号 (‘0’ 表示父系信息缺失);
第四列:母系编号(‘0’ 表示母系信息缺失);
第五列:性别编号(‘1’ = 男, ‘2’ = 女, ‘0’ = 性别未知);
第六列:表型值 (‘1’ = 对照, ‘2’ = 病例, ‘-9’/‘0’/表示表型缺失)。
.bed文件
bed存储基因型信息,是plink中的二元等位基因表。
解释详见 http://www.cog-genomics.org/plink/1.9/formats#bed
注意:此处的bed文件与 UCSC Genome Browser’s BED format 中的bed文件格式是完全不同的东西。
3. plink格式文件的相互转换
参考:https://zzz.bwh.harvard.edu/plink/dataman.shtml
#1. bed/bim/fam 转为 ped/map
#input files: test.bed; test.bim; test.fam #output files: test1.ped; test1.map
plink --file test --recode --out test1 #2. ped/map转为二进制格式 bed/bim/fam
#input files: test.ped; test.map #output files: test2.bed; test2.bim; test2.fam
plink --file test --make-bed --out test2#3.SNP编码成加性(字母 012)
# http://zzz.bwh.harvard.edu/plink/dataman.shtml#recode
# 注:默认编码方式:两个等位均为major allele,则编码为0;杂合等位编码为1;两个minor等位编码为2。
#input files: test.ped; test.map #output files: test.raw
plink --file test --recodeA --out test
# ped文件中, SNP的分型是1 1 2 2 或 11 22 或 AA TT 或 AA 22,均采用该命令进行转换,且不影响结果。#4.vcf转ped/map
#input files: test.vcf; #output files: test.ped; test.map
plink --vcf test.vcf --recode --out test # 当出现错误,无法读取chrom时,加 --allow-extra-chr,可以强制程序接受编号
vcftools --vcf test.vcf --plink --out test#5.bed/bim/fam转vcf
#input files: test.bed; test.bim; test.fam #output files: test.vcf
plink --bfile test --export vcf --out test
plink --bfile test --recode vcf-iid --out test plink --bfile filename --a1-allele file.bim 6 --make-bed --out newfilename # a1 a2在bim文件中替换位置。
4. 利用plink进行数据预处理(修剪SNP集)
(1) 删除基因型缺失率大于5%、次要等位基因频率小于0.01的SNPs
plink --file hapmap --geno 0.05 --maf 0.01 --out hapmap --make-bed
(2) 基于连锁不平衡的SNP修剪(窗宽500、删除LD大于0.1的SNP对中的一个、每次将窗口向前移动10个SNP)
plink --file hapmap --indep-pairwise 500 10 0.1
plink --file hapmap --extract plink.prune.in --make-bed --out prunedhapmap
(3) 基于随机采样保留部分SNPs(例如只随机保留20%的SNP)
plink --file hapmap --thin 0.2 --out hapmap --make-bed
(4) 采用上述所有步骤并输出bed、bim、fam文件
plink --file hapmap --geno 0.05 --maf 0.01 --indep-pairwise 500 10 0.1 --thin 0.2
plink --file hapmap --extract plink.prune.in --make-bed --out prunedhapmapplink --bfile cluster_remove --recode --out data --noweb #由bed文件转为ped、map文件
plink --file data --geno 0.05 --maf 0.01 --indep-pairwise 500 10 0.1 --thin 0.2
plink --file data --extract plink.prune.in --make-bed --out pruneddata
(5) 将23andme原始数据文件转化为.ped文件
plink --23file File.txt --make-bed --out NewFile
(6) 将多个数据合并
其中fileset3.txt中包含要合并的文件名。
plink --file genom0 --merge-list filesets3.txt --make-bed --out combdata
(7) 筛选vcf文件中的SNPs
在file.txt中, snp名字作为一列,无header,输出格式为vcf
vcftools --gzvcf test.vcf --snps snps.txt --recode --recode-INFO-all --out filter.snp
5. 总结
File | 第1列 | 第2列 | 第3列 | 第4列 | 第5列 | 第6列 | 第7列 | 第8列 | 第9列 | 第10列 | 第11列 | 第12列 | 说明 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
.map | 染色体 | rsID | 摩尔位置 | 物理坐标 | 图谱文件信息 | ||||||||
.ped | FID | IID | PID | MID | Sex | 表型 | SNP1_A1 | SNP1_A2 | SNP2_A1 | SNP2_A2 | … | … | 个体ID, 系谱信息, 表型和SNP的分型信息 |
.raw | FID | IID | PID | MID | Sex | 表型 | SNP1_A | SNP2_G | … | … | … | … | 个体ID, 系谱信息, 表型和SNP的分型信息 |
bed | chr | chrStart | chrEnd | name | score | strand | ThickStart | ThickEnd | ItemRgb | BlockCount Block Sizes | Block Starts | UCSC Genome Browser’s BED format | |
.bed | SNP数据,二进制格式 | ||||||||||||
.bim | chr | rsID | 摩尔位置 | 物理坐标 | A1 | A2 | SNP位置信息 | ||||||
.fam | FID | IID | PAT | MAT | Sex | 表型 | 家系表型信息 | ||||||
.vcf | chr | pos | ID | REF | ALT | QUAL | FILTER | INFO | FORMAT | sample1 | sample2 | sample3 | variant call format |
参考阅读:
plink格式的map文件和ped文件,https://blog.csdn.net/weixin_42948291/article/details/103333306
GWAS | 原理和流程 | 全基因组关联分析 | Linkage disequilibrium (LD)连锁不平衡 | 曼哈顿图 Manhattan_plot | QQ plot,https://www.cnblogs.com/leezx/p/9013615.html
plink格式文件的介绍及相互转换相关推荐
- TASSEL软件导入plink格式文件报错
之前介绍过Excel的SNP数据(Excel格式的SNP数据怎么变为plink格式),转为plink的方法,如果要导入plink格式中,会报错: 报错:显示超过区间 problem: string i ...
- 【ASE+python】实现将poscar格式文件批量转换为xsd格式文件
将poscar格式文件批量转换为xsd格式文件 ASE介绍 ASE安装 ASE的ase.io.read()与ase.io.write() ase.io.read() ase.io.write() 单份 ...
- elf格式转换为hex格式文件的两种方法
这周工作终于不太忙了,可以写点笔记总结一下了. 之前的文章如何在Keil-MDK开发环境生成Bin格式文件,介绍了如何在Keil开发环境使用fromelf软件,将生成的axf文件转换为bin文件,这次 ...
- elf格式转换为hex格式文件的两种方法 1
这周工作终于不太忙了,可以写点笔记总结一下了. 之前的文章如何在Keil-MDK开发环境生成Bin格式文件,介绍了如何在Keil开发环境使用fromelf软件,将生成的axf文件转换为bin文件,这次 ...
- 3m格式的文件怎么转换成mp3_一招就能让PDF与其他格式文件相互转换,这样的大招你值得拥有...
大家都知道,现在不少的大佬比起用Word.Excel等等这些格式文件,它们更喜欢使用PDF文件.而我们不管是将Word.Excel等文件转换成PDF,还是将PDF转换成其他格式文件,都是一件麻烦事,更 ...
- c语言打开xls文件格式,Excel2017如何打开et格式文件?Excel2017打开.et文件的方法介绍...
使用Excel2017如何打开后缀名为.et的文件?如果电脑里有.et文件,那么系统默认的打开软件是WPS表格,但是很多人的电脑里安装的多是Excel办公软件,那么有没有什么办法将其转换成Excel可 ...
- 常用视频文件的介绍(二):MP4--常用存储和光盘视频格式文件
文章目录 MP4文件格式介绍 MP4的各个部分 相关文章 MP4文件格式介绍 MP4是一套用于音频.视频信息的压缩编码标准,由国际标准化组织(ISO)和国际电工委员会(IEC)下属的"动态图 ...
- Flink大数据实时计算系列-列式存储parquet文件格式介绍、Flink进行rowformat格式文件保存
Flink大数据实时计算系列-列式存储parquet文件格式介绍 Flink进行rowformat格式文件保存 列式存储parquet文件格式介绍
- 图文介绍csh是什么格式文件以及csh文件用什么打开
内容提要:文章介绍csh是什么格式文件,.csh文件是Photoshop中的自定形状格式文件.并详细介绍csh文件用什么打开的方法.对PS感兴趣的朋友可加PS学习交流群:142574315 Photo ...
- 简要介绍一下Dos/Windows格式文件和Unix/Linux格式文件(剪不断理还乱的\r\n和\n)
DOS文件(windows格式文件)中,按一下ENTER就是输入了\r\n,这就是回车换行 MAC文件里,用\r换行 UNIX文件里,用\n换行 自己尝试了一些\r \n的组合,归纳了下规律: win ...
最新文章
- 臭名昭著的数据清理和准备问题,如何利用AI完美解决?
- python开发工具
- latex字体_[LaTeX 引擎] XeLaTeX + macOS,通过字体名调用发行版字体
- 实现文件上传进度条功能
- centos 输入密码正确进不去系统
- 虚拟主机 php .htacess,LiteSpeed添加虚拟主机+支持htaccess图文教程
- Java lamda表达式快速分组
- 移动设备的界面设计尺寸
- Linux命令详解-mkdir
- div+css强制(不)换行 .
- 使用软件测试路由器性能报告,小米路由器网络性能初步测试报告
- 基于达索系统3DE平台实现企业数字化转型的场景应用
- 鹅长微服务发现与治理巨作PolarisMesh实践-上
- (1)输入直角三角形的两个直角边的长度a,b,求斜边c的长度 (2) 编写一个程序,用于两个数的交换
- OSChina 娱乐弹弹弹——问世间情为何物,直教人生死相许
- 阿里P8熬了一个月肝出这份32W字Java面试手册,在Github标星31K+
- 基于HMM的语音合成理论知识
- .NET 6 之 ABP vNext 初体验
- 去哪儿旅游网站采集程序的设计与实现
- 基于matlab的电炉温度控制算法比较,基于matlab的电炉温度控制算法比较及仿真研究...