在使用此教程前,请先在Oracle VM VirtualBox或其他虚拟机中安装好优麒麟22.04版系统,或其对应源系统Ubuntu 22.04。


一、下载1240K数据包

https://reich.hms.harvard.edu/allen-ancient-dna-resource-aadr-downloadable-genotypes-present-day-and-ancient-dna-datahttps://reich.hms.harvard.edu/allen-ancient-dna-resource-aadr-downloadable-genotypes-present-day-and-ancient-dna-data

这里以基因数据包V50.0.p1的1240K数据为例。

二、下载并部署EIGENSTRAT

虽然GitHub上也有对应的非官方Windows版程序,但无论32位还是64位,都存在文件的输出大小超过2GB导致无法转化的问题,Windows子系统版的Linux(WSL)也有一定局限性,因此这一块需要在Linux系统本体或虚拟机中执行。

https://data.broadinstitute.org/alkesgroup/EIGENSOFT/EIG-6.1.4.tar.gzhttps://data.broadinstitute.org/alkesgroup/EIGENSOFT/EIG-6.1.4.tar.gz

或者使用wget+tar指令来下载安装。该文件里的程序包不用再编译安装(官方GitHub源下载的EIG需要手动编译安装)。由于优麒麟系统缺少一些依赖来运行convertf,因此还需要到Ubuntu官网下载:
https://packages.ubuntu.com/https://packages.ubuntu.com/

测试的过程中我安装了以下系统程序依赖后,convertf方可正常运行:

gcc-6-base_6.4.0-17ubuntu1_amd64.deb
gcc-8-base_8.4.0-1ubuntu1~18.04_amd64.deb
libc6_2.27-3ubuntu1.5_amd64.deb
libgcc1_8.4.0-1ubuntu1~18.04_amd64.deb
libgfortran3_6.4.0-17ubuntu1_amd64.deb
libquadmath0_8.4.0-1ubuntu1~18.04_amd64.deb

将convertf复制粘贴到数据包所在文件夹中,然后在对应路径新建空文本(重命名为:par.EIGENSTRAT.PACKEDPED),文档内容如下:

genotypename:    v50.0.p1_1240K_public.geno
snpname:         v50.0.p1_1240K_public.snp
indivname:       v50.0.p1_1240K_public.ind
outputformat:    PACKEDPED
genotypeoutname: v50.0.p1_1240K_public.bed
snpoutname:      v50.0.p1_1240K_public.bim
indivoutname:    v50.0.p1_1240K_public.fam

在要执行的路径下右击打开终端,输入

./convertf -p par.EIGENSTRAT.PACKEDPED

图为解压其他eigenstrat格式数据的过程,仅供近似展示

三、下载并部署Plink

PLINK 1.9https://www.cog-genomics.org/plink/1.9/解压plink在该路径后下右击打开终端,输入

./plink --bfile v50.0.p1_1240K_public --export vcf --out v50.0.p1_1240K_public

四、裁剪刚生成的VCF文件

打开“.ind”或“.fam”文件并对照信息的“行数+9”来切割需要的数据,使结果对应的列只有一列(因为转化原始数据时Plink不支持VCF文件种包含多列结果)。接着使用plink,也可以在文件生成后删除数据中前面所有以“#”开头的行。

比如,数据Denisova_published.DG在indiv文件中对应第501行,因此切出VCF文件前9列和第“501+9=510”列,并转换:

cut -f 1-9,510 v50.0.p1_1240K_public.vcf > temp.vcf
./plink --vcf temp.vcf --recode 23 --out ./RawData/Denisova_published.DG.txt

或者去除所有包含“#”符号的行:

cut -f 1-9,510 v50.0.p1_1240K_public.vcf > temp.vcf
./plink --vcf temp.vcf --recode 23
sed '/^#/d' plink.txt > ./RawData/Denisova_published.DG.txt

如果一次提取多个数据,那么分两次裁切VCF文件数据,示例如下:

cut -f 1-9,307-309,313-314,372 v50.0.p1_1240K_public.vcf > test6.vcfcut -f 1-9,10 test6.vcf > temp.vcf
./plink --vcf temp.vcf --recode 23
sed '/^#/d' plink.txt > ./RawData/B_Sardinian-3.DG.txtcut -f 1-9,11 test6.vcf > temp.vcf
./plink --vcf temp.vcf --recode 23
sed '/^#/d' plink.txt > ./RawData/B_Yoruba-3.DG.txtcut -f 1-9,12 test6.vcf > temp.vcf
./plink --vcf temp.vcf --recode 23
sed '/^#/d' plink.txt > ./RawData/B_Karitiana-3.DG.txtcut -f 1-9,13 test6.vcf > temp.vcf
./plink --vcf temp.vcf --recode 23
sed '/^#/d' plink.txt > ./RawData/B_Papuan-15.DG.txtcut -f 1-9,14 test6.vcf > temp.vcf
./plink --vcf temp.vcf --recode 23
sed '/^#/d' plink.txt > ./RawData/B_Ju_hoan_North-4.DG.txtcut -f 1-9,15 test6.vcf > temp.vcf
./plink --vcf temp.vcf --recode 23
sed '/^#/d' plink.txt > ./RawData/B_Han-3.DG.txt

最后删除生成的中间文件。

注意:

1. 也可以使用 bcftools query -f '%ID\t%CHROM\t%POS[\t%TGT]\n' 指令来转化VCF文件,接着在用sed指令转化之后切裁。

2. Plink转化出的类23andMe格式原始数据的Y染色体和线粒体MT的检出位点只显示单个字母而非成对出现,可能会影响少数特殊的使用情况。

3. 在用Plink转23andMe格式前,如果VCF文件的样本名中包含下划线“_”,会导致转化出错,需先想办法转化或去除。

4. Reich数据包里有少数数据的样本名备注有误,需慎用,或者另寻科研论文对应的基因数据包。

5. 也可以在convertf转化步骤后先使用 plink --bfile v50.0_1240k_public --keep list_fam.txt --make-bed --out TEST_1240k 指令来实现提取所需要的样本,其中 list_fam.txt 为从“fam”后缀名文件复制出的所需样本所在行的集合;然后再依次转化为VCF与23andMe格式,以大幅节省计算机工作量。(此次新增内容)


扩展阅读:

https://zhuanlan.zhihu.com/p/73046966https://zhuanlan.zhihu.com/p/73046966https://github.com/DReichLab/EIGhttps://github.com/DReichLab/EIGhttps://reich.hms.harvard.edu/software/InputFileFormatshttps://reich.hms.harvard.edu/software/InputFileFormatshttps://reich.hms.harvard.edu/allen-ancient-dna-resource-aadr-downloadable-genotypes-present-day-and-ancient-dna-datahttps://reich.hms.harvard.edu/allen-ancient-dna-resource-aadr-downloadable-genotypes-present-day-and-ancient-dna-data

浅谈如何在优麒麟22.04中使用Eigenstrat和Plink工具生成类23andMe格式原始数据相关推荐

  1. 优麒麟 22.04 LTS 版本正式发布 | UKUI 3.1开启全新体验

    2022 年 4 月 22 日,优麒麟团队正式发布新版本 22.04 LTS.22.04 是继 14.04.16.04.18.04 和 20.04 之后的第五个长期支持(LTS)版本,官方将提供 3 ...

  2. 雷军谈小米10售价:不贵,交个朋友;百度开源首个口罩人脸检测模型;优麒麟18.04.4 LTS发布 | 极客头条...

    整理 | 郭芮 快来收听极客头条音频版吧,智能播报由标贝科技提供技术支持. 「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注 ...

  3. 优麒麟 20.04 LTS Pro 发布 | 以初心,铸匠心

    优麒麟 20.04 LTS Pro 发布 | 附详细更新列表 北京时间 2021 年 4 月 22 日,优麒麟团队很高兴地宣布优麒麟(Ubuntu Kylin)开源操作系统 20.04 LTS Pro ...

  4. 优麒麟 20.04 LTS Pro 发布 - 以初心,铸匠心

    北京时间 2021 年 4 月 22 日,优麒麟团队很高兴地宣布优麒麟(Ubuntu Kylin)开源操作系统 20.04 LTS Pro 版本正式发布.优麒麟 20.04 Pro 是基于 20.04 ...

  5. iso安装器_U盘安装优麒麟20.04系统,Ubuntu通用

    优麒麟(Ubuntu Kylin)20.04 是优麒麟开源操作系统最新的长期支持版本,为方便用户下载安装和使用,特制作本简易安装教程,主要对系统安装盘制作和安装过程进行介绍. 一.系统U盘制作 1.下 ...

  6. 优麒麟 20.04 LTS 版本发布,UKUI3.0 灵动转身

    北京时间 2020 年 4 月 23 日,优麒麟团队很高兴地宣布优麒麟(Ubuntu Kylin)开源操作系统 20.04 LTS 版本(代号FocalFossa)正式发布.优麒麟 20.04 是继 ...

  7. 国产linux系统优麒麟下载,优麒麟 20.04 LTS Beta 版本发布下载

    北京时间 2020 年 4 月 2 日,优麒麟团队很高兴地宣布优麒麟(Ubuntu Kylin)开源操作系统 20.04 Beta 版发布,这也标志着 20.04 版本研发进入最后完善阶段. 优麒麟 ...

  8. 优麒麟 20.04 pro更换内核

    安装环境: vware workstation pro 16虚拟机 安装的优麒麟20.04 pro系统 系统镜像名:ubuntukylin-20.04-pro-amd64.iso 内核版本: 1 安装 ...

  9. 长城麒麟linux安装软件,在优麒麟20.04系统下安装软件建议到自带的软件商店中...

    优麒麟20.04系统(Ubuntu Kylin 20.04)和Deepin V20.UOS一样,都自带有软件商店程序,在这个商店里搭载有很多实用的软件,这都是经过测试能够和优麒麟20.04操作系统相互 ...

  10. 阿里云ubuntu源_优麒麟19.04即将发布,华为、阿里云、重大、360四大境像站鼎力支持!...

    截至今日,距离优麒麟19.04正式发布只剩7天了,而本次发布,除了桌面系统焕然一新外,我们的下载渠道也将进一步升级,除了默认的360下载通道之外,优麒麟还得到了华为.阿里云.重大三大开源镜像站的鼎力支 ...

最新文章

  1. Openstack服务查看镜像报错 nova image-list
  2. CMake命令之function
  3. mybatis中的mapper设计与原理
  4. Graph Search图谱搜索
  5. bzoj 2190: [SDOI2008]仪仗队 线性欧拉函数
  6. 实现延时任务的 4 种实现方案!
  7. 聚焦国际农民丰收节贸易会-张桃林:农业谋定开放新格局
  8. 遗传算法占用计算机空间,遗传算法综述摘要.doc
  9. 利用Asp.net中的AJAX制作网页上自动选取开始日期及结束日期的用户自定义控件...
  10. Ubuntu防火墙:ufw
  11. tensorflow没有这个参数_解决TensorFlow中Batch Normalization参数没有保存的问题
  12. 10-算法 快速排序
  13. 数学建模竞赛和matlab
  14. 华为云上云迁移工具案例实践:阿里云迁移到华为云
  15. 基于EMC的共模干扰与差模干扰以及抑制方法
  16. 计算机电子表格制作教案,电子表格Excel教案设计
  17. win10怎么显示文件后缀_win10系统中使用win7照片查看器(无需下载安装)
  18. 新锐任务宝推广渠道推荐
  19. 软件企业必备的认证资质证书
  20. visitor 模式

热门文章

  1. Java使用IP代理突破IP限制进行投票
  2. CVPR 2019 | SPADE 阅读笔记(翻译)
  3. 使用unity3d 接入anySDK的总结2
  4. 梧桐树定制福满满养老年金,给你养老生活源源不断的现金流!
  5. 修复Kindle,解决:误把kindle做了启动U盘后windows无法读kindle内容问题
  6. matlab实现通信系统,香农定理的介绍
  7. mysql duplicated错误码_Mysql常见错误码讲解
  8. java 去掉连续重复字符串_替换Java中连续的重复字符
  9. 麻省理工学院赵明民:能穿墙透视的计算机视觉
  10. CVPR 2022 Oral | 视频文本预训练新SOTA,港大、腾讯ARC Lab推出基于多项选择题的借口任务