这几天随便搜索snp2hla软件的参考数据集的时候发现一个韩国科学家写了一个数据集合并脚本,在使用韩国人样本测试时准确性较分别只用两个未合并的数据集准确性有所提高,于是,就找到了论文提供的脚本合并了一下。中间还有个小插曲,应该是作者在公开脚本的时候忘记放了一个R语言脚本,于是发邮件找作者要,很快就收到了这个文件,在此感谢作者!

软件主页在这里:http://software.buhmhan.com/MergeReference/

下面是我的数据集合并过程:

#1.下载软件
wget http://software.buhmhan.com/MergeReference/MergeReference.zip
unzip MergeReference.zip
#2.把缺少的R脚本放入,脚本详细见后面附的代码
mv allele2HLA_PED_by_COOK_20170622 MergeReference/
#3.合并数据准备
#Korea数据集,是google sites,需要付出点努力才能下得到
https://sites.google.com/site/scbaehanyang/hla_panel
wget https://sites.google.com/site/scbaehanyang/hla_panel/KOR_REF_1.1.zip
unzip KOR_REF_1.1.zip
#Pan-Aisa,在软件包里
wget http://software.broadinstitute.org/mpg/snp2hla/data/SNP2HLA_package_v1.0.3.tar.gz
tar zxvf SNP2HLA_package_v1.0.3.tar.gz
#4.合并
./MergeReference.csh  KOR_REF_1.1/KOR_REF_1.1 Pan-Asia/Pan-Asia  Asia ./plink
#5.生成数据集
./SNP2HLA_package_v1.0.3/MakeReference.csh MergeReference/Asia MergeReference/Asia Asia-Ref plink

这样,合并就完成了,可能还需要一些细节上的注意。

因为作者的脚本是公开的,放在这里应该没问题,脚本很小,就直接贴这里了。

#allele2HLA_PED_by_COOK_20170622
args<- commandArgs(trailingOnly = TRUE)allele.file<-as.matrix(read.table(args[1]))fam.file<-as.matrix(read.table(args[2]))sample_count<-nrow(fam.file)HLA_PED<-matrix(0,sample_count,22) #6+2*8=22HLA_PED[,1:6]<-fam.file[,1:6]for(i in (1:sample_count))
{for (j in (1:8)){if(nchar(allele.file[8*(i-1)+j,5])<8){HLA_PED[i,2*j-1+6]=0HLA_PED[i,2*j+6]=0}else{HLA_PED[i,2*j-1+6]<-strsplit(allele.file[8*(i-1)+j,5],",")[[1]][1]HLA_PED[i,2*j+6]<-strsplit(allele.file[8*(i-1)+j,5],",")[[1]][2]}}}save_HLA_PED<-args[3]write.table(HLA_PED,save_HLA_PED, sep = "\t",quote=F, col.names=F, row.names=F)

SNP2HLA之参考数据集合并提高分型准确性相关推荐

  1. 易基因|ctDNA甲基化测序分析(ctDNA-WGBS)用于癌症检测和分子分型 | 精准医学

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 多项研究已证明,循环肿瘤DNA(circulating tumor DNA,ctDNA)是癌症诊断和预后的潜在标志物.2022年08月2 ...

  2. 肿瘤的分型、分级和分期

    分型:肿瘤从什么细胞变化过来的,就是说我看肿瘤恶性程度的时候,得知道和哪种正常细胞进行比对. 分级:就是肿瘤与正常细胞的差异程度,主要就是通过肿瘤细胞的分化程度来决定的,分化越高,恶性程度越低. 分级 ...

  3. CancerSubtypes包的介绍(根据生信技能树Jimmy老师分享的乳腺癌分子分型包资料整理)

    CancerSubtypes包的介绍(根据生信技能树Jimmy老师分享的乳腺癌分子分型包资料整理,感谢Jimmy老师!) 1. 引言 2. 数据处理 2.1 基本处理 2.1.1 通过检查数据分布来分 ...

  4. 使用cost733分型软件进行SOM分型及CDO简单操作

    前期cost733安装完成后,开始正式利用该软件和下载的数据开展天气分型.注意到使用NC数据分型前需要对数据进行处理(处理过程见后文),因此还需要安装一个名为CDO的软件,该软件全名是Climate ...

  5. 多位点序列分型_多位点序列分型(MLST)在艾伯特埃希菌鉴定中的应用

    3 讨论 艾伯特埃希菌是一种新发现的肠道致病菌.起初通过常规检测方法被鉴定为致病性大肠杆菌(EPEC)或者出血性大肠杆菌(EHEC), 对该菌的误诊漏诊容易造成公众健康潜在的危险, 也会影响临床治疗效 ...

  6. k线顶分型 python_K线运用:顶分型的技术特点及应用方法

    大家周末好!昨天分享了<K线运用:底分型的技术特点及如何应用 >,既然有底,当然也会有顶,今天就给大家分享顶分型的技术特点及应用方法. 什么是顶分型 三根连续k线(蜡烛图),中间一根蜡烛图 ...

  7. python k线顶分型_【缠论】分型、笔的定义及其程序化

    K线包含关系处理和分型的定义 如果一个K线的高低点全在另一K线的范围里,称之为包含关系.针对这种K线,需要进行一些处理,去除包含关系,处理方法:向上时,把两K线的高点当高点,而两K线低点中的较高者当成 ...

  8. k线顶分型 python_顶底分型K线

    顶底分型K线 2021-01-14 牢记这三根K线组合,"低吸高抛"很简单,主力资金都害怕你知道文轩点睛主打短线,每日盘前一股,个人微信:sh60001317 人赞同了该文章我们在 ...

  9. k线顶分型 python_日线顶分型是什么意思?k线顶分型图解与操作要领

    日线底分型是什么意思? 顶分型解释一,股票术语,描述的是K线之间建立的某种模型关系,三根K线,中间的K线高点是三根K线高点的最高点,低点也是三根K线中低点的最高点.形成一个凸的分型.那么此分型被称为顶 ...

最新文章

  1. 洛谷P3374 【模板】树状数组 1(Python和C++代码)
  2. rabitMQ优缺点
  3. python判断字符_python判断字符串是字母 数字 大小写(转载)
  4. Java:数列排序 给定一个长度为n的数列,将这个数列按从小到大的顺序排列。1<=n<=200
  5. nginx文件系统大小_详解Nginx系列
  6. Python ValueError: could not convert string to float: ‘-‘ 解决办法
  7. numpy.ceil() 和 numpy.floor()--向上取整和向下取整
  8. 软件测试完后,还有bug,责任全在于测试吗?
  9. Atitit.软件gui按钮and面板---os区-----linux windows搜索文件 文件夹
  10. VS1005 功放板
  11. [iOS] MUI-WebView模式集成到iOS应用
  12. javaBean,pojo与EJB的区别
  13. 系统及服务器巡检流程图,业务巡检系统的整体设计和数据流程
  14. 银监会计算机专业考试,)(2015国家公务员考试银监会计算机专业考试分析
  15. 深度剖析淘宝天猫搜索逻辑
  16. 室内电子地图-自定义室内地图-室内地图在线工具
  17. 3, excel vba 获取表格里的单元格的值
  18. seal report oracle,甲骨文在线字典
  19. c#浅谈反射内存的处理
  20. 高中数学基础06:角、弧度与三角常用公式

热门文章

  1. 【云原生 | 从零开始学Docker】二、Docker的常用指令学习以及使用
  2. 2022全球大健康领域人才趋势洞察
  3. poj 1930 无限小数化分数
  4. 如何正确的理解PSRR
  5. 地平线:上帝视角与想象力——自动驾驶感知的新范式
  6. 哪种需求适合选择动态拨号VPS
  7. ROS学习心得——安装篇——ROS安装
  8. 《明解C语言》笔记及课后习题答案 【第十一章】
  9. 不固定图片宽高瀑布流_类百度图片的固定高度横向瀑布流js方法及纯css实现的方法记录...
  10. JavaFX学习资料,超详细