1.什么是HLA:

HLA(human leukocyte antigen ,人类白细胞抗原)是人类的主要组织相容性复合体(MHC)的表达产物,该系统是所知人体最复杂的多态系统。自1958年发现(Jean Dausset)第一个HLA抗原,到20世纪70年代,HLA便成为免疫遗传学、免疫生物学和生物化学等学科的一个重要新兴研究领域。已基本弄清其系统的组成、结构和功能,阐明了其理化性质和生物学作用。这些研究成果不仅具有重要的理论意义,而且具有巨大的生物医学价值。

2.使用全外显子组测序(WES)检测HLA基因中的体细胞突变受到HLA基因座的高度多态性的阻碍。主要难点有两个:

(1)人类参考基因组的每一个HLA基因都有一个单一的序列,很可能会歪曲个体的真实等位基因,从而导致次优比对。
(2)HLA基因富含GC碱基,因此由于捕获和扩增效率较低,测序覆盖率较低,测序错误增加,从而进一步降低了比对率。

针对以上原因,作者团队开发了 Polysolver算法,使用相对低覆盖率的WES数据,也可以实现高精度的HLA分型。

3.作者使用数据:8例慢性淋巴细胞白血病(CLL)患者的训练数据,这些数据包括WES数据以及传统的基于PCR的HLA分型。

首先证实了这组HLA基因中GC含量与覆盖度之间存在预期的低覆盖度和负相关关系。如图1。

4.作者认为可以通过与所有已知HLA等位基因库比对,来避免HLA read 未能与标准的reference有效比对这种情况。使用该比对结果来进行后面的HLA分型工作。总结下来,Polysolver包括以下步骤:

1. 改进HLA read 检索和比对;(1)生成了POLYSOLVER等位基因数据库,即所有已知HLA等位基因的全长基因组参考文库,使用IMGT数据库里面的MSA文件。(2)选择K-mer。图2显示为不同k-mer的比对特异性。WES数据为76-mer双端read作者选择38-mer作为tag library,保证接下来数据分析的100%灵敏度和23.3%的特异性。次步得到图3中的可能的HLA read(绿色框框部分)。(3)精准比对,使用Novoalign算法对(2)得到的所有read比对到POLYSOLVER等位基因数据库,保留每条read的所有最佳比对。2. 采用两步贝叶斯分类方法对HLA等位基因进行推理。基于贝叶斯计算推断每个HLA基因的两个等位基因,该计算考虑了比对reads的基本特征,包括insert size的大小,以及每个等位基因的种族依赖性先验概率。HLA等位基因名称长这样(A*01:38或 B*46:71 或  C*16:118),A,B,C指定基因名称;01,46,16指定血清活性;38,71,118指定蛋白质序列。

5.POLYSOLVER-based 突变检测:

(1)通过在正常样品上应用POLYSOLVER来推断HLA类型
(2)将肿瘤和正常样品中的HLA reads与推断的HLA等位基因重新比对,同时滤除可能的错误比对。
(3)通过比较重新排列的肿瘤和正常HLA reads,应用标准工具检测体细胞突变(MuTect和Strelka)。
(4)对检测结果的基因区和氨基酸改变信息注释。

6.下载安装方式:

https://github.com/jason-weirather/hla-polysolver

7.测试:

(1)HLA分型:

shell_call_hla_type hla-polysolver test/test.bam Unknown 1 hg19 STDFQ 0 output
-bam: path to the BAM file to be used for HLA typing/bam文件
-race: ethnicity of the individual (Caucasian, Black, Asian or Unknown)/人种
-includeFreq: flag indicating whether population-level allele frequencies should be used as priors (0 or 1)
指示是否应将人群水平等位基因频率用作先验标记(0或1)
-build: reference genome used in the BAM file (hg18 or hg19)/bam中用的参考基因组
-format: fastq format (STDFQ, ILMFQ, ILM1.8 or SLXFQ; see Novoalign documentation)
fastq的格式
-insertCalc: flag indicating whether empirical insert size distribution should be used in the model (0 or 1)
标志,指示是否应在模型中使用经验插入尺寸分布(0或1)
-outDir: output directory

输出文件是:

(2)基于POLYSOLVER的突变检测:

./scripts/shell_call_hla_mutations_from_type normal_bam_hla tumor_bam_hla hla build format outDir-normal_bam_hla: path to the normal BAM file-tumor_bam_hla: path to the tumor BAM file-hla: inferred HLA allele file from POLYSOLVER (winners.hla.txt or winners.hla.nofreq.txt)-build: reference genome used in the BAM file (hg18 or hg19)-format: fastq format (STDFQ, ILMFQ, ILM1.8 or SLXFQ; see Novoalign documentation)-outDir: output directory

(3)突变注释:

./scripts/shell_annotate_hla_mutations indiv dir-indiv: individual ID, used as prefix for output files
-dir: directory containing the raw call files (Mutect: call_stats*, Strelka: *all.somatic.indels.vcf). Also the output directory

由于只需要HLA分型结果,所以后面没跑,有时间来更新。

本博主新开公众号, 希望大家能扫码关注一下,十分感谢大家。

本文主要参考:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4747795/

https://www.jianshu.com/p/5fc80f1554f3

https://zhuanlan.zhihu.com/p/62944810?from_voters_page=true

Polysolver预测HLA分型原理及测试相关推荐

  1. 2021年中国移植HLA分型市场趋势报告、技术动态创新及2027年市场预测

    移植HLA分型市场的企业竞争态势 该报告涉及的主要国际市场参与者有Abbott.Bio-Rad Laboratories.CareDx.Qiagen N.V..Thermo Fischer Scien ...

  2. kasp技术原理_KASP-基于已知SNP的高通量基因分型

    一.什么是SNP? SNP,即单核苷酸多态性,是指在基因组水平上由单个核苷酸的变异而引起的一种DNA序列多态性. SNP研究具有广泛意义,在农业领域中,可以进行性状基因的精细定位.分子辅助育种.种子资 ...

  3. k线顶分型 python_顶底分型-(K线分类及顶底分型的一种数学原理 源码 贴图)...

    好股票软件下载网(www.goodgupiao.com)提示:您正在下载的是:顶底分型-(K线分类及顶底分型的一种数学原理 源码 贴图) 参考缠论,研究了很多天终于将顶底分型进行了具体的数学量化,涵盖 ...

  4. 多位点序列分型_细菌多位点序列分型(Multilocus sequence typing,MLST)的原理及分型方法...

    摘 要: 多位点序列分型(MLST)是一种基于核酸序列测定的细菌分型方法,通过PCR扩增多个管家基因内部片段,测定其序列,分析菌株的变异,从而进行分型.MLST被广泛应用于病原菌.环境菌和真核生物中. ...

  5. 2021-06-21 12点 程序外生活 - 中国A50指数 机器预测学习跟踪记录 - 周六反弹失败,等待跌完,继续等待4小时第一个底分型出现。周月线持续跌势。

    2021年6月21日12点 4小时:周六反弹失败,持续下行,跌幅加速度降低,存在继续反弹迹象,但需要等待底分型出现. 日线级别:下跌速度不变,等待4小时底分型出现. 周线级别:  继续保持下行,有加速 ...

  6. vnpy+缠论测试笔记1: chart绘图标识顶底分型

    快速索引 加载数据 数据加载过程和调用关系 辨别顶底分型并在K线图中进行标识 加载数据 bars = database_manager.load_bar_data("IF888", ...

  7. 徐瑞华/王峰教授团队建立我国千人肠癌基因组新分型

    撰文 | 赵齐/陈衍行 结直肠癌(Colorectal cancer, CRC)是全球发病率排名第三的恶性肿瘤,每年新发病例超过180万,死亡病例超过91万[1].深入探索结直肠癌基因组分子特征,是未 ...

  8. 易基因|ctDNA甲基化测序分析(ctDNA-WGBS)用于癌症检测和分子分型 | 精准医学

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 多项研究已证明,循环肿瘤DNA(circulating tumor DNA,ctDNA)是癌症诊断和预后的潜在标志物.2022年08月2 ...

  9. 多位点序列分型_bionumerics应用16-全基因多位点序列分型(wgMLST)

    全基因多位点序列分型(wgMLST) 过去的15年中,多位点序列分型(MLST)已被证明可用于细菌的分子分型.传统的MLST分析框架通常定义七个位点(管家基因),这些基因使用Sanger技术进行测序. ...

最新文章

  1. 上大学后男生的两种变化
  2. php的yii框架配置,php配置yii框架_PHP教程
  3. 接口测试之post常见数据提交方式
  4. lnmp的php.ini,lamp/lnmp优化3--phpini
  5. paip.验证码识别---判断图片是否是彩色图片
  6. 浏览器必备6大宝藏网站,再也不用求资源!良心安利速速收藏
  7. ERStudio 8.0 连接MS SQL SERVER进行反向工程
  8. CentOS 、Linux 配置国内阿里源、yum源镜像
  9. Linux---ALSA音频工具arecord、aplay、amixer使用
  10. Assuming drive cache: write through 因为硬盘内存不足VM虚拟机开不了机的问题
  11. java实现仓储选址_邮局选址问题 (Java代码)并不难
  12. JVM cpu过高排查
  13. Unix Domain Sockets
  14. dfs和bfs走迷宫
  15. 外卖项目05---套餐管理业务开发
  16. Maven从入门到精通
  17. 结合泛函极值_(二) 泛函的极值
  18. 国家杰青!“80后”二级教授,任大学副校长!
  19. (王道计算机组成原理)第二章数据的表示和运算-第二节7:定点数除法运算(原码/补码一位除法)
  20. 年薪500k阿里云大咖:掌握好以下数据库八大要点,月薪50k不是梦

热门文章

  1. 一个真正的君子应当施恩不图回报
  2. c语言假币问题,阅读下列说明和C代码,回答问题 1 至问题 3,将解答写在答题纸的对应栏内。 【说明】 假币问题:有n - 赏学吧...
  3. visual studio 2017 installer 安装包制作过程出现的问题---无法注册模块 HRESULT -2147024769 请与您的技术支持人员联系
  4. 废旧Android手机如何改造成Linux服务器?
  5. 计算机主机光驱弹不出来,Win7电脑光驱弹不出来的原因和解决方案
  6. LIO-SAM代码流程详解
  7. 运行虚拟机系统,提示打不开DISK,启动失败的错误
  8. App 接入91平台步骤
  9. 求解多变量非线性全局最优解_一种求解约束条件下多变量非线性函数所有全局最优解的区间算法...
  10. 【答辩问题】计算机专业本科毕业设计答辩详细指导