rsem比对_基于二代测序的肿瘤新生抗原检测方法、装置和存储介质与流程

本申请涉及肿瘤新生抗原检测领域，特别是涉及一种基于二代测序的肿瘤新生抗原检测方法、装置和存储介质。

背景技术：

肿瘤特异性抗原(tumor-specific antigens,缩写TSAs)是指肿瘤细胞所特有的抗原，又称新生抗原(neoantigens)。肿瘤特异性抗原被提出于上世纪前半叶，之后随着分子生物学发展及对主要组织相容性复合体(major histocompatibility complex，缩写MHC)分子功能的深入认识，Boon等人首先发现在肿瘤中，有肿瘤产生的特异性肽段与MHC分子复合物可以被CD8+或者是CD4+等T细胞识别。随后的研究认识到这些能被T细胞识别的抗原来自于肿瘤的基因组变异表达成肿瘤特有的肽段(neo-epitopes)，被定义为新生抗原(neoantigens)。与肿瘤相关性抗原不同，肿瘤特异性抗原只存在于肿瘤细胞中。

最近免疫检查点抑制治疗已经在临床中取得巨大的成功，尤其是对突变负荷比较高的肿瘤患者。因为肿瘤的突变负荷高，表达出来的肿瘤新生抗原就比较多，从而容易引起体内T细胞识别并且杀伤肿瘤细胞。因此肿瘤新生抗原的数量和质量影响着免疫治疗的第一步，起了关键性的作用。2013年，肿瘤免疫治疗被Science评为十大科技进展之首，以Rosenberg、Schreiber等为首的科学家引领了肿瘤新生抗原的研究热潮。2014年5月，Rosenberg团队在《science》杂志报道过一个划时代的成功案例：利用体外扩增的、能特异性识别癌细胞基因突变导致的异常蛋白的淋巴细胞，成功治疗了一例极度恶性的晚期胆管癌患者。2016年末，Rosenberg团队筛选出了靶向KRAS基因G12D突变后的肿瘤新生抗原的TIL细胞，扩增回输后使得肿瘤消退，文章发表在顶级医学杂志《NEJM》。2017年，Catherine J.Wu和Ugur Sahin同时发表《nature》报道基于肿瘤新生抗原的个性化肿瘤疫苗通过早期临床试验。可见，肿瘤新生抗原的检测对免疫治疗具有重要意义。

目前已公布的肿瘤新生抗原的预测流程主要包括EpiToolKit和Epi-Seq。但是，EpiToolKit只是从突变出发，并没有考虑测序数据的深度和覆盖度，没有从数据质量上考虑突变的质量情况，从而无法判断所获得的新生抗原的质量。此外，EpiToolKit没有考虑表达丰度，没有考虑新生抗原的表达情况，会造成预测假阳性，无法筛选高质量新生抗原。很多DNA层面的突变是不表达的，平均可能有50％的突变是不表达的，因此可能造成预测新生抗原的假阳性。而且突变的表达有高有低，表达越高，总体上产生的免疫原性越强。另外，EpiToolKit也没有考虑突变肽和正常肽的比较，高质量的新生抗原一般是突变肽的亲和力比正常肽的亲和力要高，而EpiToolKit缺乏这样的比较，也会造成高质量新生抗原的筛选有假阳性。

Epi-Seq只是从肿瘤的表达数据出发预测肿瘤特异性抗原，从表达数据预测新生抗原，同样会造成假阳性。一方面，受RNA编辑的影响，容易造成假阳性；另一方面，因为RNA测序是从cDNA反转录后再测序的，这个过程也会引入很大的假阳性；再一方面，就是tumor cDNA VS germline DNA在检测方法上会有很多的假阳性。以上因素导致Epi-Seq获得的新生抗原存在较多的假阳性。

因此，目前还没有能够直接从测序比对结果出发，从多个角度筛选高质量的肿瘤新生抗原的方法和流程。

技术实现要素：

本申请的目的是提供一种新的基于二代测序的肿瘤新生抗原检测方法、装置和存储介质。

为了实现上述目的，本申请采用了以下技术方案：

本申请的第一方面公开了一种基于二代测序的肿瘤新生抗原检测方法，该方法包括以下步骤，

变异检测步骤，包括采用至少两种突变检测软件对肿瘤样本和正常样本的测序结果的比对文件进行肿瘤体细胞点突变和插入缺失突变进行检测，取两种突变检测软件检出的交集作为候选突变；同时，对肿瘤转录组测序结果的比对文件进行融合基因突变检测，将检出的融合基因突变也作为候选突变；其中，两种突变检测软件检出的交集是指两种突变检测软件都同时有检测到的突变，本申请的一种实现方式中，具体采用了VarScan和mutect两款软件检测点突变和插入缺失突变，并采用STAR-Fusion检测融合基因突变；

MHC分子鉴定步骤，包括分别采用HLA分子类型检测软件polysolver和BWA mem对正常样本和肿瘤样本的HLA分子类型进行检测，如果polysolver检测的肿瘤样本的HLA分子和正常样本匹配，则作为HLA分子亚型结果输出；如果不匹配，则检查BWA mem检测的肿瘤样本的HLA分子和正常样本的匹配情况，如果匹配则将BWA mem的HLA分子亚型检测结果输出，如果仍然不匹配，则输出空的结果，表明无法判断HLA的分子亚型；

变异注释步骤，包括对候选突变中的点突变和插入缺失突变进行基因组突变到氨基酸突变的注释；本申请的一种实现方式中，具体采用VEP(Variant Effect Prediction)进行注释；

突变肽段预测步骤，包括对候选突变中的点突变、插入缺失突和融合基因突变的肽段进行预测；具体包括，以点突变的突变氨基酸为中心，前后延伸至少10个氨基酸的长度作为点突变的突变预测肽段；以插入缺失突变的突变位置为中心，向前延伸至少10个氨基酸的长度，向后延伸直至到达正常的氨基酸翻译的位置，作为插入缺失突变的突变预测肽段；以融合基因突变的融合位点为中心，截取将融合基因的3’端和5’端的至少10个氨基酸作为融合基因突变的突变预测肽段；本申请的一种实现方式中，具体采用transvar工具进行基因组突变肽段的预测；

突变肽段MHC I型和MHC II型亲和力预测步骤，包括将MHC分子鉴定步骤得到的肿瘤样本的HLA(人类淋巴细胞抗原human lymphocyte antigen，缩写HLA)分子类型、突变肽段预测步骤获得的突变预测肽段，以及突变预测肽段对应的野生型肽段序列作为MHC I型和MHC II型亲和力预测软件的输入，分别预测突变肽段与MHC I型和MHC II型基因的亲和力水平，将预测的亲和力水平小于500nM的作为候选肿瘤新生抗原；本申请的一种实现方式中，亲和力预测软件具体采用了netMHCpan和netMHCIIpan，500nM是一个常规的判定值；

抗原表达丰度检测步骤，包括采用抗原表达丰度计算软件检测候选肿瘤新生抗原中各突变预测肽段的抗原表达丰度；本申请的一种实现方式中，具体采用RSEM软件计算突变肽段的TPM值作为新抗原表达丰度；

克隆性分析步骤，包括采用突变克隆性分析软件检测候选肿瘤新生抗原中各突变预测肽段的克隆性，克隆性用突变细胞在所测肿瘤组织中占肿瘤细胞的比例表征；本申请的一种实现方式中，具体采用PyClone计算抗原所在的突变的克隆性，并输出新生抗原的克隆的概率和亚克隆的概率，即突变的克隆的概率和亚克隆的概率；

候选肿瘤新生抗原综合打分排序步骤，包括按照公式一对候选肿瘤新生抗原中各突变预测肽段进行打分，按照分值由高到低排序，选取分值高者作为肿瘤新生抗原；

公式一：Score(m)＝EpitopeContent(m)×ExpressionLevel(m)×ClonalLevel(m)

公式一中，Score(m)为突变预测肽段m的总分值，EpitopeContent(m)表示新生抗原m所对应的所有具有MHC亲和力的抗原肽段p的打分值的总和；ExpressionLevel(m)表示新生抗原m的抗原表达丰度；ClonalLevel(m)表示新生抗原m的克隆性。

可以理解，本申请对所有候选肿瘤新生抗原进行综合打分排序，分数越高的新生抗原，其质量越高，将高分值的新生抗原作为细胞或疫苗治疗的靶点效果越好，因此，在选择应用时按照分值由高到低，优先选择高分值的新生抗原。

需要说明的是，本申请的肿瘤新生抗原检测方法，直接从二代测序的比对结果出发，检测突变和MHC类型，并从抗原表达丰度、克隆性和MHC亲和力等多个角度对候选肿瘤新生抗原进行打分，从而筛选出高质量的肿瘤新生抗原。因此，本申请的肿瘤新生抗原检测方法具有以下优势：1)可进行多种变异肽段的筛选，包括：错义突变，剪切位点突变，移码突变，非移码插入缺失，融合基因；2)能够检测新抗原的克隆性；3)可同时预测肽段与MHCI和MHCII的亲和力，并利用多种算法优化亲和力预测结果；4)针对预测出来的肽段会进行假阳性过滤，包括wildtype，同源性过滤等多种参数；5)根据亲和力、表达和克隆性等对新生抗原进行打分排序，筛选出高质量的新生抗原。

优选的，本申请的肿瘤新生抗原检测方法中，公式一的EpitopeContent(m)由公式二计算获得，

公式二：

公式二中，EpitopeScore(p[i：i+k]表示每一条突变预测肽段，以突变氨基酸为中心，前后延伸k个氨基酸的抗原肽段p，与每一种MHC的亲和力的总和；i表示在特定的前后延伸k长度的抗原肽下，跨过突变的所有抗原肽的序号，该序号从0开始；|p|代表以突变氨基酸为中心，前后延伸k个氨基酸的肽段长度；|p|-k代表在特定的前后延伸k长度的抗原肽下，跨过突变的所有抗原肽序号的上限，即跨过突变的所有抗原肽数目的总和；其中，I型MHC的抗原肽中k的长度为8、9、10或11，II型MHC抗原肽中k的长度为15；

优选的，EpitopeScore(p[i：i+k]由公式三计算获得，

公式三：EpitopeScore(e)＝∑a∈HLAσ(BindingAffinity(e，a))×SelfFilter(e，a)

公式三中，EpitopeScore(e)即EpitopeScore(p[i：i+k]值，∑a∈HLAσ(BindingAffinity(e，a))表示每一条核心肽段肽段e和所有MHC亚型a的亲和力的总和，σ(BindingAffinity(e，a))由公式四计算获得，SelfFilter(e，a)是指抗原肽段的同源性；

公式四：

公式四中，σ(s)即σ(BindingAffinity(e，a))，e是自然底数，s是亲和力预测软件给出的核心肽段肽段e与a亚型的MHC的亲和力值；

SelfFilter(e，a)按以下方法取值，抗原肽e，针对MHC的a亚型的同源肽段的情况，如果在正常人类基因组上找到相似的肽段，SelfFilter(e，a)值为0，其它情况为1。

优选的，本申请的肿瘤新生抗原检测方法中，公式一的ExpressionLevel(m)按以下方法取值，如果突变预测肽段m的抗原表达水平低于10-3，则ExpressionLevel(m)＝0；如果突变预测肽段m的抗原表达水平不低于10-3，则ExpressionLevel(m)取抗原表达丰度计算软件输出的抗原表达丰度值。其中，抗原表达水平低于10-3，则定义为非表达，因此取值为0，抗原表达水平即抗原表达丰度计算软件检测的抗原表达丰度；

优选的，本申请的肿瘤新生抗原检测方法中，公式一的ClonalLevel(m)由公式五计算获得，

公式五：ClonalLevel(m)＝p(Clonal)×(1-p(subclonal))

公式五中，p(Clonal)为突变克隆性分析软件输出的新生抗原克隆的概率，p(subclonal)为突变克隆性分析软件输出的新生抗原的亚克隆的概率。

优选的，抗原表达丰度检测步骤中，抗原表达丰度计算软件为RSEM软件，以RSEM软件计算的突变预测肽段的TPM值作为抗原表达丰度。

本申请中，新生抗原m表示一个突变来源的新生抗原，而一个突变可以产生很多的抗原肽段p，因此，本申请的公式就是把所有具有抗原能力的抗原肽段p的分值累加起来，做为这个突变成为新生抗原的总的分值。每一个突变按跟不同的MHC亚型分，可以有多种，人类个体中，现在最多能预测8种；按不同的跟MHC结合的肽段长度k来看，可以用5种长度的抗原肽段；因此在公式二中有多个的求和符号。突变肽是指一开始预测的突变能够产生的肽段，即突变预测肽段；抗原肽段p是指从突变肽中挑选出来的有能够被MHC识别的固定长度的所有潜在的肽段；核心肽段肽段e是指经过亲和力预测软件预测后，从所有潜在的抗原肽段p中预测出来的有免疫原性的肽段，即亲和力小于500nM的抗原肽段p。

本申请的第二方面公开了一种基于二代测序的肿瘤新生抗原检测装置，包括，

变异检测模块，用于采用至少两种突变检测软件对肿瘤样本和正常样本的测序结果的比对文件进行肿瘤体细胞点突变和插入缺失突变进行检测，并取两种突变检测软件检出的交集作为候选突变；同时，对肿瘤转录组测序结果的比对文件进行融合基因突变检测，将检出的融合基因突变也作为候选突变；

MHC分子鉴定模块，用于分别采用HLA分子类型检测软件polysolver和BWA mem对正常样本和肿瘤样本的HLA分子类型进行检测，如果polysolver检测的肿瘤样本的HLA分子和正常样本匹配，则作为结果输出；如果不匹配，则检查BWA mem检测的肿瘤样本的HLA分子和正常样本的匹配情况，如果匹配则将BWA mem的检测结果输出，如果仍然不匹配，则输出空的结果；

变异注释模块，用于对候选突变中的点突变和插入缺失突变进行基因组突变到氨基酸突变的注释；

突变肽段预测模块，用于对候选突变中的点突变、插入缺失突和融合基因突变的肽段进行预测；具体包括，以点突变的突变氨基酸为中心，前后延伸至少10个氨基酸的长度作为点突变的突变预测肽段；以插入缺失突变的突变位置为中心，向前延伸至少10个氨基酸的长度，向后延伸直至到达正常的氨基酸翻译的位置，作为插入缺失突变的突变预测肽段；以融合基因突变的融合位点为中心，截取将融合基因的3’端和5’端的至少10个氨基酸作为融合基因突变的突变预测肽段；

突变肽段MHC I型和MHC II型亲和力预测模块，用于将MHC分子鉴定步骤得到的肿瘤样本的HLA分子类型、突变肽段预测步骤获得的突变预测肽段，以及突变预测肽段对应的野生型肽段序列作为MHC I型和MHC II型亲和力预测软件的输入，分别预测突变肽段与MHC I型和MHC II型基因的亲和力水平，将预测的亲和力水平小于500nM的作为候选肿瘤新生抗原；

抗原表达丰度检测模块，用于采用抗原表达丰度计算软件检测候选肿瘤新生抗原中各突变预测肽段的抗原表达丰度；

克隆性分析模块，用于采用突变克隆性分析软件检测候选肿瘤新生抗原中各突变预测肽段的克隆性，克隆性用突变细胞在所测肿瘤组织中占肿瘤细胞的比例表征；

候选肿瘤新生抗原综合打分排序模块，用于按照公式一对候选肿瘤新生抗原中各突变预测肽段进行打分，按照分值由高到低排序，选取分值高者作为肿瘤新生抗原；

公式一：Score(m)＝EpitopeContent(m)×ExpressionLevel(m)×ClonalLevel(m)

优选的，本申请的肿瘤新生抗原检测装置中，公式一的EpitopeContent(m)、ExpressionLevel(m)和ClonalLevel(m)按照本申请的肿瘤新生抗原检测方法进行计算。

本申请的第三方面公开了一种基于二代测序的肿瘤新生抗原检测装置，包括：

存储器，用于存储程序；

处理器，用于通过执行存储器存储的程序以实现本申请的肿瘤新生抗原检测方法。

本申请的第四方面公开了一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现本申请的肿瘤新生抗原检测方法。

由于采用以上技术方案，本申请的有益效果在于：

本申请的肿瘤新生抗原检测方法，直接以二代测序的比对文件为基础进行突变和MHC检测，并且从MHC I/II型亲和力、抗原表达丰度、克隆性三个维度对候选肿瘤新生抗原进行打分，不仅可以降低新生抗原筛选的假阳性，而且可以把免疫原性更高的新生抗原通过打分排序筛选出来，从而筛选出高质量的肿瘤新生抗原，为基于肿瘤新生抗原的免疫治疗奠定了基础。

附图说明

图1是本申请实施例中基于二代测序的肿瘤新生抗原检测方法的流程框图；

图2是本申请实施例中基于二代测序的肿瘤新生抗原检测装置的结构框图。

具体实施方式

下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

如图1所示，本申请的基于二代测序的肿瘤新生抗原检测方法包括以下步骤，

(1)变异检测步骤，包括采用至少两种突变检测软件对肿瘤样本和正常样本的测序结果的比对文件进行肿瘤体细胞点突变和插入缺失突变进行检测，取两种突变检测软件检出的交集作为候选突变；同时，对肿瘤转录组测序结果的比对文件进行融合基因突变检测，将检出的融合基因突变也作为候选突变。

其中，两种突变检测软件检出的交集是指两种突变检测软件都同时有检测到的突变，在一些实施例中，具体采用了VarScan和mutect两款软件检测点突变和插入缺失突变；并采用STAR-Fusion检测融合基因突变，即应用STAR-Fusion对比对的RNA bam格式文件进行融合基因检测。

(2)MHC分子鉴定步骤，包括分别采用HLA分子类型检测软件polysolver和BWA mem对正常样本和肿瘤样本的HLA分子类型进行检测，如果polysolver检测的肿瘤样本的HLA分子和正常样本匹配，则作为结果输出；如果不匹配，则检查BWA mem检测的肿瘤样本的HLA分子和正常样本的匹配情况，如果匹配则将BWA mem的检测结果输出，如果仍然不匹配，则输出空的结果。

(3)变异注释步骤，包括对候选突变中的点突变和插入缺失突变进行基因组突变到氨基酸突变的注释。

在一些实施例中，具体采用VEP(Variant Effect Prediction)进行注释。

(4)突变肽段预测步骤，包括对候选突变中的点突变、插入缺失突和融合基因突变的肽段进行预测；具体包括，以点突变的突变氨基酸为中心，前后延伸至少10个氨基酸的长度作为点突变的突变预测肽段；以插入缺失突变的突变位置为中心，向前延伸至少10个氨基酸的长度，向后延伸直至到达正常的氨基酸翻译的位置，作为插入缺失突变的突变预测肽段；以融合基因突变的融合位点为中心，截取将融合基因的3’端和5’端的至少10个氨基酸作为融合基因突变的突变预测肽段。

在一些实施例中，具体采用transvar工具进行基因组突变肽段的预测。

(5)突变肽段MHC I型和MHC II型亲和力预测步骤，包括将MHC分子鉴定步骤得到的肿瘤样本的HLA分子类型、突变肽段预测步骤获得的突变预测肽段，以及突变预测肽段对应的野生型肽段序列作为MHC I型和MHC II型亲和力预测软件的输入，分别预测突变肽段与MHC I型和MHC II型基因的亲和力水平，将预测的亲和力水平小于500nM的作为候选肿瘤新生抗原。

在一些实施例中，采用netMHCpan和netMHCIIpan分别预测与MHC I型和MHC II型基因的亲和力水平。

(6)抗原表达丰度检测步骤，包括采用抗原表达丰度计算软件检测候选肿瘤新生抗原中各突变预测肽段的抗原表达丰度。

在一些实施例中，具体采用RSEM软件计算突变肽段的TPM值作为新抗原表达丰度。

(7)克隆性分析步骤，包括采用突变克隆性分析软件检测候选肿瘤新生抗原中各突变预测肽段的克隆性，克隆性用突变细胞在所测肿瘤组织中占肿瘤细胞的比例表征。

在一些实施例中，具体采用PyClone计算抗原所在的突变的克隆性，并输出新生抗原的克隆的概率和亚克隆的概率，即各突变的克隆的概率和亚克隆的概率。

(8)候选肿瘤新生抗原综合打分排序步骤，包括按照公式一对候选肿瘤新生抗原中各突变预测肽段进行打分，按照分值由高到低排序，选取分值高者作为肿瘤新生抗原；

公式一：Score(m)＝EpitopeContent(m)×ExpressionLevel(m)×ClonalLevel(m)

其中，公式一的EpitopeContent(m)由公式二计算获得，

公式二：

EpitopeScore(p[i：i+k]由公式三计算获得，

公式三：EpitopeScore(e)＝∑a∈HLAσ(BindingAffinity(e，a))×SelfFilter(e，a)

公式四：

公式四中，σ(s)即σ(BindingAffinity(e，a))，e是自然底数，s是亲和力预测软件给出的核心肽段肽段e与a亚型的MHC的亲和力值；

公式一的ExpressionLevel(m)按以下方法取值，如果突变预测肽段m的抗原表达水平低于10-3，则ExpressionLevel(m)＝0；如果突变预测肽段m的抗原表达水平不低于10-3，则ExpressionLevel(m)取抗原表达丰度计算软件输出的抗原表达丰度值。

公式一的ClonalLevel(m)由公式五计算获得，

公式五：ClonalLevel(m)＝p(Clonal)×(1-p(subclonal))

公式五中，p(Clonal)为突变克隆性分析软件输出的新生抗原克隆的概率，p(subclonal)为突变克隆性分析软件输出的新生抗原的亚克隆的概率。

本领域技术人员可以理解，上述实施方式方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

因此，如图2所示，本申请一实施例中，基于二代测序的肿瘤新生抗原检测装置，包括：变异检测模块201、MHC分子鉴定模块202、变异注释模块203、突变肽段预测模块204、突变肽段MHC I型和MHC II型亲和力预测模块205、抗原表达丰度检测模块206、克隆性分析模块207和候选肿瘤新生抗原综合打分排序模块208。

其中，变异检测模块201，用于采用至少两种突变检测软件对肿瘤样本和正常样本的测序结果的比对文件进行肿瘤体细胞点突变和插入缺失突变进行检测，并取两种突变检测软件检出的交集作为候选突变；同时，对肿瘤转录组测序结果的比对文件进行融合基因突变检测，将检出的融合基因突变也作为候选突变；MHC分子鉴定模块202，用于分别采用HLA分子类型检测软件polysolver和BWA mem对正常样本和肿瘤样本的HLA分子类型进行检测，如果polysolver检测的肿瘤样本的HLA分子和正常样本匹配，则作为结果输出；如果不匹配，则检查BWA mem检测的肿瘤样本的HLA分子和正常样本的匹配情况，如果匹配则将BWA mem的检测结果输出，如果仍然不匹配，则输出空的结果；变异注释模块203，用于对候选突变中的点突变和插入缺失突变进行基因组突变到氨基酸突变的注释；突变肽段预测模块204，用于对候选突变中的点突变、插入缺失突和融合基因突变的肽段进行预测；具体包括，以点突变的突变氨基酸为中心，前后延伸至少10个氨基酸的长度作为点突变的突变预测肽段；以插入缺失突变的突变位置为中心，向前延伸至少10个氨基酸的长度，向后延伸直至到达正常的氨基酸翻译的位置，作为插入缺失突变的突变预测肽段；以融合基因突变的融合位点为中心，截取将融合基因的3’端和5’端的至少10个氨基酸作为融合基因突变的突变预测肽段；突变肽段MHC I型和MHC II型亲和力预测模块205，用于将MHC分子鉴定步骤得到的肿瘤样本的HLA分子类型、突变肽段预测步骤获得的突变预测肽段，以及突变预测肽段对应的野生型肽段序列作为MHC I型和MHC II型亲和力预测软件的输入，分别预测突变肽段与MHC I型和MHCII型基因的亲和力水平，将预测的亲和力水平小于500nM的作为候选肿瘤新生抗原；抗原表达丰度检测模块206，用于采用抗原表达丰度计算软件检测候选肿瘤新生抗原中各突变预测肽段的抗原表达丰度；克隆性分析模块207，用于采用突变克隆性分析软件检测候选肿瘤新生抗原中各突变预测肽段的克隆性，克隆性用突变细胞在所测肿瘤组织中占肿瘤细胞的比例表征；候选肿瘤新生抗原综合打分排序模块208，用于按照公式一对候选肿瘤新生抗原中各突变预测肽段进行打分，按照分值由高到低排序，选取分值高者作为肿瘤新生抗原。

本申请另一实施例还提供一种基于二代测序的肿瘤新生抗原检测装置，包括：存储器，用于存储程序；处理器，用于通过执行上述存储器存储的程序以实现如下方法：变异检测步骤，包括采用至少两种突变检测软件对肿瘤样本和正常样本的测序结果的比对文件进行肿瘤体细胞点突变和插入缺失突变进行检测，取两种突变检测软件检出的交集作为候选突变；同时，对肿瘤转录组测序结果的比对文件进行融合基因突变检测，将检出的融合基因突变也作为候选突变；MHC分子鉴定步骤，包括分别采用HLA分子类型检测软件polysolver和BWA mem对正常样本和肿瘤样本的HLA分子类型进行检测，如果polysolver检测的肿瘤样本的HLA分子和正常样本匹配，则作为结果输出；如果不匹配，则检查BWA mem检测的肿瘤样本的HLA分子和正常样本的匹配情况，如果匹配则将BWA mem的检测结果输出，如果仍然不匹配，则输出空的结果；变异注释步骤，包括对候选突变中的点突变和插入缺失突变进行基因组突变到氨基酸突变的注释；突变肽段预测步骤，包括对候选突变中的点突变、插入缺失突和融合基因突变的肽段进行预测；具体包括，以点突变的突变氨基酸为中心，前后延伸至少10个氨基酸的长度作为点突变的突变预测肽段；以插入缺失突变的突变位置为中心，向前延伸至少10个氨基酸的长度，向后延伸直至到达正常的氨基酸翻译的位置，作为插入缺失突变的突变预测肽段；以融合基因突变的融合位点为中心，截取将融合基因的3’端和5’端的至少10个氨基酸作为融合基因突变的突变预测肽段；突变肽段MHC I型和MHC II型亲和力预测步骤，包括将MHC分子鉴定步骤得到的肿瘤样本的HLA分子类型、突变肽段预测步骤获得的突变预测肽段，以及突变预测肽段对应的野生型肽段序列作为MHC I型和MHC II型亲和力预测软件的输入，分别预测突变肽段与MHC I型和MHC II型基因的亲和力水平，将预测的亲和力水平小于500nM的作为候选肿瘤新生抗原；抗原表达丰度检测步骤，包括采用抗原表达丰度计算软件检测候选肿瘤新生抗原中各突变预测肽段的抗原表达丰度；克隆性分析步骤，包括采用突变克隆性分析软件检测候选肿瘤新生抗原中各突变预测肽段的克隆性，克隆性用突变细胞在所测肿瘤组织中占肿瘤细胞的比例表征；候选肿瘤新生抗原综合打分排序步骤，包括按照公式一对候选肿瘤新生抗原中各突变预测肽段进行打分，按照分值由高到低排序，选取分值高者作为肿瘤新生抗原。

本申请另一种实施例还提供一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现如下方法：变异检测步骤，包括采用至少两种突变检测软件对肿瘤样本和正常样本的测序结果的比对文件进行肿瘤体细胞点突变和插入缺失突变进行检测，取两种突变检测软件检出的交集作为候选突变；同时，对肿瘤转录组测序结果的比对文件进行融合基因突变检测，将检出的融合基因突变也作为候选突变；MHC分子鉴定步骤，包括分别采用HLA分子类型检测软件polysolver和BWA mem对正常样本和肿瘤样本的HLA分子类型进行检测，如果polysolver检测的肿瘤样本的HLA分子和正常样本匹配，则作为结果输出；如果不匹配，则检查BWA mem检测的肿瘤样本的HLA分子和正常样本的匹配情况，如果匹配则将BWA mem的检测结果输出，如果仍然不匹配，则输出空的结果；变异注释步骤，包括对候选突变中的点突变和插入缺失突变进行基因组突变到氨基酸突变的注释；突变肽段预测步骤，包括对候选突变中的点突变、插入缺失突和融合基因突变的肽段进行预测；具体包括，以点突变的突变氨基酸为中心，前后延伸至少10个氨基酸的长度作为点突变的突变预测肽段；以插入缺失突变的突变位置为中心，向前延伸至少10个氨基酸的长度，向后延伸直至到达正常的氨基酸翻译的位置，作为插入缺失突变的突变预测肽段；以融合基因突变的融合位点为中心，截取将融合基因的3’端和5’端的至少10个氨基酸作为融合基因突变的突变预测肽段；突变肽段MHC I型和MHC II型亲和力预测步骤，包括将MHC分子鉴定步骤得到的肿瘤样本的HLA分子类型、突变肽段预测步骤获得的突变预测肽段，以及突变预测肽段对应的野生型肽段序列作为MHC I型和MHC II型亲和力预测软件的输入，分别预测突变肽段与MHC I型和MHC II型基因的亲和力水平，将预测的亲和力水平小于500nM的作为候选肿瘤新生抗原；抗原表达丰度检测步骤，包括采用抗原表达丰度计算软件检测候选肿瘤新生抗原中各突变预测肽段的抗原表达丰度；克隆性分析步骤，包括采用突变克隆性分析软件检测候选肿瘤新生抗原中各突变预测肽段的克隆性，克隆性用突变细胞在所测肿瘤组织中占肿瘤细胞的比例表征；候选肿瘤新生抗原综合打分排序步骤，包括按照公式一对候选肿瘤新生抗原中各突变预测肽段进行打分，按照分值由高到低排序，选取分值高者作为肿瘤新生抗原。

下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明，不应理解为对本申请的限制。

实施例1

本例利用Yadav,Mahesh,et al."Predicting immunogenic tumour mutations by combining mass spectrometry and exome sequencing."Nature 515.7528(2014):572.文献(以下简称文献1)中已经发表的数据：小鼠模型MC-38的肿瘤样本和正常样本的外显子数据，以及转录组数据；采用基于二代测序的肿瘤新生抗原检测方法，对其进行肿瘤新生抗原检测，具体如下：

(1)变异检测

通过对肿瘤样本和正常样本的DNA测序比对到的bam文件，使用VarScan和mutect两款软件检测肿瘤体细胞点突变(single nucleotide variant，SNV)和插入缺失(insertion and deletion，InDel)。为了得到高质量的突变，使用两款软件的交集作为高质量的候选突变。对于融合基因的检测，应用STAR-Fusion对比对的RNA bam格式文件进行检测。

(2)MHC分子鉴定

为了检查MHC-I和MHC-II分子的类型，本例使用polysolver检测正常样本和肿瘤样本的HLA分子类型。如果用polysolver在肿瘤中检查到的HLA分子和正常样本匹配，则作为结果输出，如果不匹配则检查BWAmem中的结果，如果BWAmem的结果发现正常样本和肿瘤样本匹配则使用BWA mem的结果，如果也不匹配，则输出空的结果。

(3)变异注释

对于点突变和插入缺失，应用VEP(Variant Effect Prediction)工具完成基因组突变到氨基酸突变的注释。

(4)突变肽段预测

对于点突变和插入缺失，应用transvar工具完成基因组突变肽段的预测。点突变以突变氨基酸为中心，前后延伸10(MHC II 14)个氨基酸的长度作为最终突变肽段。插入缺失突变，以突变位置为中心，向前延伸10(MHC II 14)个氨基酸的长度，向后延伸直至到达正常的氨基酸翻译的位置。

融合基因的肽段为以融合位点为中心，截取将融合基因的3’端和5’端的10(MHC II 14)个氨基酸作为最终突变肽段。

(5)突变肽段MHC I/II型亲和力预测

将第(2)步得到的患者的HLA分子分型和第(4)步获得的突变肽段序列以及对应的野生型肽段序列作为netMHCpan和netMHCIIpan软件的输入，分别预测与MHC I型和MHC II型基因的亲和力水平。预测结果中亲和力水平小于500nM的作为潜在的肿瘤新生抗原结果。

(6)新抗原表达丰度检测

用RESM软件计算突变肽段的TPM值作为新抗原表达丰度。

(7)新抗原克隆分析

应用PyClone计算抗原所在的突变的克隆性，克隆性用突变所占的肿瘤细胞的比例衡量。

(8)新抗原综合打分排序

总体上，新抗原肽段的打分公式一所示

公式一：Score(m)＝EpitopeContent(m)×ExpressionLevel(m)×ClonalLevel(m)

其中，公式一的EpitopeContent(m)由公式二计算获得，

公式二：

公式二中，EpitopeScore(P[i：i+k]表示每一条突变预测肽段，以突变氨基酸为中心，前后延伸k个氨基酸的抗原肽段p，与每一种MHC的亲和力的总和；i表示在特定的前后延伸k长度的抗原肽下，跨过突变的所有抗原肽的序号，该序号从0开始；|p|代表以突变氨基酸为中心，前后延伸k个氨基酸的肽段长度；|p|-k代表在特定的前后延伸k长度的抗原肽下，跨过突变的所有抗原肽序号的上限，即跨过突变的所有抗原肽数目的总和；

EpitopeScore(p[i：i+k]由公式三计算获得，

公式三：EpitopeScore(e)＝∑a∈HLAσ(BindingAffinity(e，a))×SelfFilter(e，a)

公式三中，EpitopeScore(e)即EpitopeScore(p[i：i+k]值，∑a∈HLAσ(BindingAffinity(e，a))×SelfFilter(e，a)表示每一条核心肽段肽段e和所有MHC亚型a的亲和力的总和，σ(BindingAffinity(e，a))由公式四计算获得，SelfFilter(e，a)是指抗原肽段的同源性；

公式四：

公式四中，σ(s)即σ(BindingAffinity(e，a))，e是自然底数，s是亲和力预测软件给出的核心肽段肽段e与a亚型的MHC的亲和力值。

SelfFilter(e，a)可以以下公式获得：

SelfFilter(e，a)计算公式说明如下：抗原肽e，针对MHC的a亚型的同源肽段的情况，如果在正常人类基因组上找到相似的肽段，SelFilter(e，a)值为0，其它情况为1。

公式一的ExpressionLevel(m)由以下公式获得，

ExpressionLevel(m)公式的说明如下：如果突变预测肽段m的抗原表达水平低于10-3，则ExpressionLevel(m)＝0；如果突变预测肽段m的抗原表达水平不低于10-3，则ExpressionLevel(m)取抗原表达丰度计算软件输出的抗原表达丰度值。

公式一的ClonalLevel(m)由公式五计算获得，

公式五：ClonalLevel(m)＝p(Clonal)×(1-p(subclonal))

公式五中，p(Clonal)为突变克隆性分析软件输出的新抗原克隆的概率，p(subclonal)为突变克隆性分析软件输出的亚克隆的概率。

根据以上方法对文献1已发表的小鼠模型MC-38的二代测序数据进行分析，最终从文献1披露的1290个转录组区域的突变中，筛选获得了64个肿瘤新生抗原，其中包含了文献1中利用质谱技术验证成功的3个肿瘤新生抗原。而文献1针对外显子区域共找到1290个转录组区域的突变，预测了170个新抗原，利用质谱技术验证成功了3个。将从原来的假阳性的预测结果中排除了63.5％的结果。

实施例2

利用发表数据ICC24(Sia D,Losic B,Moeini A,et al.Massive parallel sequencing uncovers actionable FGFR2-PPHLN1fusion and ARAF mutations in intrahepatic cholangiocarcinoma.[J].Nature Communications,2015,6:6087-6087.)，采用实施例1的肿瘤新生抗原检测方法对其进行新生抗原检测。结果显示，应用实施例1的方法，检测得到5条可被HLA识别的抗原肽，其中包括ICC中高频的融合基因可以被HLA-01识别，来源于肝内胆管癌的融合基因FGFR2-PPHLN1。可见，采用实施例1的肿瘤新生抗原检测方法，发现了胆管细胞癌中新的肿瘤新生抗原。晚期胆管细胞癌没有很好的治疗手段，生存率低；通过实施例1的方法检测获得了新生抗原，发现了胆管细胞癌新型的治疗方式，为胆管细胞癌的治疗提供了一种新的方案和途径。

实施例3

应用本方法对288个肝内胆管癌(ICC)样本进行新抗原检测，288个肝内胆管癌样本来源于以下4篇文献：

Hiromi Nakamura,Yasuhito Arai1,Yasushi Totoki,et al.Genomic spectra of biliary tract cancer.[J].Nature Genetics,2015,47(9):1003.

Shanshan Zou,Jiarui Li,Huabang Zhou,et al.Mutational landscape of intrahepatic cholangiocarcinoma.[J].Nature Communications,2014,5:5696.

Yuchen Jiao,Timothy M Pawlik,Robert A Anders,et al.Exome sequencing identifies frequent inactivating mutations in BAP1,ARID1A and PBRM1 in intrahepatic cholangiocarcinomas.[J].Nature Genetics,2013,45(12):1470-U93.

Sia D,Losic B,Moeini A,et al.Massive parallel sequencing uncovers actionable FGFR2–PPHLN1 fusion and ARAF mutations in intrahepatic cholangiocarcinoma.[J].Nature Communications,2015,6:6087-6087.

对288个ICC样本的18813个非同义突变的分析结果显示，每个ICC样本平均可以找到22.8个能被人群中高频的HLA基因型识别的突变抗原肽，其中有62％是clonal mutation。说明这些样本在没有合适的靶向药物的时候，可以应用精准细胞免疫治疗的方法对患者进行治疗。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本申请的保护范围。

rsem比对_基于二代测序的肿瘤新生抗原检测方法、装置和存储介质与流程相关推荐

【bioinfo】二代测序在肿瘤突变检测中的错误来源和解决策略
文章目录文献摘要 NGS工作流程中的错误来源 1)FFPE样本: 2)DNA打断: 3)PCR扩增和聚合酶保真度: 4)测序平台: 5)数据分析: NGS工作流错误解决策略使用UID 不使用UID ...
matlab 安装出来封面就没了,基于Matlab的计算报告书封面生成方法及计算机存储介质与流程...
本发明涉及一种计算报告书封面生成方法及计算机存储介质,特别是涉及一种基于Matlab的计算报告书封面生成方法及计算机存储介质. 背景技术: 技术人员在采用Matlab大型矩阵计算软件进行工程计算等科研 ...
MPB：微生物所蔡磊组-基于二代测序的真菌基因组组装和注释
为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...
python小波分析法检测火焰_一种基于小波分析的网络流量异常检测方法
一种基于小波分析的网络流量异常检测方法杜臻 ; 马立鹏 ; 孙国梓 [期刊名称] <计算机科学> [年 ( 卷 ), 期] 2019(046)008 [摘要] 对大量网络流量数据进行高质 ...
perclos嘴巴_一种基于视频分析的疲劳状态检测方法及装置与流程
本发明涉及疲劳检测领域,特别是涉及一种基于视频分析的疲劳状态综合检测方法及装置. 背景技术: 疲劳状态检测技术在交通运输.生产安全.教育培训等许多领域应用广泛.目前,疲劳状态检测的方法一般可分为接触式 ...
两个一样的图像相除会怎么样_【壮凌自动化分析】一种动力电池生产中基于图像运动模糊的速度检测方法...
一种动力电池生产中基于图像运动模糊的速度检测方法 1.西南大学电子信息工程学院,重庆 400715) 2.非线性电路与智能信息处理重庆市重点实验室,重庆 400715) 1.当前背景与成熟方法介绍 ...
肺结节目标检测_一种基于CT图像的肺结节检测方法及系统与流程
本发明属于医学图像分析和计算机辅助诊断等技术领域,更具体地,涉及一种基于CT图像的肺结节检测方法及系统. 背景技术: 肺癌是导致患癌死亡的最危险的疾病之一,其发病率占所有癌症的三分之二,且5年存活率为 ...
论文笔记：基于并行注意力 UNet的裂缝检测方法
0 简介论文:基于并行注意力 UNet的裂缝检测方法(Parallel Attention Based UNet for Crack Detection): 发表:2021年发表在<计算机研究 ...
基于激光雷达点云的3D检测方法汇总(LiDAR only)
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨柒柒@知乎来源丨https://zhuanlan.zhihu.com/p/436452723 ...
基于迁移学习的农作物病虫害检测方法研究与应用
基于迁移学习的农作物病虫害检测方法研究与应用 1.研究思路迁移学习方式并结合深度学习提出了一种基于残差网络(ResNet 50)的 CDCNNv2 算法.通过对 10类作物 3 万多幅病虫害图像进行 ...

rsem比对_基于二代测序的肿瘤新生抗原检测方法、装置和存储介质与流程

rsem比对_基于二代测序的肿瘤新生抗原检测方法、装置和存储介质与流程相关推荐

最新文章

热门文章