文章链接:https://www.nature.com/articles/s42256-022-00459-7.pdf
DOI:10.1038/s42256-022-00459-7
期刊:Nature Machine Intelligence(一区)
发布时间:2022年3月23日
数据和代码:https://github.com/a96123155/TransPHLA-AOMP
TransMut网站:https://issubmission.sjtu.edu.cn/TransPHLA-AOMP/index.html

文章目录

  • 前言
  • 一、
  • 二、Results
    • 2.1 TransPHLA与现有方法的比较。
    • 2.2 TransPHLA揭示了pHLA结合的潜在模式
    • 2.3 AOMP program.
  • Discussion
  • Methods
    • 数据集
    • Experiment settings
    • Experiment settings
    • TransPHLA
    • Sequence embedding in TransPHLA
    • 二级标题
    • AOMP program
    • Webserver availability
    • Data availability
    • Code availability

前言

人类白细胞抗原(HLA)可以识别并结合外来多肽,将它们呈现给特定的免疫细胞,然后启动免疫反应。肽和HLA(pHLA)结合的计算预测可以加快免疫原性肽的筛选,促进疫苗的设计。然而,目前还缺乏一个自动程序来优化与目标HLA等位基因具有更高亲和力的突变肽段。在这里,为了填补这一空白,我们开发了TransMut框架,由用于pHLA结合预测的TransPHLA和一个自动优化的突变肽(AOMP)程序组成,它可以推广到任何生物分子的结合和突变任务。首先,通过构建一个基于变压器的pHLA结合模型来预测pHLA,这优于以往14种pHLA结合预测、新抗原和人乳头状瘤病毒疫苗鉴定的方法。对于疫苗设计,AOMP程序通过利用TransPHLA产生的注意力评分,自动优化与目标HLA等位基因具有更高亲和力和与源肽具有高同源性的突变肽。所提出的框架可能会自动为实验人员产生潜在的多肽疫苗。

一、

多肽与人白细胞抗原(HLA)的结合是抗原呈递的必要条件,这是有效识别t细胞的必要条件。只有当肽呈现给位于细胞外表面的HLA分子形成肽-HLA(pHLA)复合物,然后被T细胞识别时,它才能触发强大的免疫反应。HLA通常分为两类:HLAI类(HLA-I)和HLAII类(HLA-II)。HLA-I由三个I位点编码,并在所有有核细胞的表面表达,而HLA-II只能在专业的抗原呈递细胞中表达。

在本文中,我们将重点关注HLA-I分子(以下简称HLA)。HLA主要结合长度为8-10个氨基酸的短肽,因为结合槽的两端被保守的酪氨酸残基所阻断,其中9-mer肽是最常见的。然后,其中一些pHLAs被呈现在细胞表面,以被
识别。含有11-14个氨基酸的肽结合物已被鉴定出。考虑到该方法的综合适用性,本研究纳入了8-14个氨基酸长度的肽。

由于HLA分子在人类群体中具有高度的特异性和多态性,只有一小部分的多肽可以呈现给HLA分子。确定哪些肽被选择在个体的HLA类型中显示对表位的选择至关重要。

实现这一目标的第一步是验证多肽和HLA等位基因之间的亲和力。鉴于肽与其结合的HLA等位基因之间的亲和力与它是否可以呈现密切相关,已经开发了许多硅方法来预测肽与HLA等位基因之间的亲和力(补充部分1总结了与此相关的工作)。

现有的方法主要是基于机器学习模型,特别是神经网络,来预测多肽与HLA等位基因之间的结合亲和力。虽然对含有9个氨基酸的肽的准确率高达90%,但对其他长度的肽的预测能力仍然不令人满意13。这可以用9-mer肽更容易与HLA等位基因结合来解释,因为它们比长度为13和14的肽有更多的pHLA结合数据。此外,等位基因特异性和泛特异性模型已经被开发用于pHLA结合预测。前者不能应用于HLA等位基因或训练数据中不存在的肽长度,而后者是在多等位基因数据上进行训练的,可以准确预测pHLA结合,特别是对于罕见的HLA和肽长度。

通过合成短肽来引起高靶向性的免疫反应是很有吸引力的。了解pHLAs之间的相互作用有助于多肽疫苗的设计,并在各种疾病的候选疫苗的开发中发挥重要作用。一些研究已经证明,由癌细胞中的非同义突变产生的新抗原在抗肿瘤免疫反应中起着关键作用。此外,新抗原疫苗已被证明对临床结果有益。

与传统疫苗相比,多肽疫苗有许多优势。肽疫苗设计的原理是抗原肽与特定的HLA结合形成肽-HLA-TCR复合物,诱导T细胞免疫应答。理论上,抗原肽应该选择性地与特定的HLA等位基因具有高亲和力结合。鉴定新抗原的过程如下。首先,建立高通量测序技术和生物信息学管道来表征原发肿瘤的非同义突变,然后开发计算方法来可靠地预测突变肽和HLA等位基因的结合概率。通过这两个阶段,候选突变肽的数量可以大大减少,从而加快了实验验证的过程。然而,上述过程相对复杂。因此,一个自动优化的突变肽(AOMP)程序的开发将是新抗原设计领域的一个巨大突破。

在本文中,我们描述了一个基于transformer的模型用于pHLA结合预测(TransPHLA)的设计和用于突变肽优化的AOMP程序(图1显示了整个工作流程)。
TransPHLA是一种泛特异性的方法,它实现了更好的性能,可应用于罕见和看不见的HLA等位基因(图2)。
TransPHLA模型的核心思想是将 self-attention应用于多肽、HLAs和pHLA对,以获得结合评分。
使用一些技术来构建和优化模型,模型由四个主要子模块组成:(1)嵌入块(除了序列中氨基酸的编码外,我们添加了位置嵌入来描述序列的位置信息);(2)编码器块(应用多个自我注意专注于序列的不同组件,掩盖序列的填充位置以防止误导模型);(3)特征优化块(使用先升后落的陀螺通道的全连接层处理之前自注意块获得的特征,以实现更好的特征表示);(4)投影块(使用多个全连接层预测最终的pHLA绑定得分)。

将提出的TransPHLA模型与之前的14种pHLA结合预测方法进行了比较,包括最先进的方法、免疫表位数据库(IEDB)推荐的方法、9种IEDB基线方法和3种最近基于注意力的方法。TransPHLA不仅获得了更好的性能和更高的效率,而且解决了许多使用HLA等位基因和可变长度的肽段的方法的局限性。我们还进行了两种类型的案例研究来证明TransPHLA方法的可用性和有效性。

TransPHLA的性能优于以前发表的14种新抗原鉴定方法。阳性筛查率达到了96%。虽然由于阈值不一致,人乳头状瘤病毒(HPV)疫苗鉴定的阳性检出率不太高,但它优于其他14种方法。

我们还开发了一个基于TransPHLA获得的注意机制的多肽疫苗设计的AOMP程序(图3)。
当用户提供由源肽和目标HLA等位基因组成的一对时,AOMP程序可以搜索对目标HLA等位基因具有较高亲和力的突变肽,且不超过4个突变位置。该程序不仅保证了突变肽与目标HLA等位基因之间的亲和力,而且还保证了突变肽与源肽的同源性,从而触发交叉免疫。我们使用两种策略测试了所有366种不同HLAs长度和肽结合物长度的组合。第一种策略为每个组合随机选择10个由TransPHLA正确预测的阴性pHLA,共选择3660个真阴性pHLA。
另一种策略只考虑TransPHLA预测的负pHLAs,而不考虑地面真实标签。通过这两种策略,3633和3635个源肽成功找到了优化后的与HLA等位基因结合的突变肽,其中93.4%和93.7%被IEDB14推荐的方法验证,证实了我们程序的可用性。此外,3633个优化突变肽中的88.8%和89.5%与源肽的同源性超过80%(1-2个突变位点),为疫苗设计具有应用前景。

TransPHLA和AOMP程序共同形成了TransMut框架,该框架将变压器应用于生物分子结合和突变领域。该框架可应用于任何生物分子突变任务,如表位优化或药物设计,并且对疫苗的开发特别有用。例如,肿瘤坏死因子-α(TNF-α)靶向疫苗,由于TNF-α的生物活性,将导致体内炎症,长期用药有导致自身免疫性疾病的风险。TNF-α疫苗开发的核心问题是如何在保持足够的免疫原性的同时降低TNF-α的生物活性。AOMP程序非常适合用于此任务。首先利用变压器衍生的模型对生物分子的突变方向数据进行训练,然后得到突变方向上的注意得分。根据注意力评分,AOMP程序将找到一个更好的突变体。

二、Results

2.1 TransPHLA与现有方法的比较。

为了验证TransPHLA的有效性,我们将其与IEDB的9种基线方法、IEDB(NetMHCpan_EL14)推荐的方法、2021年发表的最先进的方法(Anthem30)和最近发表的三种基于注意力的方法进行了比较。基线方法为ANN15, Consensus34, NetMHCcons35, NetMHCpan_
BA14, NetMHCstabpan37, PickPocket36, CombLib33, SMM31 and SMMPMBEC32,可从 http://tools.iedb.org/main/tools-api/获得。
不同的方法使用不同的评分方法来确定pHLA是否可以结合,如预测的半最大抑制浓度(半抑制浓度)、预测的评分和百分位数排名。我们分别使用预测的半抑制浓度和预测的分数作为回归和分类任务的标准(共识仅提供百分位数排名作为标准)。
补充表1列出了不同方法的标准策略的详细信息。
值得注意的是,并不是每种方法都与每种HLA等位基因和肽兼容。除NetMHCpan_BA、NetMHCpan_EL和我们的方法外,这些方法都有不同的局限性。例如,SMM和smmpmbec只支持长度在8-11之间的肽,而DeepNetBim和CombLib只支持固定长度为9的肽。综上所述,使用相同的数据,并不是每种方法都能预测用户提供的所有样本。
比较采用pHLA独立试验、pHLA外部检测、新抗原鉴定和HPV疫苗鉴定(图4)。
图4显示了pHLA测试集的两个视角:(1)方法可以预测所有所提供的数据(图4a,b,可匹配),或者(2)由于其局限性,方法只能预测所提供的部分数据(图4c,d,不匹配)。在图4a、b中,用于不同方法的性能比较的数据都是一致的,因此可以公平地比较预测性能。在图4c、d中,两种方法可以预测的HLA等位基因和肽段长度不同。因此,对于这些子图中的每种方法,用于性能比较的数据都是所提供数据的子集。为了使性能比较更加公平、更合理,所提出的TransPHLA对每种方法对相应的子集数据进行了两两比较。在独立数据和外部数据上,该方法均优于除Anthem外的其他方法。Anthem在独立数据上的表现略低于TransPHLA,在外部数据上的竞争表现。然而,由于其发表的数据有限,它不能扩展到一些未知的HLA等位基因或肽长度,而TransPHLA没有这种局限性。补充章节2.3介绍了TransPHLA和Anthem之间更详细的比较。此外,虽然NetMHCpan_EL在外部数据上取得了良好的性能,但它在独立数据上的性能却大大降低了。独立数据包含112种HLA等位基因,而外部数据仅包含5种HLA等位基因。正如我们前面提到的,这两种类型的测试数据在方法的性能比较中是互补的,所以只有对这两种类型的数据都有效的方法才能证明其优越性。

我们还讨论了每种方法在每个肽长度的独立和外部数据上的性能。补充图。1-8给出了15种方法在独立和外部数据上使用时的曲线下面积(AUC)、精度、Matthews相关系数(MCC)和f1的小提琴图。这些结果表明TransPHLA优于其他14种方法,如下:(1)TransPHLA不受HLA异型或肽长度限制;任何肽长度,TransPHLA在所有指标上表现出优越的性能;(3)TransPHLA显示四个指标紧密分布,特别是肽长度9,反映了潜在的增加性能的训练数据的增加,并且,如果pHLA数据的其他肽长度或HLA增加,TransPHLA也取得更好的结果;(4)MCC结果表明,TransPHLA对任何长度的HLA都是有效的;当对~170,000pHLA进行预测时,TransPHLA在GeForceRTX3080GPU上需要28秒,在CPU上需要2个min(其他方法没有那么快)。补充部分2.1和2.2提供了对结果的详细分析。

新抗原筛选的主要决定因素是多肽和自体特异性HLA分子的结合。为了鉴定新抗原,我们收集了非小细胞肺癌、黑色素瘤、卵巢癌和胰腺癌的新抗原数据,包括221个实验验证的pHLA结合物。不同方法对这些数据的比较结果如图4e所示。这些结果表明,TransPHLA能够筛选出96.4%的新抗原。虽然CombLib达到了100%的准确性,但它只支持9-mer肽,这限制了其应用。其余10种方法的性能低于TransPHLA,并可能受到可预测的HLAs或肽长度的限制。

221个新抗原样本由62个HLA等位基因和多肽长度的组合组成。其中,8种组合中的10个样本不包括在训练数据中。在这10个样本中,TransPHLA只错误预测了3个样本,表明TransPHLA的泛化能力。

HPV是最常见的性传播疾病,目前也有一些预防性的HPV疫苗。然而,这些疫苗的治疗效果有限,使用率很低。因此,开发治疗HPV感染和疾病的治疗性疫苗至关重要。先前的一项研究43提出了278个经实验验证的来自HPV16蛋白E6和E7的pHLA结合物,由8-11-mer的多肽组成。使用不同方法对这些数据进行的比较结果如图4f所示。虽然TransPHLA的筛选率仅为68%,但其性能仍高于其他方法。
根据HPV疫苗数据的来源参考文献,根据
,这些数据被确定为“结合剂”,这是500nM的共同阈值的200倍。500nM是15种预测方法数据的阈值。因此,在这些预测方法中,半抑制浓度值超过500nM的多肽都是阴性样本。这就是为什么HPV疫苗数据比其他数据集表现出更差的原因。

我们还评估了该方法在
样品上的性能。结果见扩展数据图1和补充部分10。结果表明,TransPHLA只错误预测了3个样本(即共18个样本),其性能优于其他14种方法。

2.2 TransPHLA揭示了pHLA结合的潜在模式

TransPHLA的注意机制为该模型提供了生物学上的可解释性。在本节中,我们将通过注意力分数来探讨pHLA的绑定规则。证据表明,肽的c端、n端和锚定位点52对与HLA的结合至关重要,并且总是位于肽序列的第一、最后和第二位置。确认了这些位置的注意得分,如图5a所示。
接下来,我们分析了阳性和阴性样品中氨基酸类型对不同肽位置的结合和非结合的贡献(图5b)。

研究发现,phla的结合和非结合受到肽段不同成分的影响。此外,我们还分析了20个氨基酸对所有366个hla-肽长度组合的结合或非结合的影响。注意力分数和相应的热图可以从我们的网络服务器上下载。

这些结果不仅有助于我们理解pHLA结合的机制,还可以用于疫苗设计,如结果中的AOMP程序和方法中的AOMP程序部分所示。

此外,由于注意力评分代表了pHLA结合的模式,这意味着肽序列上的关键氨基酸位点对与目标HLA的结合或非结合非常重要。因此,我们根据ACME可视化了5个HLA等位基因的结合模式(图5c)。正如预期的那样,TransPHLA在不同的肽位置上发现了与之前的研究相似的氨基酸类型的模式。对于HLA-A11:01,TransPHLA识别位于9位(K(9位K)的肽的锚定残基。对于HLA-B40:01,TransPHLA成功鉴定了关键残基第2个E(Glu)和第9个L(Leu)。

对于HLA-B57:03,疏水残基通常形成结合袋,我们通过第9L、第9F(Phe)和第9W(Trp)确定了这种偏好,这与PDB2BVP54的结构一致。对于HLA-A68:01,4HWZ55表明,该肽的第9个K和第9个R(Arg)残基对结合有很大的贡献。对于HLA-B*44:02,第二个E的关键作用已经得到了证实。所有这些结果都得到了以往研究的支持,并证明了我们的方法的有效性。

2.3 AOMP program.

如果所考虑的源肽与其特定的HLA等位基因的结合亲和力较弱,则建议寻找具有较高亲和力的突变肽。图3显示了源肽DLLPETPW的AOMP过程和第二种策略的自动突变,以及目标是HLA-B*51:01。

为了证明AOMP项目的有效性,我们提出了两种策略来测试本研究中所有366个hla-肽长度组合。第一种策略选择由TransPHLA正确预测的非绑定phla;也就是说,地面真实标记和预测结果都是非绑定的。对于第二种策略,只考虑TransPHLA的预测结果,而不考虑地面真实标签。简而言之,评价样本是从TransPHLA预测的非结合phla中选择的。经过随机选择后,第二种策略的真阴性样本比例为92.57%(图6e)。
然后,我们使用AOMP程序,用这两种策略寻找3,660个阴性pHLAs的突变肽段。
为了验证突变结果的真实性和可用性,我们使用IEDB推荐的NetMHCpan_BA14对两种策略下的3,660个pHLAs的突变结果进行了验证。结果如图6d、h所示,两种策略的成功率分别为93.42%和93.74%。

第二种策略的性能略优于第一种策略,因为第二种策略的评估样本包含结合pHLAs,而AOMP更容易为它们生成结合突变pHLAs。第一种策略可以更准确地评估非结合pHLAs中AOMP成功突变的概率,而第二种策略可以更好地揭示实际情况下AOMP的成功突变率,因为在实际中是未知的。

我们还使用分子动力学(MD)模拟来验证AOMP的有效性。我们以HLA-a*02:01为靶点HLA,以YKLVVVGAG为源肽。选择了8个突变肽进行模拟,并与源肽进行了比较。结果表明,(1)所提出的TransPHLA得到的注意机制与pHLA复合物的结构一致,(2)对TransPHLA的预测结果与MD模拟和NetMHCpan_BA的结果一致。另一方面,实验证实了AOMP产生的一些突变多肽可以与相应的HLA等位基因结合。更多详情见补充部分第11条。

Discussion

pHLA的结合和相互作用对表位呈现的作用至关重要,也是t细胞识别启动有效免疫应答的先决条件。作为第一步,表位的筛选和鉴定依赖于pHLA的亲和力,特别是在基于新表位的免疫治疗中,这被认为是最有前途的癌症治疗。新抗原筛选的主要决定因素是多肽和特异性自体HLA分子的亲和力。因此,准确的pHLA结合预测对于识别免疫治疗靶点、表位筛选和疫苗设计至关重要。多肽疫苗的设计是治疗疾病的另一个重要领域。然而,目前的疫苗设计方法尚处于起步阶段,目前还不能实现自动化。

首先,我们提出了一种基于变压器模型的TransPHLA结合预测方法,该方法是一种广义的泛特异性模型,不受HLA等位基因或肽长度限制的泛特异性模型。我们进行了两种独立的检测和两种类型的病例研究(新抗原和HPV疫苗鉴定)。与最近发表的最先进的方法(Anthem)、IEDB推荐的方法(NetMHCpan_EL)、9种IEDB基线方法和3种基于注意力的方法相比,TransPHLA在所有四个实验中都取得了优异的性能。

基于TransPHLA,我们还开发了一个AOMP程序,利用TransPHLA生成的注意力评分,寻找与目标HLA等位基因具有更高亲和力、与源肽具有高同源性的突变肽。对于AOMP项目的两种评价策略,在结合突变肽-HLA的7320个不同等位基因和肽长度的pHLAs中,成功发现7268个样本;94%通过IEDB推荐的方法验证,89%的同源性超过80%,对疫苗设计很有用。

这是首次尝试在生物分子的自动突变领域提出一个基于变压器的TransMut框架,该框架有可能应用于生物分子的其他结合预测和突变任务。

Methods

数据集

在本研究中,pHLA绑定数据(阳性数据)来自Anthem30,可从https://github.com/17shutao/Anthem/树/主数据/数据集下载。阴性数据的产生方式与以前的研究相似。对于每个结合子长度和每个HLA等位基因,阴性数据的肽段是从IEDBHLA免疫肽组的源蛋白中随机选择的序列片段。虽然可能产生假阴性肽,但这些肽的可能性和比例很低,可以忽略。构建负样本的策略保证了数据集是平衡的(补充表2)。

为了将我们的方法与以前的方法进行公平的比较,我们遵循了 Anthem的训练和评估策略,这是最先进的pHLA绑定预测方法。

有三种类型的不同目的的数据集:用于模型训练和模型选择的训练集、独立测试集和用于模型评价和方法比较的外部测试集。培训的数据源和独立测试集的是相同的:(1)四个公共HLA绑定数据库(IEDB,EPIMHC60MHCBN和SYFPEITHI),(2)异型HLA配体确定质谱在之前发表的研究和(3)肽绑定从训练数据集其他pHLA绑定预测工具。外部测试集通过Anthem进行了实验验证。

我们还检查并删除了一些错误或重复的样本;例如,与“HLA-B*07:01”相关的样本被忽略,因为它的序列包含错误。补充表2中列出了这三种类型的数据集的统计数据。每个HLA等位基因的每个肽长度的pHLA结合物的数量跨越了一个很大的范围,从101到105(详见补充图12)。另一方面,常见的肽结合物长度为8-14。对于不同的肽结合剂长度,pHLA结合剂的数量有很大的差距。在扩展数据图2中,9-mer肽的数量非常大,而13-和14-mer肽却很少。这导致了该方法在不同肽结合物长度下的性能差异(扩展数据图2)。

Experiment settings

为了跟踪之前的pHLA结合预测研究,我们进行了5倍交叉验证(CV)和独立测试。由于独立测试集和训练集的来源相同,所以训练集和独立测试集的数据分布非常相似(补充图。11和12)。当模型在与训练数据分布相似的数据上进行测试时,比在与测试数据分布不同的模型上更容易获得更好的测试性能。换句话说,我们所提出的方法和Anthem在独立测试集上可能比其他方法有优势。因此,我们建立了一个外部测试,以对不同的方法进行更公平的比较。

本研究采用5倍CV进行模型评估,以在训练阶段优化模型。将训练集分成五个等部分,其中四个用于模型训练,其余部分用于具有相同参数的模型评价。训练和评估过程重复5次,以确保数据的每个部分参与4次模型训练,1次模型评估。最后,将5个模型评价的平均结果作为最终的评价结果。通常,使用CV可以在一定程度上避免模型的过拟合。

独立检验是评估所考虑的方法对看不见的数据的泛化能力的一种流行策略。独立测试数据与训练数据没有重叠,但与训练数据集相同的分布。它还提供了独立于训练数据的公共数据,以便公平地评价不同方法的性能。

为了进行公平的比较,我们使用实验数据作为外部测试数据,以消除由于数据分布相同而可能产生的偏差。根据补充图11和12,外部测试的数据分布与训练数据和独立测试数据的数据分布略有不同。与独立测试一样,它也可以更客观地评价该方法的性能和泛化能力。

Experiment settings

对于每个预测模型,我们计算了以下指标:

其中TP为真阳性,FP为假阳性,FN为假阴性,TN为真阴性。此外,我们采用AUC,即受试者工作特征曲线下的面积,作为另一个性能评价指标。
除了MCC,其范围从−1到1,其他指标的范围从0到1。度量的值越高,模型或方法就越好。值得注意的是,当TN、TP、FN、FP中的两个为0时,MCC无法计算,因为分母为0。这种现象不是由FN和FP都为0引起的。因此,如果不能计算特定HLA等位基因的特定肽长度的MCC,这意味着该方法对于具有该肽长度的HLA等位基因是无效的。

TransPHLA

TransPHLA的核心思想是应用自我注意机制29。TransPHLA由以下四个区块组成(图2)。嵌入块在氨基酸嵌入中加入位置嵌入来生成序列嵌入,然后采用退出技术来增强其鲁棒性。通过嵌入块,TransPHLA分别生成多肽和HLA等位基因的嵌入。接下来,将这些嵌入作为编码块的输入,编码器块包含掩蔽多头自注意机制和特征优化块。特征优化块是全连接层的组合,陀螺仪的通道首先在全连接层中上升后下降。该模块改进了注意机制获得的特征表示,主要是因为添加了更多的层。肽和HLA等位基因的输出特征表示然后被连接为一个pHLA对的嵌入。当pHLA对嵌入通过编码器块后,使用投影块来预测pHLA绑定评分。

模型训练是在CentOSLinux版本7.7.1908(核心)系统上进行的。该CPU是一个Intel®Xeon®金6230CPU@2.10GHz,有80个逻辑CPU。GPU是一个GeForceRTX3080。内存是92g。模型在GPU上进行训练,代码语言是Python3.7.8,模型使用PyTorch1.7.0构建。训练包括50个阶段,每个阶段持续72秒。在50个时代中,在5倍CV上性能最好的模型是最终的模型。在代码环境中(例如,random, numpy and torch),随机种子被设置为19,961,231。

Sequence embedding in TransPHLA

首先,将肽段和HLA等位基因序列分别填充到最大长度为15和34,以处理可变的输入长度。然后使用字符嵌入模型为每个氨基酸创建一个唯一的嵌入,嵌入的维数定义为dX。以肽sdkyglgy为例,其长度为8。从补充图13a中看出,六种不同氨基酸的嵌入不同,填充行的嵌入都相同。

另一方面,氨基酸的顺序对肽段和HLA等位基因序列的结构和功能至关重要,但上述包埋方法没有考虑到这一点。因此,我们应用位置嵌入来编码氨基酸在序列中的位置。给定序列中的位置p,位置嵌入编码为
如果这个向量的第i个元素的值是
,那么

其中2i表示偶数维数,2i+1表示奇数维数。这种位置嵌入方法不仅可以反映氨基酸的绝对位置信息,还可以反映相对位置信息。我们在补充图13b中可视化了位置嵌入。值得注意的是,对于任何肽或HLA等位基因,位置包埋都是相同的。我们还进行了位置嵌入的消融实验,并证明了其对TransPHLA的有效性(更多细节见补充章节5)。

最后,对氨基酸嵌入和位置嵌入进行求和,得到序列嵌入(见补充图13c)。

二级标题

注意力机制是transformer的核心。它可以关注重要信息,减少大量信息对不重要信息的影响。它的本质是将查询Q映射到一组键值(K-V)对,然后获得一个输出,其中K-V对是在内存中存储序列元素的形式。这反映了根据Q和K的相关性或相似性而得到的注意力得分(即权重)。

注意力分数代表了信息的重要性(即V)。注意力得分越大,对相应的信息就越集中。
与递归神经网络(RNNs)相比,transformer实现了并行化,解决了长期依赖问题,使其处理数据的速度比RNNs更快。与卷积神经网络(CNNs)相比,变压器提取更多的全局信息,适用于肽和HLA等位基因全序列的信息探索。在实验(补充部分9)中,transformer作为TransPHLA中的编码器块比RNNs和CNNs具有更好的性能。

自我注意机制属于注意机制的一种变体,它捕捉了序列的内部相关性,减少了对外部信息的依赖。值得注意的是,本研究在计算注意力时引入了掩模操作。对于长度小于相应最大长度的肽段或HLA等位基因序列,在模型训练时不应考虑非氨基酸特征。因此,我们使用
,它非常接近于零,作为他们的注意力分数,因此非氨基酸字符在计算注意力中不会发挥作用。自注意机制的计算过程见扩展数据图3和补充部分6。
对多头注意机制的一层和头部进行模型选择,最终参数为一层和九个头部的注意。结果表明,我们的模型没有过拟合(如补充图16和补充部分7所示)。

AOMP program

在本研究中,我们开发了一个AOMP程序,旨在寻找基于对特定HLA等位基因具有弱亲和力的特定源肽的高亲和力突变肽。例如,特异性的关键肽可以是来自HPV的E6和E7肽,一个新抗原和TNF表位。

该程序根据TransPHLA获得的注意力评分设计了四种定向突变策略(图3)。注意评分不仅代表了pHLA基因结合的模式,而且揭示了肽序列上对与目标HLA等位基因结合或不结合重要的关键氨基酸位点。为了有效地设计疫苗,我们还考虑了突变肽和源肽的同源性。通过序列相似性计算突变肽与源肽的同源性,实验表明,用Python中的差异模块计算的相似性与blast结果非常接近。1个、2个、3个和4个氨基酸位置的同源性突变平均分别为90%、80%、70%和61%。因此,我们将源肽氨基酸位点的突变数量限制在不超过4个。
对于366个HLA-肽长度组合中的每一个,我们在每个肽位置建立了20个氨基酸的结合贡献矩阵。为了适应一个新的或未知的hla-肽长度组合,建立了一个一般的结合贡献矩阵。我们在web服务器上提供了这367个贡献矩阵和它们的可视化热图。另一方面,当预测亲和力相对较弱的pHLA时,使用TransPHLA获得的注意力评分来计算肽上每个氨基酸位点的贡献矩阵。如果用户需要,我们还提供了pHLA的注意力评分热图。

随后,设计了四种优化策略,细节如下。我们基于上述两个贡献矩阵计算了两个贡献率矩阵。贡献矩阵中的元素值越大,相应的氨基酸位点对结合或非结合越关键。直观地说,由于氨基酸位点对非结合预测的贡献更大,如果我们用其他更有利于结合预测的氨基酸取代它们,突变的肽更有可能与目标HLA等位基因具有更高的亲和力。基于上述四种基质,我们设计了四种策略来生成突变多肽。主要思想是比较源肽上对弱亲和力影响较大的氨基酸位点和对高亲和力影响很大的目标HLA-肽长度上的氨基酸位点。

然后根据比较结果进行相应的氨基酸替换。该过程如下:(1)预测源肽和目标HLA的结合得分;(2)根据自我注意机制找到一些最重要的氨基酸位点;(3)用一些可能对结合预测更有贡献的氨基酸取代了弱亲和力pHLA的这些重要位点;(4)选择一些最好的候选突变进行评估。

对于源肽和目标HLA等位基因(特异性pHLA),将四种策略产生的突变肽合并并去除重复肽。然后TransPHLA筛选并保留可以与目标HLA等位基因结合的突变肽。令人兴奋的是,该程序的原始靶点是非结合的pHLA,但我们发现它也可以发现与结合的pHLA具有更强亲和力的突变肽。

图3可视化了AOMP程序的过程,并以源肽dllpetpw和目标HLA-B*51:01的第二种策略的自动突变为例。补充部分8详细描述了本示例中四种AOMP策略的实现过程。补充部分11描述了根据实验验证的文献和MD模拟的一些AOMP实例。

Webserver availability

该网络服务器可以在t https://issubmission.
sjtu.edu.cn/TransPHLA-AOMP/index.html.提交的网站上免费获得。

Data availability

这些数据集可在t https://github.com/a96123155/TransPHLA-AOMP/
tree/master/Dataset上获得,其中包含训练数据、独立测试数据、外部测试数据、新抗原数据和HPV疫苗数据。这些数据的统计数据见补充部分3。
此外,特定HLA等位基因的氨基酸类型和肽位置的注意分数和热图以及肽结合物长度可以从 https://issubmission.sjtu.edu.cn/
TransPHLA-AOMP/download.html下载。本文提供了源数据。

Code availability

该代码可在https://github.com/a96123155/TransPHLA-AOMP上免费获得与GNU通用公共许可证版本3。这个网页包含了代码依赖关系、操作环境、指令以及代码和结果之间的一些交互(带有ipynb后缀的文件)。

A transformer-based model to predict peptide– HLA class I binding and optimize mutated peptides for相关推荐

  1. A recurrent neural network based microscopic car following model to predict traffic oscillation

    A recurrent neural network based microscopic car following model to predict traffic oscillation 这又是一篇 ...

  2. 【Transformer】CrossFormer:A versatile vision transformer based on cross-scale attention

    文章目录 一.背景 二.动机 三.方法 3.1 Cross-scale Embedding Layer(CEL) 3.2 Cross-former Block 3.2.1 Long Short Dis ...

  3. 论文笔记(SocialGCN: An Efficient Graph Convolutional Network based Model for Social Recommendation)

    一个有效的基于图卷积神经网络的社交推荐模型 原文链接:SocialGCN: An Efficient Graph Convolutional Network based Model for Socia ...

  4. 【深度学习】网络架构设计:CNN based和Transformer based

    从DETR到ViT等工作都验证了Transformer在计算机视觉领域的潜力,那么很自然的就需要考虑一个新的问题,图像的特征提取,究竟是CNN好还是Transformer好? 其中CNN的优势在于参数 ...

  5. Paper翻译:《A Novel Convolutional Neural Network Based Model for Recognition and Classification of App》

    论文名称:<A Novel Convolutional Neural Network Based Model for Recognition and Classification of Appl ...

  6. python-ABM-mesa库:Agent Based Model 简单教程:可视化与排队论

    python-mesa:Agent Based Model 简单教程 教程链接:https://mesa.readthedocs.io/en/latest/tutorials/intro_tutori ...

  7. 玻尔兹曼分布详细推导、softmax 及 Energy Based Model

    因为想申请 CSDN 博客认证需要一定的粉丝量,而我写了五年博客才 700 多粉丝,本文开启关注才可阅读全文,很抱歉影响您的阅读体验 大多数人应该都是在利用神经网络解分类问题时第一次接触 softma ...

  8. span based model

    论文解读 span 表示 A Minimal Span-Based Neural Constituency Parser最小的基于span的神经网络解析器 摘要 介绍 模型 chart parsing ...

  9. Agent Based Model金融市场建模

    63 1.ABM给复杂系统建模 agent model给系统建模三个方面: agent给经济系统建模: 1.1 市场交易 1.2 技术扩散 1.3 交通系统 2.ABM用于金融市场建模 2.1Sant ...

最新文章

  1. windows powershell
  2. 【数据平台】python中文分词工具jieba
  3. MATLAB从入门到精通:MATLAB矩阵操作
  4. 重新学习Spring2——IOC和AOP原理彻底搞懂
  5. 【牛客 - 21302】被3整除的子序列(线性dp)
  6. mysql+delete删除空行,删除空行 linux
  7. python是干什么的-python干嘛用
  8. java文件删除操作_Java文件复制删除操作合集
  9. Selenium 2自动化测试实战5(模块调用)
  10. 目前为止最全的微信小程序项目实例
  11. 计算机组成原理第三章课后答案,《计算机组成原理》第三章课后题参考答案
  12. 苹果CoreFoundation源代码
  13. 华为鸿蒙os logo,华为鸿蒙OS Logo揭秘:Powered by HarmonyOS
  14. 数字信号处理1——离散时间系统与常见信号(matlab)
  15. html页面设置document类型,htmldocument类型
  16. 位偏移 java_时区和偏移类 / Zone and Offset
  17. XMU毕业生总结写paper常用网站
  18. 判断图有无环_数读湾区经济潜能:基于大数据分析的环杭州湾大湾区“一体化”发展潜能!...
  19. 集线器、路由器、交换机
  20. ROS的 sudo rosdep init 的报错终极解决方案

热门文章

  1. MongonDB下载、安装(Windows)、配置详解
  2. SQL由出生日期求年龄
  3. 【解决方案】element show-password弹框关闭如何将小眼睛还原
  4. 老赵很喜欢博士后和小工的故事,于是就编下去了
  5. 申请邓氏编码流程(创建苹果公司开发者账号必经之路~)
  6. 振作只需一个理由:日子不能这样过
  7. 入坑就对了!如何用机器学习甄别真假美猴王?
  8. 微信小游戏开发入门(二)-用CocosCreator官方Demo生成微信小游戏
  9. SEO竞争对手分析及网站SEO优化方案设计分析
  10. 企业网盘+超融合,联想云加速的双引擎