今天给大家介绍来自首尔国立大学Sungroh Yoon课题组在arXiv上发表的一篇文章。作者指出当前很多方法采用半监督学习来进行蛋白质序列建模,其中的预训练方法主要依赖于语言建模任务,并且常常表现的性能有限。为了更好地捕获未标记蛋白序列中包含的信息,必须进行补充蛋白特异性的预训练任务。针对以上问题,作者提出了一种称为PLUS的新型预训练方案。PLUS包括掩码语言建模(MLM)和补充蛋白质特异性的预训练任务,即相同的家族预测,可用于预训练各种模型架构。

1

介绍

由氨基酸的线性链组成的蛋白质是活生物体中用途最广泛的分子之一。它们在普遍的生物学机制中起着至关重要的功能。蛋白质根据氨基酸序列自然折叠成三维结构,结构会对其功能产生直接影响。随着下一代测序技术的出现,获得蛋白质序列变得相对更加容易,但是用有意义的属性注释序列仍然需要大量时间和资源。

利用无标签和标签数据的半监督学习已成为机器学习社区的长期目标之一。半监督学习算法使用大量未标记的数据预训练通用模型,然后它转移学习的表示形式,并针对每个受监督的任务使用少量带标签的数据对模型进行微调。半监督学习的关键是如何定义适当的预训练任务,最近有一些工作提出了蛋白质表示的预训练方法,采用了NLP的语言建模,并表明预训练有助于完成各种下游蛋白质任务。但是当前的预训练方法仍然在任务特定模型方面表现不佳,可能是因为仅仅依靠LM还不能达到预期效果,必须进行补充蛋白质特有的预训练任务才能更好地捕获蛋白质中包含的信息。

在本文中,作者介绍了一种称为PLUS的新型蛋白质序列建模预训练方案,PLUS由掩码语言模型和附加的补充蛋白特定的预训练任务组成,即相同家族预测(SFP)。PLUS可用于预训练各种模型架构,包括双向递归神经网络(BiRNN)和变压器(TFM),然后可以在各种下游任务上微调预训练的通用模型,而无需从头开始训练随机初始化的特定于任务的模型。它在七个蛋白质生物学任务中的六个任务上推进了预训练SOTA方法,即(1)三个蛋白质(对)级分类,(2)两个蛋白质级回归和(3)两个氨基酸级级别分类任务。最后,作者介绍了消融研究和解释分析结果,以更好地了解PLUS-RNN的优势。

2

模型

PLUS,是一种用于蛋白质序列建模的新型预训练方案, PLUS由MLM和互补的蛋白质特异性SFP预培训任务组成,可以帮助模型学习结构化的上下文双向表示。

预训练数据集 作者使用Pfam27.0作为预训练数据集,随机划分20%作为测试集,并过滤出少于20个氨基酸的序列。对于训练集,作者还删除了包含少于1,000种蛋白质的家族。它产生了来自3,150个家庭的14,670,860个序列,用于以下PLUS预训练。

模型结构 PLUS可用于预训练各种模型架构,包括BiRNN和TFM。生成的模型分别称为PLUS-RNN和PLUS-TFM。在这项工作中,我们主要基于PLUS-RNN相对于PLUS-TFM的两个优势。首先,RNN按顺序处理序列,更加强调局部上下文,它对于学习蛋白质的顺序性质更有效,其次,PLUS-RNN提供较低的计算复杂度。

对于给定的蛋白质序列,PLUS-RNN将其转换为一个序列的表示。首先输入嵌入层EM将每个氨基酸嵌入到三维密集向量,然后,L层的BiRNN获得作为整个序列的函数的双向表示,作者还使用了一个附加的投影层,以线性变换获得每个氨基酸的较小维度表示。

预训练过程 与以前的方法相比,PLUS基于两个预训练任务(MLM和SFP)学习双向表示,这两个任务旨在吸收全局结构信息。MLM任务训练模型以最大化对应于被掩盖模型的概率。由于要求PLUS-RNN预测给定上下文的随机掩盖的氨基酸,因此MLM任务使模型能够学习整个蛋白质序列的双向上下文表示。考虑到额外的预训练任务通常是进一步提高表示质量的关键,因此作者设计了一种互补的蛋白质特异性预训练任务。SFP任务利用了来自Pfam数据集的计算聚类的弱族标签。它训练模型以预测给定的蛋白质对是否属于同一蛋白质家族。尽管它很简单,但作者凭经验表明SFP可以补充MLM,并有助于捕获蛋白质的整体结构信息。

微调过程 PLUS-RNN的微调过程遵循基于BiRNN的预测模型的常规用法。对于每个下游任务,仅在预训练模型的顶部添加一个隐藏层和一个输出层,然后,使用任务特定的数据集和损失函数对所有参数进行微调。对于涉及蛋白质对的任务,仅将SFP输出层替换为新的输出层。对于单一蛋白质水平的任务,作者采用了一个额外的注意层,将可变长度表示形式聚集到单个向量中然后,将聚合的向量馈送到隐藏层和输出层。对于氨基酸级任务,每种氨基酸的表示形式都被输入到隐藏层和输出层中。

3

实验

为了进行比较评估,作者使用了几个基准。首先,在所有七个蛋白质生物学任务中,作者提供了两个替代的预训练方法基准,即P-ELMo和PLUS-TFM。其次,对于TAPE任务,作者还提供了他们的训练前基准测试:P-ELMo,UniRep,TAPE-TFM,TAPE-RNN和TAPE-ResNet。最后,在不进行预培训的情况下,针对特定任务的SOTA模型对PLUS-RNN进行了基准测试。此外,如果没有针对给定任务的基于深度学习的先前模型,作者将使用RNN-BASE和RNN-LARGE模型,而无需进行预训练。

预训练结果 下表显示了MLM和SFP预训练任务的测试准确性,仅对经过PLUS预训练的模型进行SFP任务评估。从中可以看到,某些模型的LM精度低于其他模型。但是,较低的LM能力并不完全与微调任务中的性能相对应。这种差异先前已在TAPE中观察到,也可以在以下各节中观察到。在SFP方面,所有经过PLUS培训的模型都具有很高的准确性。这是因为与LM相比,这可能是一件相当容易的事情。由于Pfam家族仅基于序列相似性构建,因此一对相似序列可能来自同一家族。通过经验证明,通过鼓励模型在训练前比较模型中的蛋白质表示,SFP对MLM起到了补充作用。

微调结果 作者在七个蛋白质生物学任务上评估PLUS,下表列出了七个基准测试任务的汇总结果。SOTA结果来自两类:以前的预训练模型(即P-ELMo,UniRep,TAPE-TFM,TAPE-RNN和TAPE-ResNet)和没有预训练的特定于任务的模型。从表中可以看到,在七个蛋白质生物学基准测试任务中的六个任务上,PLUS-RNNLARGE模型优于预训练的SOTA模型。考虑到某些预训练方法显示出更高的LM能力,可以推测,性能的提高有助于蛋白质特异的SFP预训练任务。将PLUS-RNNLARGE与特定于任务的SOTA模型进行比较。尽管前者在某些任务上的性能明显好于其他任务,但仍然远远落后于其他任务。结果表明,具有附加功能的定制模型提供了强大的优势,而这些优势仍然无法从预训练中学习到。

同源性和SecStr结果 为了进一步分析,作者提供了有关同源性和SecStr任务的详细评估结果。下表列出了详细的同源性预测结果。结果显示PLUS-RNNLARGE优于P-ELMo模型和特定于任务的模型。与由于有限的标记训练数据而显示过度拟合的RNNLARGE相比,PLUS预训练使我们能够利用大型模型架构,PLUS预培训结合了薄弱的结构信息,并有助于推断更高层次的全局结构相似性。

下表给出了详细的SecStr预测结果。CB513,CASP12和TS115表示SecStr测试数据集。同样,结果表明PLUS-RNNLARGE始终优于所有其他预训练SOTA方法。它证明了SFP任务在预训练期间对LM任务进行了补充,并有助于学习改进的结构化上下文表示。另一方面,PLUS-RNNLARGE使用基于对齐的功能仍远远落后于特定于任务的SOTA模型。

4

总结

在这项工作中,作者提出了PLUS,一种双向蛋白质序列表示的新型预训练方案。PLUS由MLM和蛋白质特异性SFP预训练任务组成,它可以更好地捕获蛋白质中包含的结构信息。PLUS可用于预训练各种模型架构。在这项工作中,考虑到顺序建模能力和计算复杂性,作者主要使用PLUS-RNN。它在七个蛋白质生物学任务中的六个任务上推进了先前的SOTA预训练方法。此外,为了更好地了解其优势,作者还提供了相应的消融研究和定性解释分析的结果。

代码

https://github.com/mswzeus/PLUS/

参考资料

https://arxiv.org/abs/1912.05625

PLUS | 包含蛋白质特异性的新型预训练方案相关推荐

  1. 是时候“抛弃”谷歌 BERT 模型了!新型预训练语言模型问世

    作者 | XLNet Team 译者 | 孙薇 责编 | Jane 出品 | AI科技大本营(ID: rgznai100) 近日,XLNet 团队发布了新型预训练语言模型 XLNet,这个新模型在各项 ...

  2. 《预训练周刊》第12期:无注意力变换器、借蛋白质语言模型论进化速度

    No.12 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第11期&l ...

  3. 《预训练周刊》第33期:艾伦AI研究所等 | 预训练语言模型的高效分层域适应

    No.33 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了9篇预训练相关的论文,涉及词汇迁移.常识问答.多模态训练.层次训练.对比学习.图像分割.图文模型.蛋白 ...

  4. 《预训练周刊》第47期:屏蔽自编码器、结构化知识注入预训练、ERNIE 3.0

    No.47 智源社区 预训练组 预 训 练 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...

  5. 预训练图像处理Transformer

    机器之心发布 机器之心编辑部 作为自然语言处理领域的主流模型,Transformer 近期频频出现在计算机视觉领域的研究中.例如 OpenAI 的 iGPT.Facebook 提出的 DETR 等,这 ...

  6. 预训练图像处理Transformer:刷榜多项底层视觉任务

    来源|机器之心 作为自然语言处理领域的主流模型,Transformer 近期频频出现在计算机视觉领域的研究中.例如 OpenAI 的 iGPT.Facebook 提出的 DETR 等,这些跨界模型多应 ...

  7. VLM:Meta AI CMU提出任务无关视频语言模型视频理解预训练VLM,代码已开源!(ACL 2021)...

    关注公众号,发现CV技术之美 本文分享 ACL 2021 论文『VLM: Task-agnostic Video-Language Model Pre-training for Video Under ...

  8. ICLR 2023 | StrucTexTv2:端到端文档图像理解预训练框架

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->[计算机视觉]微信技术交流群 转载自:CSIG文档图像分析与识别专委会 本文简要介绍ICL ...

  9. AI圈真魔幻!谷歌最新研究表明卷积在NLP预训练上竟优于Transformer?LeCun暧昧表态...

    作者 | 陈大鑫.琰琰 转自:AI科技评论 AI 圈太是太魔幻了! 众所周知,近一年来Transformer火的很,把Transformer用在视觉领域真是屡试不爽,先是分类后是检测,等等等等,每次都 ...

最新文章

  1. 首发 | 13篇京东CVPR 2019论文!你值得一读~ 技术头条
  2. BCH链上交易量翻5倍的背后隐藏着哪些秘密?
  3. Lotus Notes常见问题答疑
  4. docker安装RabbitMQ镜像
  5. python操作mongodb之六自定义类型存储
  6. matlab计算流函数,hanyeah
  7. 在redhat/centos的linux环境下安装配置java web运行环境
  8. linux 组态软件,基于嵌入式Linux的组态软件实时数据库的设计
  9. 于仕琪老师的人脸检测库
  10. [SRv6]《SRv6网络编程》SRv6 OAM与随路网络测量(1/2:OAM)
  11. 下载Linux系统中文件到本地电脑
  12. 整理了上千个Python类库,简直太酷啦!
  13. 初识云计算————虚拟化背景
  14. 舒亦梵:几条投资理念,决定你是否具有富人思维
  15. Excel中如何连续使用格式刷
  16. 多元回归分析(multiple regression)及其应用
  17. 哥们别逗 了,写个脚本那真不叫运维自动化! 【转载】
  18. 电脑桌面便签提醒事项到期后怎么清除时间设置?
  19. 制作一个网站前你应该了解哪些东西?怎么搭建网站?
  20. 【Mysql学习之旅-2】经典sql面试题及答案分析

热门文章

  1. 软件需求开发的18般武艺
  2. 这次,让我们捋清:同步、异步、阻塞、非阻塞
  3. 拼多多面试|如何用 Redis 统计独立用户访问量?
  4. 京东这道面试题你会吗?
  5. 腾讯信息流热点挖掘技术实践
  6. 某程序员为让公司裁掉自己,消极怠工!故意旷工!但公司坚持不裁他,领导:给你发工资,就是不裁你!...
  7. 微博广告分布式配置中心的构建与实践
  8. 边缘计算的三种模式:MEC、微云和雾计算
  9. 程序员哀叹:专科都是ji's万的年薪,互联网的泡沫要破了
  10. 87岁的老奶奶喜欢用windows画图程序作画,而且画得还贼好!