来源:ICLR2021

链接:https://arxiv.org/abs/2006.15222v3

一.动机

Transformer架构已经被证明可以学习有用的蛋白质分类和生成任务表示。然而,在可解释性方面存在挑战。

二.亮点

本文通过attention分析蛋白质Transformer模型,通过attention(1)捕获蛋白质的折叠结构,将在底层序列中相距很远但在三维结构中空间接近的氨基酸连接起来(2)以蛋白质的关键功能成分结合位点为靶点(3)关注随着层深度的增加而逐渐变得更加复杂的生物物理特性。这一行为在三个Transformer架构(BERT、ALBERT、XLNet)和两个不同的蛋白质数据集上是一致的。并提出了一个三维可视化的方法显示attention和蛋白质结构之间的相互作用。

三.方法论

Model:

Attention analysis:

计算高attention对()在数据集X中存在的比例。

Datasets:

ProteinNet用于氨基酸和contact map的分析,Secondary Structure用于二级结构的分析,在Secondary Structure的基础上创建了第三个关于结合位点和转录修饰点的数据集,其中添加了从蛋白质数据库web api获得的结合位点和PTM注释。

四.实验

4.1蛋白质结构

Figure 2

Attention与contact maps在最深层强烈一致:图2显示了根据公式1定义的指标,在被评估的五个模型中,attention如何与contact map相一致。在最深层发现了最一致的头,对接触的关注达到44.7% (TapeBert)、55.7% (ProtAlbert)、58.5% (ProtBert)、63.2% (ProtBert- bfd)和44.5% (ProtXLNet),而数据集中所有氨基酸对的接触背景频率为1.3%。单个头ProtBert- bfd具有最好的效果,其含有420M参数,同时也是唯一在BFD预训练。

考虑到模型是在没有任何空间信息的情况下进行的语言建模任务训练,这些具有结构意识的head的存在值得关注。一种可能是接触更可能发生生物化学作用,在接触的氨基酸之间产生统计依赖。

4.2结合位点和转录修饰点

Figure 3

在模型的大多数层Attention意在结合位点:对结合位点的关注在ProtAlbert模型中最为显著(图3b),该模型有22个头,将超过50%的注意力集中在结合位点上,而数据集中结合位点的背景频率为4.8%。三种BERT模型(图3a、3c和3d)对结合位点的关注也很强,注意头对结合位点的关注分别达到48.2%、50.7%和45.6%。

ProtXLNet(图3 e)目标结合位点,但不像其它模型强烈:最一致的头有15.1%attention关注结合位点,平均头将只有6.2%的attention关注结合位点,而前四个模型均值以次为13.2%,19.8%,16.0%,和15.1%。目前还不清楚这种差异是由于架构的差异还是由于预训练目标的差异;例如,ProtXLNet使用双向自回归预训练方法(见附录a .2),而其他4个模型都使用掩码语言建模。结合位点是蛋白质与其他大分子的相互作用位置,这决定了蛋白质的高级功能,即使序列整体进化,结合位点也将被保留,同时结合位点的结构也局限于特定的家族或超家族,结合位点可以揭示蛋白质之间的进化关系,因此结合位点可能为模型提供对个体序列变化具有鲁棒性的蛋白质的高级描述。

一小部分Head的attention意在PTMs, TapeBert中的Head 11-6集中了64%的注意力在PTM位置上,尽管这些只发生在数据集中0.8%的序列位置上。

4.3跨层分析

在较深层attention意在高级属性:图4中较深的层相对更关注结合位点和contact(高级概念),而二级结构(低级到中级概念)则更均匀地跨层定位;Attention probe显示关于contact map的知识主要在最后1-2层被编码进注意权重,这与基于文本的Transformer模型在较深层次处理更复杂的属性相一致;Embedding probe(图5,橙色)也表明,模型首先在较低层构建局部二级结构的表示,然后在较深层完全编码结合位点和接触图。然而,这一分析也揭示了在接触图的知识如何在嵌入中积累的明显差异,embedding是在多个层次上逐渐积累这种知识,而attention权重则只在最后的层次上获得这种知识。

4.4氨基酸和可替代矩阵

根据图6,attention head关注特定氨基酸,那么每个head是否记住了特定的氨基酸或者学会了与氨基酸相关的有意义的特性,为了验证这个猜想,计算了所有不同氨基酸对与头部注意力分布之间的皮尔逊相关系数(图7 左)并发现与BLOSUM62(图7 右)的皮尔逊系数为0.73,表明attention适度与可替代关系统一。

五.总结

本文将NLP的可解释性方法应用于蛋白质序列建模,并在此基础上建立了NLP与计算生物学的协同效应并展示了Transformer语言模型如何恢复蛋白质的结构和功能特性,并将这些知识直接整合到它的注意机制中。虽然本文的重点是将注意力与已知的蛋白质特性协调起来,但人们也可以利用注意力来发现新的关系或现有措施的更细微的形式


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

论文浅尝 - ICLR2021 | BERTology 遇上生物学:在蛋白质语言模型中解释注意力相关推荐

  1. 论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

    笔记整理:谭亦鸣,东南大学博士生 来源:EACL'21 链接:https://aclanthology.org/2021.eacl-main.284.pdf 概述 本文关注将语言模型(LM)视作一个知 ...

  2. 论文浅尝 - ICLR2021 | 从信息论的角度提高语言模型的鲁棒性

    笔记整理 | 胡楠,东南大学 来源:ICLR 2021 论文下载地址:https://arxiv.org/pdf/2010.02329.pdf 动机 最近的研究表明,BERT和RoBERTa这种基于B ...

  3. 论文浅尝 | 从具有数值边缘属性的知识图谱中学习嵌入

    论文笔记整理:朱珈徵,天津大学硕士 链接:https://www.ijcai.org/proceedings/2021/0395.pdf 动机 从遗传数据到社会网络,在越来越多的场景下与知识图谱边缘相 ...

  4. 论文浅尝 - ICML2020 | 拆解元学习:理解 Few-Shots 任务中的特征表示

    论文笔记整理:申时荣,东南大学博士生. 来源:ICML2020 链接:http://arxiv.org/abs/2002.06753 元学习算法会生成特征提取器,这些特征提取器在进行few-shot分 ...

  5. 论文浅尝 | 融入知识的弱监督预训练语言模型

    论文笔记整理:叶群,浙江大学计算机学院,知识图谱.NLP方向. 会议:ICLR 2020 链接:https://arxiv.org/pdf/1912.09637.pdf Abstract 预训练语言模 ...

  6. 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

    随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...

  7. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...

  8. 论文浅尝 | 图神经网络综述:方法及应用

    论文链接:https://arxiv.org/pdf/1812.08434.pdf GNN相关论文列表链接:https://github.com/thunlp/GNNPapers 近日,清华刘知远老师 ...

  9. 论文浅尝 | 近期论文精选

    本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接,感谢 PaperWeekly! TheWebConf 2018 ■ 链接 | https://ww ...

最新文章

  1. jQuery选择器全集详解
  2. 【IT人沟通技巧】如何学会结构化倾听
  3. SAP根据用户名查姓名
  4. redis介绍以及使用 ppt_光纤收发器的工作原理以及使用方法介绍
  5. ActionScript3.0程序开发工具
  6. html自定义列表第三层嵌套,【微信小程序】关于微信小程序多层嵌套渲染列表以及嵌套列表中数据的获取...
  7. java泛型(一)、泛型的基本介绍和使用
  8. 使用 Docker 搭建 PostgreSQL 12 主从环境
  9. 康乐php一键脚本,kangle一键脚本
  10. Web调试工具:火狐Firefox插件Firebug介绍
  11. 小区进入刷卡,快递不方便
  12. 497.非重叠矩形中的随机点
  13. 无线路由器密码破解-BT3-spoonwep2 (转http://www.ylmf.net/read.php?tid=1483881)
  14. mysql数据库课程设计_MySql数据库课程设计(学生管理系统).doc
  15. Java里的数组冒泡排序代码
  16. pdf签名无效解决办法_谁告诉你PDF不能修改了?我不仅可以直接编辑,还能随便转化格式!...
  17. 新建UEFI启动分区
  18. 软件学院“SIdea”软件创意大赛
  19. 华为更新云空间配置 显示无法连接服务器,更新服务器连接失败
  20. 国外大学诸多自学课程

热门文章

  1. 11个非常漂亮动物为主题的高品质图标集
  2. 精选15个国外CSS框架
  3. C语言 ,嵌入式 ,数据结构 面试题目(2)
  4. 驱动程序操作IO口API函数
  5. 利用qsort二级排序
  6. rocketmq存储结构_RocketMQ消息存储
  7. n1运行linux,斐讯N1折腾记:运行 Linux 及优化
  8. Vue项目开发过程中解决跨域问题(vue.config.js结合axios)
  9. LeetCode 1940. 排序数组之间的最长公共子序列(二分查找)
  10. LeetCode 1688. 比赛中的配对次数(模拟)