HIBRIDS: Attention with Hierarchical Biases
for Structure-aware Long Document Summarization
[pdf]

  • 论文状态:被ACL22接收
  • 作者:University of Michigan的 Shuyang Cao 和 Lu Wang
  • TL;DR: 本文用相对关系矩阵为transformer引入文档结构信息,进而提升长文档摘要的效果,并介绍了一个新的任务:结构化"问题-摘要对"生成.

1. Motivation

文档的结构对于摘要是很重要的信息,如何有效地给摘要模型加入结构信息是一个有趣的问题.

受到自顶向下知识学习的启发:人们是从问宽泛的问题开始学习整体知识,再深入到细节中学习的.

于是作者提出一个新任务:给定一个文档,自动生成问题和摘要,并把"问题-摘要对"排列成文档的类似结构.

2. Contribution

  • 发明了一种有效地给摘要模型提供源文档结构信息的方法:相对位置矩阵
  • 发布了一个新的摘要任务: 生成"问题-摘要对",从中提取文档的结构信息

3. Model

作者构建文档的结构树,用一个矩阵BBB,引入了2个值来表示树结构:

  • PathLen(x,y):章节x与y之间路径的长度
  • LvlDiff(x,y): x与y在树中深度(到root的距离)的差异

对应的图:

作者以这个树结构矩阵BBB为查询表,为transformer的attention计算方式提供额外的结构信息.

对于encoder, 给定i号查询 qiq_iqi​和由输入的n个token的key组成的矩阵KKK
更改self-attention机制为:
aij=softmax(qiKT+bi)jbi=[bi1,bi2,...,bin]a_{ij} = softmax(q_iK^T + b_i)_j \\ b_i = [b_{i1},b_{i2},...,b_{in}] aij​=softmax(qi​KT+bi​)j​bi​=[bi1​,bi2​,...,bin​]
其中,bias项的计算方式是查表:
bij=B[PathLen(i,j),LvlDiff(i,j)]b_{ij}=B[\text{PathLen}(i,j),\text{LvlDiff}(i,j) ] bij​=B[PathLen(i,j),LvlDiff(i,j)]
此外,作者还对decoder进行了设计,引入结构信息.

4. Experiments

数据的来源是GOVREPORT摘要数据集,里面是政府的报告和摘要,很长,源文档平均长度为9409,摘要平均长度为553.
作者请了11个大学生来在GOVREPORT数据集的基础上标注,标注者会根据每个摘要段落创造结构化的问题,并只能选择摘要句子作为答案.

作者的结构化"问题-摘要对"生成分了3个任务:

  • QSGen-Hier: 给定对齐的文档和根问题,生成一个能回答问题且有结构的摘要.
  • QSGen-ChildQ: 给定一个"问题-摘要对"和对齐的文档章节,生成所有的子问题.
  • Full Summary Generation: 生成整个长文档的摘要.

作者采用的摘要模型是Longformer,窗口长度设置为1024,在此基础上加入结构信息.
最后的实验表明,只在encoder里加结构信息貌似是最能帮助摘要生成的.

5. Key takeaways

  • 可以通过PathLen与LvlDiff构建矩阵,表示树中节点之间的相对位置关系.
  • 可以直接用查相对位置表的方式给Transformer引入结构信息.

[ACL22] HIBRIDS:Hierarchical Biases for Structure-aware Long Document Summarization 阅读笔记相关推荐

  1. Swin Transformer:Hierarchical Vision Transformer using Shifted Windows (论文阅读笔记)

    swin transformer 是微软亚研院胡瀚老师与2021年提出,发表在ICCV上并获得best paper 和马尔奖.是基于transformer的backbone网络,屠榜各大视觉任务. 论 ...

  2. Hierarchical Attention Networks for Document Classification 阅读笔记

    之前存在的问题:当所要处理的序列较长时,就会导致网络容易忘记之前的东西 解决办法:提出了"注意力"机制,使得网络工作过程中可以像人一样将注意力放在不同部位.这篇论文就针对文本分类问 ...

  3. Structure Aware Single-stage 3D Object Detection from Point Cloud

    Structure Aware Single-stage 3D Object Detection from Point Cloud 作者:Chenhang He, Hui Zeng, Jianqian ...

  4. Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记

    Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记 这篇论文介绍 ...

  5. 【论文阅读笔记】语义三维重建CVPR2011:Semantic Structure from Motion

    前文回顾 [论文阅读笔记]Past, Present, and Future of Simultaneous Localization and Mapping [论文阅读笔记]语义SLAM语义映射模型 ...

  6. 《Densely Connected Hierarchical Network for Image Denoising》阅读笔记

    一.论文 <Densely Connected Hierarchical Network for Image Denoising> 近年来,深度卷积神经网络已应用于众多图像处理研究中,并且 ...

  7. 论文阅读笔记:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    论文阅读笔记:Swin Transformer 摘要 1 简介 2 相关工作 3 方法论 3.1 总览 Swin Transformer block 3.2 shifted window-based ...

  8. 阅读笔记 CCL: Cross-modal Correlation Learning with Multi-grained Fusion by Hierarchical Network

    总结 CCL: Cross-modal Correlation Learning with Multi-grained Fusion by Hierarchical Network Yuxin Pen ...

  9. FeUdal Networks for Hierarchical Reinforcement Learning 阅读笔记

    FeUdal Networks for Hierarchical Reinforcement Learning 标签(空格分隔): 论文笔记 增强学习算法 FeUdal Networks for Hi ...

最新文章

  1. 函数表达书-读书笔记
  2. Maven学习总结(35)——Maven项目错误 JAX-RS (REST Web Services) 2.0 can not be installed问题...
  3. 双系统 android 华硕,华硕发布Duet TD300,首款真正Windows+安卓双系统笔记本
  4. 【2020模拟考试T3】【PAT乙】1028 人口普查 (20分) 字符串比较
  5. 3. VPP源码分析(graph node(1))
  6. [Codeforces Round #152 (Div. 2)]A. Cupboards
  7. linux抓包查看请求接口源ip,linux 抓包
  8. 前端 HTML5+CSS3基础知识一
  9. dxp全称_Protel DXP 2004 分立元件库元件名称中英对照表
  10. java实现DFA 敏感词检测
  11. 企业微信开发之判断当前入口是PC端企业微信还是PC端浏览器。或者是APP端企业微信
  12. Git使用小技巧之挑拣合并
  13. 实战用Python+Pygame+Kivy(Buildozer)+Ubuntu开发安卓android手机端apk游戏及踩坑分享
  14. 易捷行云EasyStack获OpenInfra社区卓越领导力奖
  15. 潮汐监测站点 api数据接口
  16. window.onload用法
  17. ubuntu安装I219-LM网卡驱动
  18. Verisiondog自动化系统备份
  19. 还在羡慕微信/微博的图片处理?-android酷炫图片处理(下)
  20. 【bat】获取软件安装目录

热门文章

  1. BUGKU_WEB_never give up
  2. 不同的靶材(Cu,Cr,Co,Mo,Fe靶)对XRD谱有什么影响
  3. abaqus钢结构螺栓连接分析
  4. 用Python自动生成Excel数据报表!
  5. 用 Jupyter Notebook 爬取微博图片保存本地!
  6. linear regression and logistic regression 1
  7. Linux7/Centos7磁盘分区、格式化及LVM管理
  8. python基本数据类型之字典详解
  9. 快给你的对象做一个微信公众号播报吧-java版
  10. C语言学生管理系统(期末作业,超详细哟,拿走不谢!!!)