论文名称:Enhancing Content Planning for Table-to-Text Generation with

Data Understanding and Verification

论文作者:龚恒,闭玮,冯骁骋,秦兵,刘晓江,刘挺

原创作者:龚恒

论文链接:https://www.aclweb.org/anthology/2020.findings-emnlp.262.pdf

来自:哈工大SCIR

1. 简介

数据到文本生成任务是文本生成的重要研究任务之一,其目标是根据输入的结构化数据自动生成相关的描述性文本。以图1为例,输入的结构化数据是一场体育比赛中球员和球队的一系列统计数据,输出的是对应的赛事报道[1]。该类任务需要解决两项挑战[2]:如何从冗余的结构化数据中选择重要信息(内容规划阶段)、如何用自然语言的形式正确地描述重要信息(表层实现阶段)。前人的工作[2]指出目前的主要瓶颈是内容规划阶段。本文中,我们针对内容规划阶段,提出了数值数据理解和重要信息验证模块,前者通过基于表格上下文的数值表示模块,为模型引入数值大小的概念,帮助模型更好地理解数值数据之间的关系,从而更好地挖掘重要信息。后者,通过策略梯度方法,从内容选择和排序等多个角度指导模型有针对性地优化自己的内容规划能力。我们在两个公开数据集上进行了实验,在内容规划类指标上证明了我们模型的有效性。

图1 任务示例,NCP是基线模型生成的结果,Gold是参考文本。Extracted Records是文本中提到的数据。

2. 背景和动机

这个任务上的模型可以分为两大类:传统的流水线模型和端到端模型。流水线模型[3,4]将整个任务划分为多个阶段,依次生成。其中,主要的阶段包括内容规划(stage 1,选择和排序重要信息)和表层实现(stage 2,用自然语言对重要信息进行描述),而大多数端到端模型直接根据输入的结构化数据,生成对应的文本[5,6,7,8,9]。Puduppully等人[2]提出了一个两步生成模型(NCP),在保持端到端模型生成连贯文本的能力的同时,允许对模型的内容规划能力进行显式优化。他们的结果显示,模型的内容规划能力离它的上限还有很大的距离,也是制约整个数据到文本生成任务的瓶颈。根据我们的观察,输入的某项数据是否应当被提及和这项数据对应的数值相关,而NCP等模型将数值视为词进行建模,缺少对数值关系的建模。以图1为例,球员Lin得分18,在所在球队中排名第2,他的相关统计数据应当属于重要数据,但是却被NCP忽略了,我们认为这与模型缺少在表格上下文中建模数值信息间的关系有关。这还会影响到表层实现的效果。仍然以图1为例,虽然Nets队比Grizzlies队得分高,但是NCP生成文本的时候却说Grizzlies队打败了(defeated)Nets队。另外,目前的模型采用最大化似然估计(MLE)的方法来优化内容规划模块,缺少面向内容规划的针对性的优化目标。

为了解决上面提到的问题,我们提出了数值数据理解和重要信息验证模块以增强模型的内容规划能力。3.2和3.3对该方法进行了详细介绍。

3. 方法

3.1 基线模型NCP

基线模型[2]将数据到文本生成过程用两个神经网络进行建模。第一个神经网络首先建模表格内容,然后利用Pointer Network从表格中选择和规划出重要的信息(Content Planning)。第二个神经网络以规划出的重要信息为输入,利用编码器-解码器模型生成文本。

3.2 数值数据理解模块

同样的一个数值在不同的上下文中有不同的含义。例如,一位球员如果拿到了所在队伍的最高分“23”分,那他的表现可以认为非常突出。但如果同球队有另外一个球员拿到了“30”分,那拿到“23”分的这位球员的表现相对拿到“30”分的球员来说没有那么突出。有必要建模一个数值在不同上下文中的表示以及数据的大小关系。本文将不同类型的数据(例如得分、助攻、篮板等)视为不同的序列,每一个序列包括各位球员的同一类数据,采用Transformer encoder[10]建模数据间的关系。然后,利用ranking loss预训练这个用来表示数值的Transformer encoder。预训练目标是比较两个数值对应的上下文表示,并分别进行打分,数值较高的上下文表示的得分应当比数值较低的得分高。最后利用数值的上下文表示替换基线模型中数值表示的embedding表示。

3.3 重要信息验证模块

针对内容规划模块,我们定义了五项奖励函数从不同角度衡量内容规划结果的效果。实体重要性(EI)用来判断选择的一项数据描述的实体是否是重要的。实体召回率(ER)用来判断有多少重要的实体被覆盖了。数据重要性(RI)和数据召回率(RR)从数据的层次进行衡量。数据顺序(RO)通过计算编辑距离来判断内容规划的顺序是否自然(和参考文本进行对比)。五项奖励函数通过策略梯度[11]的方法用来优化内容规划模块。

图2 模型结构图。1是我们提出的数值数据理解模块,3是重要信息验证模块,2是基线模型NCP的结构图。

4. 实验

4.1 数据集

我们采用公开的ROTOWIRE、MLB数据集进行训练和测试。

4.2 评价指标

除了文本生成任务上常用的基于N-Gram匹配计算的BLEU值以外,Wiseman[1]等人提出通过训练一个信息抽取模型,从生成的文本中抽取三元组,和表格以及参考文本进行对比进行评价,得到RG、CS和CO三类指标。其中,RG通过对比生成的文本中抽取三元组和表格中的信息判断生成的内容是否正确。CS通过对比生成的文本中抽取三元组和参考文本中抽取三元组,判断生成的内容包含重要信息的能力,CO通过计算生成文本中抽取的三元组和参考文本中抽取的三元组的编辑距离判断生成的文本对于信息的排列是否自然。

4.3 实验结果

我们对比了基线模型、基于模版生成的结果、该数据集上的其他模型等,我们的模型(DUV)在内容规划类指标(内容选择指标CS F1%和内容排序指标CO)超过了其他模型,验证了我们模型在内容规划上的有效性。

表1 实验结果

4.4 生成案例

图3生成的案例体现了我们模型(DUV)生成的文本中的一些优势:

  1. 相比基线模型NCP(图1),正确地提到得分更高的Nets队打败了Grizzlies队。

  2. 相比基线模型NCP和ENT模型,在覆盖所有重要球员(红色标注)的情况下,过滤了大部分不重要的数据(蓝色标注)。

  3. 比较内容规划结果(Planning)和生成文本中提到的信息(Extracted),生成的文本能够比较好地如实反映内容规划阶段选出的重要信息,印证了这项任务的主要瓶颈是内容规划。

图3 生成案例

5. 结论

本文中,我们针对数据到文本生成的内容规划问题提出了数值数据理解和重要信息验证模块,实验结果表明我们的模型相比之前的模型在内容规划能力上得到提升。

参考文献

[1] Sam Wiseman, Stuart Shieber, and Alexander Rush. Challenges in data-to-document generation. EMNLP 2017.

[2] Ratish Puduppully, Li Dong, and Mirella Lapata. Data-to-text generation with content selection and planning. AAAI 2019.

[3] Karen Kukich. Design of a knowledge-based report generator. ACL 1983.

[4] Kathleen R McKeown. Text generation: using discourse strategies and focus constraints to generate natural language text. 1985.

[5] Liunian Li and Xiaojun Wan. Point precisely: Towards ensuring the precision of data in generated texts using delayed copy mechanism. COLING 2018.

[6] Feng Nie, Jinpeng Wang, Jin-Ge Yao, Rong Pan, and Chin-Yew Lin. Operation-guided neural networks for high fidelity data-to-text generation. EMNLP 2018.

[7] Ratish Puduppully, Li Dong, and Mirella Lapata. Data-to-text Generation with Entity Modeling. ACL 2019.

[8] Hayate Iso, Yui Uehara, Tatsuya Ishigaki, Hiroshi Noji, Eiji Aramaki, Ichiro Kobayashi, Yusuke Miyao, Naoaki Okazaki, and Hiroya Takamura. Learning to Select, Track, and Generate for Data-to-Text. ACL 2019.

[9] Heng Gong, Xiaocheng Feng, Bing Qin, Ting Liu. 2019. Table-to-Text Generation with Effective Hierarchical Encoder on Three Dimensions (Row, Column and Time). EMNLP 2019.

[10] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention is all you need. NIPS 2017.

[11] Richard S Sutton and Andrew G Barto. Introduction to reinforcement learning, volume 135. 1998.

本期责任编辑:李忠阳

本期编辑:彭   湃

下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!后台回复【五件套】
下载二:南大模式识别PPT后台回复【南大模式识别】

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家:

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析


整理不易,还望给个在看!

基于数值数据理解和重要信息验证的数据到文本生成模型相关推荐

  1. 基于结构化数据的文本生成:非严格对齐生成任务及动态轻量的GCN生成模型

    作者|邴立东.程丽颖.付子豪.张琰等 单位|阿里巴巴达摩院.香港中文大学等 摘要 基于结构化数据生成文本(data-to-text)的任务旨在生成人类可读的文本来直观地描述给定的结构化数据.然而,目前 ...

  2. 用文本指导文本:基于文本的自监督可控文本生成模型

    论文标题: CoCon: A Self-Supervised Approach for Controlled Text Generation 论文作者: Alvin Chan, Yew-Soon On ...

  3. 请谈谈你对这句话的理解:“所见的是暂时的,所不见的是永远的”5.3 先来先服务调度算法为什么苏联解体的时候,戈尔巴乔夫演讲的当时,电视的所有频道都在放《天鹅湖》介绍一下LSTM文本生成模型

    目录 请谈谈你对这句话的理解:"所见的是暂时的,所不见的是永远的" 5.3 先来先服务调度算法 为什么苏联解体的时候,戈尔巴乔夫演讲的当时,电视的所有频道都在放<天鹅湖> ...

  4. NLP文本生成模型数据准备及实战

    NLP文本生成模型数据准备及实战 自然语言处理+数据准备 Machine readable vector format 自然语言处理NLP的数据预处理有哪些共性,可以参考? 什么样的数据格式是深度学习 ...

  5. 由浅入深理解latent diffusion/stable diffusion(2):扩散生成模型的工作原理

    Diffusion Models专栏文章汇总:入门与实战 前言: 关于如何使用stable diffusion的文章已经够多了,但是由浅入深探索stable diffusion models背后原理, ...

  6. 「自然语言处理(NLP)」【爱丁堡大学】基于实体模型的数据文本生成!!

    来源:AINLPer微信公众号(点击了解一下吧) 编辑: ShuYini 校稿: ShuYini 时间: 2020-1-10 TILE: Data-to-text Generation with En ...

  7. IJCAI 2018 基于主题信息的神经网络作文生成模型

    本文介绍哈尔滨工业大学社会计算与信息检索研究中心(SCIR)录用于IJCAI 2018的论文<Topic-to-Essay Generation with Neural Networks> ...

  8. 《大数据》2015年第3期“网络大数据专题”——网络大数据的文本内容分析

    网络大数据的文本内容分析 程学旗,兰艳艳 (中国科学院计算技术研究所 北京 100019) 摘要:文本内容分析是实现大数据的理解与价值发现的有效手段.尝试从短文本主题建模.单词表达学习和网页排序学习3 ...

  9. 文本自动生成研究进展与趋势之数据到文本的生成

    数据到文本的生成 1 国际研究现状 数据到文本的生成技术指根据给定的数值数据生成相关文本,例如基于数值数据生成天气预报文本.体育新闻.财经报道.医疗报告等.数据到文本的生成技术具有极强的应用前景,目前 ...

  10. CVPR论文 | 所见所想所找:基于生成模型的跨模态检索

    [小叽导读]:视觉-文本跨模态检索已经成为计算机视觉和自然语言处理领域结合的一个热点.对于跨模态检索而言,如何学到合适的特征表达非常关键.本文提出了一种基于生成模型的跨模态检索方法,该方法可以学习跨模 ...

最新文章

  1. 补充上次的将父类作为方法的返回类型
  2. 第1章-什么是深度学习(笔记)
  3. 2021高考青岛二中成绩查询,2021年青岛高考各高中成绩及本科升学率数据排名及分析...
  4. javafx_JavaFX技巧4:总结
  5. Ubuntu如何卸载安装的软件以FileZilla为例
  6. 金叉成功率_一个非常强烈的买卖信号:三金叉见顶,三死叉见底,短短10字,但是成功率却远超“金叉买,死叉卖”...
  7. 思考问题:Python这两段等效代码内存占用为什么差别那么大?
  8. 用concat批量生成MySQL查询语句
  9. Kernel: Do NOT use global variable as possible as you can 尽量不使用全局变量
  10. php 同义词词库,php如何实现同义词替换
  11. 请假通知(8-17~8-19)
  12. 计算机主机光驱弹不出来怎么办,电脑dvd光驱打不开,光驱弹不出来解决
  13. 【腾讯TMQ】iOS逻辑自动化测试实践
  14. Rita Hayworth and Shawshank Redemption
  15. Spring中添加自定义标签
  16. XCode编译器介绍
  17. 约瑟夫环的两种实现方法
  18. 惊了!原来Go语言也有隐式转型
  19. 全国计算机等级考试试题研究组,全国计算机等级考试命题研组
  20. 高速接口之USB 3.0

热门文章

  1. javascript实例:路由的跳转
  2. linux下select,poll,epoll的使用与重点分析
  3. Win7升Windows10有获取通知,但是就不推送的解决方法
  4. spark sql cache
  5. HDU 1500(经典的恶心DP)
  6. 学JS的心路历程 - JS应用
  7. python selenium等待特定网页元素加载完毕
  8. Iterator(迭代器)-对象行为型模式
  9. 微信公众平台开发(112) 微信卡券
  10. 汇总Eclipse快捷键