「自然语言处理(NLP)」【爱丁堡大学】基于实体模型的数据文本生成!!
来源:AINLPer微信公众号(点击了解一下吧)
编辑: ShuYini
校稿: ShuYini
时间: 2020-1-10
TILE: Data-to-text Generation with Entity Modeling
Contributor : 爱丁堡大学
Paper: https://www.aclweb.org/anthology/P19-1195.pdf
Code: None
文章摘要
由于大规模数据集的使用和端到端训练的神经网络结构的应用,数据到文本生成显示出了巨大的潜力。这些模型通过表征学习适当地选择内容,连贯地组织内容,并按语法对其进行描述,将实体视为词汇标记。在这项工作中,我们提出了一个以实体为中心的神经网络架构来生成数据到文本。我们的模型创建了动态更新的特定实体表示。文本是在数据输入和实体内存表示的条件下生成的,在每个时间步使用分层注意。我们在RotoWire基准上进行了实验,并在自建的棒球域上新数据集(五倍大)。结果表明,该模型在自动评价和人工评价两方面均优于的基线。
文章贡献
1、提出了一种新颖的实体感知模型,以语言生成为目的,用于数据到文本的生成,不需要预处理;
2、一个用于数据到文本生成的新数据集,作者希望它将鼓励这方面的进一步工作。
3、一项全面的评估和比较研究,重点介绍了两个数据集上各种最近提出的数据到文本生成模型的优缺点。
文章主要内容
模型简述
本文主要着重研究描述性文本生成。例如图1中所示的比赛摘要。如下图所示: 为此本文提出了一个以实体为中心的数据到文本生成的神经架构。这里并不是将实体作为普通的标记来处理,而是创建实体特定的表示(即。它会随着文本的生成而动态更新。模型通过解码器生成描述性文本,解码器为每个实体增加了一个内存单元和一个处理器。在解码器中的每个时间步,处理器都会计算实体的更新表示形式,作为候选实体内存与其先前值之间的插值。每个处理器都是一个门控循环神经网络,并且它们之间的参数是共享的。 该模型通过分层地遍历存储单元及其对应的记录来生成文本。模型具体流程图框架图如下所示:
上图中,A框中主要表示实体存储网络图;B框和C框主要表示分层注意力图。
实验结果
本文贴出了在基准ROTOWIRE数据集(RW)(Wiseman et al., 2017)上的实验结果,该数据集包含NBA篮球比赛的统计数据和人们编写的摘要。此外,我们还为MLB创建了一个新的数据集(参见图1)。与ROTOWIRE相比,MLB的摘要更长(约为50%),输入记录更丰富、更结构化(添加了逐场播放)。此外,MLB数据集在数据大小方面是其5倍(即,成对的表格和比赛摘要)。将我们的实体模型与一系列最近提出的神经结构进行比较,包括编码器-解码器模型。我们的结果表明,对实体进行明确的建模是有益的,它不仅能让输出更连贯,而且输出更简洁和语法化。
使用关系生成(RG)计数(#)和精度(P%)评估ROTOWIRE (RW)和MLB测试集,内容选择(CS)精度(P%)和召回(R%),标准化Damerau-Levenshtein距离(DLD%)中的内容排序(CO)和BLEU。如下图所示: 对ROTOWIRE (RW)和MLB开发集的Ablation结果使用关系生成(RG)计数(#)和精度(P%)、内容选择(CS)精度(P%)和回忆(R%)、标准化Damerau-Levenshtein距离(DLD%)中的内容排序(CO)和BLEU。
ROTOWIRE上NCP+CC(上)和ENT(下)的模型输出示例。摘要中重复出现的实体是黑体和彩色编码的,单例显示为黑色.
在ROTOWIRE和MLB数据集中,比赛摘要中支持和反对的平均数量以及最佳缩放评估(越高越好)。
ACED
Attention
更多自然语言处理相关知识,还请关注**AINLPer**公众号,极品干货即刻送达。
「自然语言处理(NLP)」【爱丁堡大学】基于实体模型的数据文本生成!!相关推荐
- 「自然语言处理(NLP)」ACL 阿里(舆论、立场检测) 耶鲁(电子邮件主题生成)
来源:AINLPer微信公众号 编辑: ShuYini 校稿: ShuYini 时间: 2019-8-24 引言 本次为大家推荐两篇文章,第一篇是阿里巴巴团队提出的用于谣言检测和立场分类的多任 ...
- (含源码)「自然语言处理(NLP)」社区问答评估Bert模型优化
来源: AINLPer 微信公众号(每日更新-) 编辑: ShuYini 校稿: ShuYini 时间: 2020-03-21 引言: 本文分享的内容主要包括社区问答质量评估(基于Bert模型微调). ...
- nmt模型源文本词项序列_「自然语言处理(NLP)」阿里团队--文本匹配模型(含源码)...
来源:AINLPer微信公众号 编辑: ShuYini 校稿: ShuYini 时间: 2019-8-14 引言 两篇文章与大家分享,第一篇作者对通用文本匹配模型进行探索,研究了构建一个快速优良的文本 ...
- 「自然语言处理NLP」的“高光时刻” --- 28篇标志性论文
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总 ...
- 2019年「自然语言处理NLP」的“高光时刻” --- 28篇标志性论文
点击上方"深度学习技术前沿",选择"星标"公众号 资源干货,第一时间送达 自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总结. ...
- 28篇标志性论文见证「自然语言处理NLP」2019-2020年度亮点进展
来源:专知 [导读]自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总结.对于自然语言处理(NLP)领域而言,2019年是令人印象深刻的一年.在这篇博客文章中,我想重点 ...
- antd 文本域超长问题_「自然语言处理(NLP)」阿里团队--文本匹配模型(含源码)...
来源:AINLPer微信公众号 编辑: ShuYini 校稿: ShuYini 时间: 2019-8-14 引言 两篇文章与大家分享,第一篇作者对通用文本匹配模型进行探索,研究了构建一个快速优 ...
- 「自然语言处理(NLP)」中文自然语言处理可能用到的数据集
来源: AINLPer 微信公众号(每日更新-) 编辑: ShuYini 校稿: ShuYini 时间: 2020-08-08 引言: 给大家分享一下中文自然语言处理可能用到的数据集,感兴趣的小伙伴可 ...
- 「自然语言处理(NLP)」神经机器翻译(NMT)论文整理(一)
来源: AINLPer 微信公众号(每日更新-) 编辑: ShuYini 校稿: ShuYini 时间: 2020-02-27 引言: 下面是作者整理的关于神经机器翻译(NMT)相关的论文文章,下面这 ...
最新文章
- 计算机网络OSI架构详细图
- sql 截取_如何用 SQL 找一个女朋友?
- SDUTOJ2828_字典树
- Java连续获取两个输入,java 获取控制台的输入的两个方法
- 【H.264/AVC视频编解码技术】序章【编码的前世今生】
- 中继(洪泛中继、定向中继)在无线通讯中的应用
- android udp获取ip,安卓开发 局域网UDP获取服务器Ip地址
- (转)Django ==== 实战学习篇二 需求分析及设计,创建第一个模型---购物车的应用...
- Servlet是什么?有什么用?
- 程序员能力的四个境界
- 改造家里的开关成为智能开关,保留原有开关控制,零火版,基础入门(一)
- 数据库学习之初见oracle
- 微商怎么引流?不懂这些就引不来流量!
- python余弦相似度_Python 简易聊天机器人(附带基础余弦相似度实现)
- 微信公众号如何设置开发者密码(APPSecret)?
- LSB利器-zsteg
- IDEA——手把手教你mybatis的使用(新手教程)
- 瑞昱Realtek(Realtek HD Audio Driver)音频声卡驱动R2.49 for Win7_Vista
- 使用 checkra1n 越狱(非完美越狱)
- Android IoT开发实战 | 04 - 创建一个新的活动Activity(登录界面)