基于amr语义操作的对话连贯评价

Abstract

自动评估指标对于开放域对话系统的快速发展至关重要,因为它们有助于模型之间的超参数调优和比较。尽管最近提出的可训练的对话级指标显示出令人鼓舞的结果,但指标的质量在很大程度上依赖于培训数据的质量。之前的研究主要依靠启发式文本层面的操作(例如,话语洗牌),从连贯的对话(积极的例子)中引导不连贯的对话(消极的例子)。这种方法不足以恰当地反映高级对话模型与人类之间的互动中出现的不连贯。为了解决这个问题,我们提出了一种对话一致性评估指标——DEAM,它依赖于抽象意义表示(AMR)来应用语义级操作来生成非相干(负)数据。AMRs自然促进了各种类型的不相干源的注入,如在语义级别上的协参不一致、不相关、矛盾和减少参与,从而产生更自然的不相干样本。我们的实验表明,在几个对话数据集上,与基准方法相比,DEAM 1实现了与人类判断更高的相关性。我们还表明,DEAM可以区分由基准操作生成的连贯和不连贯对话,而这些基准模型不能检测由DEAM生成的不连贯示例。我们的结果证明了基于amr的语义操作在自然负例生成中的潜力。

1 Introduction

尽管大型预训练语言模型(Radford等人,2019;Lewis等人,2020)对于对话响应生成具有有效性(Zhang等人,2020;Adiwardana等人,2020年;Ghazarian等人,2021a),但这些模型在模仿人与人的对话并保持会话水平的连贯性方面仍然具有挑战性。为了更好地评估这些模型,最近的研究提出了可训练的自动评估指标来基准和比较对话模型的性能(Wu等人,2020;Zhang等人,2021)。大多数可训练的自动评估指标专注于回合级交互,学习评估一个用户-系统话语对的质量(Tao等人,2018;黄等,2020;Ghazarian等人,2020年)。然而,这些指标不能恰当地模拟整个对话流(Y eh等人,2021年),因此不足以进行对话级别的评估。

在这项工作中,我们专注于对话连贯性的自动评价,这一研究还不够深入。连贯性是一个会话级别的度量标准,它衡量会话中的话语如何统一,从而产生一致的互动(Byron and Stent, 1998;Mesgar等人,2020年)。以前的工作追求不同的模型,例如基于图形(V akulenko等人,2018;Zhang等人,2021)或基于文本(Mesgar等人,2020)的方法,以开发自动可训练的一致性评估指标。这些模型采用对比学习方法,建立二元分类器来区分积极的、连贯的例子和消极的、不连贯的对话。这些分类器通常是在以人与人对话为正例并应用文本级别的启发式操作来生成不连贯对话的数据集上进行训练的。文本层面的操作直接改变了对话的结构,比如打乱话语的顺序,替换外部对话中的一些随机话语(V akulenko et al, 2018;Mesgar等人,2020年;Zhang et al, 2021),如图1的第三个对话所示。

Figure 1:人与人(第一次对话)和人与聊天机器人(第二次对话)对话与操作的例子分别来自基线(用黄色表示)和我们提出的扰动(用紫色表示)。与人与聊天机器人的交互类似,与基线操作相比,我们的操作会导致更微妙的不连贯对话。

我们认为,这种文本级别的操作过于简单,无法充分代表当前最先进的对话系统中出现的更细微的连贯性错误。例如,图1中的第二个对话显示了来自美联储数据集(Mehri和Eskénazi, 2020)的人机系统交互,其中的不连贯比文本级别操作产生的不连贯要微妙得多。

在这篇论文中,我们研究了产生负样本的操作技术,这些负样本代表了在最先进的对话系统中更可能发生的连贯性错误。为此,我们提出了DEAM模型,该模型使用抽象意义表示(Abstract Meaning Representation, AMR)应用语义级操作来生成反例。amr的目的是通过抽象掉不相关的句法特征来捕捉句子的意思。因此,在AMR中注入有目标和有控制的扰动是很容易的,并且可以在相应的句子中引入语义不连贯。

DEAM首先将对话解析为语义AMR表示,然后将通常在当前最先进的模型中观察到的不连贯类型注入到AMR图中。它通过使用可控生成模型将被操纵的amr转换回对话作为负例来结束这一过程。然后在创建的数据集上训练一个微调的RoBERTa模型,以区分连贯和非连贯对话作为评价指标。

我们的主要贡献如下:

•我们提出了DEAM,这是一种评估指标,它利用AMR图并在语义层面注入不连贯源,以生成用于训练的不连贯对话。

•我们提出了四种操作策略来表示当前对话模型的四种常见的不连贯来源:矛盾、协指不一致、不相关和减少接触。

•我们的经验表明,根据我们提出的操作训练的模型在与人类判断的相关性方面显著优于强基线。此外,DEAM能够区分使用文本级操作的基线生成的积极示例和消极示例,反之则不然——文本级操作训练的分类器不能检测到由DEAM生成的消极示例。这证明了基于语义级amr操作的有效性。

论文阅读笔记《DEAM: Dialogue Coherence Evaluation using AMR-based SemanticManipulations》相关推荐

  1. 《Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs》论文阅读笔记

    <Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs>论文阅读笔记 主要挑战贡献: KG上的推理挑战主要 ...

  2. 论文阅读 | NIPS‘20 | Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs

    很有意思的一篇paper.在众多Knowledge Graph Embedding (KGE) 的论文中通过问题设计和有意思的解决方式脱颖而出. 首先来看看问题设计. 一般的KGE model都是利用 ...

  3. Beta Distribution Guided Aspect-aware Graph for Aspect Category Sentiment Analysis论文阅读笔记(EMNLP2021)

    目录 标题翻译:基于Beta分布引导方面感知图的方面类别情感分析 原文链接:https://aclanthology.org/2021.emnlp-main.19.pdf 摘要: 1 引言 2 相关工 ...

  4. Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to Corpus Exploration论文阅读笔记

    问题: 因为bert是在长文本(512token长度)预训练的,因此,如果没有特定于任务的微调,BERT在短语和句子上的表现通常比简单基线(如GLoVe的平均池化)更差.且字节2020在EMNLP上的 ...

  5. DeepWeak: Reasoning Common Software Weaknesses via Knowledge Graph Embedding 阅读笔记

    DeepWeak: Reasoning Common Software Weaknesses via Knowledge Graph Embedding 阅读笔记 Article Background ...

  6. [论文阅读笔记] Are Meta-Paths Necessary, Revisiting Heterogeneous Graph Embeddings

    [论文阅读笔记] Are Meta-Paths Necessary? Revisiting Heterogeneous Graph Embeddings 购物返利 www.cpa5.cn 本文结构 解 ...

  7. 论文阅读笔记—Reasoning on Knowledge Graphs with Debate Dynamics(AAAI,2020)

    这是一篇非常有趣的工作,看完会觉得眼前一亮. 论文标题:Reasoning on Knowledge Graphs with Debate Dynamics 发表于AAAI,2020 动机  很多机器 ...

  8. 论文阅读笔记——《a simple but tough-to-beat baseline for sentence embeddings》

    <a simple but tough-to-beat baseline for sentence embeddings>published at ICLR 2017. ICLR会议的论文 ...

  9. Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction论文阅读笔记

    我的博客链接 0. 前言 1. 作者试图解决什么问题? 作者想在KGE中对语义层级(semantic hierarchies)进行建模. 2. 这篇论文的关键元素是什么? semantic hiera ...

  10. 斯坦福图机器学习CS224W笔记自用: Reasoning in Knowledge Graphs using Embeddings

    1. 基于嵌入的知识图推理 目标:如何对知识图进行多跳推理? 知识图推理: 回答多跳查询 路径查询 连接查询 Query2box 示例:生物医学图 知识图谱上的预测查询 我们是否可以进行多跳推理,即在 ...

最新文章

  1. python爬虫之cookie方式自动登录巴比特网
  2. Spring/SpringBoot常用注解总结
  3. linux如何添加默认路由表_linux 添加静态路由
  4. 短文本合并重复(去重)的简单有效做法
  5. JSK-16013 价钱统计【基础】
  6. No such file or directory
  7. 通力法评 | 简评中国证监会关于MOM产品的征求意见稿
  8. 好用的小工具系列之---fastJson
  9. 自制操作系统:引导扇区的实现
  10. 十大排序算法(动画图解)
  11. 习题8.16 (简单方法)输入一个字符串,内有数字和非数字字符
  12. java快捷复制_java - Eclipse复制/粘贴整行键盘快捷键
  13. Oracle数据库分页
  14. ALFA缺陷检测软件外观检测自学习人工智能软件
  15. 三国志·魏书·牵招传
  16. 7-20 出生年 (10 分)
  17. html鼠标悬停停止旋转,html – 鼠标悬停时用css旋转图标
  18. Canal的安装与使用(直接食用)--监控数据库binlog日志 实现实时操作
  19. 宇宙最强,meltdown论文中英文对照版(三)
  20. 3dsMax如何渲染模型

热门文章

  1. 微信好习惯早起打卡系统软件开发定制
  2. 【视频-文字版】MoCo 论文逐段精读【论文精读】
  3. 进一步学习spring cloud gateway的 限流熔断
  4. 【考研政治】思修和法律基础总结
  5. 课程向:深度学习与人类语言处理 ——李宏毅,2020 (P19)
  6. 大工《金工实习(二)》大作业离线作业
  7. Cocos2dx 程序用 VS2012编译安卓和WPhone
  8. Problem C: 铺地砖——迭代小算法
  9. java将Unicode编码转换为汉字
  10. 多晴转云h_津南2021年2月2日天气:晴转多云,气温:-7~2℃