Increasing Faithfulness in Knowledge-Grounded Dialogue with Controllable Features

Abstract

以知识为基础的对话系统旨在传递基于给定源文本中提供的证据的信息。我们讨论了训练生成神经对话模型的挑战，这些系统被控制，以保持对证据的忠诚。现有的数据集包含了一些忠实于选定证据的对话响应，以及更主观的或聊天风格的反应。我们提出了不同的评价措施，通过量化信息量和客观性来理清这些不同类型的响应。
在训练时，根据这些评价措施向对话模型提供额外的输入。在生成时，这些额外的输入作为风格控制，鼓励模型生成忠实于所提供的证据的响应。我们还研究了在使用重采样技术解码时使用额外的控制。
除了自动指标外，我们还进行了一项人类评估研究，与基线对话系统相比，评分者判断这些受控生成模型的输出通常更客观和忠实于证据。

Introduction

尽管最近在培训在语言层面上模仿人类语言的端到端系统方面取得了进展，但努力成为具有信息性的教师的对话系统很难建立。这些系统受益于大量的培训数据和巨大的代表性能力；然而，没有控制（或训练目标）来确保它们是真实的。系统的一个更有限的目标是忠实于我们隐含地信任的一个或多个源文档。
我们假设多回合的会话互动可以帮助人类用户学习保留新的材料。
在这里，我们研究在对话中保持忠实文本文档信息的方法。我们通过基于知识的对话任务来解决这个问题，其中系统使用来自基础文档的证据和以前的对话历史作为输入来产生对话响应（如图1所示）。个人角色风格的任务（Zhang et al.，2018）可能专注于吸引人的对话系统**，而该任务关注的是具有信息意义的系统，这意味着它们只分享可验证的信息，排除主观或虚构的个人信息**。

为了避免这个问题，可以收集新的数据集，其中响应受到证据更明确的限制，但这可能相当昂贵，实现可能具有挑战性。相反，在本文中，我们提出了另一种替代方法：我们采用可控文本生成的技术，以训练对话模型，这些模型学习在数据中理清这些对话风格，并可以在生成时进行控制，以产生更可靠的响应。
我们研究了两种增加可控性的方法。首先，我们将基于评估措施的控制代码特征集成为seq2seq输入前的特殊标记，借鉴了基于域的控制代码方法。这些特殊的token是使用训练时关于黄金响应的信息创建的，但被设置为在生成时最大化响应的基础性。其次，我们实现了一种重采样的形式，直接限制输出，以满足所提出的评估措施。
为了检查响应的真实性和风格，我们使用了自动评估（包括BLEU和所描述的评估措施）和人工评估，旨在关注响应忠实地代表证据中的信息的程度。
我们的研究结果表明，使用这些可控的生成技术可以提高人们感知的忠实度和客观性。我们还表明提出的的评价措施与人类的判断相关联，表明这些措施是衡量基础的具体方面的适当措施。最后，我们最后讨论了一些例子和可能的权衡。

Task

我们引入了一个基于知识的对话的子任务，其中对话代理旨在提供信息，并且不能分享幻觉，我们在这里将幻觉定义为任何既不能从外部文件推断，也不能由外部文件直接陈述的信息。在这项任务中，一个系统从单个文档（或多个文档）和对话历史中获得证据，并且必须产生一个既忠于证据，又在之前的对话话语中很自然的响应。因为这个任务的重点是向用户提供信息，代理不允许分享不支持或主观的信息（这包括发明的个人特征——例如，“我也爱狗！”）。此外，仅仅从证据中提取信息是不够的，因为可能需要重新措辞为一个对话上适当的回答（例如，如果用户问了一个可以从证据推断但没有直接陈述的问题）。

为了简化本文的任务，我们假设已经标记了一个适当的evidence span e。因此，我们研究如何给定之前的对话历史x和一个选择的证据e作为输入来生成适当的响应y。

Evaluation measures

我们的目标是设计一个更忠实和客观地了解如何传递证据的对话模型。我们建议使用一系列的评估措施来估计一个响应是否(1)是用客观的声音写的，(2)不共享文档中没有的额外信息，(3)基于基础证据。在建模部分(第二节。4)，我们描述了我们如何将这些措施纳入一个可控的生成框架。

Objective Voice

幻觉的一种形式是，当对话代理可能会分享个人的故事或观点时。对话代理学习这种行为是很常见的，因为许多对话数据集都包含个人闲聊的实例，即使该任务针对的是有基础的语言。
基于第一人称单数代词的存在，我们估计了客观的声音作为一个binary variable。是/否

Lexical Precision

我们还希望确保响应不会从所选证据中添加额外的信息。为了估计这一点，我们测量了关于证据的unigram的精度。高值表明回答中的大部分单词都包含在证据中的某个地方。我们使用这个措施，因为它与grounding precision scores相关，它可以合理衡量提取的反应，但这个措施的一个缺点是，它是基于词汇特性可能不反映语义差异的信息共享（例如放弃“不”这个词可能产生很高的词汇精度但和原始证据有着非常不同的语义意义）。我们将更多面向语义的信息精确度的研究留给未来的工作。
我们将更多面向语义的信息精确度的研究留给未来的工作。

Entailment

最后，我们希望鼓励模型生成一个由源文档在语义上包含的响应。我们使用最先进的自然语言干扰（NLI）模型来估计响应是否由证据引起。

Data

Wizard of Wikipedia是最近的大规模数据集，包含“学徒”和“向导”之间的多回合知识对话，他们可以从维基百科文档中获取信息。向导标记证据的范围在他们发出的每一个话语的文档中。此外，开发和测试集根据对话是否是关于在训练数据中看到或看不到的主题，开发和测试集被分为两部分。我们使用黄金标记的证据作为模型的输入，以便重点提高在这些证据和以前的对话历史下生成响应的质量。我们也只关注于对“向导”在对“学徒”做出反应时的话语进行建模。我们在表1中包含了数据统计信息，在图1中包含了一个对话摘录。
我们注意到，尽管维基百科向导是一个基于知识的数据集，但也有许多话语也包含了证据之外的信息（如图1所示）。许多对话转向传递证据，同时也用聊天、意见分享或对话者自己的直觉和世界知识来修饰。这是因为这个数据集是通过要求人类众包工作者相互交谈来收集的，即使在讨论文档时，人类也会美化和个性化他们的对话。然而，为了实现我们训练信息性对话代理的目标，我们需要训练只传递在证据中发现的信息的模型。
为了避免收集昂贵且具有挑战性的新数据，我们研究如何用这些数据训练模型，同时阻止它们产生无法在证据中证实的额外信息。应对这一挑战的一种方法可能是只对数据中响应高度基于证据的部分进行训练。然而，在我们的计算（表1的底部），我们发现多达44%的训练集反应在第一人称，只有23%的反应预测的证据，这表明很大一部分的训练数据必须被排除在外。相反，我们的论文提出了一种建模技术，其中我们结合了不同的输入特征，表示不同的会话风格。然后，我们可以以一种学习使用这些特征的方式来训练模型，来解开更忠于证据的话语与其他类型的话语之间的差异。

Modeling

我们研究了如何在一个大型的神经对话模型中添加可控的特征来进行约束幻觉文本的数量，同时也利用了一个大的端到端神经模型的潜在流畅性。

根据Sec2.1的评价措施，我们描述了两种向对话模型中添加可控性以增强基础性的方法。首先，我们将控制特征纳入到模型的输入中。其次，我们描述了使用重采样的附加解码时间技术。
生成模型使用T5和GPT，通过增加特殊token实现文本控制生成。

Controlled resampling虽然控制代码方法隐式地教会模型使用不同的样式，但一些应用程序可能需要对模型输出进行更直接的控制。此外，也可能存在对话系统无法再训练的情况。因此，我们也研究了一种在解码时实现更直接的控制的方法。我们实验了一种重采样方法，该方法继续对响应进行采样，直到发现一个满足评价指标（高词汇精度、客观声音和预测隐含度）的方法。为了节省计算效率，我们使用了一个截止点来避免重采样超过d次。就是生成好几个直到生成一个满意的。