Low-Resource Knowledge-Grounded Dialogue Generatio

论文：https://arxiv.org/abs/2002.10348

任务

以知识为基础的对话，作为反应生成模型的训练数据，很难获得。本文在有限的训练数据下，进行以知识为基础的对话生成。

在这项工作中，专注于以文档为基础的对话生成，但所提出的方法实际上为低资源知识为基础的对话生成提供了一个通用的解决方案，其中的知识可以是结构化的知识库、图像或视频。要做到这一点，只需要修改知识编码器和知识处理器，使其与特定类型的知识兼容，并预先训练知识编码器。

方法（模型）

在低资源环境下，设计了一个分解反应解码器(disentangled response decoder)，以便从整个生成模型中分离出依赖于knowledge-grounded的对话的参数。通过这种方式，模型的主要部分可以从大量无基础的对话和非结构化文档中学习，而剩余的小参数则可以用有限的训练实例很好地拟合。

贡献：

在低资源环境下探索以知识为基础的对话生成
提出了用无基础的对话和文档对以知识为基础的对话生成模型进行预训练的建议
在两个基准上对该模型的有效性进行了实证验证

dataset $D_S$ :
$DS=(UiS,DiS,riS)i=1nD_S= {(U^S_i, D^S_i, r^S_i)}^n_{i=1}$
$DiSD^S_i$ ：文档

$UiSU^S_i$ ：上下文

$UiS=(ui,1S,...ui,niS)U^S_i=(u^S_{i,1},...u^S_{i,n_i})$

$riSr^S_i$ ：关于 $UiS，DiSU^S_i ， D^S_i$ 的response

学习目标：生成式模型 $P (r ∣ U, D; θ)$

给定文档D和与之关联的对话上下文U，通过 $P (r ∣ U, D; θ)$ 生成响应r。

反应的形成可以分解为三个不相关的行为：

根据已经产生的内容选择一个词，使句子在语言上有效（对应于语言模型）
根据上下文选择一个词，使对话连贯（对应于上下文处理器）
根据额外的知识选择一个词，使对话有基础（对应于知识处理器）

模型结构：*

组成：context encoder, knowledge encoder, decoder, decoding manager

解码器分解为语言模型、语境处理器和知识处理器。这三个部分的隐藏状态是独立的，由Manager协调。

ENCODERS

dialogue context使用GRU编码，将单词序列转化为隐藏层向量序列：
$h1u,...,hiu,...,hluu=GRUθe(e1u,...,eiu,...,eluu),h^u_ 1, . . . , h^u_ i, . . . , h^u _{lu}= GRU_{θe}(e^u_ 1, . . . , e^u_ i, . . . , e^u_{lu}),$
$e1ue^u_ 1$ 是 $w1uw^u_ 1$ 使用GloVe初始化的embedding。

document使用BiGRU编码：
$h1d,...,hid,...,hldd=BiGRUθk(ei,1d,...,ei,jd,...,ei,ldd),h^d_ 1, . . . , h^d_ i, . . . , h^d _{ld}= BiGRU_{θk}(e^d_ {i,1}, . . . , e^d_ {i,j}, . . . , e^d_{i,ld}),$
$ei,jde^d_{i,j}$ 是第j个单词使用GloVe初始化的embedding。

编码阶段没有进行knowledge selection，这可以消除上下文编码和知识编码之间的依赖性。

DISENTANGLED DECODER

解码器维护隐藏的序列 ${st}t=1lr\{s_t\}^{l_r}_{t=1}$ 表示t-1步的单词预测embedding， $s_t$ 定义为：
$st=GRUθd(et−1r,st−1)s_t= GRU_{θd}(e^r_{ t−1}, s_{t−1})$

DECODING MANAGER

三个decoder组件由解码管理器控制，在响应预测的每一步都有一个组件被拾起。

使用了一个Gumbel trick $π_t$ ，定义为：
$π_t= gumbel\ softmax(f_π(s_{t−1}), τ)$

数据集

Wizard of Wikipedia (Wizard)
CMU Document Grounded Conversations(CMU DoG)

性能水平

Wizard respectively

CMU DoG

即使数据集缩小，Test Unseen性能相比于Test seen依然稳定，与基线模型相比Test Unseen性能提升更加显著。

ITDD在Test Seen和CMU DoG上都取得了较低的PPL，这可能是由于two_pass解码器的过度拟合。

结论

本文研究了在低资源环境下以知识为基础的对话生成。为了克服训练数据不足带来的挑战，将响应解码器分解为独立的组件，其中大部分参数不再依赖训练数据，可以从大规模的无基础对话和非结构化文档中估计出来。对两个基准的评估结果表明，模型在只有1/8的训练数据的情况下达到了最先进的性能，并且对领域外的知识表现出良好的泛化能力。

【论文阅读】Low-Resource Knowledge-Grounded Dialogue Generatio相关推荐

《论文阅读》EMOTIONFLOW: CAPTURE THE DIALOGUE LEVEL EMOTION TRANSITIONS
<论文阅读>EMOTIONFLOW: CAPTURE THE DIALOGUE LEVEL EMOTION TRANSITIONS 简介 idea 来源创新点数据集未来应用代码期 ...
《论文阅读》Commonsense Knowledge Aware Conversation Generation with Graph Attention
<论文阅读>Commonsense Knowledge Aware Conversation Generation with Graph Attention 简介论文试图解决什么问题? ...
论文阅读笔记：Latent Intention Dialogue Models
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录前言 Abstract Introduction Latent Intention Dialogu ...
论文阅读笔记：Global-Locally Self-Attentive Dialogue State Tracker
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录前言介绍模型结构全局-局部自注意力编码器 Encoding module Scoring M ...
Commonsense and Named Entity Aware Knowledge Grounded Dialogue Generation
摘要 motivation: 以外部知识为基础,在对话历史背景下解释语言模式,如省写.回指和共同引用,对对话的理解和生成至关重要. this paper: 在本文中,我们提出了一种新的开放域对话生成模 ...
【论文阅读】Prior Knowledge Integration for Neural Machine Translation using Posterior Regularization
本文在参考一些网上资料的基础上,对该论文的思想和重要步骤作出了总结,也加入了在与身边朋友讨论的过程中对文章更细致深入的理解的内容,同时包含了自己在阅读中发现需要了解的背景知识的简单介绍. 目录概述 ...
论文阅读--Risk-Resistant Resource Allocation for eMBB and URLLC coexistence under M/G/1 Queueing Model
阅读目的:学习eMBB和URLLC共存下的资源分配/调度等问题 point: 和m/g/1模型关系?-考虑队列时延 risk概念?-考虑了对URLLC delay的细粒度描述,刻画了tailed di ...
【论文阅读】Unifying Knowledge Graph Learning and Recommendation
Unifying Knowledge Graph Learning and Recommendation: Towards a Better Understanding of User Prefere ...
【论文阅读】Structured Knowledge Distillation for Semantic Segmentation
概述这篇论文来自CVPR2019 Oral. 论文的出发点:语义分割的模型往往很难兼顾速度与精度,也因此语义分割的网络分为两类,论文中描述为 cumbersome segmentation netw ...
[论文阅读笔记17]A Survey on Knowledge Graph-Based Recommender Systems
一,题目 TKDE 2020 A Survey on Knowledge Graph-Based Recommender Systems 综述:基于知识图谱的推荐系统 In IEEE Transact ...

【论文阅读】Low-Resource Knowledge-Grounded Dialogue Generatio