【论文阅读】Low-Resource Knowledge-Grounded Dialogue Generatio
Low-Resource Knowledge-Grounded Dialogue Generatio
论文:https://arxiv.org/abs/2002.10348
任务
以知识为基础的对话,作为反应生成模型的训练数据,很难获得。本文在有限的训练数据下,进行以知识为基础的对话生成。
在这项工作中,专注于以文档为基础的对话生成,但所提出的方法实际上为低资源知识为基础的对话生成提供了一个通用的解决方案,其中的知识可以是结构化的知识库、图像或视频。要做到这一点,只需要修改知识编码器和知识处理器,使其与特定类型的知识兼容,并预先训练知识编码器。
方法(模型)
在低资源环境下,设计了一个分解反应解码器(disentangled response decoder),以便从整个生成模型中分离出依赖于knowledge-grounded的对话的参数。通过这种方式,模型的主要部分可以从大量无基础的对话和非结构化文档中学习,而剩余的小参数则可以用有限的训练实例很好地拟合。
贡献:
- 在低资源环境下探索以知识为基础的对话生成
- 提出了用无基础的对话和文档对以知识为基础的对话生成模型进行预训练的建议
- 在两个基准上对该模型的有效性进行了实证验证
dataset DSD_SDS:
DS=(UiS,DiS,riS)i=1nD_S= {(U^S_i, D^S_i, r^S_i)}^n_{i=1} DS=(UiS,DiS,riS)i=1n
DiSD^S_iDiS:文档
UiSU^S_iUiS:上下文
- UiS=(ui,1S,...ui,niS)U^S_i=(u^S_{i,1},...u^S_{i,n_i}) UiS=(ui,1S,...ui,niS)
riSr^S_iriS:关于UiS,DiSU^S_i , D^S_iUiS,DiS的response
学习目标:生成式模型P(r∣U,D;θ)P(r|U, D; θ)P(r∣U,D;θ)
给定文档D和与之关联的对话上下文U,通过P(r∣U,D;θ)P(r|U, D; θ)P(r∣U,D;θ)生成响应r。
反应的形成可以分解为三个不相关的行为:
- 根据已经产生的内容选择一个词,使句子在语言上有效(对应于语言模型)
- 根据上下文选择一个词,使对话连贯(对应于上下文处理器)
- 根据额外的知识选择一个词,使对话有基础(对应于知识处理器)
模型结构:*
组成:context encoder, knowledge encoder, decoder, decoding manager
解码器分解为语言模型、语境处理器和知识处理器。这三个部分的隐藏状态是独立的,由Manager协调。
ENCODERS
dialogue context使用GRU编码,将单词序列转化为隐藏层向量序列:
h1u,...,hiu,...,hluu=GRUθe(e1u,...,eiu,...,eluu),h^u_ 1, . . . , h^u_ i, . . . , h^u _{lu}= GRU_{θe}(e^u_ 1, . . . , e^u_ i, . . . , e^u_{lu}), h1u,...,hiu,...,hluu=GRUθe(e1u,...,eiu,...,eluu),
e1ue^u_ 1e1u是w1uw^u_ 1w1u使用GloVe初始化的embedding。
document使用BiGRU编码:
h1d,...,hid,...,hldd=BiGRUθk(ei,1d,...,ei,jd,...,ei,ldd),h^d_ 1, . . . , h^d_ i, . . . , h^d _{ld}= BiGRU_{θk}(e^d_ {i,1}, . . . , e^d_ {i,j}, . . . , e^d_{i,ld}), h1d,...,hid,...,hldd=BiGRUθk(ei,1d,...,ei,jd,...,ei,ldd),
ei,jde^d_{i,j}ei,jd是第j个单词使用GloVe初始化的embedding。
编码阶段没有进行knowledge selection,这可以消除上下文编码和知识编码之间的依赖性。
DISENTANGLED DECODER
解码器维护隐藏的序列{st}t=1lr\{s_t\}^{l_r}_{t=1}{st}t=1lr表示t-1步的单词预测embedding,sts_tst定义为:
st=GRUθd(et−1r,st−1)s_t= GRU_{θd}(e^r_{ t−1}, s_{t−1}) st=GRUθd(et−1r,st−1)
DECODING MANAGER
三个decoder组件由解码管理器控制,在响应预测的每一步都有一个组件被拾起。
使用了一个Gumbel trick πtπ_tπt,定义为:
πt=gumbelsoftmax(fπ(st−1),τ)π_t= gumbel\ softmax(f_π(s_{t−1}), τ) πt=gumbelsoftmax(fπ(st−1),τ)
数据集
- Wizard of Wikipedia (Wizard)
- CMU Document Grounded Conversations(CMU DoG)
性能水平
- Wizard respectively
- CMU DoG
即使数据集缩小,Test Unseen性能相比于Test seen依然稳定,与基线模型相比Test Unseen性能提升更加显著。
ITDD在Test Seen和CMU DoG上都取得了较低的PPL,这可能是由于two_pass解码器的过度拟合。
结论
本文研究了在低资源环境下以知识为基础的对话生成。为了克服训练数据不足带来的挑战,将响应解码器分解为独立的组件,其中大部分参数不再依赖训练数据,可以从大规模的无基础对话和非结构化文档中估计出来。对两个基准的评估结果表明,模型在只有1/8的训练数据的情况下达到了最先进的性能,并且对领域外的知识表现出良好的泛化能力。
【论文阅读】Low-Resource Knowledge-Grounded Dialogue Generatio相关推荐
- 《论文阅读》EMOTIONFLOW: CAPTURE THE DIALOGUE LEVEL EMOTION TRANSITIONS
<论文阅读>EMOTIONFLOW: CAPTURE THE DIALOGUE LEVEL EMOTION TRANSITIONS 简介 idea 来源 创新点 数据集 未来应用 代码 期 ...
- 《论文阅读》Commonsense Knowledge Aware Conversation Generation with Graph Attention
<论文阅读>Commonsense Knowledge Aware Conversation Generation with Graph Attention 简介 论文试图解决什么问题? ...
- 论文阅读笔记:Latent Intention Dialogue Models
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录 前言 Abstract Introduction Latent Intention Dialogu ...
- 论文阅读笔记:Global-Locally Self-Attentive Dialogue State Tracker
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录 前言 介绍 模型结构 全局-局部自注意力编码器 Encoding module Scoring M ...
- Commonsense and Named Entity Aware Knowledge Grounded Dialogue Generation
摘要 motivation: 以外部知识为基础,在对话历史背景下解释语言模式,如省写.回指和共同引用,对对话的理解和生成至关重要. this paper: 在本文中,我们提出了一种新的开放域对话生成模 ...
- 【论文阅读】Prior Knowledge Integration for Neural Machine Translation using Posterior Regularization
本文在参考一些网上资料的基础上,对该论文的思想和重要步骤作出了总结,也加入了在与身边朋友讨论的过程中对文章更细致深入的理解的内容,同时包含了自己在阅读中发现需要了解的背景知识的简单介绍. 目录 概述 ...
- 论文阅读--Risk-Resistant Resource Allocation for eMBB and URLLC coexistence under M/G/1 Queueing Model
阅读目的:学习eMBB和URLLC共存下的资源分配/调度等问题 point: 和m/g/1模型关系?-考虑队列时延 risk概念?-考虑了对URLLC delay的细粒度描述,刻画了tailed di ...
- 【论文阅读】Unifying Knowledge Graph Learning and Recommendation
Unifying Knowledge Graph Learning and Recommendation: Towards a Better Understanding of User Prefere ...
- 【论文阅读】Structured Knowledge Distillation for Semantic Segmentation
概述 这篇论文来自CVPR2019 Oral. 论文的出发点:语义分割的模型往往很难兼顾速度与精度,也因此语义分割的网络分为两类,论文中描述为 cumbersome segmentation netw ...
- [论文阅读笔记17]A Survey on Knowledge Graph-Based Recommender Systems
一,题目 TKDE 2020 A Survey on Knowledge Graph-Based Recommender Systems 综述:基于知识图谱的推荐系统 In IEEE Transact ...
最新文章
- Android多线程:深入分析 Handler机制源码(二)
- BERT重夺多项测试第一名,改进之后性能追上XLNet,现已开源预训练模型
- linux uts namespace 提供了主机名和域名的隔离 docker中被用到
- Codeforces1019C
- Nodejs正则表达式函数之match、test、exec、search、split、replace使用详解
- Detected call of `lr_scheduler.step()` before `optimizer.step()`.
- Intel 64/x86_64/x86/IA-32处理器的指令指针(IP/EIP/RIP)
- mysql update 批量更新_mysql 批量更新的两种方法
- 服务器电源维修接灯泡,维修串接灯泡电路图
- 读《JavaScript权威指南》笔记(三)--对象
- android侧边栏点击,侧边菜单栏 android-menudrawer
- php com adodb,php COM 连接ADODB.Connection数据库
- uniapp获取本机ip地址
- 达梦 DCA 培训总结
- Java session write
- maya刷权重时有个叉_为什么maya刷权重 笔刷是打叉
- 获取wifi和基站定位的基础信息
- 人工智能法甲分析报告:揭秘巴黎独霸原因
- 客户流失的原因 防止客户流失的6种方法
- (小技巧)在IDEA里面添加快捷输入,提高开发效率
热门文章
- linux4g内存图,linux 支持4G内存
- nsis升级包_NSIS office补丁
- linux怎样安装xz工具,linux xz解压工具
- python正则抓取身份证号码,验证18位身份证号码是否正确
- StarUML license key
- Python PIL库对阻挡文件blk进行解析,生成红绿色位图
- matlab取第一列元素的值,MATLAB中怎么从excel中读取第一列的数据?(2010版office)【】...
- 面对台风“烟花”,旅行延误会如何赔付?
- 用计算机运算符编写检索式,在计算机检索中,常用的布尔逻辑算符有哪几种
- mysql 修改校对规则,整合MYSQL校对规则