A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues论文笔记
Abstract
序列数据通常具有子序列之间具有复杂依赖关系的层次结构, 例如在对话中的话语之间找到的。为了在生成框架中对这些依赖关系进行建模, 我们提出了一种基于神经网络的生成体系结构, 该体系结构具有跨越可变时间步长数的随机潜在变量。将该模型应用于对话响应生成任务, 并与其他最近的神经网络架构进行了比较。我们通过人类评价研究来评价模型的性能。实验表明, 我们的模型改进了最近提出的模型, 潜在变量有助于产生有意义的、长期的和多样化的反应以及保持对话状态。
Introduction
但是, 底层的 rnn 通常遵循浅 (平面) 生成过程, 只有在对输出 (例如单词) 进行采样时, 才会发生模型的可变性或随机性。在输出级别注入所有可变性通常是有限的, 因为模型被迫逐步在本地生成所有高级结构。特别是, 对于序列数据 (如自然语言数据) 来说, 这是一个问题, 自然语言数据自然拥有具有复杂的序列内依赖关系的分层生成过程。例如, 自然语言对话至少有两个层次的结构;在话语中, 结构以语言的局部统计 (如词共现) 为主, 而在整个话语中, 有一个明显的差异来源, 其特点是话题和说话人的目标等方面。如果模型只在单词级别注入可变性, 它将不得不逐步决定会话主题和说话者的目标, 因为它生成每个话语中的单词。这可能会导致主题不一致和用户目标不一致
我们在自然语言生成设置中解决此问题, 特别是针对 (非结构化) 对话响应生成。考虑到自然语言的对话背景, 该模型的任务是逐字逐句地产生适当的反应。许多研究人员最近利用序列序列框架 这类模式并不是专门为最初开发对话系统的以目标为导向的环境而设计的 尽管如此, 各大软件公司现在正在开发非目标导向的模型, 这些模型每天都与数百万人互动。两个例子是微软的 Xiaolice (markoff 和 mozur 2015) 和谷歌的智能回复系统 (kannan 等人, 2016年), 其核心是序列到序列模型。目前, 这些模型不包含分层生成结构。因此, 它们不能代表更高层次的可变性, 往往无法产生有意义的、多样化的主题响应 (li 等人, 2016年)。
在这些缺点的推动下, 我们开发了一个分层的潜在变量 rnn 体系结构, 以显式建模具有多层次可变性的生成过程。该模型是一个分层序列序列模型, 每个对话话语都附加了一个连续的高维潜在变量, 通过最大限度地提高对数似然的变分下限来训练。为了生成响应, 模型首先生成连续潜在变量的示例--表示响应的高级语义内容--然后按基于潜在变量的单词生成响应词。我们应用该模型来生成推特对话的响应
Technical Background
Hierarchical Recurrent Encoder-Decoder (HRED)
这个方法是先把对话分为n个表达,Mn表示每个表达中的单词数量,然后先以单词为单位编码,
再以表达为单位编码
最后是解码器,通过输入当前解码的单词,以及表达,以及上一个解码的结果得到
The Restricted Shallow Generation Process
据观察, rnlm 和 hred 以及基于 rnn 架构的类似模型存在严重问题, 会产生有意义和多样化的对话响应。我们认为, 这些问题是由 rnlm 和 hred 遵循的平面顺序生成过程造成的, 在这一过程中, 每个单词的采样仅以前面的单词为条件。我们称之为浅生成过程, 因为唯一的变异源是通过条件输出分布建模的。从概率的角度来看, 这一过程是有问题的, 因为该模型被迫逐步在当地生成所有高级结构 (boulanger-wwandoski、bengio 和 vincent 2012;拜耳和奥森多弗 2014;chung 等人, 2015年;denton 等人, 2015年)。例如, 为了生成对话响应, 这样的模型必须在生成过程的中间决定对话主题--当它生成第一个与主题相关的单词时--然后, 对于将来的每个单词, 模型必须决定是否要更改或保留在同一主题上。这使得模型很难产生长期结构。从计算学习的角度来看, 浅生成过程也是有问题的: rnnlm--或者相应地说, 在 hred 中的解码器 rnn 的状态--必须总结所有过去的信息, 直到时间步骤 m, 以便 (a) 生成可能的下一个令牌 (短期目标) 和 (b) 在嵌入维持输出轨迹的空间中占据一个位置, 用于生成未来可能的令牌 (长期目标)。
由于梯度消失效应, 短期目标将主导输出分布。特别是, 对于具有高可变性的序列, 这些模型可能倾向于短期预测, 而不是长期预测, 因为与维持长期轨迹hm, hm+1, hm+2....,.相比, 只学习hm预测下一个token更容易, 它在每个时间都被嘈杂的输入 (例如作为输入的单词) 所困扰
Latent Variable Hierarchical Recurrent Encoder-Decoder (VHRED)
在受限浅生成过程的推动下, 提出了潜在变量分层递归编码器解码器 (vhred) 模型。该模型在话语层面用一个随机潜在变量增强了 hred 模型, 该模型是通过在对数似然上最大化变分下限来训练的。这使它能够在两步生成过程中对层次结构化序列进行建模 (首先对潜在变量进行采样, 然后生成输出序列), 同时保持长期上下文。
vhred 为每个话语 n = 1,..., n生成一个连续的高维随机潜在变量 Zn , 这是以所有以前观察到的标记为条件的。该模型通过两级分层生成过程生成 第n个话语令牌:
zn用两个矩阵应用在前馈神经的输出中,定义u和这个协方差
论文的图
自己总结的图
如下一节所示, vhred 缓解了由于浅生成不足而产生的问题
rnlm 和 hred 模型。输出序列的变化现在有两种方式: 在词法级 (序列级) 和条件先前分布在 z 上, 在词级 (子序列级) 以条件分布在单词令牌上。变量 z 的效果对应于有关生成什么的更高级别的决定, 如对话主题、说话人目标或话语的情绪。通过表示有关序列的高级信息, z 有助于对长期输出轨迹进行建模。这使得解码器 rnn 隐藏状态只专注于总结当前的话语。
Alternative Architectures、
这里写了一些实验的变体
A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues论文笔记相关推荐
- Neural Network Aided SC Decoder for Polar Codes(论文笔记)
Neural Network Aided SC Decoder for Polar Codes阅读笔记 研究背景: 从理论上讲,只要有足够的规模和足够的训练,就可以完全用神经网络(NN)来代替传统的极 ...
- 论文阅读《DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for Dialog Response Generation》
DialogVED:用于生成对话响应的预训练隐变量编码器-解码器模型 Abstract 在开放领域中生成对话响应是一个重要的研究课题,其主要挑战是生成相关的和多样化的响应.在本文中,我们提出了一种新的 ...
- 《论文阅读》PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable
<论文阅读>PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable 简介 论文试图解决什么问题 ...
- 谣言检测文献精读——13.2020-A Graph Convolutional Encoder and Decoder Model for Rumor Detection
这篇文章解决的问题 作者提出,之前的工作大多专注于文本挖掘和学习文本的语义特征,他们忽略了学习谣言的传播.之前有方法使用RvNN,与标准RvNN不同的是,输入是一个从源文章而不是解析树根的传播树,每个 ...
- encoder decoder 模型理解
encoder decoder 模型是比较难理解的,理解这个模型需要清楚lstm 的整个源码细节,坦率的说这个模型我看了近十天,不敢说完全明白. 我把细胞的有丝分裂的图片放在开头,我的直觉细胞的有丝分 ...
- latent variable理解
1. typically, latent variable 存在于mixture model中 2. 分为discrete latent variable 和 continuous latent va ...
- Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation之每日一篇
真正提出 Seq2Seq 的文章是<Sequence to Sequence Learning with Neural Networks>,但本篇<Learning Phrase R ...
- Hybrid LSTM and Encoder–Decoder Architecture for Detection of Image Forgeries论文阅读
Hybrid LSTM and Encoder–Decoder Architecture for Detection of Image Forgeries Code link:https://gith ...
- 论文笔记:SESF-Fuse: an unsupervised deep model for multi-focus image fusion (2021)
SESF-Fuse: an unsupervised deep model for multi-focus image fusion [引用格式]:Boyuan Ma et al. "SES ...
最新文章
- GitHub发福利:30多万元资源,学生可以免费用
- Redis详解(八)------ 主从复制
- SQLserver单表数据导入导出
- Windows Phone 7 MVVM模式数据绑定和传递参数
- 星级评分--演进式部署
- kickstart+TFTP+PXE+NFS+DHCP批量安装系统,raid
- 住170平以上的大平层大户型什么感觉?
- Python中的三目运算符
- 语音识别市场竞争激烈,亚马逊崛起与微软衰落形成反差
- Ardour:专业的数字音频任务站
- 软考网络工程师基础知识
- Riverbed SteelHead 9.5.0
- 第06章 Tableau仪表板和故事
- 华为有望解决5G射频芯片问题,5G手机或将回归
- 利用 ChatGPT 简化微信聊天内容
- 5 torch.utils.data (Dataset,TensorDataset,DataLoader)
- D-S证据理论的简要介绍
- BILSTM原理介绍
- R z-score 方法检测异常值
- 团队项目之需求规格说明书