Synchronous Bidirectional Inference for Neural Sequence Generation

abstract：

目前seq2seq任务大多是从左到右一个词一个词生成的
神经网络的方法，比如LSTM或者self-attention，可以充分利用历史信息，但是不能利用未来信息（future information），从而导致结果的不平衡（左边由于右边）
本文提出一种同步双向推理模型：

提出平衡搜索策略，利用同步双向解码
同时交互使用left2right和right2left的双向解码，以便同时使用历史信息和未来信息
提出两种参数优化的策略

在机器翻译和摘要生成的实验上，比baseline实现了显著的提升

Introduction

目前许多自然语言处理的忍辱，例如机器翻译，摘要生成和机器人都是一个seq2seq的生成问题，也就是讲一个序列作为输入，生成另一个序列的问题。目前主流的seq2seq框架都是从左向右，依赖之前的输出生成当前的输出。目前的方法主要还是在探索如何的利用好历史信息
无论是L2R模型还是R2L模型，都会造成结果的不平衡

L2R模型：左边效果优于右边
R2L模型：右边效果优于左边

目前充分利用L2R模型和R2L模型的方法如下：

【6,7】加强训练过程中L2R和R2L的一致性来提高L2R的推理
【8.9】用R2L模型重排L2R模型的top-n结果
【10】首先得到R2L的输出，利用输入和R2L的输出，共同生成L2R的输出

上述方法虽然都用到了L2R模型和R2L模型，但是存在以下缺点：

训练过程中分别训练L2R模型和R2L模型
在推理的过程中，L2R模型和R2L模型没有进行交互

本文提出一种同时利用L2R和R2L进行解码并进行交互的同步双向推理模型，模型如下图：

提出一种同时适用于L2R和R2L模型的平衡搜索算法
在推理的每一步，每办个分支分别保留来自L2R和R2L推理的假设，每个假设都是利用两个方向的已预测输出生成的
L2R模型和R2L模型之间的推理交互是通过一个同步attention实现的，这样可以同时利用历史信息和未来信息

箭头的方向代表信息的传递方向

实箭头代表历史信息
虚箭头代表未来信息

为了检验本文模型的生成能力，我们分别用LSTM和self-attention表示上述模型，在机器翻译和摘要生成两个任务上进行验证。此外提出两种参数的优化策略。

Synchronous Bidirectional Inference：

Seq2seq模型的目标就是在已知输入序列的前提下，寻找输出序列是的下面的条件概率最大

单向模型（Unidirectional Inference）

将上述公式分解为L2R模型：

将上述模型分解为R2L模型：

无论是L2R模型还是R2L模型都缺少信息，L2R模型缺少未来信息，R2L模型缺少历史信息

同步双向模型（Synchronous Bidirectional Beam Search）

希望同时利用历史信息和未来信息，但是这不切实际。因为预测yi+1需要用到yi的信息，预测yi有需要用到yi+1的信息，因此每一步的预测都需要用到所有的context信息。所以我们后退一步，不在利用所有的context信息，而是利用尽可能多的context信息

算法1

算法2

算法3：

Synchronous Bidirectional Inference for LSTM-based Seq2Seq Framework

无论哪种类型的seq2seq模型，都有一个编码器和一个解码器。给定输入序列x将其转化为contex表示C，再将C解码成输出序列y
基于LSTM的seq2seq框架：

编码器：学习context向量C

利用上述公式，分别计算L2R和R2L的输出，将其输出通过全连接层得到最终输出

解码器：根据C选择最合适的输出：

其中zi是attention的输出

Context向量的计算是通过attention，其中系数越大贡献越大

基于LSTM的同步双向推理：

L2R模型

利用到双向信息

其中z_i是第i个位置的L2R输出，ci是input根据attention计算的input context，cz_i是根据R2L模型的输出通过attention计算的output context（右）

R2L模型

其中z_i是第i个位置R2L的输出，ci是input根据attention计算的input context，cz_i是根据L2R模型的输出通过attention计算的output context（左）

Synchronous Bidirectional Inference for Self-attention based Framework

在decoder步骤使用双向信息

对于L2R模型，利用了两个attention，分别计算z_past（query为第i个位置的输出，key和value都是历史信息）和z_future （query为第i个位置的输出，key和value都是未来信息）

对于R2L模型，利用了两个attention，分别计算z_past（query为第i个位置的输出，key和value都是未来信息）和z_future （query为第i个位置的输出，key和value都是历史信息信息）

Z = z_parst + λ*tanh(z_future)

以上所说的未来信息是右边的信息，历史信息是左边的信息

Tranning

目标函数：

无论是L2R模型还是R2L模型，都同时用到了历史信息和未来信息。这样做存在的问题是，会自己预测自己，这样是not reasonable。所以本文提出两种参数优化方案：

Two-pass Training

Step1.利用数据，分别训练L2R模型和R2L模型

Step2.第二步训练时，L2R模型用未来信息采用step1中训练的R2L模型的输出，类似的R2L模型利用历史信息则用step1中的L2R模型的输出

Fine-tuning Strategy

Step1.并行训练L2R模型和R2L模型利用三元组和下面的公式

Step2.训练收敛后，在对数据集中10%数据进行解码，得到（x，yL和yR），在进行Two-pass Training的step2

Fine-tuning Strategy比Two-pass Training好的一点是不需要分别训练两个模型（同时训练两个模型，在我看来没什么差别），不需要对整个数据集进行decode，效率会好一点

Synchronous Bidirectional Inference for Neural Sequence Generation相关推荐

文献阅读 - Bidirectional LSTM-CRF Models for Sequence Tagging
Bidirectional LSTM-CRF Models for Sequence Tagging Z. H. Huang, W. Xu, K. Yu, Bidirectional LSTM-CRF ...
阅读笔记|Retrieve and Refine: Exemplar-based Neural Comment Generation
原文链接: Retrieve and Refine: Exemplar-based Neural Comment Generation Abstract 代码注释生成是软件自动化开发领域的一项重要任务 ...
【多标签文本分类】SGM: Sequence Generation Model for Multi-Label Classification
·阅读摘要: 本文提出基于SGM模型,在Seq2Seq的基础上提出SGM模型应用于多标签文本分类.论文还提出了很多提升模型表现的细节,这是在Seq2Seq中没有的. ·参考文献: [1] SG ...
【李宏毅2020 ML/DL】P82 Generative Adversarial Network | Improving Sequence Generation by GAN
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 这是我的李宏毅老师 GAN 系列第9篇笔记,GAN 系列: 1:Basic Idea 2:Conditiona ...
Bridging the Gap between Training and Inference for Neural Machine Translation翻译
Bridging the Gap between Training and Inference for Neural Machine Translation 翻译原文链接:https://arxiv ...
【论文阅读笔记|ACL2022】Continual Sequence Generation with Adaptive Compositional Modules
论文题目:Continual Sequence Generation with Adaptive Compositional Modules 论文来源:ACL2022 论文链接:https://acl ...
【论文笔记】GeDi:Generative Discriminator Guided Sequence Generation
GeDi: Generative Discriminator Guided Sequence Generation 文章目录 GeDi: Generative Discriminator Guided ...
李宏毅学习笔记38.GAN.09.Improving Sequence Generation by GAN
文章目录简介 Conditional Sequence Generation 原始seq2seq模型回顾 RL (human feedback) Policy Gradient warning of ...
Bidirectional LSTM-CRF Models for Sequence Tagging
Bidirectional LSTM-CRF Models for Sequence Tagging 摘要在本文中,我们提出了各种基于长短记忆(LSTM)的序列标记模型.这些模型包括LSTM ...
《论文阅读》Bidirectional LSTM-CRF Models for Sequence Tagging
<论文阅读>Bidirectional LSTM-CRF Models for Sequence Tagging Abstract Contributions Models Realizi ...

Synchronous Bidirectional Inference for Neural Sequence Generation

Synchronous Bidirectional Inference for Neural Sequence Generation相关推荐

最新文章

热门文章