abstract:

  1. 目前seq2seq任务大多是从左到右一个词一个词生成的
  2. 神经网络的方法,比如LSTM或者self-attention,可以充分利用历史信息,但是不能利用未来信息(future information),从而导致结果的不平衡(左边由于右边)
  3. 本文提出一种同步双向推理模型:
  1. 提出平衡搜索策略,利用同步双向解码
  2. 同时交互使用left2right和right2left的双向解码,以便同时使用历史信息和未来信息
  3. 提出两种参数优化的策略
  1. 在机器翻译和摘要生成的实验上,比baseline实现了显著的提升

Introduction

  1. 目前许多自然语言处理的忍辱,例如机器翻译,摘要生成和机器人都是一个seq2seq的生成问题,也就是讲一个序列作为输入,生成另一个序列的问题。目前主流的seq2seq框架都是从左向右,依赖之前的输出生成当前的输出。目前的方法主要还是在探索如何的利用好历史信息
  2. 无论是L2R模型还是R2L模型,都会造成结果的不平衡
  1. L2R模型:左边效果优于右边
  2. R2L模型:右边效果优于左边

  1. 目前充分利用L2R模型和R2L模型的方法如下:
  1. 【6,7】加强训练过程中L2R和R2L的一致性来提高L2R的推理
  2. 【8.9】用R2L模型重排L2R模型的top-n结果
  3. 【10】首先得到R2L的输出,利用输入和R2L的输出,共同生成L2R的输出

上述方法虽然都用到了L2R模型和R2L模型,但是存在以下缺点:

  1. 训练过程中分别训练L2R模型和R2L模型
  2. 在推理的过程中,L2R模型和R2L模型没有进行交互
  1. 本文提出一种同时利用L2R和R2L进行解码并进行交互的同步双向推理模型,模型如下图:
  1. 提出一种同时适用于L2R和R2L模型的平衡搜索算法
  2. 在推理的每一步,每办个分支分别保留来自L2R和R2L推理的假设,每个假设都是利用两个方向的已预测输出生成的
  3. L2R模型和R2L模型之间的推理交互是通过一个同步attention实现的,这样可以同时利用历史信息和未来信息

箭头的方向代表信息的传递方向

  1. 实箭头代表历史信息
  2. 虚箭头代表未来信息
  1. 为了检验本文模型的生成能力,我们分别用LSTM和self-attention表示上述模型,在机器翻译和摘要生成两个任务上进行验证。此外提出两种参数的优化策略。

Synchronous Bidirectional Inference:

  1. Seq2seq模型的目标就是在已知输入序列的前提下,寻找输出序列是的下面的条件概率最大

  1. 单向模型(Unidirectional Inference
  1. 将上述公式分解为L2R模型:

  1. 将上述模型分解为R2L模型:

无论是L2R模型还是R2L模型都缺少信息,L2R模型缺少未来信息,R2L模型缺少历史信息

  1. 同步双向模型(Synchronous Bidirectional Beam Search
  1. 希望同时利用历史信息和未来信息,但是这不切实际。因为预测yi+1需要用到yi的信息,预测yi有需要用到yi+1的信息,因此每一步的预测都需要用到所有的context信息。所以我们后退一步,不在利用所有的context信息,而是利用尽可能多的context信息

  1. 算法1

  1. 算法2

  1. 算法3:

Synchronous Bidirectional Inference for LSTM-based Seq2Seq Framework

  1. 无论哪种类型的seq2seq模型,都有一个编码器和一个解码器。给定输入序列x将其转化为contex表示C,再将C解码成输出序列y
  2. 基于LSTM的seq2seq框架:
  1. 编码器:学习context向量C

利用上述公式,分别计算L2R和R2L的输出,将其输出通过全连接层得到最终输出

  1. 解码器:根据C选择最合适的输出:

其中zi是attention的输出

Context向量的计算是通过attention,其中系数越大贡献越大

  1. 基于LSTM的同步双向推理:

  1. L2R模型

利用到双向信息

其中z_i是第i个位置的L2R输出,ci是input根据attention计算的input context,cz_i是根据R2L模型的输出通过attention计算的output context(右)

  1. R2L模型

其中z_i是第i个位置R2L的输出,ci是input根据attention计算的input context,cz_i是根据L2R模型的输出通过attention计算的output context(左)

  1. Synchronous Bidirectional Inference for Self-attention based Framework

在decoder步骤使用双向信息

对于L2R模型,利用了两个attention,分别计算z_past(query为第i个位置的输出,key和value都是历史信息)和z_future (query为第i个位置的输出,key和value都是未来信息)

对于R2L模型,利用了两个attention,分别计算z_past(query为第i个位置的输出,key和value都是未来信息)和z_future (query为第i个位置的输出,key和value都是历史信息信息)

Z = z_parst + λ*tanh(z_future)

  1. 以上所说的未来信息是右边的信息,历史信息是左边的信息

  1. Tranning

目标函数:

无论是L2R模型还是R2L模型,都同时用到了历史信息和未来信息。这样做存在的问题是,会自己预测自己,这样是not reasonable。所以本文提出两种参数优化方案:

  1. Two-pass Training

Step1.利用数据,分别训练L2R模型和R2L模型

Step2.第二步训练时,L2R模型用未来信息采用step1中训练的R2L模型的输出,类似的R2L模型利用历史信息则用step1中的L2R模型的输出

  1. Fine-tuning Strategy

Step1.并行训练L2R模型和R2L模型利用三元组和下面的公式

Step2.训练收敛后,在对数据集中10%数据进行解码,得到(x,yL和yR),在进行Two-pass Trainingstep2

  1. Fine-tuning StrategyTwo-pass Training好的一点是不需要分别训练两个模型(同时训练两个模型,在我看来没什么差别),不需要对整个数据集进行decode,效率会好一点

Synchronous Bidirectional Inference for Neural Sequence Generation相关推荐

  1. 文献阅读 - Bidirectional LSTM-CRF Models for Sequence Tagging

    Bidirectional LSTM-CRF Models for Sequence Tagging Z. H. Huang, W. Xu, K. Yu, Bidirectional LSTM-CRF ...

  2. 阅读笔记|Retrieve and Refine: Exemplar-based Neural Comment Generation

    原文链接: Retrieve and Refine: Exemplar-based Neural Comment Generation Abstract 代码注释生成是软件自动化开发领域的一项重要任务 ...

  3. 【多标签文本分类】SGM: Sequence Generation Model for Multi-Label Classification

    ·阅读摘要:   本文提出基于SGM模型,在Seq2Seq的基础上提出SGM模型应用于多标签文本分类.论文还提出了很多提升模型表现的细节,这是在Seq2Seq中没有的. ·参考文献:   [1] SG ...

  4. 【李宏毅2020 ML/DL】P82 Generative Adversarial Network | Improving Sequence Generation by GAN

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 这是我的李宏毅老师 GAN 系列第9篇笔记,GAN 系列: 1:Basic Idea 2:Conditiona ...

  5. Bridging the Gap between Training and Inference for Neural Machine Translation翻译

    Bridging the Gap between Training and Inference for Neural Machine Translation 翻译 原文链接:https://arxiv ...

  6. 【论文阅读笔记|ACL2022】Continual Sequence Generation with Adaptive Compositional Modules

    论文题目:Continual Sequence Generation with Adaptive Compositional Modules 论文来源:ACL2022 论文链接:https://acl ...

  7. 【论文笔记】GeDi:Generative Discriminator Guided Sequence Generation

    GeDi: Generative Discriminator Guided Sequence Generation 文章目录 GeDi: Generative Discriminator Guided ...

  8. 李宏毅学习笔记38.GAN.09.Improving Sequence Generation by GAN

    文章目录 简介 Conditional Sequence Generation 原始seq2seq模型回顾 RL (human feedback) Policy Gradient warning of ...

  9. Bidirectional LSTM-CRF Models for Sequence Tagging

    Bidirectional LSTM-CRF Models for Sequence Tagging 摘要     在本文中,我们提出了各种基于长短记忆(LSTM)的序列标记模型.这些模型包括LSTM ...

  10. 《论文阅读》Bidirectional LSTM-CRF Models for Sequence Tagging

    <论文阅读>Bidirectional LSTM-CRF Models for Sequence Tagging Abstract Contributions Models Realizi ...

最新文章

  1. HDU 3549 Flow Problem (dinic模版 isap模版)
  2. 用Nginx如何配置运行无扩展名PHP文件或非.PHP扩展名文件
  3. 谈一谈CMU导师和学生的互动方式
  4. 多索引表 (8)表操作
  5. 怎样才能找出哪个 CPU 内核正在运行该进程?(一)
  6. jdk+Tomcat环境搭建
  7. [Android]Thread线程入门3--多线程
  8. php包含文件不存在,PHP包含文件错误,服务器有该文件,直接访问提示不存在
  9. c语言程序设计基础广西师范大学漓江学院,广西师范大学漓江学院试卷-计算机基础A方案.doc...
  10. (转) 淘淘商城系列——redis-desktop-manager的使用
  11. php 的cookie设置时间,php cookie时间设置的方法
  12. 【LeetCode】【字符串】题号:*38. 外观数列
  13. python django的查询语句
  14. 拥抱云原生,聊聊高度解耦的密码管理解法
  15. Browserslist: caniuse-lite is outdated. Please run: npx browserslist@latest --update-db
  16. Java编写一个仿真购买手机与手机卡的例子
  17. Android的屏幕适配
  18. 不同分辨率标准,720p 1080p 2k 4k HD FHD UHD
  19. ASO商店优化为什么成为必争之地,其优势有哪些?
  20. 中国牙科显微镜领导品牌速迈医学携手冠骋信息,开启数字化新征程!

热门文章

  1. 2015 Changchun Regional
  2. oracle中decode方法使用
  3. spring mvc 重新定向到一个新的Url
  4. Clear Float
  5. php遍历文件夹(获得文件名)
  6. 机器学习(7)——Logistic回归(从疝气病症预测病马的死亡率)
  7. Linux操作系统中readelf命令常见用法
  8. asp.net—单例模式
  9. GET POST 传值与接收案例
  10. 使用TryUpdateModel进行数据更新