Amendable Generation for Dialogue State Tracking

对话状态追踪的可修改生成

abstract

Recent dialogue state tracking tend to perform one-pass generation of the dialogue state based on the previous doalogue state

模型在当前轮次的错误很容易传播到下一轮对话状态的生成,错误传播

论文提出新的可修改对话状态的模型,模型分两步生成:(1)根据当前轮次的对话和上一轮次的对话状态生成当前轮次的原始对话状态(2)修改第一步生成的原始对话状态

目的是学习到更鲁棒的对话状态

Introduction

背景:从预定义曹植(OOV问题)–》从对话话语中去生成提取对话状态(效率不高,需要针对对话历史从头到尾预测)-----利用上一轮的对话状态代替对话历史,因为对话状态就是对话历史的压缩表示-----》编码上一轮对话状态和当前对话历史,采用状态预测和生成器去完成对话状态追踪(模型的准确率收到状态预测器的限制)----------》将对话状态的生成当做是因果模型,序列到序列。(编码时采用了上一轮的对话状态,存在错误传播问题,缺乏修正错误的复核程序)-----》本文的模型

在训练的过程中这种错误的对话状很难修复,同时出现的次数较少,我们使用负采样的工作

Methodology

Basic Generation

问题定义:

表示共T轮的对话话语

表示第t轮的对话话语

表示第t轮的系统回复

表示第t轮的用户话语

表示每一轮对话话语的对话状态

表示第t轮的对话状态,

表示第i个域槽

表示第i个域槽的相关槽值

使用**,**表示not mentioned 和 don‘t care域槽值

表示第t轮的对话话语

在第一阶段的基本生成中,当前轮次的对话话语被特殊标记包裹,以表示对话话语的界限

并且使用分别添加在第t轮的系统回复和第t轮的用户话语之前

表示第t轮的对话状态,I表示在不同的领域中共有I个域槽

同时输入时使用包裹对话状态。

如上AG-DST的模块概述图,在第一阶段中,输入当前轮的对话话语和前一轮的对话状态,从而生成原始对话状态(Primitive DS)。公式如下:

在输入时使用包裹整个输入序列,以提示模型当前处于生成原始对话状态阶段

输入时每一个字的嵌入是Position Embedding+Role Embedding+Segment Embedding,其中重点是

Position Embedding 用来区分每一个字的位置,

Role Embedding主要用来区分对话中的角色,

Segment Embedding 用来区别每一段的区别

Amending Generation

在修订生成时,输入当前的对话和第一阶段生成的原始对话状态

表示修订新生成的对话状态,在修正阶段时,与基本生成模型共享参数。

使用包裹与基本生成进行区分

Negative Sampling

负采样的目的促进生成过程的有效学习,提出这种策略,去主动挖掘模型中出错的示例(生成错误的槽值、未能填充更新某些曹植),作者的做法是随机的替换错误的槽值。

替换的部分是这个

Training Objective

Experiments

Datasets

使用的是MUZ 2.2,修复了2.1数据集中17.3%的注释错误,使用MUZ2.0单域数据集

Implementation Details

论文的实验可以使用很多大型预训练生成模型,使用GPT-2,batchsize=6 在4张v100上,跑40epoch

Experimental Results

image-20220326115604023

可以看到AG-DST sota了。

Analysis

Amending Generation

为了展示论文中的修正生成的效果,到底有没有起作用,作者做了以上的实验。不加负采样的生成,是输入第一阶段的输出,NS 的负采样是随机负采样错误的槽值,NS+指的是启发式负采样,指交换域槽之间的相关的槽值(比如出发地和目的地的名称类似的)

Visualization

image-20220326115828655

展示两个步骤的生成中Attention可视化,在基础生成阶段可以看到对于槽restaurant area和people的槽值分别是从上一轮的对话对话状态和用户话语中复制来的,但是对于restaurant-name在第一阶段生成错误了,但是在第二阶段根据原始对话状态成功的将错误的对话状态修改正确了。

Error Analysis

作者分析在一次性生成的DST 模型当中,存在三种错误(1)槽值不更新(2)槽值更新的不正确(3)相关槽值混淆

image-20220326120318633

作者在MUZ2.2里对模型出现的错误类型进行统计,inconsistent annotation指的是数据集中的错误

Effect of Previous Dialogue State

主要是为了展示不同的输入对模型的效果影响,第一行是使用全部的对话历史,第二行是使用全部的对话历史和上一轮的对话状态,第三行是适用当前轮次的对话话语和上一轮的对话状态。证明使用当前轮次的对话话语和上一轮的对话状态与第二行比较几乎不影响性能,也表明这样的做法的有效性。

Effect of Pre-training

使用不同的预训练模型进行测试

表明本论文方法对预训练模型的DST的性能提升是有效果的

Effect of Special Tokens

进一步证明使用特殊符号的有效性

AG-DST论文笔记相关推荐

  1. 恒源云(GPUSHARE)_opencv(论文笔记)

    文章来源 | 恒源云社区 原文地址 | opencv 原文作者 | instter 不逛不知道,一逛有惊喜!哈哈哈哈哈,随手一翻,就看见一位版主在社区发的新论文笔记,开屏就是颜值暴击啊啊啊,就冲着这份 ...

  2. ORB-SLAM3 论文笔记

    ORB-SLAM3 论文笔记 这篇博客 ORB-SLAM3系统 相机模型的抽象(Camera Model) 重定位的问题 图片矫正的问题 视觉惯性SLAM的工作原理 相关公式 IMU初始化 跟踪和建图 ...

  3. 【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION

    一.简介 这篇论文由IBM Watson发表在2016 ICLR,目前引用量92.这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learnin ...

  4. 最新图神经网络论文笔记汇总(附pdf下载)

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 [导读]近年来,图神经网络变得非常火热,每年顶会在该领域内都会出现大量的研究论文,本文为大家提 ...

  5. [论文笔记] Fast Quality Driven Selection of Composite Web Services (ECOWS, 2006)

    Time: 4.0 hours Jae-Ho Jang, Dong-Hoon Shin, Kyong-Ho Lee, "Fast Quality Driven Selection of Co ...

  6. 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

    论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21: ...

  7. 光流 速度_[论文笔记] FlowNet 光流估计

    [论文笔记] FlowNet: Learning Optical Flow with Convolutional Networks 说在前面 个人心得: 1. CNN的光流估计主要是速度上快,之后的v ...

  8. 论文笔记 《Maxout Networks》 《Network In Network》

    原文出处:http://zhangliliang.com/2014/09/22/paper-note-maxout-and-nin/ 论文笔记 <Maxout Networks> & ...

  9. 论文笔记:HKMF-T: Recover From Blackouts in TaggedTime Series With Hankel Matrix Factorization

    论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts_U ...

  10. 论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting

    0 abstract 空间时间序列预测问题出现在广泛的应用中,如环境和交通问题.由于存在特定的空间.短期和长期模式,以及维度的诅咒,这些问题具有挑战性. 在本文中,我们提出了一个用于大规模空间时间序列 ...

最新文章

  1. java中action请求_java模拟js发送action请求
  2. SAP RETAIL 事务代码RWBE查询界面上的Plant Group
  3. 大班运用计算机教学案例,幼儿园大班体验课程教学案例
  4. 看一遍那些网络上晦涩的名词都弄明白了!
  5. 【转】Impala导出查询结果到文件
  6. 通过Java 8流使用Oracle AQ
  7. win7系统修复工具_205个电脑系统修复小工具, 联想工程师专用!
  8. MySQL innodb下的记录锁,间隙锁,next-key锁
  9. CSS:字体设置~笔记
  10. 整合ecshop与discuz论坛
  11. 设计模式-工厂模式(Factory)
  12. 幼儿园科学室创设特点
  13. 百度迁徙大数据整理[2020+2019同期]
  14. 南京航空航天大学矩阵论答案
  15. mysql投影和选择区别_计算机二级。选择和投影到底有什么区别?
  16. chrome无法从该网站添加应用、扩展程序和用户脚本
  17. 华为云点学堂为你揭开DevOps转型的秘密
  18. Spark Streaming 双流 join
  19. 基于MATLAB的图像处理的课程设计
  20. 如何动态改变日志级别

热门文章

  1. 计算机专业的梦想作文,我的梦想作文300字(通用15篇)
  2. 超声波测距 c语言程序流程图,超声波模块测距51程序_单片机超声波测距c语言
  3. Chromium浏览器历史版本下载
  4. FineReport10 决策报表常用javascript脚本
  5. easymock 图片_小程序——使用Easy Mock
  6. Symantec的SEP服务器(SEPM)从12.1 RU6MP5 升级到14 MP1 操作手册
  7. 大数据热点案例(含图)
  8. 【高级篇 / ZTNA】(7.0) ❀ 01. FortiClient EMS 下载与安装 ❀ FortiGate 防火墙
  9. amazon实例 更改密钥_如何更改Amazon Echo的警报声音
  10. 数字经济赋能实体,Matrix Global Exchange为投资者带来优质项目