论文阅读:Instance Weighting in Dialogue Systems
总结一下最近读到的三篇instance weighting的paper。
一、Not All Dialogues are Created Equal: Instance Weighting for Neural Conversational Models ——SIGDIAL 18
第一个提出做instance weighting,值得注意的想法是,把这个weighting model看成是一个matching model,重点是,这个model之所以能为另一个network打分,是因为在训练的时候会人为地(heuristically)选出来“high quality” pairs作为正样本喂进去,才能认为打分是“准”的。这一点很关键(at least intuitively)
1、Motivation:(seems reasonable)
常用的dialogue数据类型:Twitter discussions (Ritter et al., 2010) online chat logs (Lowe et al., 2017), movie scripts (DanescuNiculescu-Mizil and Lee, 2011) and movie and TV subtitles (Lison and Tiedemann, 2016).
很多数据本身的特性很影响dialogue:
①很多multiturn dialogue,尤其是subtitles和chat logs没有turn segmentation和speaker identification。
②对话数据中的很多specific entities不应该被model学到。
③很多对话质量本身就良莠不齐,很多无意义的答复,很多情景下可能出现的答非所问。
总之在dialogue data中,不同的pair的quality其实是不同的,我们希望model学到intrinsic dialogue pattern rather than just learning to mimic specific scenario。因此希望用一个weighting model来给每个instance打分,乘在loss前面来rectify optimization strategy。
2、模型结构
(1)weighting model:
上下两个RNN share parameters
The selection of high-quality example pairs from a given corpus can be performed through a combination of simple heuristics.
这个的weighting model本质上就是一个matching model,然后用binary-classifier sigmoid cross entropy loss来训练。正样本是true pairs再经过特征工程筛选出来的,而负样本是从training corpus中random sample出来的。
首先这个heuristics应当是dataset-specific的,作者的这个subtitles这种缺陷很明显的dataset比较好用;其次这里的negative example直接就是random sampling了,这对于高质量很好区分的dataset而言无伤大雅。
但是这个设定对于那些本身数据集上没什么缺陷,仅仅是不同pairs之间的quality之间天然会有差别的场景作用不太大吧。
(2) retrieval model
①TF-IDFmodel
将每个sentence用BOW表示成vocab大小的sparse vector,然后每个1都用tf-idf score替代,然后matching score就是cosine similarity。
②Dual Encoder(Lowe et al., 2017)
结构如下,是dual-encoder model的简单改版。
3、数据与训练
使用OpenSubtitles corpus全集来训练retrieval model,用heuristics只选出了0.1%来作为“high quality” examples来训练weighting model,用在training set中skip-gram的word2vec做embedding初始化。
4、discussion
为什么不直接用heuristics选出来的high quality的来做新的训练集呢?
针对检索式,首先,检索式的pos和neg之间的差距过大过小都不好,这是本质问题;其次检索式训练速度快,没必要这样牺牲大量数据。
针对生成式,作者提出的设想是用weighting model来选出来好的样本(by thresholding, maybe)然后concentrate on好样本去训练。感觉也不太行,生成本身就需要大量样本才能训。即
Filter out part of the training data to concentrate the training time on “interesting” examples with a high cohesion between the context and its response.
感觉应当还是要像下面这一篇一样做生成才行。
二、Learning to Converse with Noisy Data: Generation with Calibration ——IJCAI 18
一个calibration network负责打matching score,作为generative model的instance weighting。两个model在同样的training data中训练的,calibration net没有特别提供“high quality”的样本。(直觉上来讲,不work是正常的,但是work了……)
三、Learning Matching Models with Weak Supervision for Response Selection in Retrieval-based Chatbots
论文阅读:Instance Weighting in Dialogue Systems相关推荐
- 《论文阅读》PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable
<论文阅读>PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable 简介 论文试图解决什么问题 ...
- 论文阅读笔记《Regularizing Dialogue Generation by Imitating Implicit Scenarios》
模仿隐式情景规范对话生成 Abstract 人类对话是基于情景的,适当的回复通常与特定情景所带来的潜在背景知识有关.为了能够做出更有意义和更具体的回应,我们建议从情景视角改进生成对话系统,其中考虑对话 ...
- Fuzzy SyStem2020 | 论文阅读《Optimize TSK Fuzzy Systems for Regression Problems》
TSK模糊系统优化算法----MGDB 1.Motivation 2.Overviw of the TSK Fuzzy System Optimize 2.1 Selct Optimize direc ...
- Fuzzy System2021|论文阅读《Optimize TSK Fuzzy Systems for Classification Problems》
Fuzzy System 1.摘要 2.引言 3. algorithm 3.1 TSK介绍见前面的论文 3.2 均匀正则化 3.3 Batch Normalization(BN) 4 实验结果 4.1 ...
- 论文阅读笔记《DEAM: Dialogue Coherence Evaluation using AMR-based SemanticManipulations》
基于amr语义操作的对话连贯评价 Abstract 自动评估指标对于开放域对话系统的快速发展至关重要,因为它们有助于模型之间的超参数调优和比较.尽管最近提出的可训练的对话级指标显示出令人鼓舞的结果,但 ...
- 《论文阅读》Multi-Task Learning of Generation and Classification for Emotion-Aware Dialogue Response Gener
<论文阅读>Multi-Task Learning of Generation and Classification for Emotion-Aware Dialogue Response ...
- The Chubby lock service for loosely-coupled distributed systems 论文阅读笔记
The Chubby lock service for loosely-coupled distributed systems 论文阅读笔记 特点:高可靠.高可用.粗粒度锁服务.小文件存储 主要用于高 ...
- [论文阅读笔记17]A Survey on Knowledge Graph-Based Recommender Systems
一,题目 TKDE 2020 A Survey on Knowledge Graph-Based Recommender Systems 综述:基于知识图谱的推荐系统 In IEEE Transact ...
- Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions 论文阅读笔记
Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions 论文阅读笔记 一.Abst ...
- Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization论文阅读笔记
Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization论文阅读笔记 目录 Arbitrary Style ...
最新文章
- 希望和等待:目标,欲望和意志
- php下curl与file_get_contents性能对比
- JavaSE_NIO_ByteBuffer
- 当maven引用的jar在maven库中下载不到源代码
- java struts 框架_java中struts 框架的实现
- Ajax实现页面加载等待
- Hadoop高级培训课程大纲-开发者版
- 软件供应链安全威胁:从“奥创纪元”到“无限战争”
- 常见的meta标签用法
- 小灵通为什么会退市?
- 基于SpringBoot的毕业设计选题系统
- 单片机学习——存储器详解(程序存储器、片内RAM、拓展RAM、EEPROM)
- 2011年随笔记 5月30号以后的日志薄
- git查看状态和修改信息
- 【渝粤教育】国家开放大学2018年秋季 0088-21T保险学概论 参考试题
- 使用Python获取微信朋友圈的内容
- 南方周末:“逃离北上广”续篇:做沙丁鱼,还是做咸鱼
- API登录接口文档事例
- 耐高压达林顿输出光耦(TLP127,TLP187,TLP627)功能介绍及应用实例
- VC MFC(Custom Control)自定义控件
热门文章
- oracle 修改pkg命令,Oracle PKG创造
- Spring Boot自定义starter
- 各类dp的总结+例题
- java encapsulation_Java Encapsulation vs Abstraction
- Python网速监控
- Spring Boot(二):整合 JPA 及 事务控制
- MySQL 那些监控参数 问 答 (4)REDO AHI latch 锁
- git log查看提交的Author是由谁决定的呢?
- Qt系列文章之 QMessageBox
- linux端口健康检查,Smartmontools检查在Linux上的硬盘健康状况 | MOS86