总结一下最近读到的三篇instance weighting的paper。

一、Not All Dialogues are Created Equal: Instance Weighting for Neural Conversational Models ——SIGDIAL 18

第一个提出做instance  weighting,值得注意的想法是,把这个weighting model看成是一个matching model,重点是,这个model之所以能为另一个network打分,是因为在训练的时候会人为地(heuristically)选出来“high quality” pairs作为正样本喂进去,才能认为打分是“准”的。这一点很关键(at least intuitively)

1、Motivation:(seems reasonable)

常用的dialogue数据类型:Twitter discussions (Ritter et al., 2010) online chat logs (Lowe et al., 2017), movie scripts (DanescuNiculescu-Mizil and Lee, 2011) and movie and TV subtitles (Lison and Tiedemann, 2016).

很多数据本身的特性很影响dialogue:

①很多multiturn dialogue,尤其是subtitles和chat logs没有turn segmentation和speaker identification。

②对话数据中的很多specific entities不应该被model学到。

③很多对话质量本身就良莠不齐,很多无意义的答复,很多情景下可能出现的答非所问。

总之在dialogue data中,不同的pair的quality其实是不同的,我们希望model学到intrinsic dialogue pattern rather than just learning to mimic specific scenario。因此希望用一个weighting model来给每个instance打分,乘在loss前面来rectify optimization strategy。

2、模型结构

(1)weighting model:

上下两个RNN share parameters

The selection of high-quality example pairs from a given corpus can be performed through a combination of simple heuristics.

这个的weighting model本质上就是一个matching model,然后用binary-classifier sigmoid cross entropy loss来训练。正样本是true pairs再经过特征工程筛选出来的,而负样本是从training corpus中random sample出来的。

首先这个heuristics应当是dataset-specific的,作者的这个subtitles这种缺陷很明显的dataset比较好用;其次这里的negative example直接就是random sampling了,这对于高质量很好区分的dataset而言无伤大雅。

但是这个设定对于那些本身数据集上没什么缺陷,仅仅是不同pairs之间的quality之间天然会有差别的场景作用不太大吧。

(2) retrieval model

①TF-IDFmodel

将每个sentence用BOW表示成vocab大小的sparse vector,然后每个1都用tf-idf score替代,然后matching score就是cosine similarity。

②Dual Encoder(Lowe et al., 2017)

结构如下,是dual-encoder model的简单改版。

3、数据与训练

使用OpenSubtitles corpus全集来训练retrieval model,用heuristics只选出了0.1%来作为“high quality” examples来训练weighting model,用在training set中skip-gram的word2vec做embedding初始化。

4、discussion

为什么不直接用heuristics选出来的high quality的来做新的训练集呢?

针对检索式,首先,检索式的pos和neg之间的差距过大过小都不好,这是本质问题;其次检索式训练速度快,没必要这样牺牲大量数据。

针对生成式,作者提出的设想是用weighting model来选出来好的样本(by thresholding, maybe)然后concentrate on好样本去训练。感觉也不太行,生成本身就需要大量样本才能训。即

Filter out part of the training data to concentrate the training time on “interesting” examples with a high cohesion between the context and its response.

感觉应当还是要像下面这一篇一样做生成才行。

二、Learning to Converse with Noisy Data: Generation with Calibration  ——IJCAI 18

一个calibration network负责打matching score,作为generative model的instance weighting。两个model在同样的training data中训练的,calibration net没有特别提供“high quality”的样本。(直觉上来讲,不work是正常的,但是work了……)

三、Learning Matching Models with Weak Supervision for Response Selection in Retrieval-based Chatbots

论文阅读:Instance Weighting in Dialogue Systems相关推荐

  1. 《论文阅读》PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable

    <论文阅读>PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable 简介 论文试图解决什么问题 ...

  2. 论文阅读笔记《Regularizing Dialogue Generation by Imitating Implicit Scenarios》

    模仿隐式情景规范对话生成 Abstract 人类对话是基于情景的,适当的回复通常与特定情景所带来的潜在背景知识有关.为了能够做出更有意义和更具体的回应,我们建议从情景视角改进生成对话系统,其中考虑对话 ...

  3. Fuzzy SyStem2020 | 论文阅读《Optimize TSK Fuzzy Systems for Regression Problems》

    TSK模糊系统优化算法----MGDB 1.Motivation 2.Overviw of the TSK Fuzzy System Optimize 2.1 Selct Optimize direc ...

  4. Fuzzy System2021|论文阅读《Optimize TSK Fuzzy Systems for Classification Problems》

    Fuzzy System 1.摘要 2.引言 3. algorithm 3.1 TSK介绍见前面的论文 3.2 均匀正则化 3.3 Batch Normalization(BN) 4 实验结果 4.1 ...

  5. 论文阅读笔记《DEAM: Dialogue Coherence Evaluation using AMR-based SemanticManipulations》

    基于amr语义操作的对话连贯评价 Abstract 自动评估指标对于开放域对话系统的快速发展至关重要,因为它们有助于模型之间的超参数调优和比较.尽管最近提出的可训练的对话级指标显示出令人鼓舞的结果,但 ...

  6. 《论文阅读》Multi-Task Learning of Generation and Classification for Emotion-Aware Dialogue Response Gener

    <论文阅读>Multi-Task Learning of Generation and Classification for Emotion-Aware Dialogue Response ...

  7. The Chubby lock service for loosely-coupled distributed systems 论文阅读笔记

    The Chubby lock service for loosely-coupled distributed systems 论文阅读笔记 特点:高可靠.高可用.粗粒度锁服务.小文件存储 主要用于高 ...

  8. [论文阅读笔记17]A Survey on Knowledge Graph-Based Recommender Systems

    一,题目 TKDE 2020 A Survey on Knowledge Graph-Based Recommender Systems 综述:基于知识图谱的推荐系统 In IEEE Transact ...

  9. Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions 论文阅读笔记

    Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions 论文阅读笔记 一.Abst ...

  10. Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization论文阅读笔记

    Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization论文阅读笔记 目录 Arbitrary Style ...

最新文章

  1. 希望和等待:目标,欲望和意志
  2. php下curl与file_get_contents性能对比
  3. JavaSE_NIO_ByteBuffer
  4. 当maven引用的jar在maven库中下载不到源代码
  5. java struts 框架_java中struts 框架的实现
  6. Ajax实现页面加载等待
  7. Hadoop高级培训课程大纲-开发者版
  8. 软件供应链安全威胁:从“奥创纪元”到“无限战争”
  9. 常见的meta标签用法
  10. 小灵通为什么会退市?
  11. 基于SpringBoot的毕业设计选题系统
  12. 单片机学习——存储器详解(程序存储器、片内RAM、拓展RAM、EEPROM)
  13. 2011年随笔记 5月30号以后的日志薄
  14. git查看状态和修改信息
  15. 【渝粤教育】国家开放大学2018年秋季 0088-21T保险学概论 参考试题
  16. 使用Python获取微信朋友圈的内容
  17. 南方周末:“逃离北上广”续篇:做沙丁鱼,还是做咸鱼
  18. API登录接口文档事例
  19. 耐高压达林顿输出光耦(TLP127,TLP187,TLP627)功能介绍及应用实例
  20. VC MFC(Custom Control)自定义控件

热门文章

  1. oracle 修改pkg命令,Oracle PKG创造
  2. Spring Boot自定义starter
  3. 各类dp的总结+例题
  4. java encapsulation_Java Encapsulation vs Abstraction
  5. Python网速监控
  6. Spring Boot(二):整合 JPA 及 事务控制
  7. MySQL 那些监控参数 问 答 (4)REDO AHI latch 锁
  8. git log查看提交的Author是由谁决定的呢?
  9. Qt系列文章之 QMessageBox
  10. linux端口健康检查,Smartmontools检查在Linux上的硬盘健康状况 | MOS86