论文笔记《Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning》

CVPR2018：https://arxiv.org/abs/1711.07613

文章讨论的是视觉对话，目标是实现更Human-like的回复。举例：

要实现这样的目标，文章摒弃了先前使用简单 MLE（最大似然估计）作为目标函数预测回复的方法，这个方法常用于机器翻译和VQA。这种简单的训练方法会导致安全的但一般、重复的回复。

文章使用GAN和RL结合，训练两个子模块：一个生成器根据图片和对话历史生成回复，一个判别器判别人的回复和机器的回复，判别器的输出作为一个reward。

看主要框架：

第一部分 sequential co-attention generator 连续的协同注意力生成器

生成回复依然是encoder-decoder架构，与单纯的把图片、历史、问题分别编码然后连接不同，文章专注于特定区域和片段。首先CNN提取图片特征V，LSTM提取问题特征Q，历史特征U，然后用协同注意力机制生成权重。co-attention encoder如下：

输入特征序列V、U、Q，输出对应注意力特征v、u、q，计算公式为等式1-3。x表示这三种特征的任一种，g1、g2表示，Wx,

Wg1 ,Wg2是可学习的参数，h是注意力模块的隐层数，M是特征序列的长度。最后的总特征表达为

整个生成过程表示为

第二部分 discriminative model with attention memories 有注意力记忆的判别模型

判别器判别生成的回复是人还是机器，用二分类器softmax，判别器输入是v、u、Q、A，其中Q-A经过LSTM变成uQA向量，与v、u经过全连接嵌入在一起，然后进行分类。

被识别为人的概率是

第三部分 Adversarial REINFORCE with an intermediate reward 有中间reward的对抗的REINFORCE算法

被当作一种reward，用REINFORCE算法最大化：

用似然率简化等式7：

p是生成的word的概率，ak是回复的第k个词，b是基准值。

中间步骤reward：上述的reward只考虑最终的生成序列，所有相关的action都用这个reward，文章提出中间过程的reward。比如：‘Are they adults or babies?’,人的回复：‘I would say they are adults’机器的回复：‘I can’t tell’.上述的REINFORCE模型会给出一个低分的reward，文章认为，应该给每个token分别reward，即‘I’是高分， can’t 和tell是低分。

不过判别器是衡量整个序列的，不是中间某个过程，文章提出用Monte Carlo (MC) search 和 roll-out (generator) policy 采样tokens，

其中是根据生成策略和当前状态采样。从当前状态到序列结束，执行N次策略，生成的序列进到判别器，其平均分数被用作产生token ak的动作的奖励。

有了这个中间奖励，文章的梯度计算如下：

文章使用teacher forcing strategy更新生成器，总的算法流程：

实验部分

数据集VisDial

CoAtt-G-MLE：没有对抗学习，用MLE目标函数

CoAtt-GAN-w/o Rinte：有对抗学习，只用全局reward计算梯度

CoAtt-GAN-w/ Rinte：用中间reward

CoAtt-GAN-w/ Rinte-TF：有‘teacher forcing’

论文笔记《Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning》相关推荐

论文笔记之Understanding and Diagnosing Visual Tracking Systems
Understanding and Diagnosing Visual Tracking Systems 论文链接:http://dwz.cn/6qPeIb 本文的主要思想是为了剖析出一个跟踪算法中到 ...
《Understanding and Diagnosing Visual Tracking Systems》论文笔记
本人为目标追踪初入小白,在博客下第一次记录一下自己的论文笔记,如有差错,恳请批评指正!! 论文相关信息:<Understanding and Diagnosing Visual Tracking ...
论文笔记Understanding and Diagnosing Visual Tracking Systems
最近在看目标跟踪方面的论文,看到王乃岩博士发的一篇分析跟踪系统的文章,将目标跟踪系统拆分为多个独立的部分进行分析,比较各个部分的效果.本文主要对该论文的重点的一个大致翻译,刚入门,水平有限,如有理解错 ...
目标跟踪笔记Understanding and Diagnosing Visual Tracking Systems
Understanding and Diagnosing Visual Tracking Systems 原文链接:https://blog.csdn.net/u010515206/article/d ...
追踪系统分模块解析（Understanding and Diagnosing Visual Tracking Systems）
追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems) PROJECT http://winsty.net/tracker_di ...
ICCV 2015 《Understanding and Diagnosing Visual Tracking Systems》论文笔记
目录写在前面文章大意一些benchmark 实验实验设置基本模型数据集实验1 Featrue Extractor 实验2 Observation Model 实验3 Motion Mod ...
Understanding and Diagnosing Visual Tracking Systems
文章把一个跟踪器分为几个模块,分别为motion model, feature extractor, observation model, model updater, and ensemble po ...
CVPR 2017 SANet:《SANet: Structure-Aware Network for Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做SANet.作者在论文中提到,CNN模型主要适用于类间判别,对于相似物体的判别能力不强.作者提出使用RNN对目标物体的self-structure进行建模,用于提 ...
ICCV 2017 UCT:《UCT: Learning Unified Convolutional Networks forReal-time Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做UCT.就像论文题目一样,作者提出了一个基于卷积神经网络的end2end的tracking模型.模型的整体结构如下图所示(图中实线代表online trackin ...
CVPR 2018 STRCF:《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文提出的模型叫做STRCF. 在DCF中存在边界效应,SRDCF在DCF的基础上中通过加入spatial惩罚项解决了边界效应,但是SRDCF在tracking的过程中要使用 ...

论文笔记《Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning》

论文笔记《Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning》相关推荐

最新文章

热门文章