论文笔记《Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning》
CVPR2018:https://arxiv.org/abs/1711.07613
文章讨论的是视觉对话,目标是实现更Human-like的回复。举例:
要实现这样的目标,文章摒弃了先前使用简单 MLE(最大似然估计)作为目标函数预测回复的方法,这个方法常用于机器翻译和VQA。这种简单的训练方法会导致安全的但一般、重复的回复。
文章使用GAN和RL结合,训练两个子模块:一个生成器根据图片和对话历史生成回复,一个判别器判别人的回复和机器的回复,判别器的输出作为一个reward。
看主要框架:
第一部分 sequential co-attention generator 连续的协同注意力生成器
生成回复依然是encoder-decoder架构,与单纯的把图片、历史、问题分别编码然后连接不同,文章专注于特定区域和片段。首先CNN提取图片特征V,LSTM提取问题特征Q,历史特征U,然后用协同注意力机制生成权重。co-attention encoder如下:
输入特征序列V、U、Q,输出对应注意力特征v、u、q,计算公式为等式1-3。x表示这三种特征的任一种,g1、g2表示,Wx,
Wg1 ,Wg2是可学习的参数,h是注意力模块的隐层数,M是特征序列的长度。最后的总特征表达为
整个生成过程表示为
第二部分 discriminative model with attention memories 有注意力记忆的判别模型
判别器判别生成的回复是人还是机器,用二分类器softmax,判别器输入是v、u、Q、A,其中Q-A经过LSTM变成uQA向量,与v、u经过全连接嵌入在一起,然后进行分类。
被识别为人的概率是
第三部分 Adversarial REINFORCE with an intermediate reward 有中间reward的对抗的REINFORCE算法
被当作一种reward,用REINFORCE算法最大化:
用似然率简化等式7:
p是生成的word的概率,ak是回复的第k个词,b是基准值。
中间步骤reward:上述的reward只考虑最终的生成序列,所有相关的action都用这个reward,文章提出中间过程的reward。比如:‘Are they adults or babies?’,人的回复:‘I would say they are adults’机器的回复:‘I can’t tell’.上述的REINFORCE模型会给出一个低分的reward,文章认为,应该给每个token分别reward,即‘I’是高分, can’t 和tell是低分。
不过判别器是衡量整个序列的,不是中间某个过程,文章提出用Monte Carlo (MC) search 和 roll-out (generator) policy 采样tokens,
其中是根据生成策略和当前状态采样。从当前状态到序列结束,执行N次策略,生成的序列进到判别器,其平均分数被用作产生token ak的动作的奖励。
有了这个中间奖励,文章的梯度计算如下:
文章使用teacher forcing strategy更新生成器,总的算法流程:
实验部分
数据集VisDial
CoAtt-G-MLE:没有对抗学习,用MLE目标函数
CoAtt-GAN-w/o Rinte:有对抗学习,只用全局reward计算梯度
CoAtt-GAN-w/ Rinte:用中间reward
CoAtt-GAN-w/ Rinte-TF:有‘teacher forcing’
论文笔记《Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning》相关推荐
- 论文笔记之Understanding and Diagnosing Visual Tracking Systems
Understanding and Diagnosing Visual Tracking Systems 论文链接:http://dwz.cn/6qPeIb 本文的主要思想是为了剖析出一个跟踪算法中到 ...
- 《Understanding and Diagnosing Visual Tracking Systems》论文笔记
本人为目标追踪初入小白,在博客下第一次记录一下自己的论文笔记,如有差错,恳请批评指正!! 论文相关信息:<Understanding and Diagnosing Visual Tracking ...
- 论文笔记Understanding and Diagnosing Visual Tracking Systems
最近在看目标跟踪方面的论文,看到王乃岩博士发的一篇分析跟踪系统的文章,将目标跟踪系统拆分为多个独立的部分进行分析,比较各个部分的效果.本文主要对该论文的重点的一个大致翻译,刚入门,水平有限,如有理解错 ...
- 目标跟踪笔记Understanding and Diagnosing Visual Tracking Systems
Understanding and Diagnosing Visual Tracking Systems 原文链接:https://blog.csdn.net/u010515206/article/d ...
- 追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems)
追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems) PROJECT http://winsty.net/tracker_di ...
- ICCV 2015 《Understanding and Diagnosing Visual Tracking Systems》论文笔记
目录 写在前面 文章大意 一些benchmark 实验 实验设置 基本模型 数据集 实验1 Featrue Extractor 实验2 Observation Model 实验3 Motion Mod ...
- Understanding and Diagnosing Visual Tracking Systems
文章把一个跟踪器分为几个模块,分别为motion model, feature extractor, observation model, model updater, and ensemble po ...
- CVPR 2017 SANet:《SANet: Structure-Aware Network for Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做SANet.作者在论文中提到,CNN模型主要适用于类间判别,对于相似物体的判别能力不强.作者提出使用RNN对目标物体的self-structure进行建模,用于提 ...
- ICCV 2017 UCT:《UCT: Learning Unified Convolutional Networks forReal-time Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做UCT.就像论文题目一样,作者提出了一个基于卷积神经网络的end2end的tracking模型.模型的整体结构如下图所示(图中实线代表online trackin ...
- CVPR 2018 STRCF:《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文提出的模型叫做STRCF. 在DCF中存在边界效应,SRDCF在DCF的基础上中通过加入spatial惩罚项解决了边界效应,但是SRDCF在tracking的过程中要使用 ...
最新文章
- 异步请求之XMLHttpRequest篇
- 基金委新规:填写论文成果,不再标注通讯和一作!影响有多大?
- substring java_Java String.substring()用法
- java list接口为何要重新声明collection接口的方法_JAVA Collection接口中List Map 和Set的区别(转)...
- JavaScript 变量克隆和判断变量类型
- Python正则简单实例分析
- 游戏行业全场景数字化解决方案全面上线,速来围观
- transactionscope报“此操作对该事务的状态无效”问题
- mysql 5.7参数目录_mysql5.7配置
- python中sort和sorted区别_Python中的 sort 和 sorted的用法与区别
- 机器学习-ID3决策树算法(附matlab/octave代码)
- C++基础教程之注释
- php基础语法了解,PHP基础语法
- Computer Shader的理解记录
- Tracing event
- 战争教育策略游戏 MiracleGame,开启新阶段重塑生态和玩法
- 使用随机森林填补缺失值
- R plotly包函数的使用 plot_ly(),add_trace(),layout()
- ath9K 驱动注册过程
- u盘无法识别怎么办?看完不愁数据恢复
热门文章
- 拆解报告:爱否开物1A2C 65W PD氮化镓充电器智融SW3516十分表现抢眼
- 5.前端CSS之基本属性(长宽,字体,文体,背景图片,阴影,border画圆,display)
- Python零基础入门,纯干货!
- CS5266单芯片设计Type-C转HDMI+PD3.0+USB3.0 /3.1三合一拓展坞方案|type转HDMI带PD3.0/3.1拓展坞方案介绍
- MWC 2017小结:各家新机缺乏创新,5G落地尚需时日
- 人力资源和社会保障部——拟新增职业“密码技术应用员”
- 如何在64位win10系统下通过virtualbox虚拟机安装苹果macOS 10.12
- 黄飞130702010037第二次作业
- React SSR - 01 SSR 介绍 和 快速开始
- 【数据分析师---数据可视化】第二章:plotly绘图基础篇