Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning

这是CVPR2018 Oral的一篇关于做Visual Dialog Generation的文章，paper连接https://arxiv.org/abs/1711.07613，作者的homepage http://qi-wu.me/home.html，一作是University of Adelaide Chunhua Shen组的Assistant Professor，code暂时还没有被released出来。
文章要做的事情：
输入：image+question（text）　　　输出：answer（text）
文章中show出来的example如下所示。

与state-of-the-art比较的实验结果如下所示。

method

文章的framework如下所示。

用CNN提取图像的特征，LSTM提取问题，答案以及历史答案的信息，其中提取信息的方式采用的co-attention[ https://arxiv.org/abs/1612.05386 ]，然后再讲图像，问题和历史答案特征做concatenation操作，然后用LSTM softmax得到当前问题的答案。
为了使得得到的答案的语法符合人的理解（套路），文章加入了GAN。首先将问题和答案输入到LSTM中得到一个新的特征，然后再将新的特征与图像和历史答案信息做concatenation（表示不能理解为什么不直接把4个feature做concatenation），将concatenation之后的特征输入到GAN中。
为了是的生成的answer更适合visual dialog（其实不管是visual dialog generation还是存dialog generation都是套路），文章加入了reinforcement learning，其中有两个trick在word层面给reward（Intermediate reward），用teacher forcing[ https://arxiv.org/abs/1610.09038 ]的方式更新generator。

总结：感觉文章中的trick很多，但是都不太work（调参很重要）。

Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning相关推荐

论文笔记《Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning》
CVPR2018:https://arxiv.org/abs/1711.07613 文章讨论的是视觉对话,目标是实现更Human-like的回复.举例: 要实现这样的目标,文章摒弃了先前使用简单 ML ...
『论文笔记』Two Causal Principles for Improving Visual Dialog
Two Causal Principles for Improving Visual Dialog 一句话总结从因果图角度审视视觉对话任务,切断对话历史与答案的直接因果效应,添加混杂因子[用户偏好] ...
论文笔记之：Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
VALSE学习（十六）： Visual Question Generation and Answering-视觉问题生成和视觉问题
简介:VALSE2019 沈春华老师相关知识: https://blog.csdn.net/LHWorldBlog/article/details/81124981 https://www.jia ...
论文阅读：A survey of visual analytics techniques for machine learning
题目:A survey of visual analytics techniques for machine learning A survey of visual analytics techniq ...
论文笔记VITAL: VIsual Tracking via Adversarial Learning
论文笔记VITAL: VIsual Tracking via Adversarial Learning 1. 论文标题及来源 2. 拟解决问题 3. 解决方法 3.1 算法流程 4. 实验结果 4.1 ...
相似度系列9: unify USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation
USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation 模型特点:multiple model ...
GlyphControl: Glyph Conditional Control for Visual Text Generation
GlyphControl: Glyph Conditional Control for Visual Text Generation (Paper reading) Yukang Yang, Micr ...
论文笔记《Visual Dialog》
一.文章讨论视觉对话,让AI以自然语言与人类进行有意义的对话,讨论视觉内容.应用包括: 1.帮助视障用户理解他们周围的环境或社交媒体内容. AI:'约翰刚从夏威夷度假时上传了一张照片', 人类:'太棒 ...

Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning

Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning相关推荐

最新文章

热门文章