这是CVPR2018 Oral的一篇关于做Visual Dialog Generation的文章,paper连接https://arxiv.org/abs/1711.07613,作者的homepage http://qi-wu.me/home.html,一作是University of Adelaide Chunhua Shen组的Assistant Professor,code暂时还没有被released出来。
文章要做的事情:
输入:image+question(text)    输出:answer(text)
文章中show出来的example如下所示。

与state-of-the-art比较的实验结果如下所示。

method

文章的framework如下所示。

用CNN提取图像的特征,LSTM提取问题,答案以及历史答案的信息,其中提取信息的方式采用的co-attention[ https://arxiv.org/abs/1612.05386 ],然后再讲图像,问题和历史答案特征做concatenation操作,然后用LSTM softmax得到当前问题的答案。
为了使得得到的答案的语法符合人的理解(套路),文章加入了GAN。首先将问题和答案输入到LSTM中得到一个新的特征,然后再将新的特征与图像和历史答案信息做concatenation(表示不能理解为什么不直接把4个feature做concatenation),将concatenation之后的特征输入到GAN中。
为了是的生成的answer更适合visual dialog(其实不管是visual dialog generation还是存dialog generation都是套路),文章加入了reinforcement learning,其中有两个trick在word层面给reward(Intermediate reward),用teacher forcing[ https://arxiv.org/abs/1610.09038 ]的方式更新generator。

总结:感觉文章中的trick很多,但是都不太work(调参很重要)。

Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning相关推荐

  1. 论文笔记《Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning》

    CVPR2018:https://arxiv.org/abs/1711.07613 文章讨论的是视觉对话,目标是实现更Human-like的回复.举例: 要实现这样的目标,文章摒弃了先前使用简单 ML ...

  2. 『论文笔记』Two Causal Principles for Improving Visual Dialog

    Two Causal Principles for Improving Visual Dialog 一句话总结 从因果图角度审视视觉对话任务,切断对话历史与答案的直接因果效应,添加混杂因子[用户偏好] ...

  3. 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

    论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21: ...

  4. VALSE学习(十六): Visual Question Generation and Answering-视觉问题生成和视觉问题

    简介:VALSE2019  沈春华老师 相关知识: https://blog.csdn.net/LHWorldBlog/article/details/81124981 https://www.jia ...

  5. 论文阅读 :A survey of visual analytics techniques for machine learning

    题目:A survey of visual analytics techniques for machine learning A survey of visual analytics techniq ...

  6. 论文笔记VITAL: VIsual Tracking via Adversarial Learning

    论文笔记VITAL: VIsual Tracking via Adversarial Learning 1. 论文标题及来源 2. 拟解决问题 3. 解决方法 3.1 算法流程 4. 实验结果 4.1 ...

  7. 相似度系列9: unify USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation

    USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation 模型特点:multiple model ...

  8. GlyphControl: Glyph Conditional Control for Visual Text Generation

    GlyphControl: Glyph Conditional Control for Visual Text Generation (Paper reading) Yukang Yang, Micr ...

  9. 论文笔记《Visual Dialog》

    一.文章讨论视觉对话,让AI以自然语言与人类进行有意义的对话,讨论视觉内容.应用包括: 1.帮助视障用户理解他们周围的环境或社交媒体内容. AI:'约翰刚从夏威夷度假时上传了一张照片', 人类:'太棒 ...

最新文章

  1. redis 3.0 cluster 集群 学习之路篇 [3]
  2. 撒花!算法岗必须复现的上百篇经典论文代码完结啦! | 附下载链接
  3. URLCache探索
  4. python抓取网站访客手机号_点击了一个教育网站,马上就有老师打电话过来,他们是怎么获取我的手机号?...
  5. How to find CRM system's integrated ERP system
  6. SQL2012 之 创建备份计划
  7. mysql获取逻辑日志_Mysql 逻辑架构图及日志系统
  8. 唐雄燕点评NFV产业进程:2016年将迎来试点年
  9. 从零实现深度学习框架——理解正则化(二)
  10. matlab中x.^2与x^2有什么区别?
  11. spring - 源码下载与构建
  12. java iplimage 头文件_在javacv中将IplImage转换为Mat
  13. 计算机教室消防说明,6.7 消防专用电话的设置
  14. 移动端webscoket连接失败---code1006
  15. 计算机音乐恋曲1990字谱,歌曲恋曲1990简谱
  16. php whois查询,php whois查询API制作方法
  17. 一文读懂中国历代龙纹演变(推荐收藏)
  18. 用文字,把这支笔卖给我
  19. 云原生浪潮下自如的技术演进之路
  20. MySQL数据库30条规范解读

热门文章

  1. 以太坊(Ethereum) - 网络节点
  2. linux常用关机命令shutdown、halt、poweroff、init用法
  3. ▷Scratch课堂丨物理模拟地球公转,值得你的分享收藏!
  4. html网页标签用法
  5. PG用户default privileges授权不生效?
  6. is not eligible for getting processed by all BeanPostProcessors (for example: not eligible for
  7. 用php搭建公众号服务器,如何快速给自己的微信公众号搭建自己的后台服务端
  8. 学习笔记22/1/10
  9. 在web 开发中input file 中调用摄像头
  10. 把视频里的音乐提取成音频,我可以帮助你