一、文章讨论视觉对话,让AI以自然语言与人类进行有意义的对话,讨论视觉内容。应用包括:

1、帮助视障用户理解他们周围的环境或社交媒体内容。

AI:'约翰刚从夏威夷度假时上传了一张照片',

人类:'太棒了,他在海滩吗?

AI: 不,在山上。

2、帮助分析师根据大量监测数据做出决定。

人类:'上周有人进入这个房间吗?'

AI:'是的,有27个实例出现在镜头'

人类:'他们中是否有人携带黑色包?“

3、与人工智能助理互动。

人类:'Alexa - 你能看到宝宝在婴儿监视器中吗?'

AI:'是的,我可以',

人类:“他在睡觉还是在玩耍?”

4、机器人应用(例如搜索和救援任务),操作人员可能处于“情境盲区”并通过语言操作。

人类:“你周围的任何房间都有烟吗?”

AI:'是的,在一个房间里'

人类:'去那里找人'。

但是尽管视觉和语言取得大的进展,但是我们距离AI能“看”和“沟通”还很远,比如image captioning 和visual question answering,仍然有很大的进步空间,前者没有实现对话,后者只有单论对话,人机交互很糟糕。

于是作者提出视觉对话,任务描述: 给定一张图片I,一段包括一系列QA的对话记录,一个自然语言问题,让AI回答这个问题。

二、相关工作:

1、视觉和语言:视觉和语言结合的工作有很多: image captioning, video/movie description , text-to-image coreference/grounding, visual storytelling,  visual question answering (VQA) ,不过它们都没有对话。

2、视觉图灵测试:图灵测试是一个系统,要求模板化的二进制问题。我们的数据集自由、多样,每张图片10对QA。

3、基于文本的QA:

4、对话模型和聊天机器人:视觉对话可以说是基于文本的对话的变体,早期聊天机器人是基于规则,现在基于学习的端到端的方法很多。

三、数据集VisDial

四、模型

输入:图片I、对话历史(包括图片描述),其中C是caption,QA是问答

有100个候选回答At = ,需要返回其中一个值。

Decoder:两种类型的解码器

1、生成解码器G:在训练期间,最大化真实回答序列的对数似然率。 为了评估,我们使用模型的对数似然率分数和排名候选答案

2、判别(softmax)解码器D:计算每个选项的后验概率,在训练期间,最大化正确选项的对数似然率。 在评估过程中,选项根据后验概率进行简单排序。

Encoder:三种编码器,将(I,H,Qt)融合为一种表达。

1、后期融合LF:把H看作整个历史的串联(H0,...,Ht-1)

2、分层递归HRE:

3、记忆网络MN:

五、实验

1 下载数据集,预处理数据集

python prepro.py

生成 data/visdial_data.h5 (tokenized captions, questions, answers, image index) 和  data/visdial_params.json  (vocabulary mappings and COCO image ids).

2 VGG16提取图片特征

sh scripts/download_model.sh vgg 16   

 得到 data/data_img.h5

th prepro_img_vgg16.lua 

得到data/models/vgg16

3 训练

th train.lua

得到checkpoints/

4 评估

th evaluate.lua

5 Beam Search ,可视化结果

th generate.lua

得到 vis/results/results.json

python3 -m http.server

在网站localhost:8000看到结果

论文笔记《Visual Dialog》相关推荐

  1. 论文笔记之Understanding and Diagnosing Visual Tracking Systems

    Understanding and Diagnosing Visual Tracking Systems 论文链接:http://dwz.cn/6qPeIb 本文的主要思想是为了剖析出一个跟踪算法中到 ...

  2. 《Understanding and Diagnosing Visual Tracking Systems》论文笔记

    本人为目标追踪初入小白,在博客下第一次记录一下自己的论文笔记,如有差错,恳请批评指正!! 论文相关信息:<Understanding and Diagnosing Visual Tracking ...

  3. 论文笔记Understanding and Diagnosing Visual Tracking Systems

    最近在看目标跟踪方面的论文,看到王乃岩博士发的一篇分析跟踪系统的文章,将目标跟踪系统拆分为多个独立的部分进行分析,比较各个部分的效果.本文主要对该论文的重点的一个大致翻译,刚入门,水平有限,如有理解错 ...

  4. 目标跟踪笔记Understanding and Diagnosing Visual Tracking Systems

    Understanding and Diagnosing Visual Tracking Systems 原文链接:https://blog.csdn.net/u010515206/article/d ...

  5. 追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems)

    追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems) PROJECT http://winsty.net/tracker_di ...

  6. ICCV 2015 《Understanding and Diagnosing Visual Tracking Systems》论文笔记

    目录 写在前面 文章大意 一些benchmark 实验 实验设置 基本模型 数据集 实验1 Featrue Extractor 实验2 Observation Model 实验3 Motion Mod ...

  7. Understanding and Diagnosing Visual Tracking Systems

    文章把一个跟踪器分为几个模块,分别为motion model, feature extractor, observation model, model updater, and ensemble po ...

  8. CVPR 2017 SANet:《SANet: Structure-Aware Network for Visual Tracking》论文笔记

    理解出错之处望不吝指正. 本文模型叫做SANet.作者在论文中提到,CNN模型主要适用于类间判别,对于相似物体的判别能力不强.作者提出使用RNN对目标物体的self-structure进行建模,用于提 ...

  9. ICCV 2017 UCT:《UCT: Learning Unified Convolutional Networks forReal-time Visual Tracking》论文笔记

    理解出错之处望不吝指正. 本文模型叫做UCT.就像论文题目一样,作者提出了一个基于卷积神经网络的end2end的tracking模型.模型的整体结构如下图所示(图中实线代表online trackin ...

  10. CVPR 2018 STRCF:《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》论文笔记

    理解出错之处望不吝指正. 本文提出的模型叫做STRCF. 在DCF中存在边界效应,SRDCF在DCF的基础上中通过加入spatial惩罚项解决了边界效应,但是SRDCF在tracking的过程中要使用 ...

最新文章

  1. Apache软件基金会宣布Apache Unom成为顶级项目
  2. Redis的发布订阅模式以及在SpringBoot中的使用
  3. hdu 2896 病毒侵袭(AC自动机)
  4. 将输出流转换成输入流
  5. Anaconda 安装与使用
  6. 无监督学习 | DBSCAN 原理及Sklearn实现
  7. Honey Tree(超好用的样板代码管理工具)
  8. c# combobox集合数据不显示_VBA与数据库解决方案第9讲:如何打开数据库记录集合,并把所得的数据显示到工作表文件中...
  9. Oracle闪回技术
  10. IPython 的使用
  11. uni-app+微信小程序+云开发 爬取必应首页每日图片
  12. 计算机省技能竞赛总结,2014技能大赛总结:技能大赛个人总结
  13. Pandas requires version ‘2.0.1‘ or newer of ‘xlrd‘ (version ‘1.2.0‘ currently installed).
  14. 自建Kubernetes集群如何使用阿里云CSI存储组件
  15. 我在公司彻夜撸码,老板天天开X6夜店蹦迪,到头来工资还拖欠
  16. iOS开发--开源库
  17. MT6735A和MT6753 前摄无法点亮
  18. 联想 S920 小白式一键ROOT工具
  19. 个人训练赛第十八场----问题 N: 扶桑号战列舰(贪心+栈)
  20. 蓝桥杯-c语言 高僧斗法

热门文章

  1. php emoji 去掉,php如何实现去除emoji
  2. Web16_Sessionamp;Cookie
  3. c语言常量l12和意义,课件c语言l12_指针和数组
  4. java教师工作量代码_java教师工作量计算法
  5. 学习通--3.1-互评-OO设计-有理数类的设计
  6. Unidbg系列--Ollvm字符串解密
  7. P02014252 孙浩宸 信息论课程问答题作业
  8. 通信学子就业岗位类型简介——GXC
  9. typescript 如何使用js 库
  10. 70进货卖100利润是多少_我用85元钱进货,卖了100元,请问利润是多少,它的利润是百分之几,用什么方法计算方式...