论文笔记《Visual Dialog》
一、文章讨论视觉对话,让AI以自然语言与人类进行有意义的对话,讨论视觉内容。应用包括:
1、帮助视障用户理解他们周围的环境或社交媒体内容。
AI:'约翰刚从夏威夷度假时上传了一张照片',
人类:'太棒了,他在海滩吗?
AI: 不,在山上。
2、帮助分析师根据大量监测数据做出决定。
人类:'上周有人进入这个房间吗?'
AI:'是的,有27个实例出现在镜头'
人类:'他们中是否有人携带黑色包?“
3、与人工智能助理互动。
人类:'Alexa - 你能看到宝宝在婴儿监视器中吗?'
AI:'是的,我可以',
人类:“他在睡觉还是在玩耍?”
4、机器人应用(例如搜索和救援任务),操作人员可能处于“情境盲区”并通过语言操作。
人类:“你周围的任何房间都有烟吗?”
AI:'是的,在一个房间里'
人类:'去那里找人'。
但是尽管视觉和语言取得大的进展,但是我们距离AI能“看”和“沟通”还很远,比如image captioning 和visual question answering,仍然有很大的进步空间,前者没有实现对话,后者只有单论对话,人机交互很糟糕。
于是作者提出视觉对话,任务描述: 给定一张图片I,一段包括一系列QA的对话记录,一个自然语言问题,让AI回答这个问题。
二、相关工作:
1、视觉和语言:视觉和语言结合的工作有很多: image captioning, video/movie description , text-to-image coreference/grounding, visual storytelling, visual question answering (VQA) ,不过它们都没有对话。
2、视觉图灵测试:图灵测试是一个系统,要求模板化的二进制问题。我们的数据集自由、多样,每张图片10对QA。
3、基于文本的QA:
4、对话模型和聊天机器人:视觉对话可以说是基于文本的对话的变体,早期聊天机器人是基于规则,现在基于学习的端到端的方法很多。
三、数据集VisDial
四、模型
输入:图片I、对话历史(包括图片描述),其中C是caption,QA是问答
有100个候选回答At = ,需要返回其中一个值。
Decoder:两种类型的解码器
1、生成解码器G:在训练期间,最大化真实回答序列的对数似然率。 为了评估,我们使用模型的对数似然率分数和排名候选答案
2、判别(softmax)解码器D:计算每个选项的后验概率,在训练期间,最大化正确选项的对数似然率。 在评估过程中,选项根据后验概率进行简单排序。
Encoder:三种编码器,将(I,H,Qt)融合为一种表达。
1、后期融合LF:把H看作整个历史的串联(H0,...,Ht-1)
2、分层递归HRE:
3、记忆网络MN:
五、实验
1 下载数据集,预处理数据集
python prepro.py
生成 data/visdial_data.h5
(tokenized captions, questions, answers, image index) 和 data/visdial_params.json
(vocabulary mappings and COCO image ids).
2 VGG16提取图片特征
sh scripts/download_model.sh vgg 16
得到 data/data_img.h5
th prepro_img_vgg16.lua
得到data/models/vgg16
3 训练
th train.lua
得到checkpoints/
4 评估
th evaluate.lua
5 Beam Search ,可视化结果
th generate.lua
得到 vis/results/results.json
python3 -m http.server
在网站localhost:8000看到结果
论文笔记《Visual Dialog》相关推荐
- 论文笔记之Understanding and Diagnosing Visual Tracking Systems
Understanding and Diagnosing Visual Tracking Systems 论文链接:http://dwz.cn/6qPeIb 本文的主要思想是为了剖析出一个跟踪算法中到 ...
- 《Understanding and Diagnosing Visual Tracking Systems》论文笔记
本人为目标追踪初入小白,在博客下第一次记录一下自己的论文笔记,如有差错,恳请批评指正!! 论文相关信息:<Understanding and Diagnosing Visual Tracking ...
- 论文笔记Understanding and Diagnosing Visual Tracking Systems
最近在看目标跟踪方面的论文,看到王乃岩博士发的一篇分析跟踪系统的文章,将目标跟踪系统拆分为多个独立的部分进行分析,比较各个部分的效果.本文主要对该论文的重点的一个大致翻译,刚入门,水平有限,如有理解错 ...
- 目标跟踪笔记Understanding and Diagnosing Visual Tracking Systems
Understanding and Diagnosing Visual Tracking Systems 原文链接:https://blog.csdn.net/u010515206/article/d ...
- 追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems)
追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems) PROJECT http://winsty.net/tracker_di ...
- ICCV 2015 《Understanding and Diagnosing Visual Tracking Systems》论文笔记
目录 写在前面 文章大意 一些benchmark 实验 实验设置 基本模型 数据集 实验1 Featrue Extractor 实验2 Observation Model 实验3 Motion Mod ...
- Understanding and Diagnosing Visual Tracking Systems
文章把一个跟踪器分为几个模块,分别为motion model, feature extractor, observation model, model updater, and ensemble po ...
- CVPR 2017 SANet:《SANet: Structure-Aware Network for Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做SANet.作者在论文中提到,CNN模型主要适用于类间判别,对于相似物体的判别能力不强.作者提出使用RNN对目标物体的self-structure进行建模,用于提 ...
- ICCV 2017 UCT:《UCT: Learning Unified Convolutional Networks forReal-time Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做UCT.就像论文题目一样,作者提出了一个基于卷积神经网络的end2end的tracking模型.模型的整体结构如下图所示(图中实线代表online trackin ...
- CVPR 2018 STRCF:《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文提出的模型叫做STRCF. 在DCF中存在边界效应,SRDCF在DCF的基础上中通过加入spatial惩罚项解决了边界效应,但是SRDCF在tracking的过程中要使用 ...
最新文章
- Apache软件基金会宣布Apache Unom成为顶级项目
- Redis的发布订阅模式以及在SpringBoot中的使用
- hdu 2896 病毒侵袭(AC自动机)
- 将输出流转换成输入流
- Anaconda 安装与使用
- 无监督学习 | DBSCAN 原理及Sklearn实现
- Honey Tree(超好用的样板代码管理工具)
- c# combobox集合数据不显示_VBA与数据库解决方案第9讲:如何打开数据库记录集合,并把所得的数据显示到工作表文件中...
- Oracle闪回技术
- IPython 的使用
- uni-app+微信小程序+云开发 爬取必应首页每日图片
- 计算机省技能竞赛总结,2014技能大赛总结:技能大赛个人总结
- Pandas requires version ‘2.0.1‘ or newer of ‘xlrd‘ (version ‘1.2.0‘ currently installed).
- 自建Kubernetes集群如何使用阿里云CSI存储组件
- 我在公司彻夜撸码,老板天天开X6夜店蹦迪,到头来工资还拖欠
- iOS开发--开源库
- MT6735A和MT6753 前摄无法点亮
- 联想 S920 小白式一键ROOT工具
- 个人训练赛第十八场----问题 N: 扶桑号战列舰(贪心+栈)
- 蓝桥杯-c语言 高僧斗法
热门文章
- php emoji 去掉,php如何实现去除emoji
- Web16_Sessionamp;Cookie
- c语言常量l12和意义,课件c语言l12_指针和数组
- java教师工作量代码_java教师工作量计算法
- 学习通--3.1-互评-OO设计-有理数类的设计
- Unidbg系列--Ollvm字符串解密
- P02014252 孙浩宸 信息论课程问答题作业
- 通信学子就业岗位类型简介——GXC
- typescript 如何使用js 库
- 70进货卖100利润是多少_我用85元钱进货,卖了100元,请问利润是多少,它的利润是百分之几,用什么方法计算方式...