What

仍然是 Image Captioning 的问题。不同于Google的 encoder-decoder 模型，MSR（Microsoft Research）采用传统的语言建模方式。

1、摘要
本文介绍了一种自动生成图像描述的新方法：直接地从图像captions数据集中学习的视觉检测器（visual detectors），语言模型（language models）和多模态相似性模型（multimodal similarity models）。我们使用多个示例学习（MIL，Multiple Instance Learning）来训练视觉检测器，这些检测器通常出现在字幕中，包括许多不同的词性，如名词，动词和形容词。

单词检测器（word detector）输出用作最大熵语言模型的条件输入。

语言模型（language models）从一组超过400,000个图像描述中学习，以捕获单词使用的统计数据。

我们通过使用句子级特征和深度多模态相似性模型对字幕候选者进行重新排序（re-ranking）来捕获全局语义。

我们的系统是官方微软COCO基准测试的最新技术，BLEU-4得分为29.1％。当人类评委将系统字幕与其他人在我们的保持测试集上编写的字幕进行比较时，系统字幕在34％的时间内具有相同或更好的质量。

2、MIL
在图像分类中，bags是一张图，图像分割出来的patchs就是一个示例（instance）。使用多示例学习（Multiple Instance Learning）的方法，不仅可以从图像中提取可能的单词，而且可以把单词对应到具体的图像区域。在这篇论文中，就是使用多示例学习来处理从图片出提取单词这一问题。

How

1、detect word
使用多示例学习来处理从图片出提取单词。

2、generate sentences
使用传统方法生成句子。

3、re-rank sentences
通过句子特征的线性加权重新排列高似然句子。

end

阅读小结：MSR:From Captions to Visual Concepts and Back相关推荐

《From Captions to Visual Concepts and Back》阅读笔记
在接触到image caption时,看的论文是<Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Cha ...
image caption笔记（八）:《From Captions to Visual Concepts and Back》
这篇文章是15年微软的工作,是和谷歌<show and tell>同时期的文章,它们都去参加了微软的Image Caption比赛(MS COCO caption challenge),总 ...
WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记
WeaQA:Weak Supervision via Captions for Visual Question Answering论文笔记一.Abstract 二.引言三.相关工作 3.1 VQA ...
论文阅读—Relation-Aware Graph Attention Network for Visual Question Answering
论文阅读-Relation-Aware Graph Attention Network for Visual Question Answering 一.标题用于视觉问答的关系感知图注意力网络二.引 ...
【论文阅读】Cross-X Learning for Fine-Grained Visual Categorization
[论文阅读]Cross-X Learning for Fine-Grained Visual Categorization 摘要具体实现 OSME模块跨类别跨语义正则化(C3SC^{3} SC3S ...
【书籍】Writing Science How to Write Papers That Get Cited and Proposals That Get Funded阅读小结
[书籍]Writing Science How to Write Papers That Get Cited and Proposals That Get Funded阅读小结书籍pdf版下载链接: ...
论文阅读(4)--Part-Stacked CNN for Fine-Grained Visual Categorization
这篇文章是来自悉尼科技大学Shaoli Huang等人的工作,与前两篇文章的出发点类似,本篇文章也是在Parts上寻找Fine-Grained的线索,但与前两篇文章相比,在框架中人工的参与更少.同其它 ...
visual studio 调试定义debug常量_有趣的阅读 12个提高生产力的Visual Studio调试技巧...
以前因为工作的关系,接触过不少程序员同行,发现很多同学对所谓的小技巧tips感兴趣.本文就是一篇很有趣的文章,总结介绍了12个关于"宇宙第一IDE"-- Visual Studio ...
论文阅读笔记：(2015, ijrr) Keyframe-based visual–inertial odometry using nonlinear optimization
算是基于滑窗的VIO的必读文章吧,很详细地说了边缘化~ paper: http://in.ruc.edu.cn/wp-content/uploads/2021/01/Keyframe-Based-Vi ...

阅读小结：MSR:From Captions to Visual Concepts and Back

阅读小结：MSR:From Captions to Visual Concepts and Back

What

How

阅读小结：MSR:From Captions to Visual Concepts and Back相关推荐

最新文章

热门文章