阅读小结:MSR:From Captions to Visual Concepts and Back

  • What
  • How

人与人的根本区别在于自律能力。

作者:H. Fang et al.
题目:From Captions to Visual Concepts and Back
出处:2015,CVPR

What

仍然是 Image Captioning 的问题。不同于Google的 encoder-decoder 模型,MSR(Microsoft Research)采用传统的语言建模方式。

1、摘要
本文介绍了一种自动生成图像描述的新方法:直接地从图像captions数据集中学习的视觉检测器(visual detectors),语言模型(language models)和多模态相似性模型(multimodal similarity models)。我们使用多个示例学习(MIL,Multiple Instance Learning)来训练视觉检测器,这些检测器通常出现在字幕中,包括许多不同的词性,如名词,动词和形容词。

单词检测器(word detector)输出用作最大熵语言模型的条件输入。

语言模型(language models)从一组超过400,000个图像描述中学习,以捕获单词使用的统计数据。

我们通过使用句子级特征和深度多模态相似性模型对字幕候选者进行重新排序(re-ranking)来捕获全局语义。

我们的系统是官方微软COCO基准测试的最新技术,BLEU-4得分为29.1%。 当人类评委将系统字幕与其他人在我们的保持测试集上编写的字幕进行比较时,系统字幕在34%的时间内具有相同或更好的质量。

2、MIL
在图像分类中,bags是一张图,图像分割出来的patchs就是一个示例(instance)。使用多示例学习(Multiple Instance Learning)的方法,不仅可以从图像中提取可能的单词,而且可以把单词对应到具体的图像区域。在这篇论文中,就是使用多示例学习来处理从图片出提取单词这一问题。

How

1、detect word
使用多示例学习来处理从图片出提取单词。

2、generate sentences
使用传统方法生成句子。

3、re-rank sentences
通过句子特征的线性加权重新排列高似然句子。


end

阅读小结:MSR:From Captions to Visual Concepts and Back相关推荐

  1. 《From Captions to Visual Concepts and Back》阅读笔记

    在接触到image caption时,看的论文是<Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Cha ...

  2. image caption笔记(八):《From Captions to Visual Concepts and Back》

    这篇文章是15年微软的工作,是和谷歌<show and tell>同时期的文章,它们都去参加了微软的Image Caption比赛(MS COCO caption challenge),总 ...

  3. WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记

    WeaQA:Weak Supervision via Captions for Visual Question Answering论文笔记 一.Abstract 二.引言 三.相关工作 3.1 VQA ...

  4. 论文阅读—Relation-Aware Graph Attention Network for Visual Question Answering

    论文阅读-Relation-Aware Graph Attention Network for Visual Question Answering 一.标题 用于视觉问答的关系感知图注意力网络 二.引 ...

  5. 【论文阅读】Cross-X Learning for Fine-Grained Visual Categorization

    [论文阅读]Cross-X Learning for Fine-Grained Visual Categorization 摘要 具体实现 OSME模块 跨类别跨语义正则化(C3SC^{3} SC3S ...

  6. 【书籍】Writing Science How to Write Papers That Get Cited and Proposals That Get Funded阅读小结

    [书籍]Writing Science How to Write Papers That Get Cited and Proposals That Get Funded阅读小结 书籍pdf版下载链接: ...

  7. 论文阅读(4)--Part-Stacked CNN for Fine-Grained Visual Categorization

    这篇文章是来自悉尼科技大学Shaoli Huang等人的工作,与前两篇文章的出发点类似,本篇文章也是在Parts上寻找Fine-Grained的线索,但与前两篇文章相比,在框架中人工的参与更少.同其它 ...

  8. visual studio 调试 定义debug常量_有趣的阅读 12个提高生产力的Visual Studio调试技巧...

    以前因为工作的关系,接触过不少程序员同行,发现很多同学对所谓的小技巧tips感兴趣.本文就是一篇很有趣的文章,总结介绍了12个关于"宇宙第一IDE"-- Visual Studio ...

  9. 论文阅读笔记:(2015, ijrr) Keyframe-based visual–inertial odometry using nonlinear optimization

    算是基于滑窗的VIO的必读文章吧,很详细地说了边缘化~ paper: http://in.ruc.edu.cn/wp-content/uploads/2021/01/Keyframe-Based-Vi ...

最新文章

  1. iOS组件化方案的几种实现
  2. Scrum项目1.0
  3. 基于RBAC的权限设计模型
  4. SaaS 不懂留存!别玩
  5. phpcms底部版权信息修改教程——修改“开发团队”信息
  6. KinectFusion: Real-time 3D Reconstruction and Interaction Using a Moving Depth Camera
  7. 论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳
  8. 【气动学】基于matlab气动力导弹姿态控制【含Matlab源码 969期】
  9. python isin_python numpy isin用法及代码示例
  10. windows常用指令大全
  11. HCNE的110个知识点
  12. 诸行无常、诸法无我、诸漏皆苦、涅槃寂静
  13. 怎么把计算机隐藏文件显示出来,怎么把隐藏的文件夹显示出来
  14. 用Python告诉你深圳房租有多高
  15. 今日学习在线编程题:小码哥的烦恼
  16. 纯css绘制简易对话气泡
  17. 数据库---四中连接查询(交叉、左连接、右连接、完整查询)
  18. 制作自己的刷机shx文件
  19. Linux常用命令——sh命令
  20. 基于 SSM 的网上购物系统(源码 + 开发文档 已开源)

热门文章

  1. 不上架App Store怎么安装到非越狱苹果手机使用
  2. Python Matplotlib 3D绘图详解(汇总)
  3. 微信公众平台开发尝试
  4. VS2019 编译 paho-mqtt-cpp 遇到的问题
  5. 胸部CT影像分析(笔记)
  6. 电脑查服务器型号,怎么在服务器的操作系统中查看服务器的型号
  7. 百度地图查找我的位置定位服务器,百度地图手机版如何进行我的位置定位?
  8. Spring bean的生命周期init和destory
  9. python里randint是什么意思_Python中random.randint方法(精选)
  10. 机械硬盘升级固态硬盘