Context and Attribute Grounded Dense Captioning

原文地址

时间:2019 CVPR

Intro

本文要解决的是dense caption的问题,传统方法中,对于每个proposal 单独生成caption而不结合上下文,结果可能因为局部的模糊性而错误,或者就是融入全局的信息,但有时也会导致全局与局部信息的冲突,如图所示,局部上无法识别黄色的裤子(误认为气球),全局上错误的识别为风筝(因为背景是天空)

本文设计了一个Contxt and Attribute Grounded Network(CAG-Net),使用上下文信息(local,neighboring,global)来给出multi-scale的上下文信息辅助caption,包括两个部分

  • Contextual Feature Extractor:在不同的ROI之间根据它们的空间位置和类别建立相似度图
  • Attribute-Grounded Caption Generator:使用LSTM融合上下文信息来生成caption

本文贡献

  • 设计了一个基于上下文和属性的dense caption模型
  • 提出了一个由粗到细的语义属性监督方法来提高模型的识别能力
  • 实验证明了CAG-Net在VG数据集上的有效性

Approach

网络先使用Faster RCNN来学习视觉特征和proposals,然后通过Contextual Feature Extractor(CFE)来生成global、neighboring和local的cue,然后使用Attribute Grounded Caption Generator(AGCG)来融合,为了生成丰富和细致的caption并巩固由粗到细的caption生成,在AGCG的输出上加一个辅助监督机制——Linguistic Attribute,模型的目标是最小化caption损失和二分类交叉熵损失(attribute losses)

Contextual Feature Extractor

记一幅图的ROI为R={Ri∣i=1,2,...,N}\mathcal{R}=\{R_i|i=1,2,...,N\}R={Ri​∣i=1,2,...,N},整幅图为R∗R*R∗,RiR_iRi​的neighboring region为Rin=R/Ri\mathcal{R}^n_i=\mathcal{R}/R_iRin​=R/Ri​,对于目标regionRiR_iRi​,记local,neighboring和global特征分别为Fil,Fin,FigF_i^l,F^n_i,F^g_iFil​,Fin​,Fig​,其中FigF^g_iFig​是从整幅图中得到的特征,FilF^l_iFil​是从target region得到的特征,Contextual Feature Extractor(CFE)就是为了找到neighboring特征Fin=f(Ri,Rin)F^n_i=f(R_i,R^n_i)Fin​=f(Ri​,Rin​)


其中

也就是用局部特征的点积来加权得到neighboring feature,对于jjj,我们选择与RiR_iRi​的IOU的top-k个区域来节省计算量

Attribute Grounded Caption Generator

本节包括两部分:使用contextual cue integrator来融合CFE生成的特征,使用Attribute Grounded Coarse-to-Fine Generator分别在coarse level和fined level上的语义属性损失,来作为额外的监督,以提高可识别性
Contextual Cue Integrator(CCI),如图(a)所示
Attribute Grounded Coarse-to-Fine Generator
为了提高模型的表达能力,我们引入了coarse-to-fine的caption generation procedure,其中包括coarse stage和refined stage,由辅助的分级语言属性损失监督,如图所示

attribute loss就是二分类损失(有或没有),每个词被独立地衡量,类似multi-label,不考虑词序

refined LSTM作为一个fine-grained decoder来decode由coarse LSTM生成的 coarse regional description

attribute label是由nltk在原句子上得到的

结果

在VG1.0上的结果

结论

本文提出了Context and Attribute Grounded Dense Captioning(CAG-Net),模型的两个部分(CFE、ACGC)即是模型的特点,CFE过程得到模型的local、neighboring和global的特征,ACGC对这些加以融合,并且通过引入coarse-to-fine的损失来辅助caption的生成

Context and Attribute Grounded Dense Captioning相关推荐

  1. Context node attribute expand trouble shooting guide

    Created by Jerry Wang, last modified on Jan 23, 2015 如果context node attribute expand之后出现问题,例如某些attri ...

  2. 【CVPR2019】论文完整列表一

    CVPR 2019 Paper list No.1-1000 ?CVPR2019 完整列表二 论文题目与链接 Finding Task-Relevant Features for Few-Shot L ...

  3. CVPR2019论文题目中文列表

    英文题目 中文题目   Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 少镜头学习中用类别遍历法寻 ...

  4. (九:2020.08.27)CVPR 2019 追踪之论文纲要(译)

    CVPR 2019 追踪之论文纲要(修正于2020.08.28) 讲在前面 论文目录 讲在前面 论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...

  5. 【今日CV 计算机视觉论文速览 第93期】Wed, 3 Apr 2019

    今日CS.CV 计算机视觉论文速览 Wed, 3 Apr 2019 Totally 55 papers Daily Computer Vision Papers Exploring Randomly ...

  6. cvpr 2019 image caption

    文章目录 第一类: Adversarial Semantic Alignment for Improved Image Captions (这篇文章在第三类也会出现,但说问题的角度不同) Descri ...

  7. 港大南科大提出端到端PDVC,用DETR的方法做Dense Video Captioning!简化训练流程

    关注公众号,发现CV技术之美 ▊ 写在前面 密集视频字幕(Dense Video Captioning)的目的是从视频中生成多个与其时间位置相关的字幕.以前的方法遵循一个复杂的"先定位再描述 ...

  8. Image Captioning概述

    目录 任务描述 应用领域 主要问题 主流框架 常用数据集 Metrics Metrics的部分内容参考自知乎 任务描述 输入:图片III 输出:由 nnn个单词组成的图片内容描述S={s1,...,s ...

  9. 2020年, image captioning论文汇总

    目录 CVPR2020:ASG CVPR2020:POS-SCAN CVPR2020:SLL-SLE CVPR2020:ASG 题目 Say As You Wish: Fine-grained Con ...

  10. 第二章 创建webGL设备和绘制缓冲区呈现 Context Creation and Drawing Buffer Presentation

    第二章 创建webGL设备和绘制缓冲区呈现 Context Creation and Drawing Buffer Presentation     在开始使用webGL API之前您先要从现有的HT ...

最新文章

  1. 利用pickle保存模型
  2. 我被认定为高层次人才了!
  3. 王道 —— 进程互斥的软件实现方法
  4. linux java services_在Linux上将Java应用程序作为服务运行
  5. 从源码角度详解Java的Callable接口
  6. 后背疼的厉害有可能是哪些原因导致的?该怎么办?
  7. easymock接口模拟_EasyMock好又严格的模拟
  8. infor wms 中英文对照_WMS系统中波次管理有多大作用
  9. 关于在数据库中存储层次数据的一点看法与理解
  10. 前端性能优化如何做到极致?
  11. 每周更新:Markdown1.1.7 、Nacos1.0.0 GA 、CKFinder3.5、Apache POI 4.1.0等新版本发布
  12. Gut Microbes:南医大刘星吟组-孤独症的基因变异与肠道微生物群、代谢物和细胞因子的改变有关...
  13. 你应该问面试官的10个相关问题
  14. 【excel入门学习】
  15. RunC漏洞导致容器逃逸(CVE-2021-30465)
  16. (Java实现) 细胞
  17. 一次悲惨的被挖矿经历
  18. android--新闻阅读器实现源码
  19. 【区块链开发指南】区块链基础之区块和交易
  20. python学习(4)

热门文章

  1. [批处理大放送] Visual Studio 之 VC++ 工程清理和备份
  2. 龙芯电脑usb和硬盘两种方式安装系统
  3. 黄一老师:关于个人征信这几点你都未必知道!
  4. 2016 Multi-University Training Contest 2 1012 La Vie en rose (暴力)
  5. 阿里云盘+OneManager+Heroku+CFWorkers实现阿里云盘网络挂载
  6. 【转】MS.Net开发人员必备的十种工具
  7. FastDFS是如何解决数据一致性问题的?
  8. H3C设备通过oid获取光衰
  9. 算法—青蛙跳台阶问题汇总
  10. cdh 6.x、cdh 5.16.x、cdh 5.15.x、cdh 5.14.x、cdh 5.12.x组件对应版本