Context and Attribute Grounded Dense Captioning
Context and Attribute Grounded Dense Captioning
原文地址
时间:2019 CVPR
Intro
本文要解决的是dense caption的问题,传统方法中,对于每个proposal 单独生成caption而不结合上下文,结果可能因为局部的模糊性而错误,或者就是融入全局的信息,但有时也会导致全局与局部信息的冲突,如图所示,局部上无法识别黄色的裤子(误认为气球),全局上错误的识别为风筝(因为背景是天空)
本文设计了一个Contxt and Attribute Grounded Network(CAG-Net),使用上下文信息(local,neighboring,global)来给出multi-scale的上下文信息辅助caption,包括两个部分
- Contextual Feature Extractor:在不同的ROI之间根据它们的空间位置和类别建立相似度图
- Attribute-Grounded Caption Generator:使用LSTM融合上下文信息来生成caption
本文贡献
- 设计了一个基于上下文和属性的dense caption模型
- 提出了一个由粗到细的语义属性监督方法来提高模型的识别能力
- 实验证明了CAG-Net在VG数据集上的有效性
Approach
网络先使用Faster RCNN来学习视觉特征和proposals,然后通过Contextual Feature Extractor(CFE)来生成global、neighboring和local的cue,然后使用Attribute Grounded Caption Generator(AGCG)来融合,为了生成丰富和细致的caption并巩固由粗到细的caption生成,在AGCG的输出上加一个辅助监督机制——Linguistic Attribute,模型的目标是最小化caption损失和二分类交叉熵损失(attribute losses)
Contextual Feature Extractor
记一幅图的ROI为R={Ri∣i=1,2,...,N}\mathcal{R}=\{R_i|i=1,2,...,N\}R={Ri∣i=1,2,...,N},整幅图为R∗R*R∗,RiR_iRi的neighboring region为Rin=R/Ri\mathcal{R}^n_i=\mathcal{R}/R_iRin=R/Ri,对于目标regionRiR_iRi,记local,neighboring和global特征分别为Fil,Fin,FigF_i^l,F^n_i,F^g_iFil,Fin,Fig,其中FigF^g_iFig是从整幅图中得到的特征,FilF^l_iFil是从target region得到的特征,Contextual Feature Extractor(CFE)就是为了找到neighboring特征Fin=f(Ri,Rin)F^n_i=f(R_i,R^n_i)Fin=f(Ri,Rin)
其中
也就是用局部特征的点积来加权得到neighboring feature,对于jjj,我们选择与RiR_iRi的IOU的top-k个区域来节省计算量
Attribute Grounded Caption Generator
本节包括两部分:使用contextual cue integrator来融合CFE生成的特征,使用Attribute Grounded Coarse-to-Fine Generator分别在coarse level和fined level上的语义属性损失,来作为额外的监督,以提高可识别性
Contextual Cue Integrator(CCI),如图(a)所示
Attribute Grounded Coarse-to-Fine Generator
为了提高模型的表达能力,我们引入了coarse-to-fine的caption generation procedure,其中包括coarse stage和refined stage,由辅助的分级语言属性损失监督,如图所示
attribute loss就是二分类损失(有或没有),每个词被独立地衡量,类似multi-label,不考虑词序
refined LSTM作为一个fine-grained decoder来decode由coarse LSTM生成的 coarse regional description
attribute label是由nltk在原句子上得到的
结果
在VG1.0上的结果
结论
本文提出了Context and Attribute Grounded Dense Captioning(CAG-Net),模型的两个部分(CFE、ACGC)即是模型的特点,CFE过程得到模型的local、neighboring和global的特征,ACGC对这些加以融合,并且通过引入coarse-to-fine的损失来辅助caption的生成
Context and Attribute Grounded Dense Captioning相关推荐
- Context node attribute expand trouble shooting guide
Created by Jerry Wang, last modified on Jan 23, 2015 如果context node attribute expand之后出现问题,例如某些attri ...
- 【CVPR2019】论文完整列表一
CVPR 2019 Paper list No.1-1000 ?CVPR2019 完整列表二 论文题目与链接 Finding Task-Relevant Features for Few-Shot L ...
- CVPR2019论文题目中文列表
英文题目 中文题目 Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 少镜头学习中用类别遍历法寻 ...
- (九:2020.08.27)CVPR 2019 追踪之论文纲要(译)
CVPR 2019 追踪之论文纲要(修正于2020.08.28) 讲在前面 论文目录 讲在前面 论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...
- 【今日CV 计算机视觉论文速览 第93期】Wed, 3 Apr 2019
今日CS.CV 计算机视觉论文速览 Wed, 3 Apr 2019 Totally 55 papers Daily Computer Vision Papers Exploring Randomly ...
- cvpr 2019 image caption
文章目录 第一类: Adversarial Semantic Alignment for Improved Image Captions (这篇文章在第三类也会出现,但说问题的角度不同) Descri ...
- 港大南科大提出端到端PDVC,用DETR的方法做Dense Video Captioning!简化训练流程
关注公众号,发现CV技术之美 ▊ 写在前面 密集视频字幕(Dense Video Captioning)的目的是从视频中生成多个与其时间位置相关的字幕.以前的方法遵循一个复杂的"先定位再描述 ...
- Image Captioning概述
目录 任务描述 应用领域 主要问题 主流框架 常用数据集 Metrics Metrics的部分内容参考自知乎 任务描述 输入:图片III 输出:由 nnn个单词组成的图片内容描述S={s1,...,s ...
- 2020年, image captioning论文汇总
目录 CVPR2020:ASG CVPR2020:POS-SCAN CVPR2020:SLL-SLE CVPR2020:ASG 题目 Say As You Wish: Fine-grained Con ...
- 第二章 创建webGL设备和绘制缓冲区呈现 Context Creation and Drawing Buffer Presentation
第二章 创建webGL设备和绘制缓冲区呈现 Context Creation and Drawing Buffer Presentation 在开始使用webGL API之前您先要从现有的HT ...
最新文章
- 利用pickle保存模型
- 我被认定为高层次人才了!
- 王道 —— 进程互斥的软件实现方法
- linux java services_在Linux上将Java应用程序作为服务运行
- 从源码角度详解Java的Callable接口
- 后背疼的厉害有可能是哪些原因导致的?该怎么办?
- easymock接口模拟_EasyMock好又严格的模拟
- infor wms 中英文对照_WMS系统中波次管理有多大作用
- 关于在数据库中存储层次数据的一点看法与理解
- 前端性能优化如何做到极致?
- 每周更新:Markdown1.1.7 、Nacos1.0.0 GA 、CKFinder3.5、Apache POI 4.1.0等新版本发布
- Gut Microbes:南医大刘星吟组-孤独症的基因变异与肠道微生物群、代谢物和细胞因子的改变有关...
- 你应该问面试官的10个相关问题
- 【excel入门学习】
- RunC漏洞导致容器逃逸(CVE-2021-30465)
- (Java实现) 细胞
- 一次悲惨的被挖矿经历
- android--新闻阅读器实现源码
- 【区块链开发指南】区块链基础之区块和交易
- python学习(4)
热门文章
- [批处理大放送] Visual Studio 之 VC++ 工程清理和备份
- 龙芯电脑usb和硬盘两种方式安装系统
- 黄一老师:关于个人征信这几点你都未必知道!
- 2016 Multi-University Training Contest 2 1012 La Vie en rose (暴力)
- 阿里云盘+OneManager+Heroku+CFWorkers实现阿里云盘网络挂载
- 【转】MS.Net开发人员必备的十种工具
- FastDFS是如何解决数据一致性问题的?
- H3C设备通过oid获取光衰
- 算法—青蛙跳台阶问题汇总
- cdh 6.x、cdh 5.16.x、cdh 5.15.x、cdh 5.14.x、cdh 5.12.x组件对应版本