2020年, image captioning论文汇总
目录
- CVPR2020:ASG
- CVPR2020:POS-SCAN
- CVPR2020:SLL-SLE
CVPR2020:ASG
- 题目
Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
下载链接
吴琦老师组的新作, 一作是人大的博士生陈师哲. - 动机
现有的方法与用户交互性差, 生成的句子多样性低, 不考虑用户感兴趣的内容. - 贡献
- 提出ASG(抽象场景图), 可以以细粒度的方式设定一个描述物体的"模式".
- 根据给定的ASG, 能够识别ASG中的节点并生成图像描述.
- 对于没有ASG标注的数据集, 可以自动生成ASG标注.
- 方法
整体框架如下:
- ASG
ASG中的节点共分为三类, object, attribute 和 relationship. 可以根据用户的感兴趣程度自定义ASG. - ASG2Caption
2.1 Role-aware Graph Encoder. 对于给定的image和ASG, 首先经过Role-aware Graph Encoder (角色感知编码器) 进行编码, 这部分通过role-aware node embedding (角色感知节点嵌入) 和MR-GCN (多关系-图卷积神经网络) 实现. 角色感知节点嵌入用于区分每个节点的意图,文中给出了详细的计算过程, 使用MR-GCN是为了结合每个节点的的相邻节点的上下文信息, 来更好的理解节点的语义和角色.2.2 Graph-based Attention. 使用MR-GCN对图编码后, 我们需要同时考虑编码信息中的语义信息和图结构信息. 语义信息反映了图中的实际语义, 图结构信息反映了ASG的结构. 本文为了同时考虑这两种信息, 使用了两种不同的注意力, 分别为Graph Content Attention (图语义注意力) 和Grpah Flow Attention (图流向注意力). 并在最后进行了融合.
2.3 Graph Updating. 用于对图节点进行更新, 动态记录图节点的访问状态.
- 实验
消融实验
在不同baseline上添加ASG后的实验结果对比
和state-of-the-art的对比
不同ASG生成的结果
CVPR2020:POS-SCAN
- 题目
More Grounded Image Captioning by Distilling Image-Text Matching Model
下载链接 - 动机
本文的出发点是grounded image captioning,意思就是,captioner在生成words时,应在images上注意到正确的objects。但是,想在保留captioning质量的同时,提升模型的grounding准确性,需要数据集具有word-region alignment的标注作为训练时的监督,这很expensive。本文针对上述问题,基于SCAN提出了POS-SCAN(Part-Of-Speech),使用知识蒸馏的方法达到more grounded image captioning。
- 贡献
- 本文提出了POS-SCAN,在传统的captioners上添加POS-SCAN可以提高grounding的准确性。
- 本文使用了SCST(Self-Critical Sequence Training),使用图像-文本匹配的分数作为reward,进行强化学习,进一步提高了grounding的准确性。
- 方法
本文方法的整体如下图所示,主要分为两个模块:Captioner和Pre-trained Matcher。Captioner采用的是Up-Down,Pre-trained Matcher即为本文提出的POS-SCAN。对于Captioner没什么好说的,下面说一下POS-SCAN和SCAN的区别。
在SCAN中,计算图片III和句子TTT的相似度公式如下式所示。
其中,R(et,atv)R(e_t,a_t^v)R(et,atv)用于计算word特征ete_tet和添加了注意力的图片特征atva_t^vatv之间的相似度,具体公式如下:
通过实验发现,SCAN模型在grounding上的表现不如Up-Down。作者认为,这是由于句子中包含过多的non-visual words,故采用下式计算图片III和句子TTT的相似度,其本质是,通过指示函数1yt∗=ynone1_{y_t^*=y^{none}}1yt∗=ynone来筛选出名词。
在训练时,POS-SCAN是预训练好的,参数保持不变。训练共分为两阶段,第一阶段就是传统的监督训练;第二阶段是使用强化学习进一步提升captioner的能力,这里使用了SCST中的方法,使用CIDEr作为一部分reward,并使用S(I,T)S(I,T)S(I,T)作为另一部分reward。 - 实验
首先是在Flickr30k Entities val set上Attention Acc。
下图是在Flickr30k Entities val set上进行的消融实验。
在Flickr30k Entities test set上的实验结果。
在MS-COCO Karpathy test set上的实验结果,∗*∗表示使用的是原文中实验结果。[3]就是SCST那篇论文。
下面是一些结果展示,红色方框内是不添加POS-SCAN方法,绿色方框内是添加POS-SCAN方法。
下面是一些failure cases。
CVPR2020:SLL-SLE
- 题目
Better Captioning with Sequence-Level Exploration
下载链接 - 动机
动机就一句话:提高模型的recall指标。最开始,captioning方法中使用交叉熵做word级别的监督,尽可能提高每个单词的准确率。由于训练时使用GT word作为输入,测试时用predicted word作为输入,这导致训练和测试之间存在gap。然后,大家提出了sequence级别的监督,即使用生成的sentence进行监督。sequence级别的监督也存在问题:1. 理论上,忽视了recall问题。2. 实验上,在recall相关的metrics上指标不高。
- 贡献
- 分析了现有的sequence-level的不足之处
- 提出了新的学习目标
- 在精准率和召回率上,指标均有提升
- 方法
本文方法:在损失函数中添加sequence level exploration term,最大化生成的captions的距离。
- 实验
在image captioning上的结果:
在video captioning上的结果:
2020年, image captioning论文汇总相关推荐
- 2020年, video captioning论文汇总
目录 CVPR2020:ORG-TRL CVPR2020:STG-KD TIP2020:OSTG TPAMI2020:SibNet(MM2018) WACV2020:DSD WACV2020:STaT ...
- 【KDD 2020】推荐系统领域论文汇总
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要9分钟 Follow小博主,每天更新前沿干货 [导读]本文为大家收集整理了KDD 2020 会议上推荐系统方面的一些论文汇总. ACM SIG ...
- CVPR2020最佳论文下载、解读历届(2000~2020) CVPR 最佳论文汇总
本文汇总了从 2000 ~ 2020年历届CVPR 会议最佳论文 ,附上作者和论文链接(论文题目含超链),部分含论文解读和代码.文末有最佳论文合集的 下载链接~ 值得注意的是:香港中文大学汤晓鸥教授. ...
- 2020年计算机视觉综述论文汇总!涵盖14个方向:目标检测/图像分割/医学影像/人脸识别等方向
导读:本文共汇总了从2020年4月至今的计算机视觉领域综述性论文,共54篇,涵盖图像分割. 图像识别.人脸识别/检测.医学影像.目标检测.3D方向(自动驾驶/深度估计).GAN.文本检测与识别.姿态估 ...
- 2019年, image captioning论文汇总
目录 CVPR2019:UIC CVPR2019:SGAE CVPR2019:RND ICCV2019:CNM ICCV2019:Graph-Align CVPR2019:UIC 题目 Unsuper ...
- 2019年, video captioning论文汇总
目录 CVPR2019:GRU CVPR2019:OA-BTG CVPR2019:MLE+HybirdDis CVPR2019:MARN CVPR2019:SDVC AAAI2019:FCVC-CF& ...
- 超100篇!CVPR 2020最全GAN论文梳理汇总!
点击上方"机器学习与生成对抗网络",关注"星标" 获取有趣.好玩的前沿干货! 戳我,查看GAN的系列专辑~! 下述论文已分类打包好!共116篇,事实上仍有一些 ...
- AAAI2020录用论文汇总(三)
本文汇总了截至2月23日arxiv上上传的所有AAAI2020录用论文,共计629篇,因篇幅过长,分为三部分,分享给大家. AAAI2020论文汇总(part 3) [401] Justific ...
- ECCV2020 收录论文汇总(持续更新中)附打包下载
2020极市计算机视觉开发者榜单已于2020年7月20日开赛,8月31日截止提交,基于火焰识别.电动车头盔识别.后厨老鼠识别.摔倒识别四个赛道,47000+数据集,30万奖励等你挑战!点击这里报名 极 ...
最新文章
- 如何解构单体前端应用——前端应用的微服务式拆分
- Python 学习笔记(半ZZ半自己写)
- Linux常用命令:FireWall
- 自动判断浏览器的中英文版本自动跳转网站中英文页面代码
- [渝粤教育] 武汉交通职业学院 现代物流管理概论 参考 资料
- 农业部部署农业大数据发展工作 评:对农业现代化很重要
- Ubuntu20.4安装YouCompleteMe
- 设计模式(八) : 结构型模式--装饰模式
- 数千万智能手机集体脱机?罪魁祸首是……
- [bzoj2819]Nim
- Scala For Java的一些参考
- Java软件开发工程师级别
- 机器人改变生活利弊英语作文_机器人的利弊作文
- Visual Studio工具箱显示自定义控件
- linux-网络安全防火墙
- andorid 访问不到smms图片
- JAVA笔试题笔记(二)
- Uniapp微信小程序视频全屏播放功能极简实现法
- 解释耳语协议和 Status.im
- 计算机房管理使用汇报,计算机房管理规定(附计算机房使用记录).doc