目录

  • CVPR2020:ASG
  • CVPR2020:POS-SCAN
  • CVPR2020:SLL-SLE

CVPR2020:ASG

  • 题目
    Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
    下载链接
    吴琦老师组的新作, 一作是人大的博士生陈师哲.
  • 动机
    现有的方法与用户交互性差, 生成的句子多样性低, 不考虑用户感兴趣的内容.
  • 贡献
  1. 提出ASG(抽象场景图), 可以以细粒度的方式设定一个描述物体的"模式".
  2. 根据给定的ASG, 能够识别ASG中的节点并生成图像描述.
  3. 对于没有ASG标注的数据集, 可以自动生成ASG标注.
  • 方法
    整体框架如下:
  1. ASG
    ASG中的节点共分为三类, object, attribute 和 relationship. 可以根据用户的感兴趣程度自定义ASG.
  2. ASG2Caption
    2.1 Role-aware Graph Encoder. 对于给定的image和ASG, 首先经过Role-aware Graph Encoder (角色感知编码器) 进行编码, 这部分通过role-aware node embedding (角色感知节点嵌入) 和MR-GCN (多关系-图卷积神经网络) 实现. 角色感知节点嵌入用于区分每个节点的意图,文中给出了详细的计算过程, 使用MR-GCN是为了结合每个节点的的相邻节点的上下文信息, 来更好的理解节点的语义和角色.

    2.2 Graph-based Attention. 使用MR-GCN对图编码后, 我们需要同时考虑编码信息中的语义信息和图结构信息. 语义信息反映了图中的实际语义, 图结构信息反映了ASG的结构. 本文为了同时考虑这两种信息, 使用了两种不同的注意力, 分别为Graph Content Attention (图语义注意力) 和Grpah Flow Attention (图流向注意力). 并在最后进行了融合.

    2.3 Graph Updating. 用于对图节点进行更新, 动态记录图节点的访问状态.

  • 实验
    消融实验

    在不同baseline上添加ASG后的实验结果对比

    和state-of-the-art的对比

    不同ASG生成的结果

CVPR2020:POS-SCAN

  • 题目
    More Grounded Image Captioning by Distilling Image-Text Matching Model
    下载链接
  • 动机
    本文的出发点是grounded image captioning,意思就是,captioner在生成words时,应在images上注意到正确的objects。但是,想在保留captioning质量的同时,提升模型的grounding准确性,需要数据集具有word-region alignment的标注作为训练时的监督,这很expensive。本文针对上述问题,基于SCAN提出了POS-SCAN(Part-Of-Speech),使用知识蒸馏的方法达到more grounded image captioning。
  • 贡献
  1. 本文提出了POS-SCAN,在传统的captioners上添加POS-SCAN可以提高grounding的准确性。
  2. 本文使用了SCST(Self-Critical Sequence Training),使用图像-文本匹配的分数作为reward,进行强化学习,进一步提高了grounding的准确性。
  • 方法
    本文方法的整体如下图所示,主要分为两个模块:Captioner和Pre-trained Matcher。Captioner采用的是Up-Down,Pre-trained Matcher即为本文提出的POS-SCAN。对于Captioner没什么好说的,下面说一下POS-SCAN和SCAN的区别。

    在SCAN中,计算图片III和句子TTT的相似度公式如下式所示。

    其中,R(et,atv)R(e_t,a_t^v)R(et,atv)用于计算word特征ete_tet和添加了注意力的图片特征atva_t^vatv之间的相似度,具体公式如下:

    通过实验发现,SCAN模型在grounding上的表现不如Up-Down。作者认为,这是由于句子中包含过多的non-visual words,故采用下式计算图片III和句子TTT的相似度,其本质是,通过指示函数1yt∗=ynone1_{y_t^*=y^{none}}1yt=ynone来筛选出名词。

    在训练时,POS-SCAN是预训练好的,参数保持不变。训练共分为两阶段,第一阶段就是传统的监督训练;第二阶段是使用强化学习进一步提升captioner的能力,这里使用了SCST中的方法,使用CIDEr作为一部分reward,并使用S(I,T)S(I,T)S(I,T)作为另一部分reward。
  • 实验
    首先是在Flickr30k Entities val set上Attention Acc。

    下图是在Flickr30k Entities val set上进行的消融实验。

    在Flickr30k Entities test set上的实验结果。

    在MS-COCO Karpathy test set上的实验结果,∗*表示使用的是原文中实验结果。[3]就是SCST那篇论文。

    下面是一些结果展示,红色方框内是不添加POS-SCAN方法,绿色方框内是添加POS-SCAN方法。

    下面是一些failure cases。

CVPR2020:SLL-SLE

  • 题目
    Better Captioning with Sequence-Level Exploration
    下载链接
  • 动机
    动机就一句话:提高模型的recall指标。最开始,captioning方法中使用交叉熵做word级别的监督,尽可能提高每个单词的准确率。由于训练时使用GT word作为输入,测试时用predicted word作为输入,这导致训练和测试之间存在gap。然后,大家提出了sequence级别的监督,即使用生成的sentence进行监督。sequence级别的监督也存在问题:1. 理论上,忽视了recall问题。2. 实验上,在recall相关的metrics上指标不高。
  • 贡献
  1. 分析了现有的sequence-level的不足之处
  2. 提出了新的学习目标
  3. 在精准率和召回率上,指标均有提升
  • 方法
    本文方法:在损失函数中添加sequence level exploration term,最大化生成的captions的距离。
  • 实验
    在image captioning上的结果:

    在video captioning上的结果:

2020年, image captioning论文汇总相关推荐

  1. 2020年, video captioning论文汇总

    目录 CVPR2020:ORG-TRL CVPR2020:STG-KD TIP2020:OSTG TPAMI2020:SibNet(MM2018) WACV2020:DSD WACV2020:STaT ...

  2. 【KDD 2020】推荐系统领域论文汇总

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要9分钟 Follow小博主,每天更新前沿干货 [导读]本文为大家收集整理了KDD 2020 会议上推荐系统方面的一些论文汇总. ACM SIG ...

  3. CVPR2020最佳论文下载、解读历届(2000~2020) CVPR 最佳论文汇总

    本文汇总了从 2000 ~ 2020年历届CVPR 会议最佳论文 ,附上作者和论文链接(论文题目含超链),部分含论文解读和代码.文末有最佳论文合集的 下载链接~ 值得注意的是:香港中文大学汤晓鸥教授. ...

  4. 2020年计算机视觉综述论文汇总!涵盖14个方向:目标检测/图像分割/医学影像/人脸识别等方向

    导读:本文共汇总了从2020年4月至今的计算机视觉领域综述性论文,共54篇,涵盖图像分割. 图像识别.人脸识别/检测.医学影像.目标检测.3D方向(自动驾驶/深度估计).GAN.文本检测与识别.姿态估 ...

  5. 2019年, image captioning论文汇总

    目录 CVPR2019:UIC CVPR2019:SGAE CVPR2019:RND ICCV2019:CNM ICCV2019:Graph-Align CVPR2019:UIC 题目 Unsuper ...

  6. 2019年, video captioning论文汇总

    目录 CVPR2019:GRU CVPR2019:OA-BTG CVPR2019:MLE+HybirdDis CVPR2019:MARN CVPR2019:SDVC AAAI2019:FCVC-CF& ...

  7. 超100篇!CVPR 2020最全GAN论文梳理汇总!

    点击上方"机器学习与生成对抗网络",关注"星标" 获取有趣.好玩的前沿干货!  戳我,查看GAN的系列专辑~! 下述论文已分类打包好!共116篇,事实上仍有一些 ...

  8. AAAI2020录用论文汇总(三)

    本文汇总了截至2月23日arxiv上上传的所有AAAI2020录用论文,共计629篇,因篇幅过长,分为三部分,分享给大家.    AAAI2020论文汇总(part 3) [401] Justific ...

  9. ECCV2020 收录论文汇总(持续更新中)附打包下载

    2020极市计算机视觉开发者榜单已于2020年7月20日开赛,8月31日截止提交,基于火焰识别.电动车头盔识别.后厨老鼠识别.摔倒识别四个赛道,47000+数据集,30万奖励等你挑战!点击这里报名 极 ...

最新文章

  1. 如何解构单体前端应用——前端应用的微服务式拆分
  2. Python 学习笔记(半ZZ半自己写)
  3. Linux常用命令:FireWall
  4. 自动判断浏览器的中英文版本自动跳转网站中英文页面代码
  5. [渝粤教育] 武汉交通职业学院 现代物流管理概论 参考 资料
  6. 农业部部署农业大数据发展工作 评:对农业现代化很重要
  7. Ubuntu20.4安装YouCompleteMe
  8. 设计模式(八) : 结构型模式--装饰模式
  9. 数千万智能手机集体脱机?罪魁祸首是……
  10. [bzoj2819]Nim
  11. Scala For Java的一些参考
  12. Java软件开发工程师级别
  13. 机器人改变生活利弊英语作文_机器人的利弊作文
  14. Visual Studio工具箱显示自定义控件
  15. linux-网络安全防火墙
  16. andorid 访问不到smms图片
  17. JAVA笔试题笔记(二)
  18. Uniapp微信小程序视频全屏播放功能极简实现法
  19. 解释耳语协议和 Status.im
  20. 计算机房管理使用汇报,计算机房管理规定(附计算机房使用记录).doc

热门文章

  1. 从零开始带你一步一步使用 YOLOv3 测试自己的数据
  2. VTK修炼之道28:图像统计_灰度直方图计算
  3. GPS服务端解析程序编写日记
  4. 提高sql性能的方法
  5. STM32 的 BOOT 概述
  6. C语言中%c与%s的区别与划分
  7. C语言指针入门 《C语言非常道》
  8. 【⌛工欲善其事,必先利其器⏳】葵花宝典の费曼学习法
  9. 排序二叉树BST(binary search/sort tree)
  10. 使用计算机来解决实际问题首先要完成,《操作系统》试题库-填空题