Adversarial Semantic Alignment for Improved Image Captions

原文地址

时间:2019 CVPR,但在Arxiv上公开的时间为2018年6月

Intro

CIDEr、BLEU、SPICE等度量缺少了对图片和caption的语义对齐的度量,为了解决多样性和自然性的问题,image captioning模型最近在基于GANs的模型上进行探索,核心思想是训练一个discriminator来检测图和caption之间的不对齐性,从而生成一个信号,而captioner可以利用这个信号来更好地对齐。由于文本生成的离散性,GAN培训仍然具有挑战性,并且通常使用强化学习技术或使用Gumbel softmax松弛来解决。

尽管当前image caption已经前进一大步,但是还有很多问题

  • 建立图片和caption之间语义关系的桥梁并生成diverse、creative和human-like的caption仍然是挑战
  • dataset bias,对于co-occurring目标的过拟合
  • 由于文本的离散性导致基于GAN的模型难以训练的问题
  • CIDEr,BLEU4等度量仍然是不够充分合理,有时甚至会产生错误引导

本文致力于解决以上的问题,本文的三个主要目标为:

  • 结构和算法提升
  • 自动打分度量
  • 诊断数据集

Adversarial Caption Generation

本节提出captioner和discriminator模型,我们使用SCST来对discrete GAN进行优化,并将之与Gumbel trick进行比较

Compositional Captioner and Discriminator

这里介绍一个image captioning model with attention,称为context aware captioning,然后一个discriminator为图片和caption的对齐性进行打分,打分的标准基于co-attention模型

Context Aware Captioner GθG_\thetaGθ,如图所示

我们使用一个LSTM with visual attention 和一个visual sentinel,我们喂一个混合图片和visual sentinel的特征c^t−1\hat{c}_{t-1}c^t1给LSTM来使得LSTM得到上一步的attention context信息,我们称之为Context Aware Attention,通过融合过去的信息,模型的性能从99.7CIDEr提升到了103.3

Co-attention Pooling Discriminator Dη\etaη,discriminator的任务是为图片和caption的相似性进行打分,以前的做法是使用late joint embedding方法,如图所示

我们使用的方法是在更早的阶段使用jointly embed image and caption,通过使用一个co-attention模型,并在attentive pooled representation上计算相似度,称为Co-attention discriminator,如图所示

Adversarial Training

Training DηD\etaDη,discriminator不仅仅训练来区分真实的和假的,而且用来检测unpaired的图片和sentence,这使得模型不仅仅关注句子生成,且关注语义关系

Training GθG_\thetaGθ,对于generator为了解决discrete和non-differentialble的问题,这里使用SCST的训练方法,并与Gumbel relaxation作对比

Evaluation

semantic score, 基于Canonical Correlation Analysis(CCA) retrieval model,它在COCO和SBU上进行训练,保证得到大量数据的情况下,没有dataset bias,semantic score是CCA空间中的一个cosine相似度,基于15k维的resnet101 embedding,sentence embedding使用的是Hierachical Kernel Sentence Embedding,基于word2vec

OOC
out-of-context scenes

Experiment

结论

本文的主要研究结果

  • SCST对于sequence GAN的训练好过Gumbel relaxation,不论是在稳定性还是在表现上
  • 建模的过程对于省工程out-of-context的结果很重要
  • 提出了semantic score

问题

所谓的discrete问题究竟是什么问题

本文的OOC的提出表明了模型在一定程度上还是仅仅背诵训练集,对于一些特例情况,几乎无法识别,仅仅是按照通常的表述将其表达出来

Adversarial Semantic Alignment for Improved Image Captions相关推荐

  1. Adversarial Semantic Hallucination for Domain Generalized Semantic Segmentation

    摘要 当测试数据和训练数据来自不同的领域时,卷积神经网络可能表现不佳.虽然可以通过使用目标域数据对齐源和目标域特征表示来缓解这个问题,但由于隐私问题,目标域数据可能不可用.因此,需要在训练期间不访问目 ...

  2. 【CVPR2019】完整论文列表二

    CVPR 2019 Paper list No.1001-1294 ?CVPR2019 完整列表一 论文题目与链接 Semantic Component Decomposition for Face ...

  3. CVPR2019论文题目中文列表

    英文题目 中文题目   Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 少镜头学习中用类别遍历法寻 ...

  4. (九:2020.08.27)CVPR 2019 追踪之论文纲要(译)

    CVPR 2019 追踪之论文纲要(修正于2020.08.28) 讲在前面 论文目录 讲在前面 论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...

  5. cvpr 2019 image caption

    文章目录 第一类: Adversarial Semantic Alignment for Improved Image Captions (这篇文章在第三类也会出现,但说问题的角度不同) Descri ...

  6. 对抗样本方向(Adversarial Examples)2018-2020年最新论文调研

    调研范围 2018NIPS.2019NIPS.2018ECCV.2019ICCV.2019CVPR.2020CVPR.2019ICML.2019ICLR.2020ICLR 2018NIPS Conta ...

  7. 语义角色标注 Semantic Role Labeling(SRL) 初探(整理英文tutorial)

    语义角色标注 本文链接 最近调研了一下语义角色标注,记录如下 将语言信息结构化,方便计算机理解句子中蕴含的语义信息. 语义角色标注 (Semantic Role Labeling, SRL) 是一种浅 ...

  8. 论文笔记7:Image Blind Denoising With Generative Adversarial Network Based Noise Modeling

    Image Blind Denoising With Generative Adversarial Network Based Noise Modeling 引言 相关工作 基于GAN-CNN的盲去噪 ...

  9. 学习笔记:【VALSE短教程】《Adversarial Attack and Defense》

    学习笔记:[VALSE短教程]<Adversarial Attack and Defense> 视频地址 1.White-box attacks Direction I 论文地址: EXP ...

最新文章

  1. Python训练营2021:构建8个真实世界的Python项目
  2. Installation error: INSTALL_FAILED_VERSION_DOWNGRADE Android
  3. Theme.NoTitleBar问题
  4. MyBatis的架构和其运行流程
  5. Unity 实现物体破碎效果(转)
  6. AliOS Things手势识别应用演示
  7. flowable 集成mongodb
  8. weblogic启动脚本
  9. 一个有趣的IP不同的问题?
  10. Nginx启动/重启脚本详解
  11. PAIP.java程序调试的注意点及流程总结
  12. 用户运营day2用户分层:以用户为中心的精细化运营
  13. Index Notation
  14. .NET反编译工具Reflector及插件
  15. 专题分纲目录 思维导图
  16. Terminal Emulator for Android(安卓终端模拟器)的使用
  17. android检测cup温度工具,android – 如何获得CPU温度?
  18. Who is the lion(谁是狮子)!
  19. #边学边记 第一章 信息系统与信息化(2)
  20. ZCMU-1919 kirito's 星爆气流斩(多重背包+二进制优化)

热门文章

  1. 洛谷【p1007】独木桥
  2. android手机刷ios6,2017安卓手机刷机方法
  3. mysql五日均线代码_5日均线--攻击线
  4. sh报错 [: unexpected operat
  5. 基于Core Text实现的TXT电子书阅读器
  6. 智慧井盖物联网解决方案 加强窨井盖安全管理
  7. python复制单元格格式太多_你觉得复制粘贴excel浪费时间,那你该学这些技巧
  8. 【JavaScript练习】实现数组按照数组项中userName中的姓名拼音排序
  9. 论文参考文献格式说明
  10. 鸿蒙 微内核 什么意思,鸿蒙系统所说的「微内核」,具体是什么?