目录

  • CVPR2019:UIC
  • CVPR2019:SGAE
  • CVPR2019:RND
  • ICCV2019:CNM
  • ICCV2019:Graph-Align

CVPR2019:UIC

  • 题目
    Unsupervised Image Captioning
    下载链接
    出自腾讯AI实验室
    模型名称UIC我自己起的,文中没给出模型名称。
  • 动机
    已有的模型都需要标注好的image-sentence数据进行训练,需要高昂的人力进行数据标注。
  • 贡献
  1. 提出第一个无监督的image captioning方法,不依赖image-sentence pairs。
  2. 提出训练image captioning模型的三个目标。
  3. 提出一种使用无监督数据对模型初始化的全新方法,利用visual concept detector对于每张image生成伪造的sentence,并使用伪造的image-sentence pairs对模型进行初始化。
  4. 在网上爬了超过200万的sentences,用于训练,最终得到的模型结果很好。
  • 方法
    方法的整体框架如图所示:

    具体流程为:首先,输入image,经过CNN提取特征。然后,将得到的特征输入到Generator中,得到sentence。最后,将生成的sentence输入Discriminator,判断sentence是否合理。

    在训练过程中,提出三个训练目标:1. 通过Generator生成的sentence要human-like,这一点通过Discriminator实现,Discriminator会判断生成的sentence是出自Generator还是网上爬取的语料库。2. 由于使用的sentences是从网上爬取的,和image没有什么关联,通过visual concept将二者关联起来。先使用visual concept detector得到image的concept,然后判断Generator生成的sentence中是否包含image的concept,如果包含,就给予concept reward。3. image captioning模型应该能理解更多的image中的语义concept,且目前为止,生成的sentence的质量只由visual concept detector决定,故作者使用了Image Reconstruction和Sentence Reconstruction来让生成的sentence和image更贴近。具体的方法如下图所示,其实就是无监督中常用的重构,双向反复重构。

  • 实验
    本文模型生成的sentence如下图所示:

    下面是实验结果:


    训练过程中,生成正确concept个数的趋势。可以看出,初始化与否,在经过一定的iterations后,模型的能力不会差太多。

CVPR2019:SGAE

  • 题目
    Auto-Encoding Scene Graphs for Image Captioning
    下载链接
    南洋理工大学张含望老师组的工作.
  • 动机
    在已有的image captioning工作中,模型生成的sentences不够human-like。本文提出了共享字典,将共享字典在文本语料库上预训练,并与captioning模型结合,引入共享字典的先验知识。这相当于在模型中结合了inductive bias,使其能生成更加human-like的sentences。
  • 贡献
  1. 提出使用SGAE(场景图自编码器)学习language inductive bias的特征表达。
  2. 使用MGCN网络修正场景图到visual representation。
  3. 使用带有字典的、基于SGAE的、编码-解码的image captioner来引导language decoding。
  • 方法
    传统方法(top)和本文方法(bottom)的对比如下图所示:

    在上图中,我们可以很清楚的看出,对于传统方法而言,生成sentences的过程遵循公式(1)。而对于本文提出的方法,生成sentences的过程遵循公式(4)。其中,字典D是在文本语料库上预训练得到的,来帮助MGCN对image feature进行re-encode,降低vision和language之间的gap。


    对于SGAE部分,实际操作形如公式(5)。

    关于G←SG \leftarrow SGS,文中给出了一个图片的例子,如下图所示。将每个object、attribute和relation都视为node。如果object具有某种attribute,则将两个节点连接一条有向边;如果两个object之间具有某种relation,则每个object和该relation连接一条有向边。关于X←GX \leftarrow GXG,文中使用的是embedding,也是如下图所示。这一步的目的是,让原始的三类node转化到context-aware的embedding空间XXX

    关于re-encoder部分,即公式中的R()R()R(),直观的表现如下图所示。途中红线代表未经过re-encode生成的sentence,绿线代表经过re-encode生成的sentence。可以看出,经过re-encode后,确实更human-like。

  • 实验
    MS-COCO Karpathy split

    使用不同语料库

    使用不同场景图的实验结果,和captions展示


    online MS-COCO test server

    结果展示

CVPR2019:RND

  • 题目
    Reflective Decoding Network for Image Captioning
    下载链接
    香港科技大学+腾讯
  • 动机
    已有的image captioning方法大多关注于提升visual feature的质量,而忽略了language的固有属性,本文以此为切入点,提出RDN方法。
  • 贡献
  1. 和传统的caption decoder相比,本文提出的RDN可以有效地提升长序列的建模能力。
  2. 通过考虑long-term textual attention,可以显示地探索单词之间的连贯性,并在文本域可视化单词决策过程,从新颖的角度解释了框架的原理和结果。
  3. 本文设计了一个新颖的positional module,使得本文的RDN方法可以分析caption中的每个word的相对位置,来达到对句法范式的更好理解。
  4. 本文提出的RDN方法在COCO数据集上可以达到state-of-the-art,并且在hard cases上的表现更为突出。
  • 方法
    本文方法的整体框架如下图所示。

    整体上来看,本文方法共包括两个主要部分,分别是:Object-Level Encoder和Reflective Decoder。前者通过Faster R-CNN实现,对于image III,获得其regional visual representation RI={ri}i=1kR_I=\{ r_i \}_{i=1}^{k}RI={ri}i=1k。后者用于解码,获得sentences (captions)。

    Reflective Decoder共包含三个部分,分别是:Attention-based Recurrent Module(基于注意力的循环模块)、Reflective Attention Module(反射注意模块,ps:姑且这么叫)和Reflective Position Module(反射定位模块)。其中,Attention-based Recurrent Module指的是图中的第一个LSTM层(图片下方的那个)和AttvisAtt_{vis}Attvis层,用于自上而下地计算visual attention。Reflective Attention Module指的是图中的第二个LSTM层和AttrefAtt_{ref}Attref层(图中的RAM层),用于输出language description。Reflective Position Module指的是图中的RPM层,用于注入每个单词的位置信息,通过最小化IrtI_r^tIrtIptI_p^tIpt之间的差距来达到,IrtI_r^tIrt是作者为每个单词的位置设计的标签,IptI_p^tIpt代表Reflective Position Module的输出,具体的定义形如公式(8)。

  • 实验
    MSCOCO Karpathy test split, single model.

    MSCOCO Karpathy test split, ensemble models. 本文方法使用6个single modle进行ensemble。

    COCO Leaderboard

    在hard cases上的对比

    captioning结果展示

    对Reflective Position Module的结果进行可视化

ICCV2019:CNM

  • 题目
    Learning to Collocate Neural Modules for Image Captioning
    下载链接
    南洋理工大学张含望老师组的工作.
  • 动机
    动机可以用下图表示. 由于在训练过程中, 数据集内不同单词的出现频率并不相同, 会导致学到的模型存在bias, 即: 预测训练集中出现频率多的词的概率较大.
  • 贡献
  1. 本文提出了第一个用于image captioning的module network.
  2. 本文提出了在partially observed sentences情况下进行有效的模块搭配训练的方法.
  3. 使用本文方法后, 实验结果有显著提升, 本文方法是一个通用且有效的方法.
  • 方法
    本文的整体框架如图所示:

    对于输入的image, 首先使用CNN进行特征提取, 然后将CNN特征转化到四个不同的特征集, 分别是: Object, Attribute, Relation, Function. 其中, Object中包含物体的类别, Attribute包含一些形容词, Relation包含一些物体之间的相互作用, 如: on, between等, Function包含一些功能词, 如: a, an等.

    然后,将转化后的四类特征输入到Controller, 其内部具体的操作如下图所示:

    首先, 使用三个网络结构相同, 但不共享权值的网络得到三类Attention, 具体的操作如公式(7)所示. 然后, 经过LSTM和Softmax对四类转化特征生成weights, 即上图中的"Soft weights generation"部分, 这部分的具体操作如公式(8)所示, 其中, c代表RNN网络的输出. 最后, 即得到了融合后的特征.


    和VQA任务不同的是, 在image captioning任务中, 只有partially observed sentences是可见的. 为了更好的进行reasoning, 将decoder部分重复M次, 尽量观察到更多的sentences, 来得到和图片信息更加相关的caption.

  • 实验


    本文存在的问题

ICCV2019:Graph-Align

  • 题目
    Unpaired Image Captioning via Scene Graph Alignments
    下载链接
    本文作者是南洋理工大学的博士生顾久祥。
  • 动机
    和UIC的动机一样,标注image-sentence pair需要大量的人力,作者提出一种基于场景图的方法,用于unpaired image captioning。
  • 贡献
  1. 提出一种基于场景图的方法,用于unpaired image captioning。
  2. 提出一种用于跨模态特征对齐的无监督方法,不使用任何paired data。
  • 方法
    本文方法的整体框架如图所示:

    测试时的具体步骤为:首先,将给定的image输入Image Scene Graph Generator,得到image的场景图;然后,对image场景图进行编码,得到image特征;然后,使用Feature Mapping将image特征映射到sentence空间,得到sentence特征;最后,使用解码器对sentence特征进行解码,得到sentence。

    传统的基于“编码-解码”的方法中,captioning的整个过程如公式(1)所示。对image III编码得到VVV,然后对VVV解码得到sentence SSS。本文方法的流程遵循公式(2)和(3),首先基于image III得到其场景图,然后将场景图映射为Sentence空间的场景图,最后在解码得到Sentence。在Mapping的过程中,实际上可以将公式(3)进一步分解为公式(4),其中P(fS∣fI)P(f^S|f^I)P(fSfI)代表跨模态Mapper。



    其实本文需要着重理解的便是如何进行跨模态Mapping,这部分又是如何训练呢?作者给了下面这个图,其实质是使用了CycleGAN。CycleGAN是2017年提出的,用来做图片风格迁移,可以将unpaired图片从一个领域迁移到另一个领域。这么一说,是不是通了,作者使用CycleGAN将unpaired数据从image领域迁移到sentence领域。关于这部分的损失设定,大家可以参考原论文,这里不贴出了。

  • 实验
    MSCOCO test split。表中,Avg表示在进行Object (Relation or Attribute) Embedding的时候使用平均值,Att*表示对Object, Relation and Attribute添加相同的注意力,Att表示对Object, Relation and Attribute添加不同的注意力。

    特征可视化:

    在GAN部分,使用不同损失对实验结果的影响:

    使用不同的mapping方法,在MSCOCO test split上得到的实验结果。其中,Shared GAN表示对于三种特征(object, relation, attribute)共享参数,Single GAN表示将三种特征进行concatenate后再进行mapping。

    实验结果展示:

    一些failed结果:

2019年, image captioning论文汇总相关推荐

  1. 2019年, video captioning论文汇总

    目录 CVPR2019:GRU CVPR2019:OA-BTG CVPR2019:MLE+HybirdDis CVPR2019:MARN CVPR2019:SDVC AAAI2019:FCVC-CF& ...

  2. iccv2020论文汇总_ICCV2019 最佳论文出炉,附1987~2019历届ICCV最佳论文汇总( 提供下载)...

    微信公众号:极市平台 极市小编整理了ICCV 2019( IEEE International Conference on Computer Vision)的全部接收论文,大会目前正在韩国首尔如火如荼 ...

  3. 2020年, image captioning论文汇总

    目录 CVPR2020:ASG CVPR2020:POS-SCAN CVPR2020:SLL-SLE CVPR2020:ASG 题目 Say As You Wish: Fine-grained Con ...

  4. 2020年, video captioning论文汇总

    目录 CVPR2020:ORG-TRL CVPR2020:STG-KD TIP2020:OSTG TPAMI2020:SibNet(MM2018) WACV2020:DSD WACV2020:STaT ...

  5. CVPR 2019 目标检测论文汇总

    CVPR 2019 目标检测论文汇总(0506更新中)极市平台​已认证的官方帐号84 人赞同了该文章前段时间,计算机视觉顶会CVPR 2019 公布了接收结果,极市也对此做了相关报道 ,目前官方公布了 ...

  6. CVPR 2019 论文汇总(按方向划分,0409 更新中)[转载]

    转载链接:http://bbs.cvmart.net/topics/302/cvpr2019paper 作为计算机视觉领域三大顶会之一,CVPR2019(2019.6.16-6.19在美国洛杉矶举办) ...

  7. 2000 ~2019 年历届 CVPR 最佳论文汇总

    原文链接:http://bbs.cvmart.net/topics/665/CVPR-Best-Paper 本文汇总了从 2000 ~ 2019年历届 CVPR 会议最佳论文,附上作者和论文链接(论文 ...

  8. 【radar】毫米波雷达动态障碍物检测相关论文汇总(聚类、分类、稀疏2D点、4D点、雷达成像、原始数据处理)(4)

    [radar]毫米波雷达动态障碍物检测相关论文汇总(聚类.分类.稀疏2D点.4D点.雷达成像.原始数据处理)(4) Detection of Dynamic Objects Clustering 20 ...

  9. AIS 2019(ACL IJCAI SIGIR)论文研讨会研究趋势汇总

    AIS 2019(ACL IJCAI SIGIR)论文研讨会 文章目录 AIS 2019(ACL IJCAI SIGIR)论文研讨会 ACL 进展综述-清华刘知远 ACL2019投稿统计 1. 预训练 ...

最新文章

  1. PC人脸识别登录,出乎意料的简单
  2. 安装系统要求错误_【船机帮】康明斯船用柴油机燃油系统的安装要求
  3. Redis之字典(hashtable)
  4. mysql binlog日志的三种模式
  5. 分别用ToolBar和自定义导航栏实现沉浸式状态栏
  6. 回文字符串—回文子串—暴力破解法
  7. 《Iphone SDK3开发快速上手》
  8. python案例数据集_Python数据集切分实例
  9. Python数据科学平台Anaconda的最新发布中增加了Microsoft VS Code
  10. System.Web.AspNetHostingPermission 类型的权限已失败
  11. python实现将将输入的可约分数化简为不可约分数
  12. 专访凯美瑞德研发总监孟江华:银行间市场操作系统的自主可控亟待加强
  13. 计算机c盘内部图片,C盘爆满?教你如何释放系统盘空间,瞬间多出10个G!
  14. css从中间向两边动画,css动画效果:鼠标移上去底部线条从中间往两边延伸 - 子成君-分享出去,快乐加倍!-旧版已停更...
  15. R语言学习记录:unique()函数
  16. 算法设计 - 二分法和三分法,洛谷P3382
  17. 2018纪中夏季信息学集训总结
  18. 如何写面向互联网公司的求职简历
  19. TPS74512PQWDRVRQ1
  20. 飞鸽传书、freeeim、ipmsg区别联系

热门文章

  1. MATLAB粒子模拟代码注释
  2. 第05课:神经网络基础知识
  3. MapxTreme2008的打包过程
  4. ExpressQuantumGrid.Suite.v6.30 在Delphi 7中的安装 收藏
  5. STM32单片机工作日记
  6. 【CyberSecurityLearning 60】ACCESS数据库的注入+ACCESS数据库的cookie注入
  7. Java 重定位 —— redirect:
  8. Hardware assisted virtualization and data execution protection must be enabled in the BIOS
  9. 30分钟掌握ES6/ES2015核心内容(上)
  10. linux复习资料非编程