AAAI 2020 | 北理工阿里文娱：你所看视频的介绍，可以用到这样的「图像描述」技术...

点击我爱计算机视觉标星，更快获取CVML新技术

机器之心发布

机器之心编辑部

人工智能顶级会议 AAAI 2020 将于 2 月 7 日-2 月 12 日在美国纽约举办，不久之前，AAAI 2020 公布论文介绍结果：今年最终收到 8800 篇提交论文，评审了 7737 篇，接收 1591 篇，接收率 20.6%。本文对北京理工大学、阿里文娱摩酷实验室合作的论文《MemCap：Memorizing Style Knowledge for Image Captioning》进行解读。

该论文提出了一种通过记忆机制对语言风格相关的知识进行编码的风格化图像描述方法。由于语言风格无法直接从图像中得到，我们使用记忆模块存储语言风格相关的知识，并在生成风格化描述时根据图片中的内容检索这些知识。

论文链接：https://wuxinxiao.github.io/assets/papers/2020/MemCap.pdf

一．研究动机

图像的自然语言描述（image caption）任务涉及对图像内容的理解与自然语言的生成，是连接了计算机视觉与自然语言处理两个领域的问题。目前的大多数图像描述方法专注于为图像生成准确，客观的描述，这些描述没有明显的语言风格。实际上，特定语言风格的描述更具有应用价值。例如，用户在社交网络中上传了图 1(a) 所示的图片，普通的图像描述模型可能将其描述为「一只头上套着袋子的猫坐在沙发上」，虽然准确，但吸引力有限。如果生成的描述带有语言风格，如「这只淘气的喵星人想体验窒息的感觉」，会在社交网络中带来更好的传播效果，引起更多人的注意。又例如图 1(b) 中视频的推荐标题，带有鲜明的语言风格。若能自动生成类似的、带有某种风格的描述并作为标题，将极大地减轻视频推荐平台的运营人员的负担，提高视频推荐的分发效果。

图 1(a) ；图 1(b)。

风格化图像描述既要求能准确地理解视觉信息以体现客观内容，又要求能生成合适的语言风格以表达主观情感。然而，与语言风格相关的内容一般较为抽象，无法直接从视觉内容感知，这使得生成风格化描述变得十分困难。人们在理解图像内容时，通常可以利用联想能力，从先验知识中搜索并提取相应的风格化语料。当人们看到图 2，用正面的情感倾向描述其内容时，经常会将「好吃」与「食物」建立联系。本文作者提出了 MemCap 方法以模仿这一过程，通过风格化记忆模块，存储与语言风格相关的知识。在生成描述时，从风格化记忆模块中提取相关的知识，得到风格化的语句。

图 2：一些风格化描述的示例，与风格有关的部分用红色标出。

考虑到在实际的语料中，与视觉内容相关的词汇一般与体现语言风格相关的词汇共存，使得风格化记忆模块难以学习到干净的风格化语料。我们在本文中提出一种句子分解算法，分离与视觉内容相关的部分以及与语言风格相关的部分。

二．方法

方法概览

MemCap 模型包含风格化记忆模块 M，风格化图像描述模块 C，图片场景图生成器 E，句子场景图生成器 F 以及风格化句子分解模块 P，如图 3 所示。风格化记忆模块将场景图作为输入，检索与场景图有关的风格化知识 m。这部分知识与场景图送入图像描述模块 C 中，生成最终的描述。

由于本文方法只使用未配对的风格化句子进行微调，我们将风格化的句子分解为与内容相关的部分 W_c 和与风格相关的部分 W_s，并将 W_c 转换为场景图，作为 M 和 C 的输入。同时，W_s 被用于更新 M 中存储的风格化知识。M 与 C 通过端到端的方式进行训练。在测试时，将图片转换为场景图，作为 M 和 C 的输入。

图 3 ：MemCap 模型示意图。其中蓝色部分表示使用风格化语料微调的过程，红色部分表示生成风格化描述的过程。

风格化句子分解

给定风格化句子 y^s，句子分解的目的是分离出与风格无关的部分 W_c 以及与语言风格有关的部分 W_s。考虑到与语言风格有关的部分在客观描述（factual description）中很少出现，我们先获取句子的依存解析树，然后从解析树中去除导致较高困惑度的部分，即与语言风格有关的部分。在依存树中，每个单词 w_i 对应树中的一个节点 v_i。将第 t 次迭代中剩余的句子记作 y_((t))^s。在第 t 次迭代中，尝试去除节点 v_j 及其子树，并重新评价剩余的句子的困惑度。若困惑度最低的句子 y ̂_((t,j))^s 的困惑度小于 y_((t))^s 的困惑度则进入下一次迭代，否则算法中止，并将 y_((t))^s 作为与风格无关的部分。

场景图的向量表示

对于场景图 G=(V,E)，其节点集合 V 包含三种不同的节点：物体节点 o_i，关系节点 r_ij 以及属性节点 a_i^k。对于每个节点，使用其对应的类别标签的词嵌入作为节点的向量表示。对于物体节点 o_i 与关系节点 r_ij，其上下文相关的表示 u_(o_i ) 以及 u_(r_ij ) 分别使用如下公式计算：

（1）

其中 e_(o_i )，e_(r_ij ) 以及 e_(a_i^k ) 分别为物体 o_i，关系 r_ij 以及属性 a_i^k 的向量表示。整个场景图 G 的向量表示 e_c 为所有物体节点与关系节点的上下文相关表示的平均，即

风格化记忆模块

对于风格 s，风格化记忆模块包含两个矩阵 M_s 以及〖M'〗_s，分别存储与语言风格相关的知识以及与之对应的客观内容。风格化记忆模块使用注意力机制实现对风格化知识的更新以及提取。在更新过程中，使用表示整个场景图的向量 e_c 为〖M'〗_s 的每一列计算权重，并根据这些权重，分别使用 e_c 以及表示所有风格化词汇的向量 e_s 更新〖M'〗_s 中的每一列以及 M_s 中对应的列。在风格化知识的提取过程中，通过类似的方式为〖M'〗_s 的每一列计算权重，并对 M_s 中对应的列加权并求和，作为记忆模块的输出 m。

生成风格化描述

本文提出的风格化描述模型基于 Up-Down 模型 [2]，使用风格化记忆模块的输出 m 初始化两层 LSTM 网络的状态。第一层 LSTM 网络使用注意力机制对场景图中所有上下文相关表示 u_p 进行编码，第二层 LSTM 网络输出词汇表中每个单词的概率。

训练策略

MemCap 的训练分为预训练阶段与微调阶段。预训练阶段将图像以及对应的客观描述作为训练数据，采用交叉熵损失函数进行训练。在微调阶段，先使用交叉熵损失函数对模型进行微调，之后使用 self-critical 方法 [1] 对模型进行更新。将多个不同的评价指标（包括 CIDEr，对句子是否带有风格的评价以及句子的困惑度）加权，作为强化学习中的奖励。

三．实验

本文使用 MSCOCO 数据集对模型进行预训练，并使用来自 SentiCap 数据集的风格化语料（包括正面、负面两种风格）以及来自 FlickrStyle10K 数据集的风格化语料（包括浪漫、幽默两种风格）对模型进行微调。我们将 MemCap 方法与多种不同的方法进行比较，包括使用图片与配对的风格化描述的方法 SF-LSTM [4]，使用未配对风格化语料的方法 StyleNet [5] 以及 MSCap [3]。为了与 MSCap 进行公平的比较，在实验中同时使用了多个风格化记忆模块，训练了能够同时生成多种风格的描述的模型。表 1 和表 2 分别为单一风格（为每种风格训练一个模型）和多风格（训练能够同时生成多种风格的描述的模型）实验的结果。此外，还进行了消融实验以验证模型中不同模块的有效性。

定量结果

本文采用 Bleu-1，Bleu-3，METEOR，CIDEr 等指标评价生成的句子是否与图片相关，采用平均困惑度（ppl）评价句子是否流畅，使用风格准确率（cls）评价生成的句子是否符合对应的风格。具体地，使用在风格化文本上训练好的语言模型计算平均困惑度，使用能够判断语言风格的分类器计算风格准确率。需要指出的是，平均困惑度越低越好，其他指标越高越好。

表 1 ：单风格图像描述的实验结果，B-1，B-3，M，C 分别表示 Bleu-1，Bleu-3，METEOR，CIDEr；ppl 表示句子的平均困惑度，cls 表示风格准确率。

表 2 ：多风格图像描述的实验结果。

定性结果

图 4 展示了一些风格化图像描述的例子。可以发现，MemCap 生成的句子能够正确地描述图片的内容，并且具有明显的语言风格。

图 4：MemCap 方法生成的风格化描述。句子的风格用粗体标出，句子中与语言风格相关的部分使用下划线标出。

四．总结

本文提出了为图像生成风格化描述的 MemCap 方法，使用记忆模块对与语言风格有关的知识进行记忆，并在生成描述时检索相关的语言风格知识。因此，MemCap 方法生成的句子能够准确地描述图片中的内容，同时体现出语言风格。在两个风格化图像描述数据集上的实验证明了方法的有效性。

参考文献：

[1] Rennie, Steven J., et al. "Self-critical sequence training for image captioning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

[2] Anderson, Peter, et al. "Bottom-up and top-down attention for image captioning and visual question answering." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

[3] Guo, Longteng, et al. "MSCap: Multi-Style Image Captioning With Unpaired Stylized Text." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

[4] Chen, Tianlang, et al. "``Factual''or``Emotional'': Stylized Image Captioning with Adaptive Learning and Attention." Proceedings of the European Conference on Computer Vision (ECCV). 2018.

[5] Gan, Chuang, et al. "Stylenet: Generating attractive visual captions with styles." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

图像描述学习群

学习交流最新最前沿的image captioning技术、CV+NLP结合的研究方向，扫码添加CV君拉你入群，如已为CV君其他账号好友请直接私信，

（请务必注明:描述）：

喜欢在QQ交流的童鞋可以加52CV官方QQ群：805388940。

（不会时时在线，如果没能及时通过还请见谅）

长按关注我爱计算机视觉

AAAI 2020 | 北理工阿里文娱：你所看视频的介绍，可以用到这样的「图像描述」技术...相关推荐

北理工阿里文娱：结合常识与推理，更好地理解视频并生成描述
2019-12-25 12:35:41 机器之心发布机器之心编辑部人工智能顶级会议 AAAI 2020 将于 2 月 7 日-2 月 12 日在美国纽约举办,不久之前,AAAI 2020 公布论文 ...
AAAI 2020 | 北理阿里最新论文MemCap针对图像、视频可以自动生成生动风格化描述
本文对北京理工大学和阿里文娱摩酷实验室合作的论文<MemCap:Memorizing Style Knowledge for Image Captioning>进行解读. 该论文提出了一种 ...
AAAI 2020 时间交错网络 | ICCV19多标签视频理解冠军方案
本文主要介绍三个部分: 一个高效的 SOTA 视频特征提取网络 TIN,发表于 AAAI 2020 ICCV19 MMIT 多标签视频理解竞赛冠军方案,基于 TIN 和 SlowFast 一个基于 P ...
AAAI 2020 | 华南理工：面向文本识别的去耦注意力网络
2020-01-15 06:12:12 作者 | 王天玮编辑 | 十.年本文对华南理工大学和联想研究院共同完成,被AAAI-20录用的论文<Decoupled Attention Netwo ...
多视图立体视觉: CVPR 2019 与 AAAI 2020 上的ACMH、ACMM及ACMP算法介绍
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达多视图立体视觉(MVS)一直是计算机视觉研究的一个热点.它的目的是从多个已知相机姿态的图像中建立密集的 ...
fullcalendar 获得当前视图年月_?多视图立体视觉: CVPR 2019与AAAI 2020 上的ACMH、ACMM及ACMP算法介绍...
作者 | 孔维航编辑 | CV君报道 | 我爱计算机视觉(微信id:aicvml) 多视图立体视觉(MVS)一直是计算机视觉研究的一个热点.它的目的是从多个已知相机姿态的图像中建立密集的对应关系, ...
2020年我国知识产权服务业市场现状分析，区域发展不平衡、地域性强「图」
一.知识产权服务业特点知识产权服务指对专利.商标.版权.著作权.软件.集成电路布图设计等的代理.转让.登记.鉴定.评估.认证.咨询.检索等活动.目前,我国知识产权服务领域呈现出以下几个特点:1)区域 ...
2020年中国电机驱动芯片行业产业链、市场规模、产量及发展趋势分析「图」
一.电机驱动芯片行业产业链电机驱动芯片是集成有CMOS控制电路和DMOS功率器件的芯片,利用它可以与主处理器.电机和增量型编码器构成一个完整的运动控制系统.可以用来驱动直流电机.步进电机和继电器等感 ...
2020年中国牛肉市场现状、进出口及产业链分析，牛肉进口量持续增长「图」
一.产业链我国牛肉行业产业链上游主要为肉牛养殖业及饲料行业:中游为肉牛屠宰.加工行业:下游为各大商超.餐饮.电商等行业. 牛肉行业产业链编辑切换为居中添加图片注释,不超过 140 字(可选) ...

AAAI 2020 | 北理工阿里文娱：你所看视频的介绍，可以用到这样的「图像描述」技术...

AAAI 2020 | 北理工阿里文娱：你所看视频的介绍，可以用到这样的「图像描述」技术...相关推荐

最新文章

热门文章