AAAI 2020 | 北理阿里最新论文MemCap针对图像、视频可以自动生成生动风格化描述

本文对北京理工大学和阿里文娱摩酷实验室合作的论文《MemCap：Memorizing Style Knowledge for Image Captioning》进行解读。

该论文提出了一种通过记忆机制对语言风格相关知识进行编码的风格化图像描述方法。由于语言风格无法直接从图像中获取，因此在生成风格化描述时，我们使用存储模块来存储关于语言风格的知识，并根据图片中的内容来检索这些知识。

研究背景

图像自然字幕的任务涉及到对图像内容的理解和自然语言的生成。这是一个连接计算机视觉和自然语言处理的问题。目前的图像描述方法大多集中在对没有明显语言风格的图像进行准确、客观的描述上。事实上，特定语言的描述更有价值。例如，当用户在社交网络上上传图1（a）所示的图片时，一个通用的图像描述模型可以将其描述为“头上带着袋子的猫坐在沙发上”。虽然精确，但它吸引的力量有限。如果所生成的描述具有语言风格，如“这只淘气的猫想体验窒息的感觉”，将会在社交网络上带来更好的沟通效果，引起更多的关注。另一个例子是图1（b）中推荐的视频标题，具有独特的语言风格。如果能够自动生成具有一定风格的相似描述并作为标题使用，将大大减轻视频推荐平台运营商的负担，提高视频推荐的分发效果。

图 1(a) ；图 1(b)。

程式化的图像描述既需要对视觉信息的准确理解来反映客观内容，也需要生成恰当的语言风格来表达主观情感。然而，与语言风格相关的内容通常更为抽象，无法直接从视觉内容中感知，这使得很难生成风格化的描述。人们在理解图像内容时，通常可以利用关联能力从先验知识中搜索和提取相应的风格化语料库。当人们看到图2并用积极的情感倾向来描述它的内容时，往往会把“好食物”和“食物”联系起来，本文作者提出了一种模因cap方法来模拟这个过程，并通过程式化的记忆模块来存储与语言风格相关的知识。在生成描述时，从程式化存储模块中提取相关知识，得到程式化句子。

图1：事实图像描述和风格化图像描述的示例。与样式相关的单词以红色显示。

考虑到在实际语料库中，与视觉内容相关的词语通常与语言风格相关的词语共存，这使得程式化记忆模块难以学习干净的程式化语料库。在本文中，我们提出了一个句子分解算法，将与视觉内容相关的部分和与语言风格相关的部分分开。

方法

方法概述

MemCap模型包括样式化存储模块M、样式化图像描述模块C、图片场景图生成器E、句子场景图生成器F和样式化句子分解模块P，如图3所示。样式化存储模块以场景图为输入，检索与场景图相关的样式化知识m。这部分知识和场景图被发送到图像描述模块C来生成最终的描述。

由于本文的方法只使用未配对的样式化句子进行微调，因此我们将样式化句子分解为内容相关部分和样式相关部分，并将其转换为场景图作为M和c的输入。同时，使用W嫒s对M中存储的程式化知识进行更新，并对C进行端到端的训练。在测试过程中，图像被转换成场景图，并作为M和C的输入。

图2：我们提出的方法概述。蓝色箭头指示使用不成对的程式化句子的训练过程，红色箭头指示推断过程。在训练过程中，每个风格化的句子ys被分为内容相关部分Wc和场景相关部分Ws，其中内容相关部分Wc被编码为场景图Gy，后者被用于更新存储模块M。场景图Gy，并与Gy一起输入字幕器C。在推理期间，将图像x编码在场景图Gx中，并根据Gx提取样式知识mx。与训练过程类似，Gx和mx被输入到字幕机C中以生成样式化的字幕。

程式化句子分解

给定一个程式化的句子y^s，句子分解的目的是将与风格无关的部分W^c和语言风格部分W^s分开，考虑到与语言风格相关的部分很少出现在事实描述中，我们首先得到句子的依存分析树，然后去掉引起较高混淆的部分，即与语言风格相关的部分。在依赖树中，每个单词w_i对应于树中的一个节点v_i。让第t次迭代中的剩余句子为y（（t））^s。在第t次迭代中，尝试删除节点v_j及其子树，并重新评估剩余句子的混乱程度。如果混淆度最低的句子是y t（（t，j））^s，混淆度小于y（（t））^s的混淆度，则进入下一个迭代，否则算法终止，y（（t））^s作为样式独立部分。

场景图的矢量表示

对于场景图G=（V，E），其节点集V包含三个不同的节点：对象节点o_i、关系节点r_ij和属性节点a_i^k。对于每个节点，使用其相应类别标签的单词嵌入作为节点的矢量表示。对于对象节点o_i和关系节点r_ij，使用以下公式计算上下文相关表示u_（o_i）和u_（r_ij）：

其中 e_(o_i )，e_(r_ij ) 以及 e_(a_i^k ) 分别为o_i，关系 r_ij 以及属性 a_i^k 的向量表示。整个场景图 G 的向量表示为 e_c，它是所有物体节点与关系节点的上下文相关表示的平均：

样式化记忆体模组

对于样式s，样式化存储模块包含两个矩阵M_s 以及〖M'〗_s，分别存储与语言样式相关的知识和相应的目标内容。程式化的记忆体模组使用注意机制来更新和撷取程式化的知识。在更新过程中，计算表示整个场景图的向量e_c 为〖M'〗_s的每一列的权重，并基于这些权重，使用e_c 和表示所有程式化词的向量e_s更新〖M'〗_s 中的数据，更新〖M'〗_s 中的每一列和相应列，在提取程式化知识的过程中，以〖M'〗_s 类似的方式计算每一列的权重，并且M_s中的相应列被加权和求和为存储器模块的输出m。

生成样式化描述

本文提出的样式化描述模型是在Up-Down模型的基础上，利用样式化存储模块的输出m来初始化两层LSTM网络的状态。第一层LSTM网络利用注意机制对场景图中的所有上下文相关表示进行编码，第二层LSTM网络输出词汇表中每个单词的概率。

训练策略

MemCap训练分为训练前阶段和微调阶段。在训练前阶段，采用图像和相应的目标描述作为训练数据，采用交叉熵损失函数进行训练。在微调阶段，首先使用交叉熵损失函数对模型进行微调，然后使用自临界方法对模型进行更新[1]。在强化学习中，对多个不同的评价指标（包括句子是否有风格、句子是否混淆）进行加权，作为奖励。

实验结果

本文使用MSCOCO数据集对模型进行预训练，并使用SentiCap数据集中的风格化语料库（包括正面和负面风格）和FlickrStyle10K数据集中的风格化语料库（包括浪漫和幽默风格）对模型进行预训练。进行微调。我们将MemCap方法与许多不同的方法进行了比较，包括使用图片和成对样式化描述的SF-LSTM方法、使用未配对样式化语料库的StyleNet方法和MSCap方法。为了与MSCap进行比较，实验中同时使用了多个风格化的存储模块，并训练了一个能够同时生成多种风格描述的模型。表1和表2显示了单个样式（为每个样式训练模型）和多个样式（训练可以同时生成多个样式描述的模型）实验的结果。此外，还进行了烧蚀实验，验证了模型中不同模块的有效性。

定量结果

本文用Bleu-1、Bleu-3、METEOR、CIDEr等指标来评价生成的句子是否与图片相关，用平均混淆度（ppl）来评价句子是否流畅，用风格准确率（cls）来评价生成的句子是否风格一致。具体地说，使用一个基于风格化文本的语言模型来计算平均混淆度，使用一个能够判断语言风格的分类器来计算风格准确率。需要注意的是，平均混淆度越低越好，其他指标越高越好。

表 1 ：单风格图像描述的实验结果，B-1，B-3，M，C 分别表示 Bleu-1，Bleu-3，METEOR，CIDEr；ppl 表示句子的平均困惑度，cls 表示风格准确率。

表 2 ：多风格图像描述的实验结果。

定性结果

下图显示了一些样式化图像描述的示例，MemCap生成的句子能够正确描述图片内容，具有明显的语言风格。

图3：生成的程式化字幕示例。每列包含一张图片和相应的风格化句子。句子的样式以粗体标记，并在反映语言样式的单词或短语下划线。

图4：生成的风格化中文视频字幕的示例。相应的英文翻译包含在括号中。

结论

论文地址或源码下载地址：关注“图像算法”wx公众号回复"MemCap",如何生成适当语言风格？由于MemCap能够执行单一样式和多种样式的字幕，并且使用不成对的程式化语料进行训练，因此可以轻松，轻松地将其应用于许多现实情况。在两个风格化数据集上的大量实验证明了我们方法的优越性和有效性。

AAAI 2020 | 北理阿里最新论文MemCap针对图像、视频可以自动生成生动风格化描述相关推荐

AAAI 2020 | 北理工阿里文娱：你所看视频的介绍，可以用到这样的「图像描述」技术...
点击我爱计算机视觉标星,更快获取CVML新技术机器之心发布机器之心编辑部人工智能顶级会议 AAAI 2020 将于 2 月 7 日-2 月 12 日在美国纽约举办,不久之前,AAAI 2020 ...
AAAI 2020 提前看 | 三篇论文解读问答系统最新研究进展
机器之心原创作者:仵冀颖编辑:H4O 2020 年 2 月 7 日至 12 日,AAAI 2020 将于美国纽约举办.今年 AAAI 共接受了 8800 篇提交论文,其中评审了 7737 篇,接收 ...
ECCV 2020 论文大盘点-图像视频修复篇
本文盘点 ECCV 2020 图像与视频修复(inpainting)所有相关论文,总计 8 篇. 下载包含这些论文的 ECCV 2020 所有论文: ECCV 2020 论文合集下载,分类盘点进行中 ...
[论文阅读]（图像/视频质量评价系列）
文章目录 [2021] (QoMEX) Image Super-Resolution Quality Assessment:Structural Fidelity Versus Statistical ...
计算机网络相关论文目录怎么弄,Word如何自动生成目录论文排版必备小技巧
在word中如何自动生成目录?这个问题,相信困扰着不少为了论文而付出不少汗水的娃儿.看着一篇长长的论文,还需要一个标题一个标题的去复制黏贴,做成目录列表,那比写论文还要让人苦逼啊,对吧?尤其对于大学毕 ...
CVPR 2021 论文大盘点-图像视频去雨篇
本文继续总结图像处理相关论文,关注一类特殊的图像修补任务--视频.图像去雨,共计 10 篇. 大家可以在: https://openaccess.thecvf.com/CVPR2021?day=all ...
阿里最新论文解读：考虑时空域影响的点击率预估模型DSTN
作者 | 石晓文转载自小小挖掘机(ID: wAIsjwj) [导语]:在本文中,阿里的算法人员同时考虑空间域信息和时间域信息,来进行广告的点击率预估. 什么是时空域?我们可以分解为空间域(spati ...
CVPR AAAI 2020 |人脸活体检测最新进展
本文原载自知乎,已获作者授权转载,请勿二次转载. https://zhuanlan.zhihu.com/p/114313640 今年活体检测(FAS)比较火热,这块的文章投稿和录用量剧增,AAAI录了 ...
2020年，阿里最新的java程序员面试题目含答案带你吊打面试官
目录技术一面(23问) 技术二面(3大块) 性能优化(21点) 项目实战(34块) JAVA方向技术考察点(15点) JAVA开发技术面试中可能问到的问题(17问) 阿里技术面试1 1.Java I ...

AAAI 2020 | 北理阿里最新论文MemCap针对图像、视频可以自动生成生动风格化描述

AAAI 2020 | 北理阿里最新论文MemCap针对图像、视频可以自动生成生动风格化描述相关推荐

最新文章

热门文章