引言

模态是人接受信息的特定方式,多模态数据即传递多种信息(例如一段视频往往包括文字信息、视觉信息和听觉信息等)。近几年,多模态学习的相关工作逐渐增多,国内外研究者也逐步在该领域取得了显著的研究成果。鉴于多模态学习的重要性,本文将介绍三篇ACL2020中多模态学习领域的相关论文。

文章概览

  • Multimodal Neural Graph Memory Networks for Visual Question Answering

论文地址:https://www.aclweb.org/anthology/2020.acl-main.643.pdf

这一篇关于VQA任务,尝试通过利用图像区域生成的字幕来辅助图像和文本的交互和推理,使用了多模态神经图记忆网络。

  • Improving Image Captioning with Better Use of Caption

论文地址:https://www.aclweb.org/anthology/2020.acl-main.664.pdf

这一篇是image caption任务,构建了caption引导的视觉关系图来提高生成质量,使用了弱监督多实例的训练框架,图卷积表示,多任务生成等。

  • Clue: Cross-modal Coherence Modeling for Caption Generation

论文地址:https://www.aclweb.org/anthology/2020.acl-main.583.pdf

这一篇也是关于image caption任务,重点关注了字幕与图像之间的连贯关系,希望能够生成有一致关系引导的字幕。

论文细节

1

动机

文章提出了一种新的多模态神经图记忆网络(MN-GMN)来解决VQA任务。MN-GMN的输入模块通过图片生成一组视觉特征和相应的区域字幕(RGC)。从图像区域中生成的RGC可以反映对象属性及其关系。随后分别构造出两个GNs,每个节点迭代地更新视觉/文本的上下文表示。之后,将更新后的表示合并到外部空间记忆中。应答模块使用存储单元的最终状态预测答案。

模型

模型主要有四个模块:输入、问题、多模态图记忆网络和应答模块。

输入模块使用Faster R-CNN 抽取图像区域特征,使用字幕生成模型提取出区域对应的描述(RGCs),并用GRU和句法分析器来编码。句法分析可以将RGC分解为关系三元组集。

问题模块通过GRU编码得到问题向量。

多模态图记忆网络模块包括视觉图网络、文本图网络和外部空间记忆三部分。两个图网络分别通过区域视觉特征和区域文本特征(RGC)构建。通过问题向量来引导节点初始化。外部记忆网络的单元是将图像的均分P×Q块。覆盖到某个单元的图网络节点会分别将信息传入该单元进行更新。

应答模块也是一个图网络,节点也是外部记忆单元。使用最终更新后的全局特征来分类。

模型

完整模型和不同的消融模型在三个数据集上的表现如下图:

一些案例研究和注意力可视化如下图:

2

动机

图像字幕生成需要有一个合适的语言和图像的语义表示。为了解决忽略重要的断言(predicates)以及断言和物体对之间连接的模糊性,文章提出了一种新颖的图像字幕架构,以探索字幕中可用的语义,并利用它来增强图像的表示和字幕的生成。模型首先使用弱监督多实例学习来构造字幕引导的视觉关系图,引入有益的归纳倾向。然后通过相邻节点和上下文节点以及它们的文本和视觉特征来增强表示。在生成过程中,该模型进一步结合视觉关系,使用多任务学习来联合预测单词和相对应的标记序列。大量的实验表明提出的框架显著优于基准。

模型

模型有三个部分:利用弱监督多实例学习构造字幕引导的视觉关系图(CGVRG);建立环境感知的CGVRG;进行多任务生成,使模型得以考虑到显式的对象/断言约束。

(1)基于弱监督学习的字幕引导视觉关系图的构建

首先使用场景图分析器从文本中提取出视觉关系三元组,用Faster R-CNN识别图像中目标实例。通过区域对的图像特征可以计算出该区域对的断言分布概率。由于训练过程中,目标对可能会对应多个区域对,文章使用弱监督多实例学习方法训练。具体来说,先建立一组带标签的包,每个包包含一组实例(本文中就是区域对)。如果一个包中的所有实例都不包含字母中的断言,那么它将被标记为负。另一方面,如果包中至少有一个包含字幕中的断言,则该包被标记为正。可以计算得到每个包有断言的概率为:

这样就可以通过对包的标注训练断言分布概率:

通过弱监督模型构建的关系图可以包含在训练字幕中存在的断言,而不仅仅是预训练VRD模型训练集中的,有助于提高生成质量。

(2)增强关系图的表示

文章进一步使用图卷积网络,增强CGVRG的表示能力。对于目标先集成视觉和文本特征,断言则只有文本特征:

随后通过GCN进行更新:

(3)多任务生成

在生成过程中,论文提出联合预测单词和标签序列,描述中的每个单词都会被分配一个标签,也就是object、predicate或none。使用双层lstm分别进行对齐和解码:

有两种不同类型的多任务块:

第一种方式独立的生成单词和标签:

第二种方式利用标签的分布来影响单词的预测:

实验

与单模型比较,效果显著超过了基准模型:

与使用视觉关系图的基准模型比较,效果也是大部分占优:

消融实验表明了各个部分的有效性:

还有案例研究:

3

动机

借鉴论辩计算模型,该论文从图像和语篇连贯性关系研究图像字幕的信息需求和目标,使用一个专门的连贯关系注释协议,从公共图像字幕注释了10000个实例,并提出了一个新的推理图像和文本连贯关系的任务,表明这些连贯注释可以作为中间步骤学习关系分类,还可训练具有连贯关系意识的图像字幕模型。根据连贯关系确定的信息需求,生成的字幕在一致性和质量上都有显著提高。

图像和标题的连贯关系

考虑的连贯关系主要有5种:

Visible指的是文本的信息旨在识别图像中描述的内容;Subjective,即文本描述了说话人对图像中所描述的事物的反应或评价;Action 中文本描述了一个扩展的动态过程,图像是其中的一个瞬间快照;Story中文本提供了图像中环境的独立描述,包括指导、解释和其他背景关系;Meta,还可以推断图像本身的生成和呈现。

标注的数据集

标注的数据集有5000个人工图像字幕对是随机取自Conceptual Captions dataset的训练集,还有5000个机器编写字幕的代表性样本是由图像字幕挑战赛的前5个模型获得。数据集注释的分析:

总的来说,visible在两种字幕的标注中都占了很大部分(65%和70%)。模型输出的字幕中subjective和story的比率显著降低,且meta的比率增加了25%左右,这表明这些模型可能容易产生上下文幻觉效应。在模型生成的字幕中,irrelevant字幕的比例增加到17%左右,而在基本真实字幕中,这一比例仅为3%。此外,似乎模型有一定的能力来生成事件发生的位置,但它们生成时间信息的能力较低。

从注释根据字幕体裁的分布图可以得到,连贯关系可以反映语篇类型及其目的,也即不同出版来源的图片字幕对在连贯关系上有不同的分布。

预测连贯关系任务

在这一部分中,论文训练和测试了一些针对连贯关系预测的简单模型,表明了机器学习模型在文本和图像的连贯关系分类中的潜力。

多标签预测结果

单标签预测结果

论文还通过一些启发式方法将图片标题对的注释映射到单个标签,然后进行预测。映射后的分布和实验结果如下图所示。

生成连贯关系引导的字幕

利用之前预测的连贯性标签,文章还提出了一个基于连贯性的字幕生成模型。

使用基于Transformer的序列生成方法对输出字幕进行建模。输入的图像特征用RISE特征抽取器得到图像的64维表示,它使用ResNet-101网络将图像分类为大约40万个类。使用Google Cloud Vision API获取图像的目标标签。在训练时,使用推断出的图片标题对的连贯性关系;在推断时,标签输入用于控制生成的字幕中的信息。此外,关系标签也是解码器的起始符号。

实验

跨模态连贯模型显著地提高了所生成文本相对于信息需求的一致性和质量。

参考文献

[1] Mahmoud Khademi. 2020. Multimodal Neural Graph Memory Networks for Visual Question Answering. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.

[2] Zhan Shi, Xu Zhou, Xipeng Qiu, Xiaodan Zhu. 2020. Improving Image Captioning with Better Use of Captions. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.

[3] M. Alikhani, P. Sharma, S. Li, R. Soricut, M. Stone. 2020. Clue: Cross-modal Coherence Modeling for Caption Generation. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.

供稿丨何啸风编辑丨王思远责编丨何啸风来自 | 复旦DISC

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家:

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读


整理不易,还望给个在看!

【论文分享】ACL 2020 多模态相关任务分享相关推荐

  1. 科研效率直线提升!如何一键下载会议论文?ACL 2020 论文代码批量下载 打包分享

    ACL 2020 论文代码批量下载 打包分享 1. 提取代码 2. EndNote批量导入,看论文可以如此轻松! 3. 论文批量分享 全文总结 如何通过代码批量自动化爬取会议论文 代码如下,其他会议同 ...

  2. 自然语言处理顶会ACL 2020会议核心要点分享

    今年受疫情影响,ACL只能举行线上虚拟会议,因此不能近距离跟行业学者们进行交流.但我任然想把我了解到的ACL的争取趋势和研究动态分享处理,因而有了这篇文章. 文章整理自网络,原作者Vered Shwa ...

  3. 【论文解读 ACL 2020 | MixText】Linguistically-Informed Interpolation of Hidden Space for 半监督文本分类

    论文题目:Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification 论 ...

  4. 【ACL 2020】腾讯AI Lab解读三大前沿方向及入选的20篇论文

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来源:腾讯AI实验室 自然语言理解是腾讯 AI Lab 的主要研究方向之一,研究能力也 ...

  5. ACL 2020 | 腾讯AI Lab解读三大前沿方向及入选的20篇论文

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要20分钟 Follow小博主,每天更新前沿干货 来源:腾讯AI实验室 自然语言处理领域顶级会议 ACL 2020 将于 7 月 5 日至 10 ...

  6. 【论文汇总】2020上半年阿里、腾讯、百度入选AI顶会论文(附地址)

    (给机器学习算法与Python学习加星标,提升AI技能) 本文由数据派整理 2020年已过近半,人工智能学术界的顶级会议也举行了不少.在今年已经举行的顶会中,腾讯.百度.阿里等国内科技巨头被收录论文在 ...

  7. ACL 2020三大奖项出炉!知名学者夫妇曾先后获终身成就奖,时间检验奖回溯95年经典著作...

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 自然语言处理顶会ACL 2020今年以线上的形式举办,时间从7月5日至7月10日. 但从投稿数量来看,此次会议热度依旧不减,达到了历年最高的 ...

  8. 【论文分享】ACL 2020 神经网络的可解释性

    引言 尽管近些年来深度神经网络取得了广泛的成功,在预测上取得了不错的精度,但是要使得神经网络能够更加让人信服,人们需要能够解释神经网络能够运行的原理,网络参数的意义.但是现今人们对神经网络背后的原理知 ...

  9. ACL 2020 | 特定风格标题生成《Hooks in the headline》论文阅读笔记

    写在前面 在一文详解生成式文本摘要经典论文Pointer-Generator中我们介绍了生成式摘要的经典模型,今天我们来分享一篇带风格的标题生成的经典工作 <Hooks in the Headl ...

  10. 华人斩获最佳Demo论文,Bengio获时间检验奖,最佳论文突破NLP传统测试方法 | ACL 2020...

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI NLP领域顶会ACL 2020颁奖刚刚结束,今年的最佳论文奖也尘埃落定. 在昨天的议程中,共颁布了最佳论文奖.最佳Demo论文奖.最佳主题论 ...

最新文章

  1. 《微软的软件测试之道》(How We Test Software at Microsoft)
  2. css如何清除浮动(二)
  3. nginx 如何调用php文件,nginx php-fpm问题无法调用文件夹中的其他php文件
  4. ASP.NET 2.0便捷数据访问
  5. [转]SQL Server 2000执行计划成本(1/5)
  6. Redis非阻塞I/O多路复用机制
  7. 【*项目调研+论文阅读】SVM-BILSTM-CRF模型SVM-BILSTM-CRF模型 | day7
  8. cocos2d-x 调用java_cocos2d-x中通过Jni实现Java与C++的互相调用
  9. 2021 年前端学习路线总结
  10. 高质量C /C编程指南---第1章 文件机关
  11. 编写适合于自己的代码生成器 (zhuan)
  12. 第 二 十 八 天 :监 控 软 件 之 cacti
  13. Java学习目录(持续更新中)
  14. 初探MYD-AM335x开发板
  15. 如何避开微信小程序的审核机制(实测有效)
  16. 《黑手党2》全部50本花花公子杂志收集攻略
  17. 电子凸轮追剪曲线生成算法 算法,理解后可转成其他品牌PLC或任何一种编程语言
  18. 职场丨一年前我月薪两万被叫老总,如今在美团送外卖
  19. 小技巧-如何在任何一个文件夹中打开cmd
  20. 利用Sympy计算sin1°的最小多项式

热门文章

  1. spring boot: 一般注入说明(五) @Component, application event事件为Bean与Bean之间通信提供了支持...
  2. day39-Spring 02-AOP的概述
  3. error LNK2019: 无法解析的外部符号 问题1
  4. 关于Java的反射机制,你需要理解这些..
  5. [LeetCode] Construct Binary Tree from Preorder and Inorder Traversal 由先序和中序遍历建立二叉树...
  6. Mybatis的直接执行SQL
  7. 面向对象---大纲笔记
  8. linux网络 (三):网络测试
  9. poj 3321 Apple Tree 树状数组
  10. C语言程序设计--宏和预处理