点击下面卡片关注我呀,每天给你送来AI技术干货!

论文题目:Zero-shot Visual Question Answering using Knowledge Graph

本文作者:陈卓(浙江大学)、陈矫彦(牛津大学)、耿玉霞(浙江大学)、Jeff Z. Pan(爱丁堡大学)、苑宗港(华为)、陈华钧(浙江大学)

发表会议:ISWC 2021

论文链接:https://arxiv.org/pdf/2107.05348.pdf

代码链接:https://github.com/China-UK-ZSL/ZS-F-VQA

来自:浙大KG

引言

将外部知识引入视觉问答(Visual Question Answering, VQA)已成为一个重要的实际需求。现有的许多方法采用pipeline的模式,多模块分工进行跨模态知识处理和特征学习,但这种模式下,中间件的性能瓶颈会导致不可逆转的误差传播(Error Cascading)。此外,大多数已有工作都忽略了答案偏见问题——因为长尾效应的存在,真实世界许多答案在模型训练过程中可能不曾出现过(Unseen Answer)。

在本文中,我们提出了一种适用于零样本视觉问答(ZS-VQA)的基于知识图谱的掩码机制,更好结合外部知识的同时,一定程度缓解了误差传播对于模型性能的影响。并在原有F-VQA数据集基础上,提供了基于Seen / Unseen答案类别为划分依据的零样本VQA数据集(ZS-F-VQA)。实验表明,我们的方法可以在该数据集下达到最佳性能,同时还可以显著增强端到端模型在标准F-VQA任务上的性能效果。

一、前言

我们生活在一个多模态的世界中。视觉的捕捉与理解,知识的学习与感知,语言的交流与表达,诸多方面的信息促进着我们对于世界的认知。作为多模态领域的一个典型场景,VQA旨在结合视觉的信息来回答所提出的问题。从15年首次被提出至今,其涉及的方法从最开始的联合编码,到双线性融合,注意力机制,组合模型,场景图,再到引入外部知识,进行知识推理,以及使用图网络,多模态预训练语言模型…近年来发展迅速。18年Qi Wu等首先提出引入外部知识的KB-VQA问题(FVQA[1]),贡献领域重要数据集(每个问题的回答必须依赖图片以外知识)的同时提出了一种基于知识子图生成并构建查询语句(SPARQL)的方法来解决该问题。以其为代表的后来一系列pipeline模式模型,流程繁琐部署困难的同时还面临着误差传递的风险。传统端到端方法,尽管某种程度上避免了误差传递,但大多将VQA作为分类任务,这使得其无法对超出候选答案以外(out-of-vocabulary, OOV)的结果进行预测,也即我们提到的零样本学习(Zero-shot Learning, ZSL)。

人天生就具有强大的领域迁移能力,且这种能力往往不需要很多的样本,甚至仅需一些规则描述,根据过往的经验与知识就可以迅速适应一个新的领域,并对新概念进行认知。基于此假设,我们设计零样本下的外部知识VQA:测试集答案与训练集的答案没有重叠。即,在原有F-VQA数据集基础上,提供以Seen / Unseen答案类别为划分依据的ZS-F-VQA数据集,并提出了一种适用于零样本视觉问答(ZS-VQA)的基于知识图谱的掩码机制。区别于传统VQA基于分类器的模型设定,我们采取基于空间映射的方法,建立多个特征空间并进行知识分解,同时提出了一种灵活的可作用于任何模型的k mask设定,缓解少样本情况下对于Seen类数据的领域漂移。我们的方法提供了一种多模态数据和KG交互的新思路,实验证明在多个模型上可取得稳定的提升,更好地结合外部知识同时缓解误差传播对于模型性能的影响。

二、数据集

由于长尾效应的存在,大多VQA数据存在答案不全/不均衡的特点(e.g. person、dog 等高频答案的出现概率可能是towel、rail等低频答案的数十乃至上百倍),这导致部分概念因为出现次数少而无法被很好地学习,甚至根本就没有被学习(尽管真实场景下,其依然存在被问到的可能)。

我们考虑极端的情况——零样本。即将原始数据根据答案类型,划分为训练/测试集的两个分布。具体来说,我们首先将F-VQA数据集的训练/测试集进行融合,然后统计出现概率TOP500的答案类型(answer class),按照Seen answer和Unseen answer随机划分为250 / 250的比例。此过程重复五次得到5个不同的子集以消除随机划分带来的误差影响。ZS-F-VQA划分统计结果与F-VQA对比如下:

注意到,原始F-VQA是根据图片进行数据划分的,因此在image上的重叠(overlap)是0,而ZS-F-VQA在answer上重叠为0。

三、方法

方法包含两部分。

第一部分,我们提出三个特征空间以处理不同分布的信息:实体空间(Object Space)、语义空间(Semantic Space)、知识空间(Knowledge Space)的概念。其中:

  • 实体空间主要处理图像/文本中存在的重点实体与知识库中存在实例的对齐;

  • 语义空间关注视觉/语言的交互模态中蕴含的语义信息,其目的是让知识库中对应关系的表示在独立空间中进行特征逼近。

  • 知识空间让 (问题,图像)组成的pair与答案直接对齐,建模的是间接知识,旨在挖掘多模态融合向量中存在的(潜层)知识。

第二部分是基于知识的答案掩码。

掩码技术技术广泛应用于预训练语言模型(PLM),其在训练阶段遮掩输入的片段,以自监督的方式学习语法语义。与这种方式不同,我们在输出阶段进行答案遮掩:给定输入图像/文本信息得到融合向量后,基于第一部分独立映射的特征空间和给定的超参数Ke / Kr,根据空间距离相似度在实体/语义空间中得到关于实体/关系的映射集,结合知识库三元组信息匹配得到答案候选集。答案候选集作为掩码的依据,在知识空间搜索得到的模糊答案的基础上进行掩码处理,最后进行答案排序。

此处的掩码类型的分为两种:硬掩码(hard mask)和软掩码(soft mask),主要作用于答案的判定分数(score),区别在于遮掩分数的多少。其作用场景分别为零样本场景和普通场景。零样本背景下领域偏移问题严重,硬掩码约束某种意义上对于答案命中效果的提升远大于丢失正确答案所带来的误差。而普通场景下过高的约束则容易导致较多的信息丢失,收益小于损失。

具体实验和讨论见原文。

四、实验

标准F-VQA上的实验效果:

可以看到,取不同的超参k值,相比于其他baseline方法,最多可以取得( 6 ∼ 9% )的稳定提升。而在零样本设定中,ZS-F-VQA数据集下的实验结果如图所示:

模型所取得的提升是十分显著( 30 ∼ 40% )的。

同时,ZS-F-VQA数据下hard mask 取得最佳效果,F-VQA数据下soft mask在不同的掩码分值取值(soft mask)下取得最佳效果,证明hard mask和soft mask的设定是有必要的。

最后,我们也对模型在两个数据集上的结果进行了可解释性分析。

五、总结

现有的模型默认训练集与测试集具有独立同分布的特质,但现实往往不尽如人意,也就是说同分布的假设大概率要打破。正如三位图灵奖大佬最近发表的文章Deep Learning for AI [2]中所强调的核心概念——高层次认知。将现在已经学习的知识或技能重新组合,重构成为新的知识体系,随之也重新构建出了一个新的假想世界(如在月球上开车),这种能力是人类天生就被赋予了的,在因果论中,被称作“反事实”能力。现有的统计学习系统仅仅停留在因果关系之梯的第一层,即观察,观察特征与标签之间的关联,而无法做到更高层次的事情。

这也是我们研究的出发点:零样本领域如何合理利用已有知识?我们普遍认为见过的就是事实,而未见过的就是事实以外的错误(反事实),这显然过于绝对。零样本某种意义上,就可看成是反事实的一种特例。

在未来,这其中显然还有更多可以挖掘的可能。

欢迎大家关注我们近期的在零样本学习领域的其他工作 [3-5]!

[1] Wang, P., Wu, Q., Shen, C., et al.: FVQA: fact-based visual question answering. TPAMI (2018)

[2] https://cacm.acm.org/magazines/2021/7/253464-deep-learning-for-ai/fulltext

[3] Geng Y, Chen J, Chen Z, et al. OntoZSL: Ontology-enhanced Zero-shot Learning. WWW 2021

[4] Chen J, Geng Y, Chen Z, et al. Knowledge-aware Zero-Shot Learning: Survey and Perspective[J]. IJCAI. 2021

[5] Geng Y, Chen J, Chen Z, et al. K-ZSL: Resources for Knowledge-driven Zero-shot Learning[J]. arXiv, 2021.


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

点击上面卡片,关注我呀,每天推送AI技术干货~

整理不易,还望给个在看!

【ISWC2021】当知识图谱遇上零样本视觉问答相关推荐

  1. 论文浅尝 - ISWC2021 | 当知识图谱遇上零样本视觉问答

    论文题目:Zero-shot Visual Question Answering using Knowledge Graph 本文作者:陈卓(浙江大学).陈矫彦(牛津大学).耿玉霞(浙江大学).Jef ...

  2. 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

    随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...

  3. 当知识图谱遇上推荐系统(总述和推荐)

    背景 来学校学习了两个星期了,总结一下,也可供学习这个方向的新人参考. 当知识图谱遇上个性化推荐,这篇文章可以从宏观角度来解释下面四个概念: 1.推荐系统的任务和难点 2.什么是知识图谱 3.知识图谱 ...

  4. 当知识图谱遇上推荐系统之PippleNet模型(论文笔记二)

    RippleNet | Propagating User Preferences on the Knowledge 类别:联合学习 将知识图谱特征学习和推荐算法的目标函数结合,使用端到端(end-to ...

  5. 当知识图谱遇上文本摘要:保留抽象式文本摘要的事实性知识

    论文标题: Boosting Factual Correctness of Abstractive Summarization with Knowledge Graph 论文作者: Chenguang ...

  6. 当知识图谱遇上推荐系统之DKN模型(论文笔记一)

    Deep Knowledge-Aware Network for News Recommendation 类别:依次学习 首先使用知识图谱特征学习得到实体向量和关系向量,然后将这些低维向量引入推荐系统 ...

  7. 当知识图谱遇上推荐系统之MKR模型(论文笔记三)

    Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation 类别:交替学习 将知识图谱特征学习和推荐算法视为两个分离 ...

  8. 论文浅尝|简单高效的知识图谱表示学习负样本采样方法

    笔记整理 | 陈名杨,浙江大学在读博士生,主要研究方向为知识图谱表示学习 Introduction 研究知识图谱表示学习(KnowledgeGraph Embedding)可以解决当前很多应用的基本问 ...

  9. 谁能解答我对知识图谱的上百个疑问?

    近日,我们采访了东南大学认知智能研究所所长漆桂林教授和复旦大学知识工场实验室负责人肖仰华教授,围绕知识图谱这两年在研究与产业应用道路上的一些进展与仍面临的问题.漆桂林教授提到,近两年,知识图谱的研究在 ...

  10. 论文浅尝 | AAAI2020 - 基于生成对抗的知识图谱零样本关系学习

    论文笔记整理:耿玉霞,浙江大学直博生.研究方向:知识图谱,零样本学习等. 来源:AAAI2020 论文链接:https://arxiv.org/pdf/2001.02332.pdf 本文是发表在AAA ...

最新文章

  1. C++11特性:override
  2. 5.13 卡尔曼滤波
  3. Visual Studio 2008单元测试实践一
  4. SAP CRM WebClient UI的搜索条件是怎么渲染出来的
  5. 我为什么要写FansUnion个人官网-BriefCMS-电子商务malling等系统
  6. P1445-[Violet]樱花【数学】
  7. java学习(31):for循环
  8. sublime text3c语言编译运行,c – Sublime text 3 – 编译程序并在终端中运行
  9. thinking in java -- notes-2
  10. AJAX全套(JSONP、CORS)
  11. J2EE 读取资源文件properties的三种方式
  12. php的curl函数模拟post、get数据提交,速度非常慢的处理办法
  13. Qpython实现命令行的贪吃蛇
  14. 搜索引擎与信息处理 复习笔记
  15. extjs 渲染之前的方法_extjs重新渲染组件
  16. 牛客SQL3查询薪水详情和部门编号
  17. 转载Flickr 网站架构分析
  18. OSIRISV4.1使用教程(最新可用版)
  19. H5如何实现图文一行分布且图片在左侧而文字在右侧
  20. java 超卖_Java生鲜电商平台-秒杀系统如何防止超买与超卖?(小程序/APP)

热门文章

  1. java判断string字符串是不是json格式
  2. 《Linux命令行与shell脚本编程大全 第3版》Linux命令行---41
  3. 《剑指Offer》面试题5-替换空格
  4. 编写可维护的javascript代码--- 2015.11.21(基本格式化)
  5. Win7升Windows10有获取通知,但是就不推送的解决方法
  6. ArcSDE 10.2 for Oracle 12C安装注意事项
  7. C#递归拷贝文件夹下文件以及文件夹
  8. 企业中该如何防止僵尸网络的入侵?
  9. 前台页面操作文件属性。
  10. 读取classpath配置文件的方法