链接:http://www.public.asu.edu/~cbaral/papers/2018-aaai-psl.pdf

概述

视觉问答(Visual Question Answering)现有两大类主流的问题, 一是基于图片的视觉问答(ImageQuestion Answering), 二是基于视频的视觉问答( Video Question Answering).而后者在实际处理过程中, 常常按固定时间间隔取帧,将视频离散化成图片(frame)的序列,剔除大量冗余的信息, 以节省内存.

当前视觉问答的研究主要关注以下三个部分:

  1. 延续自然语言处理中, 对注意力机制(Attention Mechanism) 和记忆网络(Memory Network) 的研究,旨在通过改进二者提高模型对文本和图像信息的表达能力,通过更丰富的分布式表示来提升模型的精度.另一方面,也可以视作是对神经计算机(Neural Machine) 其中键值模块(Key-value, 对应注意力)和缓存模块(Cache, 对应记忆网络)的改进.

  2. 密集地研究可解释性(Interpretability)和视觉推理(Visual Reasoning) . 对同领域多源异构数据,这类研究方向将问答视为一种检索或人机交互方式,希望模型能提供对交互结果(即答案)的来由解释.

  3. 将文本或图像, 以及在图像中抽取的一系列信息, 如场景图谱(SceneGraph), 图片标题(Image Caption)等视为是”知识来源”, 在给定一个问题时,如何综合考虑所有的知识,并推断出最后的答案.

文章开头提到的论文,便是朝着第三个方向再迈进一步.

模型

本文提出的主要模型,是一个基于一阶谓词概率软逻辑(Probabilistic Soft Logic)的显式推理机. 如果你已经训练好了一个用于视觉问答的神经网络模型,那么这个显式推理机可以根据模型的输出结果, 综合考虑信息后,更正原本模型的输出结果. 这样的后处理能提升模型的精度.下图就是一个这样的例子.

图 1:一个正面例子

图 1 中红色六边形标示的 “PSL Engine”, 是显式推理的核心部分.通过这一个部分, 将 “VQA” 的预测结果与” Visual Relation(视觉关系)”,“Question Relation(问题关键词关系)”和”Phrasal Knowledge(语言常识)”三部分信息综合起来,进行推理, 更新答案. 此处是一个正向例子.

推理过程具体如下:

  1. 生成 VQA 答案: 存在一个视觉问答的神经网络模型, 对于这幅图片和相应问题,预测出最有可能的答案是:教堂(church) 和谷仓(barn).

  2. 生成Visual Relation: 通过利用Dense Captioning system(Johnson, Karpathy, and Fei-Fei 2016) 生成图片的文本描述, 再用Stanford Dependency Parsing(De Marneffe et al. 2006) 抽取生成描述中的关键词,再启发式的方法为关键词对添加上关系,构成三元组.这代表了从图片中抽取出有效的结构化信息.

  3. 生成 Question Relation: 再次使用StanfordDependency Parsing及启发式方法抽取问题中包含的三元组信息.

  4. 生成 Phrasal Knowledge: 将所有相关关键词在ConceptNet 和词向量中索引,并计算相似度.

  5. 由概率软逻辑推理引擎综合前面四步生成的所有信息, 更新 VQA 答案对应的得分,并重新排序,得到新的结果.

在推理过程中,使用了概率软逻辑, 来综合考量各种生成的事实. 其核心思想是: 由谓词和变元组成的命题, 真值不在局限于1或0(真或假), 而是可以在闭区间[0, 1]上取值. 一个简单的例子是:

“X和Y是朋友关系且Y为 Z投票, 蕴含X为 Z 投票”的权重是0.3. 而“X和Y是伴侣关系且Y为Z投票, 蕴含X 为 Z 投票”的权重是0.8. 回到本文的例子, 综合所有生成的命题并进行推理的过程如下:

在此, 命题的权重w_i 是需要学习的部分. 而优化的目标是使得满足最多条件的正确答案的权重最高.

实验

在数据集MSCOCO-VQA(Antol et al. 2015) 测试. 让我们看看效果:

图 2:实验结果中的 8 个例子

笔记整理:杨海宏,浙江大学博士,研究方向为知识问答与推理。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 端到端神经视觉问答之上的显式推理相关推荐

  1. 论文浅尝 | 一种用于多关系问答的可解释推理网络

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答. 来源:COLING 2018 链接:https://www.aclweb.org/anthology/C18-1171 问题背景与 ...

  2. 论文浅尝 | 基于多模态特征的视觉实体链接

    转载公众号 | 数据智能英文刊 文章题目:Visual Entity Linking via Multi-modal Learning 作者:郑秋硕,闻浩,王萌,漆桂林 引用:Zheng, Q.S., ...

  3. 论文浅尝 | emrKBQA: 一个面向临床医疗问答的KBQA数据集

    笔记整理 |  谭亦鸣,东南大学博士生 来源:BioNLP '21 workshop, ACL '21 链接:https://www.aclweb.org/anthology/2021.bionlp- ...

  4. 论文浅尝 - AAAI2020 | 从异质外部知识库中进行基于图的推理实现常识知识问答...

    会议:AAAI2020 论文链接:https://arxiv.org/pdf/1909.05311.pdf 摘要 常识问答旨在回答需要背景知识的问题,而背景知识并未在问题中明确表达.关键的挑战是如何从 ...

  5. 论文浅尝 | 基于时序知识图谱的问答

    笔记整理:姚云志,浙江大学在读博士,研究方向为自然语言处理. 链接:https://arxiv.org/pdf/2106.01515.pdf 时序知识图谱是一种多关系的知识图谱,相较于常规的知识图谱, ...

  6. 论文浅尝 | 用于视觉推理的显式知识集成

    论文笔记整理:刘克欣,天津大学硕士 链接:https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Explicit_Knowledge_ ...

  7. 论文浅尝 | 神经符号推理综述(下)

    笔记整理 | 许泽众,浙江大学在读博士 3.神经驱动的符号推理 相比于之前的两种类型,神经驱动的符号推理的目的是挖掘规则,而神经网络在其中扮演的作用是解决纯符号推理的不确定性,并且能够有效的减少搜索空 ...

  8. 论文浅尝 | 图神经网络综述:方法及应用

    论文链接:https://arxiv.org/pdf/1812.08434.pdf GNN相关论文列表链接:https://github.com/thunlp/GNNPapers 近日,清华刘知远老师 ...

  9. 论文浅尝 | 近期论文精选

    本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接,感谢 PaperWeekly! TheWebConf 2018 ■ 链接 | https://ww ...

最新文章

  1. python cvxpy包安装教程
  2. 第二阶段团队项目冲刺第六天
  3. NA-NP-IE系列实验26: 基于链路的OSPF 简单口令认证
  4. python用xlrd怎么清洗数据_用Python进行数据清洗!
  5. 低延时直播与RTC融合架构设计②:直播与RTC低延时方案
  6. 服务器无线不能登录界面,Web认证无法跳转到登录页面
  7. LeetCode OJ 147. Insertion Sort List
  8. C#在Linux+Mono环境中使用微信支付证书
  9. C#WinForm WebBrowser (二) 实用方法总结
  10. $.ajax注册表单
  11. linux运行powershell,linux – 是否可以编写一个在bash / shell和PowerShell中运行的脚本?...
  12. 解决pytorch softmax警告UserWarning: Implicit ....Change the call to include dim=X as an argument.
  13. C语言之字符串探究(八):strchr、strstr、strtok
  14. micropython和python区别-什么是 MicroPython ?它有什么优势?
  15. PETSHOP模式IDAL,SQLSERVERDAL,存储过程以及模型类代码的生成工具
  16. Eclipse学习笔记——快捷键
  17. 康普顿效应是弹性碰撞吗_弹性填料用于洗涤塔
  18. 数字金额转换成中文大写金额的函数
  19. R语言数据可视化案例(世界杯球员信息数据可视化)
  20. 网络层和传输层各种协议

热门文章

  1. Flash 与数学:圆的切线(3)
  2. 多线程死锁及解决办法
  3. Android 亮屏速度分析
  4. java实现itchat_GitHub - Xiazki/itchat4j: wechatbot 的java实现,简单搭建了基本框架和实现了扫码登陆,具体网页微信api请参考...
  5. python模块的定义_Python基础编程 模块的引入与定义
  6. ValueError: check_hostname requires server_hostname的解决办法
  7. 三、PHP框架Laravel学习笔记——路由参数、重定向、视图
  8. LeetCode 2140. 解决智力问题(动态规划)
  9. LeetCode 2131. 连接两字母单词得到的最长回文串
  10. 天池 在线编程 输入流