Retrieval Augmented Visual Question Answering with Outside Knowledge
Paper name
Retrieval Augmented Visual Question Answering with Outside Knowledge
Paper Reading Note
URL: https://arxiv.org/pdf/2210.03809.pdf
TL;DR
- EMNLP 2022 文章,提出名为 RA-VQA 的一种联合训练方案,该方案可以同时训练答案生成模块和文档检索模块,从而可以以端到端的方式训练系统
Introduction
背景
- 外部知识视觉问答(OK-VQA)是一项具有挑战性的VQA任务,需要检索外部知识来回答有关图像的问题
- 最近的OKVQA系统使用密集段落检索(DPR)从外部知识库(如维基百科)检索文档,但DPR与答案生成分开训练,这可能会限制系统的整体性能
- 之前的工作 Retrieval Augmented Generation (RAG) 已经表明,基于DPR的QA系统端到端联合训练可以优于两步系统的 baseline;RAG 的一个显著特征是它的损失函数:它结合了检索到的文档的边缘似然,使得每当文档改进预测时,文档的训练分数都会增加。然而在 OK-VQA 上初步做 RAG 实验并没有好的效果,经过调查发现,OK-VQA训练问题中的很大一部分可以通过仅从图像中提取的信息以闭卷形式回答(即使用T5等预训练模型(Raffel等人,2020)),结果是RAG损失函数在文档上进行的 award 实际上没有助于回答问题;另外 OK-VQA 比 RAG 做实验的 Open QA 数据集更难,存在更多的无法用可检索的知识回答的疑难问题
- 本文制定了一个损失函数,避免在存在不相关文档的情况下向检索模型发送误导信号
本文方案
- 本文提出了一种联合训练方案,该方案包括与答案生成集成的可微DPR,从而可以以端到端的方式训练系统
- 还引入了新的诊断指标来分析检索和生成是如何交互的
- 本文模型的强大检索能力显著减少了训练中所需的检索文档数量,在训练所需的答案质量和计算资源方面产生了显著的好处
- 本文主要贡献有
- 提出了一种用于知识检索和答案生成的联合训练框架(RA-VQA),改进了Retrieval Augmented Generation (RAG) 和基于DPR的两步基线系统
- 调查了转化为“语言空间”的视觉基础特征,并评估其对OK-VQA性能的贡献
- 研究了文档检索在KB-VQA中的作用,并评估了其与检索增强生成的交互作用。同时还表明,在联合训练中,检索变得更加有效,需要在训练中检索相对较少的(~5)文档
Dataset/Algorithm/Model/Experiment Detail
实现方式
Vision-to-Language Transformation
- 在RA-VQA中,每个图像都由视觉目标及其属性、图像标题和图像中检测到的任何文本字符串表示
- 目标检测模型使用 VinVL,属性包括颜色和材质
- 图像标题模型用的是 Oscar+
- 文本字符串用 Google OCR API 来提取
- 基于上述模型处理,视觉图片被处理为只有文本的训练集
Weakly-supervised Dense Passage Retrieval (DPR)
- DPR 包含 query encoder 和 document encoder,都是 transformer 结构,目标是基于与 query 的相似性从外部数据库中检索出 K 个有助于回答问题的 document,相似性就是特征內积计算得到
- RA-VQA 在训练过程中对于 document 和回答问题相关时,最大化相似度 r(x, z)
- 基于伪相关作为监督信号:当 document z 中包含答案时(通过字符串匹配)相关性为 1,否者为 0。DPR 的 loss 函数如下
其中 r+ 为正样本,r为负样本
- 基于伪相关作为监督信号:当 document z 中包含答案时(通过字符串匹配)相关性为 1,否者为 0。DPR 的 loss 函数如下
Joint Training of Retrieval and Answer Generation
- DPR 基于 query x 从数据库中检索出最相关的 document z,检索的 document 的分数基于如下公式计算
- 基于 T5 之类的文本模型生成答案
- 对于训练样本检索到的每个 document,都与 x concat 后生成答案 s k ∗ s_{k}^{*} sk∗,对于答案集 S 中的答案,如果在 document 中则会被选择为 gt,如果 document 中不包含任何答案,则选择 S 中最 popular (OKVQA 每个问题有5个标注员,投票最多的答案是最 popular) 的答案作为 gt
- 基于模型预测结果和伪相关标签将检索的 document 分为两类
P+ 是伪相关文档的索引,同时也有助于模型生成 popular 答案;P- 是指不利于生成答案的文档,训练loss 如下
损失中的第一项改进了从查询和检索到的文档中生成答案的能力;其余项影响文档检索能力:第二个 loss 鼓励检索不仅伪相关而且能够产生正确答案的文档,而第三个术语用于从排名靠前的检索文档中删除不相关的项目。信息流示意图如下
检索和生成在训练中相辅相成:伪相关性标签和模型预测为改进检索提供了积极和消极的信号,而改进的检索通过对 s k ∗ s_{k}^{*} sk∗ 的训练改进了答案生成(因为对每个检索到的 document 都生成了答案)
RA-VQA Generation
- 联合检索和生成的置信度确定最终答案
实验结果
实验配置
- 知识库选择用 corpus GS-full:包含 168,306 documents
- 知识库检索模型用 BERT-base
- 答案生成模型用 T5-large
- 本文方法的变种模型
- RA-VQA-NoDPR:完全省略检索,因此仅通过微调T5生成答案,即答案生成简化为
- RA-VQA-FrDPR:检索模型固定参数,只对答案生成模型进行 finetune
- RA-VQA-NoPR:文档检索模型仅使用模型预测进行训练,即正负样本定义修改为如下
- RA-VQA-NoCT:gt 直接使用答案集中最 popular 的答案
- RA-VQA-NoDPR:完全省略检索,因此仅通过微调T5生成答案,即答案生成简化为
评价指标
- VQA Score:与 OK-VQA 数据集提出的指标一样
#S (y) 是标注 y 的标注员数目。这个分数确保了模型得到部分奖励,即使它从人类的反应中产生了一个不太受欢迎的答案 - Exact Match (EM):对人类标注的标签平等对待
与 SOTA 对比
- 与类似的工作 TRiG 相比精度更高;与 KAT-T5 比也是有很大优势;与带 GPT-3 的 KAT 比精度差不多,不过 GPT-3 参数量大
Thoughts
- end-to-end 对文档检索模块和答案生成模块都进行联合训练看起来是很科学的,相比于类似计算量的 KAT-T5 优势很明显
Retrieval Augmented Visual Question Answering with Outside Knowledge相关推荐
- R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering
博主水平有限,大部分为机翻 摘要: 最近,视觉问答(VQA)已经成为多模式学习中最重要的任务之一,因为它需要理解视觉和文本模式.现有方法主要依靠提取图像和问题特征来通过多模态融合或注意机制来学习它们的 ...
- 论文-《Visual Question Answering as Reading Comprehension Hui》笔记
论文下载 摘要: Visual question answering (VQA) demands simultaneous comprehension of both the image visual ...
- Visual Question Answering概述
目录 任务描述 应用领域 主要问题 主流框架 常用数据集 Metrics 部分数据集介绍摘自这篇博客 任务描述 输入:图片III.由nnn个单词组成的问题Q={q1,...,qn}Q=\{ q_1,. ...
- <<视觉问答>>2021:Zero-shot Visual Question Answering usingKnowledge Graph
目录 摘要: 一.介绍 二.相关工作 2.1.Visual Question Answering 2.2.Zero-shot VQA 三.Preliminaries 四.Methodology 4.1 ...
- Visual Question Answering: Datasets, Algorithms, and Future Challenges心得体会
最近刚好在写综述,也看了一篇较早的综述性文章,作为VQA入门性文章还是值得一看的,这边自己记录了一下关于这篇文章的阅读体会,以及相关部分翻译,以供自己学习写作为用. 文章下载地址:Visual Que ...
- 视觉问答(Visual Question Answering)论文初步整理
刚找的综述性文章:这两篇我没怎么看不知道怎么样 Visual Question Answering: Datasets,Algorithms, and Future Challenges Visual ...
- 【自然语言处理】--视觉问答(Visual Question Answering,VQA)从初始到应用
一.前述 视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务.这一任务的定义如下: A VQA system takes as inp ...
- 论文笔记:Visual Question Answering as a Meta Learning Task
Visual Question Answering as a Meta Learning Task ECCV 2018 2018-09-13 19:58:08 Paper: http://opena ...
- VALSE学习(五):看图说话-Visual Question Answering as Reading Comprehension
VALSE2019 一.Visual Question Answering as Reading Comprehension 简介:开发一种能够对图像提出智能的.面向目标的问题的方法被证明是一个难以理 ...
最新文章
- 【杂谈】想成为机器学习学霸?先学会做笔记吧
- linux静态编译libcurl,libcurl嵌入式Linux移植
- 将数组按指定大小分组
- mysql 8.0 集群_集群架构03·MySQL初识,mysql8.0环境安装,mysql多实例
- c++ pdflib输出表格_DescrTab2包,输出SCI级别的描述统计表
- Navicat for mysql 远程连接 mySql数据库10061错误问题
- Docker(三)关于docker 的应用场景
- 计算机无法从硬盘启动怎么办,电脑不能从硬盘启动应该怎么解决
- SVN的各种符号含义,svn的星号,感叹号,问号等含义
- cognos java_cognos与java结合 ?急!急!急!
- 高通WIFI模块QCA9377 调试
- Android opencv 检测屏幕是否有坏点/检测一个颜色是否有杂点
- Spring自定义消息转换器替换ResponseBody
- 武大三行情书第一名---《螃蟹在剥我的壳》
- 中央处理器cpu中的什么是计算机的指挥中,计算机中央处理器CPU的组成有哪些
- 电脑wps可以语音录入吗_wps语音输入功能在哪
- CSS : 文字彩色抖动效果
- Python 防止死锁的方法
- 怎么将多张图片拼在一起?分享几种好用的拼图工具
- 数据结构:使用链栈实现回文判断
热门文章
- 【漫画】推荐功能强大的黑科技神器
- 20222023华为OD机试 - 竖直四子棋(Python)
- react减少子组件重复渲染的优化方法
- https ssl(tls)为什么不直接用公钥加密数据?
- 微信小程序:一是款充满无限可能的产品
- const mutable
- codeforces 1716 C Robot in a Hallway
- 计算机如何分区不使用第三方应用,【干货】如何不用重装系统就将硬盘重新分区?...
- spring-bootsql导出date字段时区错误以及格式转换
- Facebook如何击溃Myspace,Yahoo!和Google?(转载)