【论文阅读】Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA
【论文阅读】Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA
- motivation
- 任务
- 现有方法的不足
- 创新点
- contribution
- method
- overview
- A common embedding space for all modalities
- Embedding of question words
- Embedding of detected objects
- Embedding of OCR tokens with rich representations
- Multimodal fusion
- iterative answer prediction with pointer-augmented transformers
- experiment
- Evaluation on the TextVQA dataset
- Evaluation on the ST-VQA dataset
- Evaluation on the OCR-VQA dataset
- conclusion
- related work
- VQA based on reading and understanding image text
- Multimodal learning in vision-and-language tasks
- Dynamic copying with pointers
motivation
任务
解决TextVQA任务,需要阅读和理解图像中的文本来回答一个问题。
(As a prominent task for visual reasoning)
现有方法的不足
现有的TextVQA方法大多基于两种模式之间的自定义成对融合机制,并通过将TextVQA转换为一个分类任务而被限制为一个单一的预测步骤。
创新点
- 在这项工作中,我们提出了一个新的模型的TextVQA任务基于多模态转换架构伴随着一个丰富的文本图像表示。
- 我们的模型通过将不同的模式嵌入到一个共同的语义空间来自然地均匀融合,在这个空间中,自我注意应用于建模模式间和模式内上下文。
- 此外,它还支持使用动态指针网络的迭代答案解码,允许模型通过多步预测而不是一步分类来形成答案。
我们的模型在TextVQA任务的三个基准数据集上大大优于现有的方法。
contribution
- 我们表明,多个(超过两个)输入模态可以通过我们的多模态变压器架构进行自然地融合和联合建模。
- 与之前在TextVQA上的工作不同,我们的模型推理了一个分类步骤之外的答案,并通过我们的点间增强多步骤解码器来预测它。
- 我们对图像中的文本标记采用了丰富的特征表示,并表明了它优于以往工作中仅基于单词嵌入的特征。
- 我们的模型在TextVQA任务的三个具有挑战性的数据集上的工作:TextVQA[44](+相对25%)、ST-VQA[8](+相对65%)和OCR-VQA[37](相对+32%)。
method
overview
我们通过特定于领域的嵌入方法,将所有实体(问题词、检测到的视觉对象和检测到的OCR标记) 投射到一个公共的d维语义空间中,并在投影的事物列表上应用多个转换器层。基于变压器输出,我们通过迭代自回归解码来预测答案,在每一步,我们的模型要么通过动态指针网络选择一个OCR令牌,或者从其固定答案词汇表中选择一个单词。
A common embedding space for all modalities
Embedding of question words
给定一个问题作为K个单词序列,我们将这些单词嵌入预先训练的d维特征向量。在训练期间,使用回答问题的损失对BERT参数进行微调。
Embedding of detected objects
给定一个图像,我们通过一个预先训练好的Faster R-CNN获得一组M个视觉对象。
w1和w2是学习到的投影矩阵。LN是层归一化。xfr 是appearance feature,xb是location feature。
Embedding of OCR tokens with rich representations
- 300维 FastText向量xft,这是一个单词嵌入子字信息
- 一个外观特征xfr从相同的Faster R-CNN探测器目标检测,通过roi池提取OCR令牌的边界框
- 604维金字塔直方图字符(PHOC)xp,捕捉字符——这是更健壮的OCR错误,可以被视为一个粗字符模型
- 一个四维位置特征xb基于OCR令牌的相对边界框坐标[xmin/Wim,ymin/Him,xmax/Wim,ymax/Him]
Multimodal fusion
将每个模态中的所有实体(问题单词、视觉对象和OCR标记)作为向量嵌入到d维关节嵌入空间中,我们在所有K+M+N实体的列表上应用一个L变压器层[48]的堆栈。
通过变压器中的多头自我注意机制,每个实体都可以自由地关注所有其他实体。
这使得通过同一组变压器参数以均匀的方式建模模态间和模态内关系 。从我们的多模态变压器的输出是每个模态中实体的d维特征向量的列表,这可以看作是它们在多模态上下文中的丰富嵌入。
iterative answer prediction with pointer-augmented transformers
我们通过迭代译码来预测这个问题的答案,使用完全相同的变压器层作为解码器。我们以自回归的方式对答案逐字解码,总共有T步,其中每个解码的单词可以是图像中的OCR标记,也可以是我们频繁回答单词的固定词汇表中的一个单词。如图2所示,在解码过程的每一步,我们都对先前预测的词进行嵌入,并基于动态指针网络的变压器输出预测下一个答案词。
- 从固定单词表:
- 从动态OCR:
- 在预测过程中,我们选取固定答案词汇表分数和动态OCR复制分数的所有连接上的argmax,从所有V+N候选项中选择得分最高的元素(词汇表单词或OCR标记)。
在我们的迭代自回归解码过程中,如果解码时间步t的预测是一个OCR令牌,我们将其OCR表示xocrn作为变压器输入xdect+1提供给下一个预测步骤t+1。否则(前面的预测是来自固定答案词汇表的一个单词),我们输入其相应的权重向量wvoc。作为下一步的输入xdect+1。此外,我们还添加了两个额外的d维向量作为输入——一个对应于步骤t的位置嵌入向量,以及一个对应于先前预测是固定词汇表词还是OCR标记的类型嵌入向量。与机器翻译类似,我们用两个特殊的令牌来增加我们的回答词汇表,<开始>和<结束>。这里使用作为第一个解码步骤的输入,我们在预测后停止解码过程。
确保因果关系回答解码,我们面具的注意权重的变压器架构[48]问题词,检测对象和OCR令牌不能参加任何解码步骤,和所有解码步骤只能参加之前的解码步骤除了问题,检测对象和OCR令牌。这类似于前缀LM技术。
experiment
我们在TextVQA任务的三个具有挑战性的数据集上评估了我们的模型,包括TextVQA[44]、ST-VQA[8]和OCR-VQA[37]。
Evaluation on the TextVQA dataset
Evaluation on the ST-VQA dataset
Evaluation on the OCR-VQA dataset
conclusion
在本文中,我们提出了多模态多拷贝网格(M4C),用于基于对图像中文本的理解和推理的视觉问题回答。M4C对图像中的文本采用丰富的表示,通过联合嵌入空间上的指针增强多模态转换架构联合建模所有模式,并通过迭代解码预测答案,在TextVQA任务的三个具有挑战性的数据集上大大超过之前的工作。我们的结果表明,通过领域特定的嵌入和同质自注意来处理多种模式,并生成复杂的答案作为多步解码,而不是一步分类。
related work
VQA based on reading and understanding image text
Multimodal learning in vision-and-language tasks
Dynamic copying with pointers
【论文阅读】Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA相关推荐
- Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA
1. Abstract Visual Question Answering (VQA)任务,忽略一个重要的模态-图像中的文本,它承载着场景理解和推理的基本信息.例如,在图1中,标志上的深水警告人们现场 ...
- 论文阅读:Fixation Prediction for 360° Video Streaming in Head-Mounted Virtual Reality
论文名字 Fixation Prediction for 360° Video Streaming in Head-Mounted Virtual Reality 来源 会议 Proceedings ...
- 论文阅读 | Optimizing Video Prediction via Video Frame Interpolation
前言:CVPR2022利用视频插帧做视频预测的文章,用到的是优化的思想,不用训练网络 论文地址:[here] Optimizing Video Prediction via Video Frame I ...
- 论文阅读笔记:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录 前言 介绍 背景知识 相关工作 具体实现结构 Pre-training BERT Fine-tun ...
- 【论文阅读笔记】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT的出现使我们终于可以在一个大数据集上训练号一个深的神经网络,应用在很多NLP应用上面. BERT: Pre-training of Deep Bidirectional Transformer ...
- SA-M4C : Spatially Aware Multimodal Transformers for TextVQA --- 论文阅读笔记
Paper : https://arxiv.org/abs/2007.12146 [ECCV2020] spatially aware self-attention layer : 使用空间图定义每一 ...
- 【论文阅读】mmSampler: Efficient Frame Sampler for Multimodal Video Retrieval【MLSys 2022】
文章目录 前置知识 摘要(Abstract) 引言(Introduction) Paper: MLSys 2022 Author: Samsung AI Centre, Toronto, Canada ...
- 【ECCV2022】论文阅读笔记TransMatting: Enhancing Transparent Objects Matting with Transformers
TransMatting: Enhancing Transparent Objects Matting with Transformers TransMatting: 使用Transformers增强 ...
- 【论文阅读笔记|ICLR2021】TANL:Structured Prediction as Translation between Augmented Natural Languages
论文题目:Structured Prediction as Translation between Augmented Natural Languages 论文来源:ICLR2021 论文链接:210 ...
- 论文阅读: Channel Augmented Joint Learning for Visible-Infrared Recognition
论文阅读: Channel Augmented Joint Learning for Visible-Infrared Recognition code: https://gitee.com/mind ...
最新文章
- 使用嵌套的Repeater控件显示分级数据
- 【jstl】jstl的基本操作
- Android学习——基础组件
- Python:高级主题之(属性取值和赋值过程、属性描述符、装饰器)
- Java设计模式之行为型:模板方法模式
- C++longest common string最长公共字符串的实现(附完整源码)
- 一个4体低位交叉的存储器_前交叉韧带术后关节粘连的康复策略
- Oracle的 MODEL 查询
- 小米“祭出” AIoT 神器!| 技术头条
- 认识HTML与CSS
- 伯克利推出世界最快的KVS数据库Anna:秒杀Redis和Cassandra
- 茶余饭后聊Spring 一
- 深度学习实战7-电商产品评论的情感分析
- 向量加减法首尾规律_向量的加减法
- http请求 405错误 方法不被允许 (Method not allowed)
- mysql中between..and的用法
- 【WZOI】默写数字
- PTA L1-039 python实现
- 《软件方法》第二章 自测题
- 快速排序——寻找数组第K大数(由浅入深,四种方法对比讲解!)