【论文阅读】Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA

motivation
- 任务
- 现有方法的不足
- 创新点
contribution
method
- overview
- A common embedding space for all modalities
- - Embedding of question words
  - Embedding of detected objects
  - Embedding of OCR tokens with rich representations
- Multimodal fusion
- iterative answer prediction with pointer-augmented transformers
experiment
- Evaluation on the TextVQA dataset
- Evaluation on the ST-VQA dataset
- Evaluation on the OCR-VQA dataset
conclusion
related work
- VQA based on reading and understanding image text
- Multimodal learning in vision-and-language tasks
- Dynamic copying with pointers

motivation

任务

解决TextVQA任务，需要阅读和理解图像中的文本来回答一个问题。
（As a prominent task for visual reasoning）

现有方法的不足

现有的TextVQA方法大多基于两种模式之间的自定义成对融合机制，并通过将TextVQA转换为一个分类任务而被限制为一个单一的预测步骤。

创新点

在这项工作中，我们提出了一个新的模型的TextVQA任务基于多模态转换架构伴随着一个丰富的文本图像表示。
我们的模型通过将不同的模式嵌入到一个共同的语义空间来自然地均匀融合，在这个空间中，自我注意应用于建模模式间和模式内上下文。
此外，它还支持使用动态指针网络的迭代答案解码，允许模型通过多步预测而不是一步分类来形成答案。

我们的模型在TextVQA任务的三个基准数据集上大大优于现有的方法。

contribution

我们表明，多个（超过两个）输入模态可以通过我们的多模态变压器架构进行自然地融合和联合建模。
与之前在TextVQA上的工作不同，我们的模型推理了一个分类步骤之外的答案，并通过我们的点间增强多步骤解码器来预测它。
我们对图像中的文本标记采用了丰富的特征表示，并表明了它优于以往工作中仅基于单词嵌入的特征。
我们的模型在TextVQA任务的三个具有挑战性的数据集上的工作：TextVQA[44]（+相对25%）、ST-VQA[8]（+相对65%）和OCR-VQA[37]（相对+32%）。

method

overview

我们通过特定于领域的嵌入方法，将所有实体(问题词、检测到的视觉对象和检测到的OCR标记) 投射到一个公共的d维语义空间中，并在投影的事物列表上应用多个转换器层。基于变压器输出，我们通过迭代自回归解码来预测答案，在每一步，我们的模型要么通过动态指针网络选择一个OCR令牌，或者从其固定答案词汇表中选择一个单词。

A common embedding space for all modalities

Embedding of question words

给定一个问题作为K个单词序列，我们将这些单词嵌入预先训练的d维特征向量。在训练期间，使用回答问题的损失对BERT参数进行微调。

Embedding of detected objects

给定一个图像，我们通过一个预先训练好的Faster R-CNN获得一组M个视觉对象。

w1和w2是学习到的投影矩阵。LN是层归一化。x^fr 是appearance feature，x^b是location feature。

Embedding of OCR tokens with rich representations

300维 FastText向量x^ft，这是一个单词嵌入子字信息
一个外观特征x^fr从相同的Faster R-CNN探测器目标检测，通过roi池提取OCR令牌的边界框
604维金字塔直方图字符(PHOC)x^p，捕捉字符——这是更健壮的OCR错误，可以被视为一个粗字符模型
一个四维位置特征x^b基于OCR令牌的相对边界框坐标[xmin/Wim，ymin/Him，xmax/Wim，ymax/Him]

Multimodal fusion

将每个模态中的所有实体(问题单词、视觉对象和OCR标记)作为向量嵌入到d维关节嵌入空间中，我们在所有K+M+N实体的列表上应用一个L变压器层[48]的堆栈。
通过变压器中的多头自我注意机制，每个实体都可以自由地关注所有其他实体。
这使得通过同一组变压器参数以均匀的方式建模模态间和模态内关系 。从我们的多模态变压器的输出是每个模态中实体的d维特征向量的列表，这可以看作是它们在多模态上下文中的丰富嵌入。

iterative answer prediction with pointer-augmented transformers

我们通过迭代译码来预测这个问题的答案，使用完全相同的变压器层作为解码器。我们以自回归的方式对答案逐字解码，总共有T步，其中每个解码的单词可以是图像中的OCR标记，也可以是我们频繁回答单词的固定词汇表中的一个单词。如图2所示，在解码过程的每一步，我们都对先前预测的词进行嵌入，并基于动态指针网络的变压器输出预测下一个答案词。

从固定单词表：
从动态OCR：
在预测过程中，我们选取固定答案词汇表分数和动态OCR复制分数的所有连接上的argmax，从所有V+N候选项中选择得分最高的元素(词汇表单词或OCR标记)。

在我们的迭代自回归解码过程中，如果解码时间步t的预测是一个OCR令牌，我们将其OCR表示x^ocrn作为变压器输入x^dect+1提供给下一个预测步骤t+1。否则（前面的预测是来自固定答案词汇表的一个单词），我们输入其相应的权重向量w^voc。作为下一步的输入x^dect+1。此外，我们还添加了两个额外的d维向量作为输入——一个对应于步骤t的位置嵌入向量，以及一个对应于先前预测是固定词汇表词还是OCR标记的类型嵌入向量。与机器翻译类似，我们用两个特殊的令牌来增加我们的回答词汇表，<开始>和<结束>。这里使用作为第一个解码步骤的输入，我们在预测后停止解码过程。

确保因果关系回答解码，我们面具的注意权重的变压器架构[48]问题词，检测对象和OCR令牌不能参加任何解码步骤，和所有解码步骤只能参加之前的解码步骤除了问题，检测对象和OCR令牌。这类似于前缀LM技术。

experiment

我们在TextVQA任务的三个具有挑战性的数据集上评估了我们的模型，包括TextVQA[44]、ST-VQA[8]和OCR-VQA[37]。

Evaluation on the TextVQA dataset

Evaluation on the ST-VQA dataset

Evaluation on the OCR-VQA dataset

conclusion

在本文中，我们提出了多模态多拷贝网格(M4C)，用于基于对图像中文本的理解和推理的视觉问题回答。M4C对图像中的文本采用丰富的表示，通过联合嵌入空间上的指针增强多模态转换架构联合建模所有模式，并通过迭代解码预测答案，在TextVQA任务的三个具有挑战性的数据集上大大超过之前的工作。我们的结果表明，通过领域特定的嵌入和同质自注意来处理多种模式，并生成复杂的答案作为多步解码，而不是一步分类。

related work

VQA based on reading and understanding image text

Multimodal learning in vision-and-language tasks

Dynamic copying with pointers

【论文阅读】Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA相关推荐

Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA
1. Abstract Visual Question Answering (VQA)任务,忽略一个重要的模态-图像中的文本,它承载着场景理解和推理的基本信息.例如,在图1中,标志上的深水警告人们现场 ...
论文阅读：Fixation Prediction for 360° Video Streaming in Head-Mounted Virtual Reality
论文名字 Fixation Prediction for 360° Video Streaming in Head-Mounted Virtual Reality 来源会议 Proceedings ...
论文阅读 | Optimizing Video Prediction via Video Frame Interpolation
前言:CVPR2022利用视频插帧做视频预测的文章,用到的是优化的思想,不用训练网络论文地址:[here] Optimizing Video Prediction via Video Frame I ...
论文阅读笔记：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录前言介绍背景知识相关工作具体实现结构 Pre-training BERT Fine-tun ...
【论文阅读笔记】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT的出现使我们终于可以在一个大数据集上训练号一个深的神经网络,应用在很多NLP应用上面. BERT: Pre-training of Deep Bidirectional Transformer ...
SA-M4C : Spatially Aware Multimodal Transformers for TextVQA --- 论文阅读笔记
Paper : https://arxiv.org/abs/2007.12146 [ECCV2020] spatially aware self-attention layer : 使用空间图定义每一 ...
【论文阅读】mmSampler: Efficient Frame Sampler for Multimodal Video Retrieval【MLSys 2022】
文章目录前置知识摘要(Abstract) 引言(Introduction) Paper: MLSys 2022 Author: Samsung AI Centre, Toronto, Canada ...
【ECCV2022】论文阅读笔记TransMatting: Enhancing Transparent Objects Matting with Transformers
TransMatting: Enhancing Transparent Objects Matting with Transformers TransMatting: 使用Transformers增强 ...
【论文阅读笔记|ICLR2021】TANL:Structured Prediction as Translation between Augmented Natural Languages
论文题目:Structured Prediction as Translation between Augmented Natural Languages 论文来源:ICLR2021 论文链接:210 ...
论文阅读： Channel Augmented Joint Learning for Visible-Infrared Recognition
论文阅读: Channel Augmented Joint Learning for Visible-Infrared Recognition code: https://gitee.com/mind ...

【论文阅读】Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA

【论文阅读】Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA

motivation

任务

现有方法的不足

创新点

contribution

method

overview

A common embedding space for all modalities

Embedding of question words

Embedding of detected objects

Embedding of OCR tokens with rich representations

Multimodal fusion

iterative answer prediction with pointer-augmented transformers

experiment

Evaluation on the TextVQA dataset

Evaluation on the ST-VQA dataset

Evaluation on the OCR-VQA dataset

conclusion

related work

VQA based on reading and understanding image text

Multimodal learning in vision-and-language tasks

Dynamic copying with pointers

【论文阅读】Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA相关推荐

最新文章

热门文章