【多模态】《Visual7W: Grounded Question Answering in Images》论文阅读笔记

本文是做视觉问答的，模型的主要创新点在于在LSTM中融入对图像特定区域的attention——在 LSTM 架构中添加了一种新的空间注意机制，用于通过文本和视觉答案来处理基于视觉的 QA 任务。该模型旨在捕捉对图像相关问题的答案通常与特定图像区域相对应的直觉。当它按顺序读取问题标记时，它会学习关注相关区域。

模型架构为：

给定一个图像 I 和一个问题 Q = (q1, q2, . . . , qm)，我们学习图像的嵌入和单词标记如下：

F(·) 将图像 I 从像素空间转换为 4096 维的特征表示。我们从预训练的 CNN 模型 VGG-16 的最后一个全连接层 (fc7) 中提取。

OH(·) 将单词标记转换为其 one-hot 表示。

Wi 矩阵将 4096 维的图像特征转换为二维嵌入空间 v0，Ww 将 one-hot 向量转换为 dw 维嵌入空间 vi。我们将 di 和 dw 设置为相同的值 512。

我们将图像作为第一个输入标记。这些嵌入向量 v0,1,…,m 被一一输入 LSTM 模型。我们的 LSTM 模型的更新规则可以定义如下：

注意：在LSTM更新公式中，vtv_tvt是当前时间步的输入，ht−1h_{t-1}ht−1是上一个时间步的隐藏层状态，rtr_trt是为了多模态融合而添加的attention，它是基于ht−1h_{t-1}ht−1和每一个视觉区域C(I)而计算出权重，然后对视觉区域C(I)加权求和得到的。C(I)是从同一 VGG-16 模型的第四个卷积层返回图像 I 的 14 × 14 512 维卷积特征图

【多模态】《Visual7W: Grounded Question Answering in Images》论文阅读笔记相关推荐

Open-Domain Question Answering相关部分论文阅读摘要
主要内容 Open-Domain Question Answering相关部分论文阅读摘要 DrQA(Reading Wikipedia to Answer Open-Domain Questions ...
视频问答与推理(Video Question Answering and Reasoning)——论文调研
文章目录 0. 前言 1. ACM MM 2. CVPR 3. ICCV 4. AAAI 更新时间--2019.12 首稿 0. 前言学习 VQA 的第一步--前期论文调研. 调研近几年在各大会议上 ...
语音情感识别领域-论文阅读笔记1：融合语音和文字的句段级别情感识别技术
语音情感识别领域-论文阅读笔记1 Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Tran ...
[论文阅读笔记26]MRC4NER：使用阅读理解方法来解决NER任务
题目 A Unified MRC Framework for Named Entity Recognition 命名实体识别的统一MRC框架论文URL:https://www.semanticsch ...
Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记
Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记这篇论文介绍 ...
【SOD论文阅读笔记】Visual Saliency Transformer
[SOD论文阅读笔记]Visual Saliency Transformer 一.摘要 Motivation: Method: Experimental results 二.Introduction ...
论文阅读笔记(3)：A Nullspace Property for Subspace-Preserving Recovery
论文阅读笔记(3):保子空间恢复的零空间性质前言摘要 1. 简介 2. 准备工作和问题提出 2.1. 符号表示和序言 2.2. 稀疏子空间分类与聚类 3. 保子空间恢复的零空间性质定义1: 定理 ...
PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记
PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记一.Abstract 二.引言三.相 ...
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记一.Abstract 二.引言 ...
Fast R-CNN论文阅读笔记
文章目录 Fast R-CNN论文阅读笔记2015 Abstract 1. Introduction 1.1 R-CNN and SPPnet 1.2 Contributions 2.Fast R-C ...

【多模态】《Visual7W: Grounded Question Answering in Images》论文阅读笔记

【多模态】《Visual7W: Grounded Question Answering in Images》论文阅读笔记相关推荐

最新文章

热门文章