【多模态】《Visual7W: Grounded Question Answering in Images》论文阅读笔记
本文是做视觉问答的,模型的主要创新点在于在LSTM中融入对图像特定区域的attention——在 LSTM 架构中添加了一种新的空间注意机制,用于通过文本和视觉答案来处理基于视觉的 QA 任务。 该模型旨在捕捉对图像相关问题的答案通常与特定图像区域相对应的直觉。 当它按顺序读取问题标记时,它会学习关注相关区域。
模型架构为:
给定一个图像 I 和一个问题 Q = (q1, q2, . . . , qm),我们学习图像的嵌入和单词标记如下:
F(·) 将图像 I 从像素空间转换为 4096 维的特征表示。 我们从预训练的 CNN 模型 VGG-16 的最后一个全连接层 (fc7) 中提取。
OH(·) 将单词标记转换为其 one-hot 表示。
Wi 矩阵将 4096 维的图像特征转换为二维嵌入空间 v0,Ww 将 one-hot 向量转换为 dw 维嵌入空间 vi。 我们将 di 和 dw 设置为相同的值 512。
我们将图像作为第一个输入标记。 这些嵌入向量 v0,1,…,m 被一一输入 LSTM 模型。 我们的 LSTM 模型的更新规则可以定义如下:
注意:在LSTM更新公式中,vtv_tvt是当前时间步的输入,ht−1h_{t-1}ht−1是上一个时间步的隐藏层状态,rtr_trt是为了多模态融合而添加的attention,它是基于ht−1h_{t-1}ht−1和每一个视觉区域C(I)而计算出权重,然后对视觉区域C(I)加权求和得到的。C(I)是从同一 VGG-16 模型的第四个卷积层返回图像 I 的 14 × 14 512 维卷积特征图
【多模态】《Visual7W: Grounded Question Answering in Images》论文阅读笔记相关推荐
- Open-Domain Question Answering相关部分论文阅读摘要
主要内容 Open-Domain Question Answering相关部分论文阅读摘要 DrQA(Reading Wikipedia to Answer Open-Domain Questions ...
- 视频问答与推理(Video Question Answering and Reasoning)——论文调研
文章目录 0. 前言 1. ACM MM 2. CVPR 3. ICCV 4. AAAI 更新时间--2019.12 首稿 0. 前言 学习 VQA 的第一步--前期论文调研. 调研近几年在各大会议上 ...
- 语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术
语音情感识别领域-论文阅读笔记1 Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Tran ...
- [论文阅读笔记26]MRC4NER:使用阅读理解方法来解决NER任务
题目 A Unified MRC Framework for Named Entity Recognition 命名实体识别的统一MRC框架 论文URL:https://www.semanticsch ...
- Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记
Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记 这篇论文介绍 ...
- 【SOD论文阅读笔记】Visual Saliency Transformer
[SOD论文阅读笔记]Visual Saliency Transformer 一.摘要 Motivation: Method: Experimental results 二.Introduction ...
- 论文阅读笔记(3):A Nullspace Property for Subspace-Preserving Recovery
论文阅读笔记(3):保子空间恢复的零空间性质 前言 摘要 1. 简介 2. 准备工作和问题提出 2.1. 符号表示和序言 2.2. 稀疏子空间分类与聚类 3. 保子空间恢复的零空间性质 定义1: 定理 ...
- PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记
PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记 一.Abstract 二.引言 三.相 ...
- Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记 一.Abstract 二.引言 ...
- Fast R-CNN论文阅读笔记
文章目录 Fast R-CNN论文阅读笔记2015 Abstract 1. Introduction 1.1 R-CNN and SPPnet 1.2 Contributions 2.Fast R-C ...
最新文章
- c++获取可用端口号_PG高可用架构实施方案
- SAP HUM 带HU的TO单对应的外向交货单VL09取消PGI之后不能对该交货单执行LT0G做WM层面的返架?
- linux创建sftp用户并指定访问目录,linux – 创建SFTP用户只能访问一个目录.
- JSON字符串的解析
- 数据降维工具箱drtoolbox
- java设计模式之单例模式(七种方法)
- 1)C++对象大小计算
- 美国国家安全原因致金沙江暂停收购飞利浦LED
- Oracle sql给一列赋值,简单的Oracle变量SQL赋值
- (一)MySQL 基础配置
- 【Python】python帮助文档
- 批量文件转换:PDG转PDF并合并
- 1000亿资本“壕掷”!乡村旅游迎来黄金时代?
- 老哥们 FlexiTimer库怎么用不了呢 ,指点一下小弟
- 电脑壁纸软件(Bing Wallpaper)
- 手机方向传感器的缺点及解决方法探究
- 通过GitHub和GoDaddy搭建静态个人博客
- oschina使用pages
- 前端 HTML5 Svg 画板(支持视频、图片上涂鸦,支持缩放、修改、颜色、复选...)
- Pixel 4刷机常见问题指南(Android 11 211001版本可用!)
热门文章
- Mysql比较运算符实战
- 电脑没有“立体声混音”设备怎么办,虚拟声卡安装教程
- flutter 生成图片保存到手机相册
- 可微分神经计算机DNC
- winhex查看mysql_使用WINHEX查看innodb的BTree高度
- android 资源文件类型,命名规则(配置限定符名称),及其加载规则
- python画布上显示多张图片_python实现在一个画布上画多个子图
- 【python 色情图片识别】python检测色情图片
- 【图论-二分图】中山纪念中学暑期游Day15——【NOIP2013模拟联考3】沙耶的玩偶(doll)
- 【最大流,最大匹配,最大独立集】2018.6.18 【2018提高组】模拟C组 T3 沙耶的玩偶