一、前述

视觉问答（Visual Question Answering，VQA），是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下： A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。翻译为中文：一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出。简单来说，VQA就是给定的图片进行问答。

VQA系统需要将图片和问题作为输入，结合这两部分信息，产生一条人类语言作为输出。针对一张特定的图片，如果想要机器以自然语言来回答关于该图片的某一个特定问题，我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。VQA涉及到多方面的AI技术（图1）：细粒度识别（这位女士是白种人吗？）、物体识别（图中有几个香蕉？）、行为识别（这位女士在哭吗？）和对问题所包含文本的理解（NLP）。综上所述，VQA是一项涉及了计算机视觉（CV）和自然语言处理（NLP）两大领域的学习任务。它的主要目标就是让计算机根据输入的图片和问题输出一个符合自然语言规则且内容合理的答案。

二、具体步骤

2.1 第一步，生成答案

2.2 第二步，处理输⼊源数据

2.2.1 处理输⼊源数据：图⽚

卷积CNN结合VGG-16模型

VGG-16的标准构造 (keras)

def VGG_16(weights_path=None):
model = Sequential()
model.add(ZeroPadding2D((1,1),input_shape=(3,224,224)))
model.add(Convolution2D(64, 3, 3, activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(64, 3, 3, activation='relu'))
model.add(MaxPooling2D((2,2), strides=(2,2)))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(128, 3, 3, activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(128, 3, 3, activation='relu'))
model.add(MaxPooling2D((2,2), strides=(2,2)))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(256, 3, 3, activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(256, 3, 3, activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(256, 3, 3, activation='relu'))
model.add(MaxPooling2D((2,2), strides=(2,2)))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, 3, 3, activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, 3, 3, activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, 3, 3, activation='relu'))
model.add(MaxPooling2D((2,2), strides=(2,2)))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, 3, 3, activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, 3, 3, activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, 3, 3, activation='relu'))
model.add(MaxPooling2D((2,2), strides=(2,2)))
model.add(Flatten())
model.add(Dense(4096, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(4096, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(1000, activation='softmax'))
if weights_path:
model.load_weights(weights_path)
return model

2.2.2 处理输⼊源数据：⽂字

2.3 第三步，选取VQA模型-MLP

2.3.1 选取VQA模型-MLP

2.3.2 选取VQA模型-LSTM

转载于:https://www.cnblogs.com/LHWorldBlog/p/9333596.html

【自然语言处理】--视觉问答（Visual Question Answering，VQA）从初始到应用相关推荐

＜＜视觉问答＞＞2021：Learning Compositional Representation for Few-shot Visual Question Answering
目录摘要一.介绍. 二.RELATED WORK A. Visual Question Answering (VQA) B. Few-shot Learning C. Learning with ...
论文-《Visual Question Answering as Reading Comprehension Hui》笔记
论文下载摘要: Visual question answering (VQA) demands simultaneous comprehension of both the image visual ...
自下而上和自上而下的注意力模型《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》
本文有点长,请耐心阅读,定会有收货.如有不足,欢迎交流, 另附:论文下载地址一.文献摘要介绍 Top-down visual attention mechanisms have been used ...
论文分享——Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
文章目录文章简介 1.背景介绍研究背景概念介绍问题描述 IC与VQA领域的主要挑战 2.相关研究 CNN+RNN体系架构 Attention mechanism Bottom-Up and T ...
【Transformer论文解读】TRAR: Routing the Attention Spans in Transformer for Visual Question Answering
TRAR: Routing the Attention Spans in Transformer for Visual Question Answering 一.Background With its ...
＜＜视觉问答＞＞2021：Zero-shot Visual Question Answering usingKnowledge Graph
目录摘要: 一.介绍二.相关工作 2.1.Visual Question Answering 2.2.Zero-shot VQA 三.Preliminaries 四.Methodology 4.1 ...
【NIPS2018】Reasoning with Graph Convolution Nets for Factual Visual Question Answering【事实视觉问答推理】
"Out of the box:Reasoning with Graph Convolution Nets for Factual Visual Question Answering&quo ...
视觉问答（Visual Question Answering）论文初步整理
刚找的综述性文章:这两篇我没怎么看不知道怎么样 Visual Question Answering: Datasets,Algorithms, and Future Challenges Visual ...
《Generating Question Relevant Captions to Aid Visual Question Answering》（生成问题相关标题，以帮助视觉回答问题）论文解读
下面是我对最近阅读的论文<Generating Question Relevant Captions to Aid Visual Question Answering>的一些简要理解一. ...

【自然语言处理】--视觉问答（Visual Question Answering，VQA）从初始到应用

一、前述

二、具体步骤

2.1 第一步，生成答案

2.2 第二步，处理输⼊源数据

2.3 第三步，选取VQA模型-MLP

【自然语言处理】--视觉问答（Visual Question Answering，VQA）从初始到应用相关推荐

最新文章

热门文章

【自然语言处理】--视觉问答（Visual Question Answering，VQA）从初始到应用

一、前述

二、具体步骤

2.1 第一步，生成答案

2.2 第二步，处理输⼊源数据

2.3 第三步， 选取VQA模型-MLP

【自然语言处理】--视觉问答（Visual Question Answering，VQA）从初始到应用相关推荐

最新文章

热门文章

2.3 第三步，选取VQA模型-MLP