【自然语言处理】--视觉问答(Visual Question Answering,VQA)从初始到应用
一、前述
视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。
VQA系统需要将图片和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。针对一张特定的图片,如果想要机器以自然语言来回答关于该图片的某一个特定问题,我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。VQA涉及到多方面的AI技术(图1):细粒度识别(这位女士是白种人吗?)、 物体识别(图中有几个香蕉?)、行为识别(这位女士在哭吗?)和对问题所包含文本的理解(NLP)。综上所述,VQA是一项涉及了计算机视觉(CV)和自然语言处理(NLP)两大领域的学习任务。它的主要目标就是让计算机根据输入的图片和问题输出一个符合自然语言规则且内容合理的答案。
二、具体步骤
2.1 第一步,生成答案
2.2 第二步,处理输⼊源数据
2.2.1 处理输⼊源数据:图⽚
卷积CNN结合VGG-16模型
VGG-16的标准构造 (keras)
def VGG_16(weights_path=None): model = Sequential() model.add(ZeroPadding2D((1,1),input_shape=(3,224,224))) model.add(Convolution2D(64, 3, 3, activation='relu')) model.add(ZeroPadding2D((1,1))) model.add(Convolution2D(64, 3, 3, activation='relu')) model.add(MaxPooling2D((2,2), strides=(2,2))) model.add(ZeroPadding2D((1,1))) model.add(Convolution2D(128, 3, 3, activation='relu')) model.add(ZeroPadding2D((1,1))) model.add(Convolution2D(128, 3, 3, activation='relu')) model.add(MaxPooling2D((2,2), strides=(2,2))) model.add(ZeroPadding2D((1,1))) model.add(Convolution2D(256, 3, 3, activation='relu')) model.add(ZeroPadding2D((1,1))) model.add(Convolution2D(256, 3, 3, activation='relu')) model.add(ZeroPadding2D((1,1))) model.add(Convolution2D(256, 3, 3, activation='relu')) model.add(MaxPooling2D((2,2), strides=(2,2))) model.add(ZeroPadding2D((1,1))) model.add(Convolution2D(512, 3, 3, activation='relu')) model.add(ZeroPadding2D((1,1))) model.add(Convolution2D(512, 3, 3, activation='relu')) model.add(ZeroPadding2D((1,1))) model.add(Convolution2D(512, 3, 3, activation='relu')) model.add(MaxPooling2D((2,2), strides=(2,2))) model.add(ZeroPadding2D((1,1))) model.add(Convolution2D(512, 3, 3, activation='relu')) model.add(ZeroPadding2D((1,1))) model.add(Convolution2D(512, 3, 3, activation='relu')) model.add(ZeroPadding2D((1,1))) model.add(Convolution2D(512, 3, 3, activation='relu')) model.add(MaxPooling2D((2,2), strides=(2,2))) model.add(Flatten()) model.add(Dense(4096, activation='relu')) model.add(Dropout(0.5)) model.add(Dense(4096, activation='relu')) model.add(Dropout(0.5)) model.add(Dense(1000, activation='softmax')) if weights_path: model.load_weights(weights_path) return model
2.2.2 处理输⼊源数据:⽂字
2.3 第三步, 选取VQA模型-MLP
2.3.1 选取VQA模型-MLP
2.3.2 选取VQA模型-LSTM
转载于:https://www.cnblogs.com/LHWorldBlog/p/9333596.html
【自然语言处理】--视觉问答(Visual Question Answering,VQA)从初始到应用相关推荐
- <<视觉问答>>2021:Learning Compositional Representation for Few-shot Visual Question Answering
目录 摘要 一.介绍. 二.RELATED WORK A. Visual Question Answering (VQA) B. Few-shot Learning C. Learning with ...
- 论文-《Visual Question Answering as Reading Comprehension Hui》笔记
论文下载 摘要: Visual question answering (VQA) demands simultaneous comprehension of both the image visual ...
- 自下而上和自上而下的注意力模型《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》
本文有点长,请耐心阅读,定会有收货.如有不足,欢迎交流, 另附:论文下载地址 一.文献摘要介绍 Top-down visual attention mechanisms have been used ...
- 论文分享——Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
文章目录 文章简介 1.背景介绍 研究背景 概念介绍 问题描述 IC与VQA领域的主要挑战 2.相关研究 CNN+RNN体系架构 Attention mechanism Bottom-Up and T ...
- 【Transformer论文解读】TRAR: Routing the Attention Spans in Transformer for Visual Question Answering
TRAR: Routing the Attention Spans in Transformer for Visual Question Answering 一.Background With its ...
- <<视觉问答>>2021:Zero-shot Visual Question Answering usingKnowledge Graph
目录 摘要: 一.介绍 二.相关工作 2.1.Visual Question Answering 2.2.Zero-shot VQA 三.Preliminaries 四.Methodology 4.1 ...
- 【NIPS2018】Reasoning with Graph Convolution Nets for Factual Visual Question Answering【事实视觉问答推理】
"Out of the box:Reasoning with Graph Convolution Nets for Factual Visual Question Answering&quo ...
- 视觉问答(Visual Question Answering)论文初步整理
刚找的综述性文章:这两篇我没怎么看不知道怎么样 Visual Question Answering: Datasets,Algorithms, and Future Challenges Visual ...
- 《Generating Question Relevant Captions to Aid Visual Question Answering》(生成问题相关标题,以帮助视觉回答问题)论文解读
下面是我对最近阅读的论文<Generating Question Relevant Captions to Aid Visual Question Answering>的一些简要理解 一. ...
最新文章
- 如何把近十页的论文读成半页?
- QT OpenCV Linux
- 李彦宏要给百度全员涨薪 连实习生都雨露均沾 :再没有行动,人都要被字节跳动给挖光了。
- java capacity_关于Java中StringBuffer的capacity问题
- docker添加jar包_docker配置容器运行jar包
- c# 通过鼠标点击绘制多边形
- jmeter安装包双击没反应_Jmeter5.0源码在eclipse运行的正确打开方式
- AMD第七代桌面APU揭秘:主流首次上DDR4
- 【java学习之路】(javaWeb篇)002.CSS
- ELM327 OBD to RS232 Interpreters
- 本地Windows安装MySQL
- mac 自带画图软件(mac 打开预览)
- 【猥琐流】制作一个隐藏在黑页下的大马并且添加后门
- 又挖到宝藏了,低调使用
- 苏州企业如何免费办理软件著作权
- 深度学习之TensorFlow(一)
- VGG16 VGG19
- php判断汉子首字母的函数,php获取汉字首字母的函数
- 【数据挖掘】聚类分析实例
- vmware安装ubuntu Intel VT-x 处于禁用状态