Facobook开源视觉问答VQA框架:Pythia
VQA Challenge 2018的冠军方案。
(欢迎关注“我爱计算机视觉”,一个有价值有深度的公众号~)
什么是视觉问答VQA(Visual Question Answering)?
给定一幅图片及与图片相关的问题,系统通过理解图片回答这个问题,它涉及到图像识别和自然语言理解。
比如这些例子:
它是计算机视觉和自然语言处理问题的高级综合,好的VQA系统可以帮助盲人理解这个世界。
Pythia开源目的
Facebook AI Research的研究员们参加了VQA Challenge 2018,并获得了冠军,他们发现现今的很多VQA系统都有一些相同的功能模块,比如问题编码,图像特征提取,两者的融合(典型的使用attention模型),答案空间的分类等,他们将自己的获胜方案开源,期望它能成为VQA或相关方向比如视觉对话(visual dialog)领域易用和模块化的研究平台。
VQA Challenge 2018的Leaderboard:
Pythia(皮媞亚)是向Oracle of Apollo at Delphi的致敬,她在古希腊神话中传达旨意、回答问题。
Pythia架构与改进
Pythia主要参考了up-down模型[1],并在
Model Architecture、
Learning Schedule、
Fine-Tuning Bottom-Up Features、
Data Augmentation、
Post-Challenge Improvements、
Model Ensembling做了改进。
下表展示了加上各种改进后系统在VQA v2.0数据库上的测试精度。
在模型集成上,集成差异化更大的不同的模型,获得的改进更大。
项目主页:
https://github.com/facebookresearch/pythia
[1]P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S. Gould, and L. Zhang. Bottom-up and top-down attention for image captioning and visual question answering. In CVPR, 2018.
点击阅读原文可以在www.52cv.net查看本文。
欢迎转发,让更多人看到。
更多精彩推荐:
华科白翔老师团队ECCV2018 OCR论文:Mask TextSpotter
快准狠!Intel论文揭示自家车牌识别算法:LPRNet
北大开源ECCV2018深度去雨算法:RESCAN
终于!商汤科技开源DAVIS2017视频目标分割冠军代码
Facobook开源视觉问答VQA框架:Pythia相关推荐
- 华人一作统一「视觉-语言」理解与生成:一键生成图像标注,完成视觉问答,Demo可玩...
来源:机器学习研究组订阅 这个 BLIP 模型可以「看图说话」,提取图像的主要内容,不仅如此,它还能回答你提出的关于图像的问题. 视觉 - 语言预训练 (Vision-Language Pre-tra ...
- VQA- 近五年视觉问答顶会论文创新点笔记
转载自VQA - 近五年视觉问答顶会论文创新点笔记 简要梳理近五年顶级会议发表的视觉问答(Visual Question Answering, VQA)相关论文的创新点.选取自NIPS.CVPR.IC ...
- 用于视觉问答的基于关系推理和注意力的多峰特征融合模型《Multimodal feature fusion by relational reasoning and attention for VQA》
目录 一.文献摘要介绍 二.网络框架介绍 三.实验分析 四.结论 这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货.如有不足,随时欢迎交流和探讨. 一.文献摘要介绍 The re ...
- 基于深度学习的VQA(视觉问答)技术
深度学习大讲堂致力于推送人工智能,深度学习方面的最新技术,产品以及活动.请关注我们的知乎专栏! 视觉问答导读 视觉问答(Visual Question Answering,VQA),是一种涉及计算机视 ...
- 视觉问答综述(VQA Datasets Alogritgms and Future Challenge)
视觉问答领域中的数据和评价指标 视觉问答简介 数据集特点 DAQUAR(DAtaset for QUestion Answering on Real-world images) COCO-QA VQA ...
- <<视觉问答>>2021:Mind Your Outliers,Investigating the Negative Impact of Outliers on Active Learning VQA
目录 前言 一.介绍 二.实验设置 2.1.实验流程 2.2.VQA模型 2.3.主动学习方法 三.实验结果 四.通过数据集映射图分析 五.集体离群值 六.结论 七.附录 前言 主动学习将分类.识别等 ...
- 【自然语言处理】--视觉问答(Visual Question Answering,VQA)从初始到应用
一.前述 视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务.这一任务的定义如下: A VQA system takes as inp ...
- <<视觉问答>>2022:CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment
目录 摘要: 一.介绍 二.Preliminaries 2.1.CLIP 2.2.Vision-Language Understanding Tasks 三.Zero-shot VQA 3.1.A T ...
- <<视觉问答>>2022:SwapMix: Diagnosing and Regularizingthe Over-Reliance on Visual Context in VQA
先看一下下面这篇论文对VQA任务语言偏差的介绍Greedy Gradient Ensemble for Robust Visual Question Answering 目录 摘要 一.Introdu ...
最新文章
- linux的dns的转发域,Linux DNS服务器子域授权、转发器和转发域配置实例(三)
- 中国计算机学会CCF推荐国际学术会议和期刊目录-人工智能
- webpack配置模块的查找范围
- 广数系统980tdb系统说明书_汽车离合操纵系统随车检测工具使用说明书
- QDoc命名事物Naming Things
- python easy install 编译_python安装easy_install和pip
- PHP—str_replace()替换函数的使用
- Python笔记-函数装饰器的缺点
- Python+socket实现TCP套接字服务端自由限速
- docker容器内没有yum命令_为什么不建议把数据库部署在Docker容器内?
- 《机器人编程实战》一一1.2 给机器人指令
- Data source rejected establishment of connection, message from server: Too many connections
- gvim 命令行粘贴_vim基本命令之剪切复制粘贴替换
- 希尔伯特矩阵(Hilbert matrix)
- bluefish开发php,Bluefish—优秀的Linux下HTML编辑器
- “老赖”罗永浩:“首席忽悠官”,发布黑科技鲨纹技术
- 64K方法数限制原理与解决方案总结
- Linux桌面系统x11原理简介
- 大神教玩转手机摄影+后期
- linux就该这么学【信号】
热门文章
- toj 4606 Homework Checker
- 最小生成树(Kruskal算法+Prim算法)简单讲解+最小生成树例题 acm寒假集训日记22/1/8
- java 获取视频信息_Java获取视频参数信息
- zabbix3 mysql_mysql分表-zabbix3.x
- python 元组是什么_python元组是什么?python元组的用法介绍
- c++ 高效入门_导学三章_第2章_强哥学Py_Python二级通关与实用入门_17讲
- pythonsplit函数_Python split()函数如何工作
- 怎样用c语言输出一个函数图像,请教 怎么才能用C输出一个函数的图像?大侠 帮帮忙啊...
- Android屏幕计算正方形,Android Camera 正方形预览(二)
- ansible软件部署