VQA Challenge 2018的冠军方案。

(欢迎关注“我爱计算机视觉”,一个有价值有深度的公众号~)

什么是视觉问答VQA(Visual Question Answering)?

给定一幅图片及与图片相关的问题,系统通过理解图片回答这个问题,它涉及到图像识别和自然语言理解。

比如这些例子:

它是计算机视觉和自然语言处理问题的高级综合,好的VQA系统可以帮助盲人理解这个世界。

Pythia开源目的

Facebook AI Research的研究员们参加了VQA Challenge 2018,并获得了冠军,他们发现现今的很多VQA系统都有一些相同的功能模块,比如问题编码,图像特征提取,两者的融合(典型的使用attention模型),答案空间的分类等,他们将自己的获胜方案开源,期望它能成为VQA或相关方向比如视觉对话(visual dialog)领域易用和模块化的研究平台。

VQA Challenge 2018的Leaderboard:

Pythia(皮媞亚)是向Oracle of Apollo at Delphi的致敬,她在古希腊神话中传达旨意、回答问题。

Pythia架构与改进

Pythia主要参考了up-down模型[1],并在

Model Architecture、

Learning Schedule、

Fine-Tuning Bottom-Up Features、

Data Augmentation、

Post-Challenge Improvements、

Model Ensembling做了改进。

下表展示了加上各种改进后系统在VQA v2.0数据库上的测试精度。

在模型集成上,集成差异化更大的不同的模型,获得的改进更大。

项目主页:

https://github.com/facebookresearch/pythia

[1]P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S. Gould, and L. Zhang. Bottom-up and top-down attention for image captioning and visual question answering. In CVPR, 2018.

点击阅读原文可以在www.52cv.net查看本文。

欢迎转发,让更多人看到。

更多精彩推荐:

华科白翔老师团队ECCV2018 OCR论文:Mask TextSpotter

快准狠!Intel论文揭示自家车牌识别算法:LPRNet

北大开源ECCV2018深度去雨算法:RESCAN

终于!商汤科技开源DAVIS2017视频目标分割冠军代码

Facobook开源视觉问答VQA框架:Pythia相关推荐

  1. 华人一作统一「视觉-语言」理解与生成:一键生成图像标注,完成视觉问答,Demo可玩...

    来源:机器学习研究组订阅 这个 BLIP 模型可以「看图说话」,提取图像的主要内容,不仅如此,它还能回答你提出的关于图像的问题. 视觉 - 语言预训练 (Vision-Language Pre-tra ...

  2. VQA- 近五年视觉问答顶会论文创新点笔记

    转载自VQA - 近五年视觉问答顶会论文创新点笔记 简要梳理近五年顶级会议发表的视觉问答(Visual Question Answering, VQA)相关论文的创新点.选取自NIPS.CVPR.IC ...

  3. 用于视觉问答的基于关系推理和注意力的多峰特征融合模型《Multimodal feature fusion by relational reasoning and attention for VQA》

    目录 一.文献摘要介绍 二.网络框架介绍 三.实验分析 四.结论 这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货.如有不足,随时欢迎交流和探讨. 一.文献摘要介绍 The re ...

  4. 基于深度学习的VQA(视觉问答)技术

    深度学习大讲堂致力于推送人工智能,深度学习方面的最新技术,产品以及活动.请关注我们的知乎专栏! 视觉问答导读 视觉问答(Visual Question Answering,VQA),是一种涉及计算机视 ...

  5. 视觉问答综述(VQA Datasets Alogritgms and Future Challenge)

    视觉问答领域中的数据和评价指标 视觉问答简介 数据集特点 DAQUAR(DAtaset for QUestion Answering on Real-world images) COCO-QA VQA ...

  6. <<视觉问答>>2021:Mind Your Outliers,Investigating the Negative Impact of Outliers on Active Learning VQA

    目录 前言 一.介绍 二.实验设置 2.1.实验流程 2.2.VQA模型 2.3.主动学习方法 三.实验结果 四.通过数据集映射图分析 五.集体离群值 六.结论 七.附录 前言 主动学习将分类.识别等 ...

  7. 【自然语言处理】--视觉问答(Visual Question Answering,VQA)从初始到应用

    一.前述 视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务.这一任务的定义如下: A VQA system takes as inp ...

  8. <<视觉问答>>2022:CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment

    目录 摘要: 一.介绍 二.Preliminaries 2.1.CLIP 2.2.Vision-Language Understanding Tasks 三.Zero-shot VQA 3.1.A T ...

  9. <<视觉问答>>2022:SwapMix: Diagnosing and Regularizingthe Over-Reliance on Visual Context in VQA

    先看一下下面这篇论文对VQA任务语言偏差的介绍Greedy Gradient Ensemble for Robust Visual Question Answering 目录 摘要 一.Introdu ...

最新文章

  1. linux的dns的转发域,Linux DNS服务器子域授权、转发器和转发域配置实例(三)
  2. 中国计算机学会CCF推荐国际学术会议和期刊目录-人工智能
  3. webpack配置模块的查找范围
  4. 广数系统980tdb系统说明书_汽车离合操纵系统随车检测工具使用说明书
  5. QDoc命名事物Naming Things
  6. python easy install 编译_python安装easy_install和pip
  7. PHP—str_replace()替换函数的使用
  8. Python笔记-函数装饰器的缺点
  9. Python+socket实现TCP套接字服务端自由限速
  10. docker容器内没有yum命令_为什么不建议把数据库部署在Docker容器内?
  11. 《机器人编程实战》一一1.2 给机器人指令
  12. Data source rejected establishment of connection, message from server: Too many connections
  13. gvim 命令行粘贴_vim基本命令之剪切复制粘贴替换
  14. 希尔伯特矩阵(Hilbert matrix)
  15. bluefish开发php,Bluefish—优秀的Linux下HTML编辑器
  16. “老赖”罗永浩:“首席忽悠官”,发布黑科技鲨纹技术
  17. 64K方法数限制原理与解决方案总结
  18. Linux桌面系统x11原理简介
  19. 大神教玩转手机摄影+后期
  20. linux就该这么学【信号】

热门文章

  1. toj 4606 Homework Checker
  2. 最小生成树(Kruskal算法+Prim算法)简单讲解+最小生成树例题 acm寒假集训日记22/1/8
  3. java 获取视频信息_Java获取视频参数信息
  4. zabbix3 mysql_mysql分表-zabbix3.x
  5. python 元组是什么_python元组是什么?python元组的用法介绍
  6. c++ 高效入门_导学三章_第2章_强哥学Py_Python二级通关与实用入门_17讲
  7. pythonsplit函数_Python split()函数如何工作
  8. 怎样用c语言输出一个函数图像,请教 怎么才能用C输出一个函数的图像?大侠 帮帮忙啊...
  9. Android屏幕计算正方形,Android Camera 正方形预览(二)
  10. ansible软件部署