目录

  • CVPR2019:LoRRA(数据集)
  • ICCV2019:ST-VQA(数据集)

CVPR2019:LoRRA(数据集)

  • 题目
    Towards VQA Models That Can Read
    下载链接
    出自Facebook AI研究院
  • 动机
    视觉障碍者对于VQA的需求主要围绕于阅读图片上的问题,但是现有的VQA模型并没有这个功能。故本文提出了一个全新的数据集“TextVQA”,并基于此数据集提出了可以利用图片上文字信息进行VQA的方法LoRRA。
  • 贡献
  1. 提出TextVQA数据集。
  2. 提出LoRRA方法(Look、Read、Reason & Answer),可以基于OCR的输出进行显式推理。
  3. 在TextVQA数据集上,LoRRA方法可以达到state-of-the-art。
  • 方法
    本文方法的整体框架如下图所示,共分为三个部分:对问题编码、提取图片特征、提取图片文字(OCR)。方法的流程一目了然,只是在传统的VQA方法上,添加了OCR模块提取图片中的文字信息,并在answer set中添加了OCR token。

    TextVQA数据集的一些样本:

    TextVQA数据集中,question中的word分布如下图所示。其中,以"what"开始的词比较多。
  • 实验
    在TextVQA数据集上的实验结果。其中,QQQ代表Question特征,III代表Image特征,OOO代表OCR token特征,CCC代表Copy Module。

ICCV2019:ST-VQA(数据集)

  • 题目
    Scene Text Visual Question Answering
    下载链接
  • 动机
    当前的VQA中,没有考虑图像中的文本信息。而作者认为,文本作为高级语义信息,应在VQA中占有一席之地,故提出ST-VQA数据集,并在此数据集上定义了一系列较难的任务。在这些任务中,需要考虑到上下文中的文本信息。同时,针对这些任务,本文提出了新的metric,可以同时考虑文本识别模块的推理错误和缺陷。
  • 贡献
  1. 提出ST-VQA数据集,数据集中的问题和答案只能通过图像中的文本来回答。
  2. 提出了三种不同难度的任务,模拟不同程度上的先验知识(上下文信息)。
  3. 提出了一个新的metric,用于判别模型的准确性。
  • 方法
    如下图所示,ST-VQA数据集从六个不同的数据集搜集了共包括23038张图像和31791个问题,其中,训练集为19027/26308,测试集为2993/4163。

    下图是ST-VQA数据中question和answer的单词长度的分布情况,和Text-VQA进行了对比,两个数据集的分布很相似。

    下图是ST-VQA数据集中,question中单词的使用频率分布,what 的使用频率最高。

    下图是对于不同类型的问题,answer的分布情况。可以看出,对于不同类型的问题,answer的分布都较为平均。
  • 实验
    下图是一些baselines在ST-VQA数据集上的实验结果,其中,ANLS代表Average Normalized Levenshtein similarity(平均正则化编辑距离),是本文针对ST-VQA数据集提出的新metric。本文提出了三种不同的Task,分别是:strongly contextualised(强上下文)、weakly contextualised(弱上下文)和open vocabulary(开放词汇)。这三种不同的task使用不同的先验知识(字典)。对于强上下文,每张图片具有自己的字典,字典中包括100个单词。对于弱上下文,所有图片共用一个大的字典,字典中包括30000个单词,其中22000个是ground truth,其他的是干扰项。对于开放词汇,字典是空的,即:没有先验知识。

    在上述实验结果中,Random代表从字典中随机抽取一个作为答案。STR的全称是Scene Text Recognition(场景文本识别),STR(retrieval)和STR(bbox)使用了两种不同的策略,前者使用特定的任务字典作为给定图像的查询,后者针对图像中最大的文本示例提出问题。Scene Image OCR将检测到的文本排序输出置信度最高的。SAAA是一个标准的VQA模型结构,使用CNN+LSTM。SAN也是标准的VQA模型结构,使用预训练的VGG提取图像特征,使用LSTM提取question特征。

    在task3上,不同方法的在不同类型问题上的准确率展示。

    在task1上的结果展示:

TextVQA论文汇总相关推荐

  1. ECCV2020 收录论文汇总(持续更新中)附打包下载

    2020极市计算机视觉开发者榜单已于2020年7月20日开赛,8月31日截止提交,基于火焰识别.电动车头盔识别.后厨老鼠识别.摔倒识别四个赛道,47000+数据集,30万奖励等你挑战!点击这里报名 极 ...

  2. 【radar】毫米波雷达-相机-激光雷达融合相关论文汇总(特征融合、RPN融合、弱监督融合、决策融合、深度估计、跟踪)(5)

    [radar]毫米波雷达-相机-激光雷达融合相关论文汇总(特征融合.RPN融合.弱监督融合.决策融合.深度估计.跟踪)(5) Radar Camera Fusion Feature-level Fus ...

  3. 【radar】毫米波雷达动态障碍物检测相关论文汇总(聚类、分类、稀疏2D点、4D点、雷达成像、原始数据处理)(4)

    [radar]毫米波雷达动态障碍物检测相关论文汇总(聚类.分类.稀疏2D点.4D点.雷达成像.原始数据处理)(4) Detection of Dynamic Objects Clustering 20 ...

  4. 经典!工业界深度推荐系统与CTR预估必读的论文汇总

    (图片付费下载自视觉中国) 来源 | 深度传送门(ID: gh_5faae7b50fc5) 导读:本文是"深度推荐系统"专栏的第十一篇文章,这个系列将介绍在深度学习的强力驱动下,给 ...

  5. 【KDD 2020】推荐系统领域论文汇总

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要9分钟 Follow小博主,每天更新前沿干货 [导读]本文为大家收集整理了KDD 2020 会议上推荐系统方面的一些论文汇总. ACM SIG ...

  6. oracle11g知乎,【AAAI】AAAI2020录用论文汇总(二)

    因为AAAI的接受论文官方还没有放出,并且放的也是出奇的慢,本文汇总了23日在arxiv上挂出来的AAAI2020文章,供大家挑选感兴趣的文章下载.第一部分可以看 忆臻:[AAAI]AAAI2020录 ...

  7. AAAI2020录用论文汇总(一)

    本文汇总了截至2月23日arxiv上上传的所有AAAI2020录用论文,共计629篇,因篇幅过长,分为三部分,分享给大家.    AAAI2020论文汇总(part 1) [1] MA-DST: Mu ...

  8. AAAI2020录用论文汇总(二)

    本文汇总了截至2月23日arxiv上上传的所有AAAI2020录用论文,共计629篇,因篇幅过长,分为三部分,分享给大家.    AAAI2020论文汇总(part 2) [201] Colosseu ...

  9. AAAI2020录用论文汇总(三)

    本文汇总了截至2月23日arxiv上上传的所有AAAI2020录用论文,共计629篇,因篇幅过长,分为三部分,分享给大家.    AAAI2020论文汇总(part 3) [401] Justific ...

最新文章

  1. 商务智能 “软肋”何在?
  2. python读取整个txt文件-python怎么读取txt文件内容
  3. 滴滴KDD2017论文:基于组合优化的出租车分单模型 By 机器之心2017年8月14日 10:29 数据挖掘顶会 KDD 2017 已经开幕,国内有众多来自产业界的论文被 KDD 2017 接收。
  4. 使用Nomad构建弹性基础架构: 作业生命周期
  5. 基本包装类和System类
  6. URAL1519 Formula 1 —— 插头DP
  7. BENET上海分公司网络改造项目设计实施方案(S1项目实践)
  8. 2016.3.16(Java图形用户界面)
  9. PHP 中跳转网页的三种方法
  10. Hadoop-HDFS原理及操作(小实验)
  11. WebRTC + JsSIP + freeSWITCH一对一视频聊天
  12. 【数学建模】层次分析法(AHP)+Matlab实现
  13. 软件测试工程师职业规划怎么写,软件测试工程师的职业生涯规划
  14. mike21 matlab tools,MIKE21学习软件
  15. Flying Saucer一些问题
  16. 微信小程序---密码输入
  17. 最后几张票,送完即止:KubeCon 2021中国大会
  18. 请求响应结果和预期结果做对比
  19. 【听】怪诞行为学,可预测的非理性
  20. 原生JS实现简单放大镜效果

热门文章

  1. 台湾大学林轩田机器学习技法课程学习笔记5 -- Kernel Logistic Regression
  2. 计算机组成原理试题2,计算机组成原理试题2.doc
  3. 退出python交互模式_python如何退出交互模式
  4. 推荐系统-应用Pandas进行数据处理
  5. 预编译头文件来自编译器的早期版本_Debug
  6. 杂项相关工具的使用方法(边刷题边更新...)
  7. 三路合并 —— Git 学习笔记 17
  8. Spring学习总结三
  9. pat天梯赛L2-010. 排座位
  10. PAT——程序运行时间 (1026)