论文链接Arxiv

这篇文章提出了AI领域一项新的具有挑战性的任务EmbodiedQA:在环境中任意位置的agent在得到一个问题后,能够自己在环境中寻找有用的信息并对该问题作出回答。比如:Q: 汽车是什么颜色的?
要回答这个问题,agent必须学会:
1)active perception(主动感知):Agent必须学会根据其对世界的感知、潜在的物理约束以及对问题的理解,将其视觉输入映射到正确的行为。
2)commonsense reasoning(常识推理):agent要学到“我在哪?汽车一般在哪里?车库对于我来说在哪个方向?”
3)language grounding(语言基础):在 EmbodiedQA中,不是把question对应到像素点而是对应到动作序列。
4)credit assignment(分数分配):做完一系列正确的动作后会有一个分数,一旦有一个动作错误,便拿不到这个分数,但是并不知道是中间的哪个动作出错,要解决这个问题。

下图可以直观地描述这个问题:

EQA和之前的一些工作的对比:

1)VQA – 视觉问答中没有主动的动作,模型的输入只是单一图像配合文本类型的问题,模型在封闭答案集上分类选出最适合的答案,也有一些视觉问答任务是基于的生成式模型,根据图像和文本生成一段文本回答。

2)Video QA – 任务同VQA相似,将VQA中的单张图片的输入替换成视频(处理时往往采样为多帧的图像)即可。

3)Visual Dialog – 通过给模型输入单张图片和文本句子,使得模型根据给定的图片与用户进行对话的生成。

4)EQA – 论文的工作,给定agent一个文本问题,需要agent自行规划探索路径进行主动的在虚拟环境中进行搜索关键位置,找到符合问题的场景后,利用探索的路径过程中得到的图像信息,并最终给出答案。

Embodied Question Answering导读相关推荐

  1. CVPR 2018 paper Embodied Question Answering 读后感

    建立一个AI task Embodied Question Answering (EmbodiedQA),实现以下功能: 构建一个agent 提出一个问题(e.g. What color is the ...

  2. Interactive natural language question answering over knowledge graphs论文导读

    论文导读 目录 Abstract introduction 1 抛砖引的玉(砖见于图谱构建综述吧) 2 现有方法介绍 3 问题驱动 4 挑战与贡献 Interaction approach overv ...

  3. Check It Again: Progressive Visual Question Answering via Visual Entailment

    最近要做关于VQA的项目,要读paper-这里收集了一些有关于这篇paper的资料. 资料 导读: SFFAI 130 视觉问答专题<佀庆一:中国科学院信息工程研究所在读博士> 2021: ...

  4. Visual Question Answering: Datasets, Algorithms, and Future Challenges心得体会

    最近刚好在写综述,也看了一篇较早的综述性文章,作为VQA入门性文章还是值得一看的,这边自己记录了一下关于这篇文章的阅读体会,以及相关部分翻译,以供自己学习写作为用. 文章下载地址:Visual Que ...

  5. Video Question Answering综述

    目录 引言 选择型视频问答 开放型视频问答 选择型.开放型均可的视频问答 结论 参考文献 引言 视频问答是视觉语言领域较为新兴的一个课题,需要根据视频内容和问题进行分析,得出问题的答案.根据回答形式, ...

  6. Visual Question Answering概述

    目录 任务描述 应用领域 主要问题 主流框架 常用数据集 Metrics 部分数据集介绍摘自这篇博客 任务描述 输入:图片III.由nnn个单词组成的问题Q={q1,...,qn}Q=\{ q_1,. ...

  7. 学习Knowledge Graph Embedding Based Question Answering代码笔记

    前言 最近被导师安排学习一下[Knowledge Graph Embedding Based Question Answering] 这篇paper,这篇paper的重点在于运用了Knowledge ...

  8. Chapter7-13_Dialogue State Tracking (as Question Answering)

    文章目录 1 什么是Dialogue State Tracking 2 数据集 3 两个挑战 4 经典模型 本文为李弘毅老师[Dialogue State Tracking (as Question ...

  9. Chapter7-11_Deep Learning for Question Answering (2/2)

    文章目录 1 Simple Question: Match & Extract 2 Complex Question: Reasoning 3 Dialogue QA 本文为李弘毅老师[Dee ...

最新文章

  1. 统计局:2018年规模以上工业增加值同比增长6.2%
  2. PMCAFF微分享 | 京东首席搜索专家,告诉你电商搜索你不得不知道的秘密
  3. SQL Server中利用存储过程来高性能地进行分页
  4. [正则表达式] 正则表达式匹配UUID
  5. 高性能mysql 第5章 创建高可用的索引
  6. 【4】测试用例设计-判定表法
  7. Oracle 安装OEM 报错: 无法对所有EM 相关账户解锁 解决方法
  8. 箴言录2014年4月19日
  9. Google测试精华文章(1) - 测试行为,而非实现
  10. warning: control may reach end of non-void function [-Wreturn-type]
  11. 不必去抱怨威客,但可以去寻找极客汇新云
  12. 电脑计算机怎么显示到桌面,怎么显示我的电脑到桌面
  13. libjpeg-turbo使用实例(编解码jpeg、jpg转bmp、bmp转jpg代码)
  14. 利用GATK4.1 mutect2寻找体细胞突变(SNV和INDEL)
  15. Photoshop菜单_中英文对照
  16. 如何不开会员,把易企秀图片下载保存本地
  17. k8s 偏向运维技术 ,后端程序员为什么要学习k8s?
  18. 手机里tencent文件夹能删吗_手机上的文件夹能不能删?看完之后秒懂
  19. 【华为OD统一考试B卷 | 100分】按身高和体重排队(C++ Java JavaScript Python)
  20. failed to create network error response from daemon filed to setup ip tables问题

热门文章

  1. SourceTree安装教程
  2. 【新周报(049)】Datawhale组队学习
  3. 笔记本性能参数有哪些
  4. 穆利堂[推荐] WxPM信息化整体解决方案-河南郑州房地产工程项目管理系统软件 穆穆-movno1
  5. xxl-job配置发邮件 spring.mail的QQ邮箱配置
  6. 国内外IP黑名单查询网站和邮件相关DNS的查询大全
  7. 计算数据库中各个表的数据量和每行记录所占用空间的脚本-转载来自(博客园 桦仔)...
  8. 【软考高级:信息系统项目管理师】【信息项目十大管理】第八天:项目人力资源管理
  9. RAC数据库实例之间的三种心跳机制
  10. git 撤销提交 撤销暂存区 取消操作