视觉语言导航任务

  • 任务提出:CVPR2018,在Matterport3D simulator仿真环境中,从随机初始化位置到目标位置的最佳路径的轨迹搜索任务。

  • 任务描述:这是一个偏向落地型的研究方向:该任务要求智能体,在环境中,按照自然语言指令进行导航,移动,最终到达指定目的地,所以这是一个涉及到计算机视觉和自然语言处理的多模态任务。

  • 学科定位:目前,在这两个领域的多模态任务主要有image captioning,VQA,image Generation等。通过对这些视觉语言综合任务的分类和比较,明确navigation任务在学科体系中的位置。

弱耦合任务

  • 图像描述

    encoder-decoder的show and tell 和 neural talk(CNN+RNN)

  • VQA视觉问答

    联合嵌入模型:图像和文字在公共特征空间学习

    注意力机制模型:局部图像特征对不同区域特征加权解决噪声问题

    模块化组合模型:引入不同功能的神经网络模块

    知识库增强模型:引入外部知识库解决先验知识问题

  • 文本图像生成

    变分子编码器、基于流的生成模型、近似PixelCNN、GAN

    基于GAN的优化方向:增加网络深度、引入多个判别起、注意力机制、增加额外约束、分阶段生成(场景图、语义中间层)

  • 视觉对话

    多次问答,基于深度强化学习的模型、注意力机制、条件变分自编码器

  • 多模态机器翻译

    给定源语言+图片,输出目标语言

    研究方向:分解任务目标、充分发掘图片的视觉特征、强化学习方法的使用、无监督学习方法的拓展

  • 视觉蕴含visual entailment

    判断文本描述和图片内容是否匹配

强耦合任务

不仅需要融合视觉与语言技术,还需要智能体针对问题,在虚拟的空间环境中进行路径规划和探索!是深度融合任务。

  • VLN:视觉语言导航(2018ECCV)

  • Embodied QA:具身问答(2018CVPR)

  • IQA:interactive交互式问答

视觉语言导航任务主要方法

Look Before You Leap

  • 2018ECCV

  • Motivation:改进强化学习方法,提升模型性能

  • model-free + model-based (RL)

    • model-free:普通seq2seq。不需要对模型建模,直接将特征映射到动作空间。

    • model-based:构建Env Model,使用下一个状态和下一个动作的奖励预测环境

  • Action Prediction:softmax的MLP,预测最终动作

  • Val Unseen SR 24.6% Test unseen SR 25.3%

speaker-follower

  • 2018 NeurIPS

  • Motivation:重构,数据增强

  • speaker学习路径描述,follower预测和执行路径

  • 使用全景动作空间代替视觉运动空间,使智能体可以感知当前位置360度全景视觉

  • Val Unseen SR 54.6% Test unseen SR 53.5%

RCM

  • 2019 CVPR best stu paper
  • Motivation:解决跨模态基标对准问题,增强泛化能力
  • Navigator:关注下一个方向和字句,输出决策
  • Matching Critic:评估轨迹重构的文本,与指令做比较,指导navigator更好地探索
  • SIL:模仿学习,在无标签数据上进行探索,提升模型泛化能力
  • Val Unseen SR 61.3%

Self-Monitoring

  • 2019 ICLR
  • Motivation:进度问题
  • 使用历史动作也就是轨迹信息辅助决策
  • Val Unseen SR 58% Test unseen SR 61%

Environment Dropout

  • Motivation:生成新的环境,半监督学习(IL+RL),提升模型泛化能力
  • Val Unseen SR 69% Test unseen SR 68.9%

Auxiliary Reasoning Tasks

  • 2019 CVPR
  • Motivation:辅助任务获得额外信息,轨迹重构、进度评估、角度预测、匹配
  • Test unseen SR 71%

数据集

  • R2R (Room to Room) 2018
  • R4R (Room for Room)
  • Matterport3D 2017

评价指标

  • CLS (coverage weighted by length score):预测路径与语言指示之间契合度

  • NR(Navigation Error):导航偏差

  • SR(Success Rate):成功率

  • TL(Trajectory Length):导航路径长度

  • OSR(Oracle Success Rate):任意一点成功率

  • SPL(Success Rate weighted by Path Length):成功率/路径长度

主要挑战

  • 多媒体学习瓶颈问题:信息表示、联合映射、模型对齐、模态融合等
  • 详细复杂的自然语言指令
  • 模糊的环境反馈,也就是强化学习模型中的奖励
  • 以及在未知环境中的泛化 能力和稳定性问题
  • 数据收集困难

未来发展

  • 真实环境迁移

    目前大多数方法都是基于现有数据集,在模拟环境中进行的,但真实环境训练会消耗大量的时间与精力,因此迁移是很重要的研究方向。而且也可以通过虚拟数据迁移到真实数据,解决训练数据不足的问题。

  • 泛化能力

    智能体在新的环境中,遇到未出现的环境or物体,能否根据以往经验做出合理反映,也是很重要的研究方向,即泛化能力。目前的解决方案有:节间外部知识库,利用先验知识提升智能体对于环境的理解和认知能力。

  • 更复杂的交互能力

    不仅是移动到指定位置,未来还可以增加“去厨房拿一把勺子”这类的复杂交互形式,这包括利用声音信息对不可见物体的重建、推理,实用工具实现目标动作等。解决方案是增加推理能力的引入,包括视觉推理、演绎、归纳、类比等方法。

  • 三维数据的使用

    点云信息可以提升智能体避障能力。目前,将二维双目视觉图像转换为三维点云不仅可以提升目标检测准确度,但数据获取困难切对算力要求高,因此可以考虑基于双目视觉的三维重建。

相关任务:REVERIE

  • CVPR 2020 Oral 已开源

  • 澳大利亚阿德莱德大学吴琦老师的博士后齐元凯,与加州大学圣塔芭芭拉分校合作完成

  • 论文地址:https://arxiv.org/abs/1904.10151

    数据代码地址: https://github.com/YuankaiQi/REVERIE

  • 远程物体定位任务REVERIE

    Remote Embodied Visual referring Expression in Real Indoor Environments

  • VLN语言指令详细复杂,REVERIE简洁语言,而且是找到物体,而不是到达目的地

  • REVERIE数据集建立在Matterport3D数据集[4]及其R2R仿真器[1]的基础之上,二者提供了从真实世界采集的室内全景图像以及可导航点的联通图。为了提供物体级别的信息,扩展了R2R仿真器,使其可以提供物体在不同观测点的边框。REVERIE数据集共包含21,702条人工标注的自然语言指令,涉及1,600多个词汇。指令的平均长度为18个单词。与平均长度29个单词的R2R数据集相比,指令更简洁、自然,也因此更具有挑战性。整个数据集包含4,140个目标物体,覆盖489个类别,接近ReferCOCO数据集的6倍。具体来说,训练集合涉及60个建筑物,10,466条指令,2,353个物体。验证集涉及56个建筑物,953个物体,4,944条指令。验证集中10个建筑物,3,521条指令,513个物体未出现在训练集中。测试集共6,292条指令,涉及834个物体,16个建筑物。测试集的数据未出现在训练集或验证集中。

  • Interactive Navigation-Pointer 交互式导航和物体定位的算法

    首先,物体定位模块Pointer以当前位置的视觉感知图像和自然语言指令为输入,计算并返回与指令最相符的3个物体。这3个物体的视觉特征和类别标签用作导航模块Navigator的输入。同时,Navigator也以语言指令和当前位置的感知图像为输入。由Navigator输出停止或下一个前进的方向。如果Navigator输出停止,则当前步Pointer返回的与语言指令最相似的物体为最终输出结果。

    8个导航算法:4个Baseline(Random、Shortest、R2R-TF、R2R-SF)和3个前沿导航算法(RCM、SelfMonitor、FAST-short)以及一个变种(FAST-Lan-Only,仅输入语言指令到FAST-short中)
    选取了性能优异的导航算法FAST[5]为Navigator,以MAttNet[6]为Pointer。

  • RGS (remote grounding success rate):找到目标物体的任务成功数比总任务数

  • 视觉信息对完成该任务具有重要的作用:前沿导航算法(如FAST-short)在Val Seen上取得了30%左右的成功率,但是在Unseen场景下最高只有7%的成功率。FAST-Lan-Only在ValSeen场景下比FAST-short成功率大幅下降

  • 最终结果:在Unseen场景下取得了11%的成功率,但是离人类的成功率77.84%仍有很大差距

学习笔记|视觉语言导航任务相关推荐

  1. Java 学习笔记(导航目录)

    Java学习计划 ☕️学习目标 ☕️学习目录 第1部分 Java基础程序设计 第1章 Java概述及开发环境搭建 第2章 简单的Java程序 第3章 Java基础程序设计 第4章 数组与方法 第2部分 ...

  2. ROS学习笔记之导航(仿真)

    一.导航模块简介 机器人是如何实现导航的呢?或换言之,机器人是如何从 A 点移动到 B 点呢?ROS 官方为了提供了一张导航功能包集的图示,该图中囊括了 ROS 导航的一些关键技术: 假定我们已经以特 ...

  3. 【微信小程序】学习笔记-----navigation-bar导航栏

    微信官方文档----小程序 微信小程序底部的导航栏不需要自己画,通过配置即可 先配置list数组,tab的列表 在app.json中与其他项平级,当输入tabBar的时候会自动填补齐全,这里要注意,控 ...

  4. Fiori学习笔记 - 路由导航

    路由导航在前端框架中占据这十分重要的地位.它决定了整个项目的结构.每个页面的跳转方式以及传参等等. Fiori的路由层级可以支持到二级或三级,并且可以通过 viewLevel 来指定路由层级,从而可以 ...

  5. Zabbx6.0(学习笔记)

    Zabbx6.0(学习笔记) 目录导航 Zabbx6.0(学习笔记) 一.为什么 需要监控系统 二.如何选择监控 三.Zabbix概述 四.Zabbix安装哪个版本? Zabbix安装要求 1.硬件 ...

  6. Windows phone 8 学习笔记(8) 定位地图导航

    Windows phone 8 学习笔记(8) 定位地图导航 原文:Windows phone 8 学习笔记(8) 定位地图导航 Windows phone 8 已经不使用自家的bing地图,新地图控 ...

  7. CSS学习笔记-04 a标签-导航练习

    个人练习,各位大神勿笑  .. <!DOCTYPE html> <html lang="en"> <head><meta charset= ...

  8. 【学习笔记】ROS-移动机器人导航相关

    [学习笔记]ROS-移动机器人导航相关 一.定位 二.导航 1. move_base现存问题 三.可视化 1. Rviz显示机器人运动轨迹方法: 一.定位 二.导航 1. move_base现存问题 ...

  9. 《王道计算机组成原理》学习笔记和总目录导航

    <王道计算机组成原理>学习笔记和总目录导读 本篇文章是阅读和学习<王道计算机组成原理>后总结的理论知识笔记导航,专门用于遗忘后复习 下面的文章是我在学习了<王道计算机组成 ...

最新文章

  1. 限量!“Java成长笔记”Spring Boot/Sentinel/Nacos高并发
  2. 学什么都不容易!学好一样更不容易!
  3. 杀死linux-zombie僵尸进程
  4. Linux-Rsync命令参数详解
  5. Go聊天室的思路:一个拨号 一个监听
  6. python字典值的和计算_第一章Python数据结构和算法(字典的运算)
  7. vmware_vcenter_api
  8. 饿了么翻车,美团被质疑,马云也赔了40亿,这项技术为什么让人害怕?
  9. 语音转文字的软件APP
  10. drawpolygon收尾不连接_门窗施工全流程,80%的设计师都不了解!
  11. 为LogAnalyzer添加源IP
  12. 不经意传输算法 效果
  13. 游戏必备组件_没有网络也可以肝的单机小游戏!玩一局就停不下来
  14. iOS手势识别的工作原理
  15. 直方图中bin的说明
  16. 闲聊一下android 3D 网络游戏
  17. 2019广州大学城第二届“论客杯”青年公益微创投暨南大学校际公开赛决赛圆满落幕
  18. 电子设计入门——各种不同的GND怎么接
  19. 服务器并发C10K/C100k/C10M问题(重制版)
  20. DNS信息查询综合实验

热门文章

  1. ug建模文本怎么竖着_UG编程文字加工,全方位实例讲解,文末有作业哦!
  2. 【学习】手写数字生成
  3. 王传宝老师--宏观经济学家--金融研究专家---沪师经纪刘建
  4. MRI数据预处理--使用FSL-BET轻松去头骨,提取脑组织
  5. thinkPHP3.2.3使用163邮箱发送邮件
  6. 疑难杂症篇(五)--从word2019复制编辑好的公式到visio2019出现乱码的解决方案
  7. 剑指 Offer 52—— 两个链表的第一个公共节点
  8. Python学习,python3中的bytes和str类型
  9. Q1月活大涨70%,后浪会成B站的流量萌新吗?
  10. 重磅!实在智能首创“智能融合拾取”技术!