学习笔记|视觉语言导航任务
视觉语言导航任务
任务提出:CVPR2018,在Matterport3D simulator仿真环境中,从随机初始化位置到目标位置的最佳路径的轨迹搜索任务。
任务描述:这是一个偏向落地型的研究方向:该任务要求智能体,在环境中,按照自然语言指令进行导航,移动,最终到达指定目的地,所以这是一个涉及到计算机视觉和自然语言处理的多模态任务。
学科定位:目前,在这两个领域的多模态任务主要有image captioning,VQA,image Generation等。通过对这些视觉语言综合任务的分类和比较,明确navigation任务在学科体系中的位置。
弱耦合任务
图像描述
encoder-decoder的show and tell 和 neural talk(CNN+RNN)
VQA视觉问答
联合嵌入模型:图像和文字在公共特征空间学习
注意力机制模型:局部图像特征对不同区域特征加权解决噪声问题
模块化组合模型:引入不同功能的神经网络模块
知识库增强模型:引入外部知识库解决先验知识问题
文本图像生成
变分子编码器、基于流的生成模型、近似PixelCNN、GAN
基于GAN的优化方向:增加网络深度、引入多个判别起、注意力机制、增加额外约束、分阶段生成(场景图、语义中间层)
视觉对话
多次问答,基于深度强化学习的模型、注意力机制、条件变分自编码器
多模态机器翻译
给定源语言+图片,输出目标语言
研究方向:分解任务目标、充分发掘图片的视觉特征、强化学习方法的使用、无监督学习方法的拓展
视觉蕴含visual entailment
判断文本描述和图片内容是否匹配
强耦合任务
不仅需要融合视觉与语言技术,还需要智能体针对问题,在虚拟的空间环境中进行路径规划和探索!是深度融合任务。
VLN:视觉语言导航(2018ECCV)
Embodied QA:具身问答(2018CVPR)
IQA:interactive交互式问答
视觉语言导航任务主要方法
Look Before You Leap
2018ECCV
Motivation:改进强化学习方法,提升模型性能
model-free + model-based (RL)
model-free:普通seq2seq。不需要对模型建模,直接将特征映射到动作空间。
model-based:构建Env Model,使用下一个状态和下一个动作的奖励预测环境
Action Prediction:softmax的MLP,预测最终动作
Val Unseen SR 24.6% Test unseen SR 25.3%
speaker-follower
2018 NeurIPS
Motivation:重构,数据增强
speaker学习路径描述,follower预测和执行路径
使用全景动作空间代替视觉运动空间,使智能体可以感知当前位置360度全景视觉
Val Unseen SR 54.6% Test unseen SR 53.5%
RCM
- 2019 CVPR best stu paper
- Motivation:解决跨模态基标对准问题,增强泛化能力
- Navigator:关注下一个方向和字句,输出决策
- Matching Critic:评估轨迹重构的文本,与指令做比较,指导navigator更好地探索
- SIL:模仿学习,在无标签数据上进行探索,提升模型泛化能力
- Val Unseen SR 61.3%
Self-Monitoring
- 2019 ICLR
- Motivation:进度问题
- 使用历史动作也就是轨迹信息辅助决策
- Val Unseen SR 58% Test unseen SR 61%
Environment Dropout
- Motivation:生成新的环境,半监督学习(IL+RL),提升模型泛化能力
- Val Unseen SR 69% Test unseen SR 68.9%
Auxiliary Reasoning Tasks
- 2019 CVPR
- Motivation:辅助任务获得额外信息,轨迹重构、进度评估、角度预测、匹配
- Test unseen SR 71%
数据集
- R2R (Room to Room) 2018
- R4R (Room for Room)
- Matterport3D 2017
评价指标
CLS (coverage weighted by length score):预测路径与语言指示之间契合度
NR(Navigation Error):导航偏差
SR(Success Rate):成功率
TL(Trajectory Length):导航路径长度
OSR(Oracle Success Rate):任意一点成功率
SPL(Success Rate weighted by Path Length):成功率/路径长度
主要挑战
- 多媒体学习瓶颈问题:信息表示、联合映射、模型对齐、模态融合等
- 详细复杂的自然语言指令
- 模糊的环境反馈,也就是强化学习模型中的奖励
- 以及在未知环境中的泛化 能力和稳定性问题
- 数据收集困难
未来发展
真实环境迁移
目前大多数方法都是基于现有数据集,在模拟环境中进行的,但真实环境训练会消耗大量的时间与精力,因此迁移是很重要的研究方向。而且也可以通过虚拟数据迁移到真实数据,解决训练数据不足的问题。
泛化能力
智能体在新的环境中,遇到未出现的环境or物体,能否根据以往经验做出合理反映,也是很重要的研究方向,即泛化能力。目前的解决方案有:节间外部知识库,利用先验知识提升智能体对于环境的理解和认知能力。
更复杂的交互能力
不仅是移动到指定位置,未来还可以增加“去厨房拿一把勺子”这类的复杂交互形式,这包括利用声音信息对不可见物体的重建、推理,实用工具实现目标动作等。解决方案是增加推理能力的引入,包括视觉推理、演绎、归纳、类比等方法。
三维数据的使用
点云信息可以提升智能体避障能力。目前,将二维双目视觉图像转换为三维点云不仅可以提升目标检测准确度,但数据获取困难切对算力要求高,因此可以考虑基于双目视觉的三维重建。
相关任务:REVERIE
CVPR 2020 Oral 已开源
澳大利亚阿德莱德大学吴琦老师的博士后齐元凯,与加州大学圣塔芭芭拉分校合作完成
论文地址:https://arxiv.org/abs/1904.10151
数据代码地址: https://github.com/YuankaiQi/REVERIE
远程物体定位任务REVERIE
Remote Embodied Visual referring Expression in Real Indoor Environments
VLN语言指令详细复杂,REVERIE简洁语言,而且是找到物体,而不是到达目的地
REVERIE数据集建立在Matterport3D数据集[4]及其R2R仿真器[1]的基础之上,二者提供了从真实世界采集的室内全景图像以及可导航点的联通图。为了提供物体级别的信息,扩展了R2R仿真器,使其可以提供物体在不同观测点的边框。REVERIE数据集共包含21,702条人工标注的自然语言指令,涉及1,600多个词汇。指令的平均长度为18个单词。与平均长度29个单词的R2R数据集相比,指令更简洁、自然,也因此更具有挑战性。整个数据集包含4,140个目标物体,覆盖489个类别,接近ReferCOCO数据集的6倍。具体来说,训练集合涉及60个建筑物,10,466条指令,2,353个物体。验证集涉及56个建筑物,953个物体,4,944条指令。验证集中10个建筑物,3,521条指令,513个物体未出现在训练集中。测试集共6,292条指令,涉及834个物体,16个建筑物。测试集的数据未出现在训练集或验证集中。
Interactive Navigation-Pointer 交互式导航和物体定位的算法
首先,物体定位模块Pointer以当前位置的视觉感知图像和自然语言指令为输入,计算并返回与指令最相符的3个物体。这3个物体的视觉特征和类别标签用作导航模块Navigator的输入。同时,Navigator也以语言指令和当前位置的感知图像为输入。由Navigator输出停止或下一个前进的方向。如果Navigator输出停止,则当前步Pointer返回的与语言指令最相似的物体为最终输出结果。
8个导航算法:4个Baseline(Random、Shortest、R2R-TF、R2R-SF)和3个前沿导航算法(RCM、SelfMonitor、FAST-short)以及一个变种(FAST-Lan-Only,仅输入语言指令到FAST-short中)
选取了性能优异的导航算法FAST[5]为Navigator,以MAttNet[6]为Pointer。RGS (remote grounding success rate):找到目标物体的任务成功数比总任务数
视觉信息对完成该任务具有重要的作用:前沿导航算法(如FAST-short)在Val Seen上取得了30%左右的成功率,但是在Unseen场景下最高只有7%的成功率。FAST-Lan-Only在ValSeen场景下比FAST-short成功率大幅下降
最终结果:在Unseen场景下取得了11%的成功率,但是离人类的成功率77.84%仍有很大差距
学习笔记|视觉语言导航任务相关推荐
- Java 学习笔记(导航目录)
Java学习计划 ☕️学习目标 ☕️学习目录 第1部分 Java基础程序设计 第1章 Java概述及开发环境搭建 第2章 简单的Java程序 第3章 Java基础程序设计 第4章 数组与方法 第2部分 ...
- ROS学习笔记之导航(仿真)
一.导航模块简介 机器人是如何实现导航的呢?或换言之,机器人是如何从 A 点移动到 B 点呢?ROS 官方为了提供了一张导航功能包集的图示,该图中囊括了 ROS 导航的一些关键技术: 假定我们已经以特 ...
- 【微信小程序】学习笔记-----navigation-bar导航栏
微信官方文档----小程序 微信小程序底部的导航栏不需要自己画,通过配置即可 先配置list数组,tab的列表 在app.json中与其他项平级,当输入tabBar的时候会自动填补齐全,这里要注意,控 ...
- Fiori学习笔记 - 路由导航
路由导航在前端框架中占据这十分重要的地位.它决定了整个项目的结构.每个页面的跳转方式以及传参等等. Fiori的路由层级可以支持到二级或三级,并且可以通过 viewLevel 来指定路由层级,从而可以 ...
- Zabbx6.0(学习笔记)
Zabbx6.0(学习笔记) 目录导航 Zabbx6.0(学习笔记) 一.为什么 需要监控系统 二.如何选择监控 三.Zabbix概述 四.Zabbix安装哪个版本? Zabbix安装要求 1.硬件 ...
- Windows phone 8 学习笔记(8) 定位地图导航
Windows phone 8 学习笔记(8) 定位地图导航 原文:Windows phone 8 学习笔记(8) 定位地图导航 Windows phone 8 已经不使用自家的bing地图,新地图控 ...
- CSS学习笔记-04 a标签-导航练习
个人练习,各位大神勿笑 .. <!DOCTYPE html> <html lang="en"> <head><meta charset= ...
- 【学习笔记】ROS-移动机器人导航相关
[学习笔记]ROS-移动机器人导航相关 一.定位 二.导航 1. move_base现存问题 三.可视化 1. Rviz显示机器人运动轨迹方法: 一.定位 二.导航 1. move_base现存问题 ...
- 《王道计算机组成原理》学习笔记和总目录导航
<王道计算机组成原理>学习笔记和总目录导读 本篇文章是阅读和学习<王道计算机组成原理>后总结的理论知识笔记导航,专门用于遗忘后复习 下面的文章是我在学习了<王道计算机组成 ...
最新文章
- 限量!“Java成长笔记”Spring Boot/Sentinel/Nacos高并发
- 学什么都不容易!学好一样更不容易!
- 杀死linux-zombie僵尸进程
- Linux-Rsync命令参数详解
- Go聊天室的思路:一个拨号 一个监听
- python字典值的和计算_第一章Python数据结构和算法(字典的运算)
- vmware_vcenter_api
- 饿了么翻车,美团被质疑,马云也赔了40亿,这项技术为什么让人害怕?
- 语音转文字的软件APP
- drawpolygon收尾不连接_门窗施工全流程,80%的设计师都不了解!
- 为LogAnalyzer添加源IP
- 不经意传输算法 效果
- 游戏必备组件_没有网络也可以肝的单机小游戏!玩一局就停不下来
- iOS手势识别的工作原理
- 直方图中bin的说明
- 闲聊一下android 3D 网络游戏
- 2019广州大学城第二届“论客杯”青年公益微创投暨南大学校际公开赛决赛圆满落幕
- 电子设计入门——各种不同的GND怎么接
- 服务器并发C10K/C100k/C10M问题(重制版)
- DNS信息查询综合实验
热门文章
- ug建模文本怎么竖着_UG编程文字加工,全方位实例讲解,文末有作业哦!
- 【学习】手写数字生成
- 王传宝老师--宏观经济学家--金融研究专家---沪师经纪刘建
- MRI数据预处理--使用FSL-BET轻松去头骨,提取脑组织
- thinkPHP3.2.3使用163邮箱发送邮件
- 疑难杂症篇(五)--从word2019复制编辑好的公式到visio2019出现乱码的解决方案
- 剑指 Offer 52—— 两个链表的第一个公共节点
- Python学习,python3中的bytes和str类型
- Q1月活大涨70%,后浪会成B站的流量萌新吗?
- 重磅!实在智能首创“智能融合拾取”技术!