学习笔记｜视觉语言导航任务

2024-04-14 20:13:41

视觉语言导航任务

任务提出：CVPR2018，在Matterport3D simulator仿真环境中，从随机初始化位置到目标位置的最佳路径的轨迹搜索任务。
任务描述：这是一个偏向落地型的研究方向：该任务要求智能体，在环境中，按照自然语言指令进行导航，移动，最终到达指定目的地，所以这是一个涉及到计算机视觉和自然语言处理的多模态任务。
学科定位：目前，在这两个领域的多模态任务主要有image captioning，VQA，image Generation等。通过对这些视觉语言综合任务的分类和比较，明确navigation任务在学科体系中的位置。

弱耦合任务

图像描述

encoder-decoder的show and tell 和 neural talk（CNN+RNN）
VQA视觉问答

联合嵌入模型：图像和文字在公共特征空间学习

注意力机制模型：局部图像特征对不同区域特征加权解决噪声问题

模块化组合模型：引入不同功能的神经网络模块

知识库增强模型：引入外部知识库解决先验知识问题
文本图像生成

变分子编码器、基于流的生成模型、近似PixelCNN、GAN

基于GAN的优化方向：增加网络深度、引入多个判别起、注意力机制、增加额外约束、分阶段生成（场景图、语义中间层）
视觉对话

多次问答，基于深度强化学习的模型、注意力机制、条件变分自编码器
多模态机器翻译

给定源语言+图片，输出目标语言

研究方向：分解任务目标、充分发掘图片的视觉特征、强化学习方法的使用、无监督学习方法的拓展
视觉蕴含visual entailment

判断文本描述和图片内容是否匹配

强耦合任务

不仅需要融合视觉与语言技术，还需要智能体针对问题，在虚拟的空间环境中进行路径规划和探索！是深度融合任务。

VLN：视觉语言导航（2018ECCV）
Embodied QA：具身问答（2018CVPR）
IQA：interactive交互式问答

视觉语言导航任务主要方法

Look Before You Leap

2018ECCV
Motivation：改进强化学习方法，提升模型性能
model-free + model-based （RL）
- model-free：普通seq2seq。不需要对模型建模，直接将特征映射到动作空间。
- model-based：构建Env Model，使用下一个状态和下一个动作的奖励预测环境
Action Prediction：softmax的MLP，预测最终动作
Val Unseen SR 24.6% Test unseen SR 25.3%

speaker-follower

2018 NeurIPS
Motivation：重构，数据增强
speaker学习路径描述，follower预测和执行路径
使用全景动作空间代替视觉运动空间，使智能体可以感知当前位置360度全景视觉
Val Unseen SR 54.6% Test unseen SR 53.5%

RCM

2019 CVPR best stu paper
Motivation：解决跨模态基标对准问题，增强泛化能力
Navigator：关注下一个方向和字句，输出决策
Matching Critic：评估轨迹重构的文本，与指令做比较，指导navigator更好地探索
SIL：模仿学习，在无标签数据上进行探索，提升模型泛化能力
Val Unseen SR 61.3%

Self-Monitoring

2019 ICLR
Motivation：进度问题
使用历史动作也就是轨迹信息辅助决策
Val Unseen SR 58% Test unseen SR 61%

Environment Dropout

Motivation：生成新的环境，半监督学习(IL+RL)，提升模型泛化能力
Val Unseen SR 69% Test unseen SR 68.9%

Auxiliary Reasoning Tasks

2019 CVPR
Motivation：辅助任务获得额外信息，轨迹重构、进度评估、角度预测、匹配
Test unseen SR 71%

数据集

R2R (Room to Room) 2018
R4R (Room for Room)
Matterport3D 2017

评价指标

CLS (coverage weighted by length score)：预测路径与语言指示之间契合度
NR(Navigation Error)：导航偏差
SR(Success Rate)：成功率
TL(Trajectory Length)：导航路径长度
OSR(Oracle Success Rate)：任意一点成功率
SPL(Success Rate weighted by Path Length)：成功率/路径长度

主要挑战

多媒体学习瓶颈问题：信息表示、联合映射、模型对齐、模态融合等
详细复杂的自然语言指令
模糊的环境反馈，也就是强化学习模型中的奖励
以及在未知环境中的泛化能力和稳定性问题
数据收集困难

未来发展

真实环境迁移

目前大多数方法都是基于现有数据集，在模拟环境中进行的，但真实环境训练会消耗大量的时间与精力，因此迁移是很重要的研究方向。而且也可以通过虚拟数据迁移到真实数据，解决训练数据不足的问题。
泛化能力

智能体在新的环境中，遇到未出现的环境or物体，能否根据以往经验做出合理反映，也是很重要的研究方向，即泛化能力。目前的解决方案有：节间外部知识库，利用先验知识提升智能体对于环境的理解和认知能力。
更复杂的交互能力

不仅是移动到指定位置，未来还可以增加“去厨房拿一把勺子”这类的复杂交互形式，这包括利用声音信息对不可见物体的重建、推理，实用工具实现目标动作等。解决方案是增加推理能力的引入，包括视觉推理、演绎、归纳、类比等方法。
三维数据的使用

点云信息可以提升智能体避障能力。目前，将二维双目视觉图像转换为三维点云不仅可以提升目标检测准确度，但数据获取困难切对算力要求高，因此可以考虑基于双目视觉的三维重建。

相关任务：REVERIE

CVPR 2020 Oral 已开源
澳大利亚阿德莱德大学吴琦老师的博士后齐元凯，与加州大学圣塔芭芭拉分校合作完成
论文地址：https://arxiv.org/abs/1904.10151

数据代码地址: https://github.com/YuankaiQi/REVERIE
远程物体定位任务REVERIE

Remote Embodied Visual referring Expression in Real Indoor Environments
VLN语言指令详细复杂，REVERIE简洁语言，而且是找到物体，而不是到达目的地
REVERIE数据集建立在Matterport3D数据集[4]及其R2R仿真器[1]的基础之上，二者提供了从真实世界采集的室内全景图像以及可导航点的联通图。为了提供物体级别的信息，扩展了R2R仿真器，使其可以提供物体在不同观测点的边框。REVERIE数据集共包含21,702条人工标注的自然语言指令，涉及1,600多个词汇。指令的平均长度为18个单词。与平均长度29个单词的R2R数据集相比，指令更简洁、自然，也因此更具有挑战性。整个数据集包含4,140个目标物体，覆盖489个类别，接近ReferCOCO数据集的6倍。具体来说，训练集合涉及60个建筑物，10,466条指令，2,353个物体。验证集涉及56个建筑物，953个物体，4,944条指令。验证集中10个建筑物，3,521条指令，513个物体未出现在训练集中。测试集共6,292条指令，涉及834个物体，16个建筑物。测试集的数据未出现在训练集或验证集中。
Interactive Navigation-Pointer 交互式导航和物体定位的算法

首先，物体定位模块Pointer以当前位置的视觉感知图像和自然语言指令为输入，计算并返回与指令最相符的3个物体。这3个物体的视觉特征和类别标签用作导航模块Navigator的输入。同时，Navigator也以语言指令和当前位置的感知图像为输入。由Navigator输出停止或下一个前进的方向。如果Navigator输出停止，则当前步Pointer返回的与语言指令最相似的物体为最终输出结果。

8个导航算法：4个Baseline（Random、Shortest、R2R-TF、R2R-SF）和3个前沿导航算法（RCM、SelfMonitor、FAST-short）以及一个变种（FAST-Lan-Only，仅输入语言指令到FAST-short中）
选取了性能优异的导航算法FAST[5]为Navigator，以MAttNet[6]为Pointer。
RGS (remote grounding success rate)：找到目标物体的任务成功数比总任务数
视觉信息对完成该任务具有重要的作用：前沿导航算法（如FAST-short）在Val Seen上取得了30%左右的成功率，但是在Unseen场景下最高只有7%的成功率。FAST-Lan-Only在ValSeen场景下比FAST-short成功率大幅下降
最终结果：在Unseen场景下取得了11%的成功率，但是离人类的成功率77.84%仍有很大差距

学习笔记｜视觉语言导航任务相关推荐

Java 学习笔记（导航目录）
Java学习计划 ☕️学习目标 ☕️学习目录第1部分 Java基础程序设计第1章 Java概述及开发环境搭建第2章简单的Java程序第3章 Java基础程序设计第4章数组与方法第2部分 ...
ROS学习笔记之导航（仿真）
一.导航模块简介机器人是如何实现导航的呢?或换言之,机器人是如何从 A 点移动到 B 点呢?ROS 官方为了提供了一张导航功能包集的图示,该图中囊括了 ROS 导航的一些关键技术: 假定我们已经以特 ...
【微信小程序】学习笔记-----navigation-bar导航栏
微信官方文档----小程序微信小程序底部的导航栏不需要自己画,通过配置即可先配置list数组,tab的列表在app.json中与其他项平级,当输入tabBar的时候会自动填补齐全,这里要注意,控 ...
Fiori学习笔记 - 路由导航
路由导航在前端框架中占据这十分重要的地位.它决定了整个项目的结构.每个页面的跳转方式以及传参等等. Fiori的路由层级可以支持到二级或三级,并且可以通过 viewLevel 来指定路由层级,从而可以 ...
Zabbx6.0(学习笔记)
Zabbx6.0(学习笔记) 目录导航 Zabbx6.0(学习笔记) 一.为什么需要监控系统二.如何选择监控三.Zabbix概述四.Zabbix安装哪个版本? Zabbix安装要求 1.硬件 ...
Windows phone 8 学习笔记(8) 定位地图导航
Windows phone 8 学习笔记(8) 定位地图导航原文:Windows phone 8 学习笔记(8) 定位地图导航 Windows phone 8 已经不使用自家的bing地图,新地图控 ...
CSS学习笔记-04 a标签-导航练习
个人练习,各位大神勿笑 .. <!DOCTYPE html> <html lang="en"> <head><meta charset= ...
【学习笔记】ROS-移动机器人导航相关
[学习笔记]ROS-移动机器人导航相关一.定位二.导航 1. move_base现存问题三.可视化 1. Rviz显示机器人运动轨迹方法: 一.定位二.导航 1. move_base现存问题 ...
《王道计算机组成原理》学习笔记和总目录导航
<王道计算机组成原理>学习笔记和总目录导读本篇文章是阅读和学习<王道计算机组成原理>后总结的理论知识笔记导航,专门用于遗忘后复习下面的文章是我在学习了<王道计算机组成 ...

最新文章

热门文章