[论文笔记]Vision-Based Trajectory Planning via Imitation Learning for Autonomous Vehicles
Vision-Based Trajectory Planning via Imitation Learning for Autonomous Vehicles
基于视觉的模仿学习路径规划器。由三个子网络组成,分别执行 直行、左转、右转的任务。规划过程中,由接受的高级命令来选择特定的子网。
人类驾驶过程中,通常通过导航软件得知要行驶的方向。例如下一个路口左转。基于这一现象本文提出,根据高级驾驶命令通过基于视觉的模仿学习拉规划路径。
第一类中的大部分都是基于地图构建的,因此需要在计算资源的限制下动态地进行更新,而这可能不足以反映环境的变化。另外,该方法方法依赖于感知系统从原始的感知输入中以手动设计的特征的形式提取信息。在变化的环境中较难适应。
第二类有两个缺陷(i)车辆不能在交叉路口操纵。可能会因缺乏高级导航命令而转向错误。 (ii)学习的行为策略只能在使用专门收集的数据上才能很好地执行。
本文将视觉感知和状态信息映射到未来的轨迹中,将传统框架中的感知、行为层、运动规划等模块被整合到一起。形成一种端到端的轨迹规划方法。
本文的主要工作由:
模仿人类的驾驶行为,引入一种新颖的基于无图学习的规划方法。面对十字路口等一些困难场景,该方法是可靠的。
根据网络规划的轨迹,可以针对不同车辆设计不同的控制器。
相关工作
用各种输入测试了不同的网络,例如一系列灰度图像,过去的自我运动,周围物体的检测和车道标记估计。所有模型均通过模仿学习使用收集的欧洲农村地区7个小时的真实驾驶数据进行了训练。结果表明,在许多情况下,LSTM或CNN-LSTM预测的路径是平滑可行的。但是,该网络不应处理决策,仅考虑车道保持任务。另外,由于数据限制,未考虑与周围环境的相互作用
**Deep Path Planning Using Images and Object Data **
网络搭建:
考虑历史的数据,网络的输入由当前时刻前1.5秒的驾驶数据组成,包括k组图像+车辆的运动状态信息(横向位置x 、纵向位置z、速度v)。
网络的输出是未来3s的无碰撞轨迹的位置。
输入命令来选用3个子网中的一个来执行不同的驾驶任务(直行、左转、右转)
3个子网分别用作提取输入图像的视觉特征,输出为128*12的特征向量。每张图像提取为128维的特征向量。状态信息模块将每个历史运动状态信息长度拓展为32维。联合特征为(128+32)*12。联合特征输入到LSTM网络中,最后输出到全连接层中来得到3*n的一个输出向量。
处理图像的CNN模块由四个卷积层、四个池化层以及三个全连接层组成。四个卷积层的kernel sizes分别为 7、6、5、5。相应的filters数量 分别为16、32、48、64。步幅都为1。三个全连接层将特征转换为128维向量。所有隐藏层进行batch normalization ,激活函数为Relu。
对于LSTM模块,循环层数为3,隐藏的特征数目为512。
对于每个训练样本,trjgt为地面真值trjplan为模型预计值,定义损失函数如下对于每个训练样本,trj_{gt}为地面真值trj_{plan}为模型预计值,定义损失函数如下 对于每个训练样本,trjgt为地面真值trjplan为模型预计值,定义损失函数如下
数据
数据来自于 Robotcar 数据集,从中提取相机图像以及地面真实位置信息。为了可视化和性能的测试,在每帧上将相邻时间段的轨迹投影到图像中。最终的训练数据集包含52,200张图像,删除了GPS信号较差的序列,以确保训练数据的质量。不考虑汽车因交通信号灯或停车标志而停车的情况。其中训练、验证、测试的比例为35:4:11。数据集的具体分布如下图所示。
对于每个图像,将以其时间戳范围4.5秒(前1.5秒+后3秒)的相应UTM (Universal Transverse Mercator) 坐标转换为本地坐标系,然后再记录到该图像上,也就生成了4.5秒的车辆轨迹。
第一行为原始图像,第二行为使用Mask R-CNN来检测对象,然后使用获取的2D边界框来估计对象的大小和方向。然后使用PSM-Net 计算图像的深度信息。
训练过程:Optimizer : Adam,Learning rate : 0.001, batch size : 32.
文中采用8个指标来评估网络的性能。
T:
DLJ(dimensionless jerk ):无量纲抖动,计算轨迹的平滑度,DLJ的值越高,轨迹越平滑。
IoU:根据车辆得宽度将每帧图像未来轨迹拓展为区域D,
E(speed):平均速度
E(l2):是平均位移误差
E(lateral):横向平均误差
E(longi):纵向平均误差
E(final disp):预计最终目标位置与真实最终目标位置误差
实验结果:
定量分析
20分钟内不同模型的横向纵向误差如下。可以直观地看出,CNN-LSTM + State模型比其他两种方法规划的位置更准确,尤其是纵向位置。
定性分析
第一列为当GPS + INS数据与实际驾驶轨迹略有偏离的情况,CNN-LSTM + State模型会生成比地面真实情况的轨迹更平滑。
左转以及右转。
第二列是在弯曲道路上直行,第三列是在变更车道,第五列是前方有车的减速情况。
本文的工作 忽略了对交通信号灯的处理,并且没有考虑不同天气或光照条件下的规划性能。
补充
Mask R-CNN
Mask RCNN沿用了Faster RCNN的思想,特征提取采用ResNet-FPN的架构,另外多加了一个Mask预测分支。
待补充。
K. He, G. Gkioxari, P. Dollár, and R. Girshick, “Mask r-cnn,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 2961–2969.
W. Abdulla, “Mask r-cnn for object detection and instance segmentation on keras and tensorflow,” https://github.com/matterport/Mask_ RCNN, 2017.
PSM-Net
引入了空间金字塔池化模块(spatial pyramid pooling,SPP)。
J.-R. Chang and Y.-S. Chen, “Pyramid stereo matching network,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 5410–5418.
待补充。
and Y.-S. Chen, “Pyramid stereo matching network,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 5410–5418.
待补充。
[论文笔记]Vision-Based Trajectory Planning via Imitation Learning for Autonomous Vehicles相关推荐
- 【论文笔记09】Differentially Private Hypothesis Transfer Learning 差分隐私迁移学习模型, ECMLPKDD 2018
目录导引 系列传送 Differentially Private Hypothesis Transfer Learning 1 Abstract 2 Bg & Rw 3 Setting &am ...
- 论文笔记《Incorporating Copying Mechanism in Sequence-to-Sequence Learning》
论文笔记<Incorporating Copying Mechanism in Sequence-to-Sequence Learning> 论文来源:2016 ACL 论文主要贡献:提出 ...
- 论文笔记:Decoding Brain Representations by Multimodal Learning of Neural Activity and Visual Features
论文笔记:Decoding Brain Representations by Multimodal Learning of Neural Activity and Visual Features(通过 ...
- 【论文阅读】TRO 2021: Fail-Safe Motion Planning for Online Verification of Autonomous Vehicles Using Conve
参考与前言 Last edited time: August 3, 2022 10:04 AM Status: Reading Type: TRO Year: 2021 论文链接:https://ie ...
- CS285课程笔记(1)——模仿学习(Imitation Learning)
(本文对应lecture 1和2,文中的图片来自于对课程课件截图的小修小改) 1. 强化学习简介 本节介绍在课程中我认为对于理解强化学习框架有用的一些概念.更为详细的可以参照我的其他博客. 1.1 强 ...
- 【论文阅读】AVP-SLAM Semantic Visual Mapping and Localization for Autonomous Vehicles in the Parking Lot
文章:AVP-SLAM: Semantic Visual Mapping and Localization for Autonomous Vehicles in the Parking Lot 作者: ...
- 论文笔记《Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts》
论文链接 MMoE 1.摘要 基于神经网络的多任务学习已经在实际场景如推荐系统中有了大规模应用,例如在电影推荐中,除了要给用户推荐他们可能购买或者观看的电影,还要考虑用户后续对这部电影的评价.通过多任 ...
- 论文笔记:Geo-Neus: Geometry-Consistent Neural Implicit Surfaces Learning for Multi-view Reconstruction
文章目录 贡献 方法 理论分析:有偏的颜色渲染 SDF网络的显式监督 遮挡处理 视角感知的SDF损失 带有多视约束的几何一致性监督 遮挡感知的隐式表面抓取 几何一致性损失 损失函数 贡献 论述说明体渲 ...
- 【论文笔记】《Social Influence-Based Group Representation Learning for Group Recommendation》
ICDE 19 A会 这篇论文一作是阴老师,获得了ICDE19最佳论文奖. Abstract 作为群居动物,参加群组活动是人日常生活中必不可少的一部分,为群组用户推荐满意的活动是推荐系统一项重要的任务 ...
最新文章
- Zabbi监控系统搭建
- 消息队列的实践php,php消息队列处理实践 ,利用AMQP和redis两种方法
- 使用UDP的简单C/S程序
- oracle中ocr和asm的关系,迁移OCR和VotingDisk并删除原ASM磁盘组
- mybatis 缓存总结以及遇到的问题
- Windows 10 2022 年更新来了!
- 全栈测试:平衡单元测试和端到端测试
- mysql读写分离_MySQL基于amoeba读写分离实验
- MySQL在Windows 环境中的安装
- 对 SharePoint WebService 的调用
- 一年中所有节日的排列顺序_中国传统节日有哪些 按顺序排列全部
- hcfax2e伺服驱动器说明书_ABB用户手册MicroFlexe150伺服驱动器.pdf
- 2.6 数值分析: 追赶法
- react里面点击按钮触发复制文本功能
- python扩展模块开发
- 如何搭建自己的CI/CD平台:Gitlab+Jenkins+Docker+Harbor+K8s集群搭建CICD平台(持续集成部署Hexo博客Demo)
- HTML table border 属性
- JavaSE_day12:集合,泛型,增强for循环特性
- installshield mysql_InstallShield 调用批处理部署MySql数据库 | 学步园
- word文档编辑受限制怎么解除?
热门文章
- 捷讯fw300r虚拟服务器口号,迅捷(Fast)FW300RM迷你路由器AP模式设置 | 192路由网
- WiFi ADB 目标设备拒接或者连接主机没有反应10060
- 红米android system干什么的,Android System Webview是什么东西
- AutoML论文笔记(九)CARS Continuous Evolution for Efficient Neural Architecture Search:连续进化神经网络搜索
- 第三方SnapChat客户端遭入侵,上万张、近13G私照泄露
- 笔记整理3——python实现MAC分析地理位置
- 【Rust 日报】2022-11-06 二维码生成工具
- 10元权限gm游戏_gm10元权限手游
- 第三次拒字节offer、腾讯内部活水csig
- Titanic 生存预测详细笔记