1.基于深度强化学习的智能汽车决策模型

以神经网络为核心的智能体最主要的优势在于其依靠大量的数据自主学习的能力，通过数据驱动智能体可以应对各种未经历过的复杂环境。强化学习是一种经典的智能系统设计方案，其主要思想是在智能体在当前环境下进行运动后，根据环境的变化，给智能体一个反馈信号，其目的是高速智能体在上一个步骤做的怎么样，从而让智能体通过合理的行为，最大化智能体的累积回报，并在该过程做出最佳决定，深度强化学习结合了强化学习和深度学习的特点，可以使强化学习智能体可以被应用在更加广泛的领域。
与传统的Q-learning中消耗大量内存来存储Q值不同，DQN算法通过神经网络拟合出求解Q值的函数，这种方法有效结合了神经网络理论和强化学习理论，提升了Q-learning的计算和存储效率，让Q-learning算法可以应对自动驾驶等复杂的决策场景。而DDPG算法以Actor-Cristic策略为举出，对DQN算法进行了扩充，其应用了DQN的经验回放和时序差分(利用目标值和估计值在不同时间步上的差异，使用自举法从观察到的回报和下个状态的估值来构造它的目标函数)等机制。
(1)DDPG算法的动作空间直接对策略进行学习，则会样有利于解决连续动作空间的问题。
(2)DQN相对于DDPG的优势在于DQN的学习更加稳定，并且DQN的高参相对比较少，模型相对简单。
为了简化模型，采用DQN作为智能驾驶智能体的核心算法，首先建立智能汽车的马尔可夫模型，最后建立DQN模型实现驾驶决策。

2 智能驾驶汽车强化学习框架

整体训练框架

3 DQN模型训练流程

(1)DQN算法
DQN算法的核心是计算Q值，其结合了Q-learning算法和神经网络的优点，Q-learning的核心是在当前状态下，智能体根据观测信息来决定采取什么动作，而智能体的动作会改变环境，而环境的改变会通过下一状态的观测信息传递给智能体，智能体也会收到该动作所获得的回报信息。该算法的核心在于构建一段称为Q表的数据结构来存储在当前状态的智能体所做出的决策会收到什么回报，从而让智能体偏向于做出回报较大的动作。
Q表的更新是根据环境反馈的回报通过贝尔曼返程来更新Q表，Q值的误差函数如下：

(2)模型训练过程
在强化学习智能体的训练过程中探索和开发是必不可少的。探索是指探索之前未采用过的行为，而开发是指继续使用当前的最优策略。为了平衡探索和开发使用如下策略，进行算法的策略更新。

Q-learning算法的训练为，首先建立一个Q值表，智能体同环境进行不断交互，从环境中得到状态观测值，选取并执行动作，获得下一状态的观测值和奖赏值，通过对当前动作的价值评估查抄表的方式来更改Q值表，用这种方式实现增加可以得到正奖励的动作的概率，减少可以得到负奖励动作的概率，通过多次与环境交互使得智能体的动作集最优。
DQN是在Q-learning基础上进行改进的，DQN算法在进行值函数更新时，更新的是参数，并且参数值的改变不仅仅会影响当前状态动作下的Q值输出，任意状态下的值函数都会发生改变。与传统Q-learning中消耗大量内存来存储Q值不同,DQN算法通过神经网络拟合出求解Q值的函数，这种方法有效结合了神经网络和强化学习理论，提升了Q-learning的计算和存储效率。
在DQN算法中，根据深度学习神经网络回归问题的损失函数描述，强化学习的优化目标为最小Q值和估计Q值的差值。
在训练DQN时，首先搭建两个神经网络，一个为目标值Q网络，一个为当前值Q网络，这两个网络的结构是相同的，区别仅仅是参数不同。其中目标值网络用于预测Q值，这个网络不会实时的更新，而当前值Q网络拥有最新的神经网络参数。同时为了存储过去的经历建立了一段回放记忆缓冲区，当DQN迭代一次，则对缓冲区进行随机采样，这种方法可以提升DQN的更新效率，并且使得训练数据减少相关性，减少训练的过拟合。

4.智能驾驶马尔可夫设计

将自动驾驶过程进行数学描述为马尔可夫过程。马尔可夫过程包括状态空间，观测空间，动作空间，回报函数。

基于深度强化学习的智能汽车决策模型相关推荐

基于深度强化学习的智能船舶航迹跟踪控制
基于深度强化学习的智能船舶航迹跟踪控制人工智能技术与咨询昨天本文来自<中国舰船研究> ,作者祝亢等关注微信公众号:人工智能技术与咨询.了解更多咨询! 0. 引言目前,国内外 ...
基于深度强化学习的智能车间调度方法研究
摘要: 工业物联网的空前繁荣为传统的工业生产制造模式开辟了一条新的道路.智能车间调度是整个生产过程实现全面控制和柔性生产的关键技术之一,要求以最大完工时间最小化分派多道工序和多台机器的生产调度.首先, ...
通过图注意力神经网络进行多智能体游戏抽象_[读论文] AttnPath: 将图注意力机制融入基于深度强化学习的知识图谱推理中...
论文原文:Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforcem ...
商简智能学术成果|基于深度强化学习的联想电脑制造调度（Lenovo Schedules Laptop Manufacturing Using Deep Reinforcement Learning）
获取更多资讯,赶快关注上面的公众号吧! 文章目录摘要背景介绍传统方法无法解决现有挑战解决方案提升模型表达能力针对复杂约束的掩码机制快速模型训练配置多目标调度优化结论本篇论文作为 ...
ICCV 2019 | 旷视研究院推出基于深度强化学习的绘画智能体
两年一度的国际计算机视觉大会 ICCV 2019 ( IEEE International Conference on Computer Vision) 将于当地时间 10 月 27 至 11 月 2 ...
基于深度强化学习训练《街头霸王·二：冠军特别版》通关关底 BOSS -智能 AI 代理项目上手
文章目录 SFighterAI项目简介实现软件环境项目文件结构运行指南环境配置验证及调整gym环境: gym-retro 游戏文件夹错误提示及解决 Could not initialize ...
论文研读——基于深度强化学习的自动驾驶汽车运动规划研究综述
论文研读--Survey of Deep Reinforcement Learning for Motion Planning of Autonomous V ehicles 此篇文章为论文的学习笔记 ...
时空AI技术：深度强化学习在智能城市领域应时空AI技术：深度强化学习在智能城市领域应用介绍...
来源:海豚数据科学实验室作者:京东科技时空AI团队深度强化学习是近年来热起来的一项技术.深度强化学习的控制与决策流程必须包含状态,动作,奖励是三要素.在建模过程中,智能体根据环境的当前状态信息输 ...
深度强化学习在智能城市领域应用介绍
来源:海豚数据科学实验室深度强化学习是近年来热起来的一项技术.深度强化学习的控制与决策流程必须包含状态,动作,奖励是三要素.在建模过程中,智能体根据环境的当前状态信息输出动作作用于环境,然后接收到下 ...

基于深度强化学习的智能汽车决策模型

1.基于深度强化学习的智能汽车决策模型

2 智能驾驶汽车强化学习框架

3 DQN模型训练流程

4.智能驾驶马尔可夫设计

基于深度强化学习的智能汽车决策模型相关推荐

最新文章

热门文章