1.基于深度强化学习的智能汽车决策模型

以神经网络为核心的智能体最主要的优势在于其依靠大量的数据自主学习的能力,通过数据驱动智能体可以应对各种未经历过的复杂环境。强化学习是一种经典的智能系统设计方案,其主要思想是在智能体在当前环境下进行运动后,根据环境的变化,给智能体一个反馈信号,其目的是高速智能体在上一个步骤做的怎么样,从而让智能体通过合理的行为,最大化智能体的累积回报,并在该过程做出最佳决定,深度强化学习结合了强化学习和深度学习的特点,可以使强化学习智能体可以被应用在更加广泛的领域。
与传统的Q-learning中消耗大量内存来存储Q值不同,DQN算法通过神经网络拟合出求解Q值的函数,这种方法有效结合了神经网络理论和强化学习理论,提升了Q-learning的计算和存储效率,让Q-learning算法可以应对自动驾驶等复杂的决策场景。而DDPG算法以Actor-Cristic策略为举出,对DQN算法进行了扩充,其应用了DQN的经验回放和时序差分(利用目标值和估计值在不同时间步上的差异,使用自举法从观察到的回报和下个状态的估值来构造它的目标函数)等机制。
(1)DDPG算法的动作空间直接对策略进行学习,则会样有利于解决连续动作空间的问题。
(2)DQN相对于DDPG的优势在于DQN的学习更加稳定,并且DQN的高参相对比较少,模型相对简单。
为了简化模型,采用DQN作为智能驾驶智能体的核心算法,首先建立智能汽车的马尔可夫模型,最后建立DQN模型实现驾驶决策。

2 智能驾驶汽车强化学习框架

整体训练框架

3 DQN模型训练流程

(1)DQN算法
DQN算法的核心是计算Q值,其结合了Q-learning算法和神经网络的优点,Q-learning的核心是在当前状态下,智能体根据观测信息来决定采取什么动作,而智能体的动作会改变环境,而环境的改变会通过下一状态的观测信息传递给智能体,智能体也会收到该动作所获得的回报信息。该算法的核心在于构建一段称为Q表的数据结构来存储在当前状态的智能体所做出的决策会收到什么回报,从而让智能体偏向于做出回报较大的动作。
Q表的更新是根据环境反馈的回报通过贝尔曼返程来更新Q表,Q值的误差函数如下:

(2)模型训练过程
在强化学习智能体的训练过程中探索和开发是必不可少的。探索是指探索之前未采用过的行为,而开发是指继续使用当前的最优策略。为了平衡探索和开发使用如下策略,进行算法的策略更新。

Q-learning算法的训练为,首先建立一个Q值表,智能体同环境进行不断交互,从环境中得到状态观测值,选取并执行动作,获得下一状态的观测值和奖赏值,通过对当前动作的价值评估查抄表的方式来更改Q值表,用这种方式实现增加可以得到正奖励的动作的概率,减少可以得到负奖励动作的概率,通过多次与环境交互使得智能体的动作集最优。
DQN是在Q-learning基础上进行改进的,DQN算法在进行值函数更新时,更新的是参数,并且参数值的改变不仅仅会影响当前状态动作下的Q值输出,任意状态下的值函数都会发生改变。与传统Q-learning中消耗大量内存来存储Q值不同,DQN算法通过神经网络拟合出求解Q值的函数,这种方法有效结合了神经网络和强化学习理论,提升了Q-learning的计算和存储效率。
在DQN算法中,根据深度学习神经网络回归问题的损失函数描述,强化学习的优化目标为最小Q值和估计Q值的差值。
在训练DQN时,首先搭建两个神经网络,一个为目标值Q网络,一个为当前值Q网络,这两个网络的结构是相同的,区别仅仅是参数不同。其中目标值网络用于预测Q值,这个网络不会实时的更新,而当前值Q网络拥有最新的神经网络参数。同时为了存储过去的经历建立了一段回放记忆缓冲区,当DQN迭代一次,则对缓冲区进行随机采样,这种方法可以提升DQN的更新效率,并且使得训练数据减少相关性,减少训练的过拟合。

4.智能驾驶马尔可夫设计

将自动驾驶过程进行数学描述为马尔可夫过程。马尔可夫过程包括状态空间,观测空间,动作空间,回报函数。

基于深度强化学习的智能汽车决策模型相关推荐

  1. 基于深度强化学习的智能船舶航迹跟踪控制

    基于深度强化学习的智能船舶航迹跟踪控制 人工智能技术与咨询 昨天 本文来自<中国舰船研究> ,作者祝亢等 关注微信公众号:人工智能技术与咨询.了解更多咨询! 0.   引 言 目前,国内外 ...

  2. 基于深度强化学习的智能车间调度方法研究

    摘要: 工业物联网的空前繁荣为传统的工业生产制造模式开辟了一条新的道路.智能车间调度是整个生产过程实现全面控制和柔性生产的关键技术之一,要求以最大完工时间最小化分派多道工序和多台机器的生产调度.首先, ...

  3. 通过图注意力神经网络进行多智能体游戏抽象_[读论文] AttnPath: 将图注意力机制融入基于深度强化学习的知识图谱推理中...

    论文原文:Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforcem ...

  4. 商简智能学术成果|基于深度强化学习的联想电脑制造调度(Lenovo Schedules Laptop Manufacturing Using Deep Reinforcement Learning)

    获取更多资讯,赶快关注上面的公众号吧! 文章目录 摘要 背景介绍 传统方法无法解决现有挑战 解决方案 提升模型表达能力 针对复杂约束的掩码机制 快速模型训练 配置多目标调度优化 结论   本篇论文作为 ...

  5. ICCV 2019 | 旷视研究院推出基于深度强化学习的绘画智能体

    两年一度的国际计算机视觉大会 ICCV 2019 ( IEEE International Conference on Computer Vision) 将于当地时间 10 月 27 至 11 月 2 ...

  6. 基于深度强化学习训练《街头霸王·二:冠军特别版》通关关底 BOSS -智能 AI 代理项目上手

    文章目录 SFighterAI项目简介 实现软件环境 项目文件结构 运行指南 环境配置 验证及调整gym环境: gym-retro 游戏文件夹 错误提示及解决 Could not initialize ...

  7. 论文研读——基于深度强化学习的自动驾驶汽车运动规划研究综述

    论文研读--Survey of Deep Reinforcement Learning for Motion Planning of Autonomous V ehicles 此篇文章为论文的学习笔记 ...

  8. 时空AI技术:深度强化学习在智能城市领域应时空AI技术:深度强化学习在智能城市领域应用介绍...

    来源:海豚数据科学实验室 作者:京东科技 时空AI团队 深度强化学习是近年来热起来的一项技术.深度强化学习的控制与决策流程必须包含状态,动作,奖励是三要素.在建模过程中,智能体根据环境的当前状态信息输 ...

  9. 深度强化学习在智能城市领域应用介绍

    来源:海豚数据科学实验室 深度强化学习是近年来热起来的一项技术.深度强化学习的控制与决策流程必须包含状态,动作,奖励是三要素.在建模过程中,智能体根据环境的当前状态信息输出动作作用于环境,然后接收到下 ...

最新文章

  1. mysql双机热备的实现
  2. SaltStack工具中MySQL的模块返回值问题解决
  3. 自动化测试如何解决验证码的问题
  4. AndroidStudio动态调试smali
  5. dd命令测试linux磁盘io情况,【LINUX】正确的使用dd进行磁盘读写速度测试
  6. jzoj1373-食物链【并查集】
  7. DFS VS BFS
  8. Sublime Text 3 、WebStorm配置实时刷新
  9. iOS的四种持久化存储
  10. PHP(阿里云短信验证码)
  11. 《英语语法新思维初级教程》学习笔记(四)数量限定词和个体限定词
  12. android定时上传视频,【安卓按键精灵】定时执行指定任务
  13. 计算机科学与技术学习心得
  14. 计算机打印机能不能取消正在,删除HP打印机驱动程序. 打印机驱动程序正在使用中,无法删除...
  15. xlwings设置单元格格式为文本-改正身份证显示问题+excel单元格设置为文本为何还要双击
  16. 【故事】程序员到底是干什么的
  17. 【算法】leetcode 974. 和可被 K 整除的子数组(前缀和思想)
  18. 【keras框架下Resnet101_Unet深度学习模型对医学图像语义分割】
  19. IDEA连接数据库及一些基本操作
  20. SQL SERVER 2008 R2 错误代码 17000 - 17999

热门文章

  1. uniwide服务器不能进入系统,AMD巴塞罗那服务器全面上市
  2. 感叹号在Java啥意思_感叹号暗示什么意思
  3. U盘安装ubuntu18.04 LTS图文详细过程
  4. 服务器的流量是什么?
  5. apply、call、bind三者的区别—附:防抖、节流函数
  6. 【原创】ThinkpadX240更换三键触摸板注意事项
  7. 免费的大数据学习资料及学习路线、这一份就足够了
  8. 下列设备中 微型计算机系统必须具备的是,大学计算机基础全部习题与答案解析...
  9. 黑吧安全网-红客闯关游戏解密
  10. Android 音乐频谱实现