84*84*4表示一个state,4表示4帧图像。

每个像素点都有0-255种可能取值,256的84*84*4次幂表示4张图全部像素点的总共可能性取值。说明如果全部像素点都拿来做state,那Q-table就太大了。

可不可以借助神经网络来做?

改变每个像素点的值,转换为黑白图像:0代表黑色,255代表白色。黑色是可以走的区域,白色是不可以走的区域。每4帧图像为一个state每个位置都有一个当前最优解,但是不是全局最优解呢?我们之前的解都是根据贪心的选择做最优的解,如果加上一些探索(比如10%可能性不走当前最优解,在最优解和其他解当中随机的选一个),尝试全局最优解。

开发:每次按贪心的选择去走最好的一个方向。但是要让网络泛化能力更强,因为神经网络有时会过拟合,所以要加上一些探索,使得网络能够去发现一些新的东西。

例如贪心为10%,那么它有90%按正常去走,10%按随机去走。

强化学习与深度,神经网络的结合随记相关推荐

  1. 【强化学习】深度强化学习入门介绍

    深度强化学习是一种机器学习,其中智能体(Agent,也翻译作代理)通过执行操作(Action)和查看结果(Reward)来学习如何在环境中采取最佳的动作或策略. 自 2013 年Deep Q-Lear ...

  2. 机器学习、监督学习、非监督学习、强化学习、深度学习、迁移学习

    机器学习.监督学习.非监督学习.强化学习.深度学习.迁移学习 机器学习(machine learning) 监督学习(supervised learning) 非监督学习(unsupervised l ...

  3. 【深度学习】深度神经网络后处理之全连接CRFs(DenseCRF)

    [深度学习]深度神经网络后处理之全连接CRFs(DenseCRF) 文章目录 1 概述 2 条件随机场2.1 什么样的问题需要CRF模型2.2 随机场到马尔科夫随机场2.3 从马尔科夫随机场到条件随机 ...

  4. 【深度学习】深度神经网络框架的INPUT PROCESS

    [深度学习]深度神经网络框架的INPUT PROCESS 文章目录 1 概述 2 批量生成训练数据2.1 如何实现2.2 实验验证2.3 图片标注并生成训练所需文件 3 数据增强 4 目标检测中的图像 ...

  5. 【深度学习】深度神经网络框架的探索(从Regression说起)

    [深度学习]深度神经网络框架的探索(从Regression说起) 1 从逻辑回归说起 2 深度学习框架 3 基于反向传播算法的自动求导 4 简单深度神经网络框架实现4.1 数据结构4.2 计算图组件4 ...

  6. 各类学习平台收集记录(强化学习、深度学习、机器学习)

    各类学习平台收集记录(强化学习.深度学习.机器学习) 1.百度开发者中心  https://developer.baidu.com/?from=aistudio 有很多开源项目代码可以借鉴学习. 2. ...

  7. 叶梓老师人工智能培训之强化学习与深度强化学习提纲(强化学习讲师培训)

    强化学习与深度强化学习提纲(强化学习讲师培训) 第一天 强化学习   第一课 强化学习综述 1.强化学习要解决的问题 2.强化学习方法的分类 3.强化学习方法的发展趋势 4.环境搭建实验(Gym,Te ...

  8. AI内训讲师叶梓-强化学习与深度强化学习提纲(强化学习讲师培训)

    叶梓老师更多教程资料可点击个人主业​​​​​​​查看 第一天 强化学习   第一课 强化学习综述 1.强化学习要解决的问题 2.强化学习方法的分类 3.强化学习方法的发展趋势 4.环境搭建实验(Gym ...

  9. 学习笔记TF053:循环神经网络,TensorFlow Model Zoo,强化学习,深度森林,深度学习艺术...

    循环神经网络.https://github.com/aymericdamien/TensorFlow-Examples/blob/master/examples/3_NeuralNetworks/re ...

最新文章

  1. Plotly可视化输出数据表格(table):简单表格、添加链接的表格
  2. Windows磁盘驱动基础教程
  3. 使用require.js和backbone实现简单单页应用实践
  4. 前端之JavaScript 补充
  5. 2020-11-18(失败的一天)
  6. Hook技术--Activity的启动过程的拦截
  7. 1SE rule details in CCP pruning of CART
  8. JavaFX如何将WritableImage转换为Image
  9. python解压打开文件过多_在python中使用zipfile压缩文件时层级很多,有很多层目录...
  10. 分区界限必须调整为高于最后一个分区界限_不花一分钱,为SSD硬盘腾空间
  11. 红帽linux怎么装文件夹,红帽linux怎么安装第三方字体?
  12. java解析ajax的数据_java ajax 请求后获取 json 数据 以及 使用 解析 ,解惑
  13. 设计人的33个好习惯
  14. 高斯过程回归python_scikit-learn中的多输出高斯过程回归
  15. 纯CSS3实现lightbox+图像轮播
  16. HMM学习笔记_2(从一个实例中学习HMM前向算法)
  17. 【活字格案例】综合报表信息管理系统搭建
  18. 32位java jre_64位的jre和32位的jre
  19. Excel的Sumif、Sumifs求和结果错误
  20. Unity粒子系统-粒子光环

热门文章

  1. Spring Session - 源码解读
  2. Shell-使用和wait让你的脚本并行执行
  3. Oracle-OLAP和OLTP解读
  4. postman怎么导出测试用例_postman---postman文件夹介绍以及批量执行用例
  5. RocketMQ:Consumer概述及启动流程与消息拉取源码分析
  6. 删除表格数据后自动刷新_表格中一键即可删除重复数据,你居然还用逐条排查?...
  7. php函数dirname范例,PHP dirname( )用法及代碼示例
  8. 厦大的计算机博士好考吗,2018双非学姐的厦大考博逆袭之路——本硕求学生涯历程...
  9. ZieglerNicholas PID GUI控制设计
  10. fileupload.class.php,php文件上传类