强化学习与深度,神经网络的结合随记
每个像素点都有0-255种可能取值,256的84*84*4次幂表示4张图全部像素点的总共可能性取值。说明如果全部像素点都拿来做state,那Q-table就太大了。
可不可以借助神经网络来做?
改变每个像素点的值,转换为黑白图像:0代表黑色,255代表白色。黑色是可以走的区域,白色是不可以走的区域。每4帧图像为一个state每个位置都有一个当前最优解,但是不是全局最优解呢?我们之前的解都是根据贪心的选择做最优的解,如果加上一些探索(比如10%可能性不走当前最优解,在最优解和其他解当中随机的选一个),尝试全局最优解。
开发:每次按贪心的选择去走最好的一个方向。但是要让网络泛化能力更强,因为神经网络有时会过拟合,所以要加上一些探索,使得网络能够去发现一些新的东西。
例如贪心为10%,那么它有90%按正常去走,10%按随机去走。
强化学习与深度,神经网络的结合随记相关推荐
- 【强化学习】深度强化学习入门介绍
深度强化学习是一种机器学习,其中智能体(Agent,也翻译作代理)通过执行操作(Action)和查看结果(Reward)来学习如何在环境中采取最佳的动作或策略. 自 2013 年Deep Q-Lear ...
- 机器学习、监督学习、非监督学习、强化学习、深度学习、迁移学习
机器学习.监督学习.非监督学习.强化学习.深度学习.迁移学习 机器学习(machine learning) 监督学习(supervised learning) 非监督学习(unsupervised l ...
- 【深度学习】深度神经网络后处理之全连接CRFs(DenseCRF)
[深度学习]深度神经网络后处理之全连接CRFs(DenseCRF) 文章目录 1 概述 2 条件随机场2.1 什么样的问题需要CRF模型2.2 随机场到马尔科夫随机场2.3 从马尔科夫随机场到条件随机 ...
- 【深度学习】深度神经网络框架的INPUT PROCESS
[深度学习]深度神经网络框架的INPUT PROCESS 文章目录 1 概述 2 批量生成训练数据2.1 如何实现2.2 实验验证2.3 图片标注并生成训练所需文件 3 数据增强 4 目标检测中的图像 ...
- 【深度学习】深度神经网络框架的探索(从Regression说起)
[深度学习]深度神经网络框架的探索(从Regression说起) 1 从逻辑回归说起 2 深度学习框架 3 基于反向传播算法的自动求导 4 简单深度神经网络框架实现4.1 数据结构4.2 计算图组件4 ...
- 各类学习平台收集记录(强化学习、深度学习、机器学习)
各类学习平台收集记录(强化学习.深度学习.机器学习) 1.百度开发者中心 https://developer.baidu.com/?from=aistudio 有很多开源项目代码可以借鉴学习. 2. ...
- 叶梓老师人工智能培训之强化学习与深度强化学习提纲(强化学习讲师培训)
强化学习与深度强化学习提纲(强化学习讲师培训) 第一天 强化学习 第一课 强化学习综述 1.强化学习要解决的问题 2.强化学习方法的分类 3.强化学习方法的发展趋势 4.环境搭建实验(Gym,Te ...
- AI内训讲师叶梓-强化学习与深度强化学习提纲(强化学习讲师培训)
叶梓老师更多教程资料可点击个人主业查看 第一天 强化学习 第一课 强化学习综述 1.强化学习要解决的问题 2.强化学习方法的分类 3.强化学习方法的发展趋势 4.环境搭建实验(Gym ...
- 学习笔记TF053:循环神经网络,TensorFlow Model Zoo,强化学习,深度森林,深度学习艺术...
循环神经网络.https://github.com/aymericdamien/TensorFlow-Examples/blob/master/examples/3_NeuralNetworks/re ...
最新文章
- Plotly可视化输出数据表格(table):简单表格、添加链接的表格
- Windows磁盘驱动基础教程
- 使用require.js和backbone实现简单单页应用实践
- 前端之JavaScript 补充
- 2020-11-18(失败的一天)
- Hook技术--Activity的启动过程的拦截
- 1SE rule details in CCP pruning of CART
- JavaFX如何将WritableImage转换为Image
- python解压打开文件过多_在python中使用zipfile压缩文件时层级很多,有很多层目录...
- 分区界限必须调整为高于最后一个分区界限_不花一分钱,为SSD硬盘腾空间
- 红帽linux怎么装文件夹,红帽linux怎么安装第三方字体?
- java解析ajax的数据_java ajax 请求后获取 json 数据 以及 使用 解析 ,解惑
- 设计人的33个好习惯
- 高斯过程回归python_scikit-learn中的多输出高斯过程回归
- 纯CSS3实现lightbox+图像轮播
- HMM学习笔记_2(从一个实例中学习HMM前向算法)
- 【活字格案例】综合报表信息管理系统搭建
- 32位java jre_64位的jre和32位的jre
- Excel的Sumif、Sumifs求和结果错误
- Unity粒子系统-粒子光环
热门文章
- Spring Session - 源码解读
- Shell-使用和wait让你的脚本并行执行
- Oracle-OLAP和OLTP解读
- postman怎么导出测试用例_postman---postman文件夹介绍以及批量执行用例
- RocketMQ:Consumer概述及启动流程与消息拉取源码分析
- 删除表格数据后自动刷新_表格中一键即可删除重复数据,你居然还用逐条排查?...
- php函数dirname范例,PHP dirname( )用法及代碼示例
- 厦大的计算机博士好考吗,2018双非学姐的厦大考博逆袭之路——本硕求学生涯历程...
- ZieglerNicholas PID GUI控制设计
- fileupload.class.php,php文件上传类