【深度学习】强化学习Q-Learning和DQN的应用(迷宫)
【深度学习】强化学习Q-Learning和DQN的应用(迷宫)
文章目录
1 Q-Learning
2 例子
3 用 network 解决
4 DQN机器人走迷宫代码4.1 基础搜索算法介绍(广度优先搜索算法)4.2 DQN
1 Q-Learning
我们做事情都会有一个自己的行为准则, 比如小时候爸妈常说”不写完作业就不准看电视”. 所以我们在 写作业的这种状态下, 好的行为就是继续写作业, 直到写完它, 我们还可以得到奖励, 不好的行为 就是没写完就跑去看电视了, 被爸妈发现, 后果很严重. 小时候这种事情做多了, 也就变成我们不可磨灭的记忆. 这和我们要提到的 Q learning 有什么关系呢? 原来 Q learning 也是一个决策过程, 和小时候的这种情况差不多. 我们举例说明.
假设现在我们处于写作业的状态而且我们以前并没有尝试过写作业时看电视, 所以现在我们有两种选择 , 1, 继续写作业, 2, 跑去看电视. 因为以前没有被罚过, 所以我选看电视, 然后现在的状态变成了看电视, 我又选了 继续看电视, 接着我还是看电视, 最后爸妈回家, 发现我没写完作业就去看电视了, 狠狠地惩罚了我一次, 我也深刻地记下了这一次经历, 并在我的脑海中将 “没写完作业就看电视” 这种行为更改为负面行为, 我们在看看 Q learning 根据很多这样的
【深度学习】强化学习Q-Learning和DQN的应用(迷宫)相关推荐
- [PARL强化学习]Sarsa和Q—learning的实现
[PARL强化学习]Sarsa和Q-learning的实现 Sarsa和Q-learning都是利用表格法再根据MDP四元组<S,A,P,R>:S: state状态,a: action动作 ...
- 强化学习q学习求最值_通过Q学习更深入地学习强化学习
强化学习q学习求最值 by Thomas Simonini 通过托马斯·西蒙尼(Thomas Simonini) 通过Q学习更深入地学习强化学习 (Diving deeper into Reinfor ...
- 最新!李飞飞提出深度进化强化学习新框架
点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元 AI博士笔记系列推荐 周志华<机器学习> ...
- 深度进化强化学习第一弹~
hello,这是鑫鑫鑫的论文分享站,今天分享的文章是Embodied Intelligence via Learning and Evolution ,这是一篇李飞飞等提出深度进化RL,我们一起看看吧 ...
- 李飞飞提出深度进化强化学习新框架:创建具身智能体学会动物进化法则
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 转自 | 新智元 来源 | 外媒 编辑 | Yaxin, LQ 6亿 ...
- 深度学习强化学习进化计算 入门资源整理
深度学习&强化学习&进化计算 入门资源整理 深度学习 在线课程 在线书籍 学习Python 强化学习 在线课程 在线书籍 更多资源 进化计算 后记 深度学习 在线课程 深度学习是机器学 ...
- 深度学习 - 强化学习 -迁移学习(杨强教授报告)
李宏毅机器学习课程-Transfer Learning 深度学习 -> 强化学习 ->迁移学习(杨强教授报告) 链接: http://pan.baidu.com/s/1nu6DMRn 密码 ...
- 2020人工智能课程超级大列表:深度学习-强化学习-图神经网络-自然语言处理等...
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 本篇博文主要为大家介绍一个课程网站,汇集了机器学习,深度学习.强化学习的各个方面, ...
- 2022主流Nivida显卡深度学习/强化学习/AI算力汇总
2022主流Nivida显卡深度学习/强化学习/AI算力汇总一览表 总结自国外多个网站
- 强化学习——强化学习概述
文章目录 1. 强化学习 2. 序列决策(Sequential decision making) 3. 动作空间 4. 智能体的组成和类型 4.1 策略 问题:比较随机性策略和确定性策略的优缺点 4. ...
最新文章
- dataframe sample 采样,抽样
- DBvisualizer free 9.2.10 升级pro版本
- “中国风”拯救国货彩妆?
- Sublime Less 自动编译成css
- c#事务的使用、示例及注意事项(转)
- Git(11)-cherry-pick、reset、rebase
- 诗与远方:无题(三十五)- 曾经写给妹子的一首诗
- matlab磁铁模拟,用matlab-模拟环形磁铁的磁场分布
- nginx缓存、压缩配置
- RabbitMq学习笔记004---在CentOS7上安装RabbitMQ
- sql server2003的下载地址
- 网易云音乐encseckey算法php,网易云音乐热评api
- Netbean6.1中svn配置
- 做IT民工还是IT精英?
- 【PAT乙级】1020 月饼
- RK3588 CPU GPU DDR NPU定频和性能模式设置
- Android 调用so库全过程
- gdb调试之快速入门
- 快速识别图像的人工智能图像识别小程序分享
- 强化学习——从Q-Learning到DQN到底发生了什么?