前言

菜鸡要写整个强化学习的资料啦，这个资料是适合需要动手敲代码的童鞋，欢迎大家评论区讨论哦，(文章不允许抄袭，因为是菜鸡一个字一个字总结的心血，可以转载，但必须指明出处，谢谢大家)

已经先录制了视频，大家可以前去给菜鸡一键三连哦，爱你们

链接：https://www.bilibili.com/video/BV1G64y1e7A4?from=search&seid=9088772980958467991&spm_id_from=333.337.0.0（可以直接从P5看！）

宝子们，可能bilibili看了很多的关于强化学习的课程，但上面的课程更偏向理论知识，因此菜鸡用大家更熟悉的语言和例子给大家分享强化学习和敲代码，可能有些关于公式和理论中比较深得知识点没有讲到，因为考虑到大家的实际可操作性，就把必须要了解的内容和大家分享，如果能够将菜鸡分享的知识点看完，然后再去哔哩哔哩看周博磊老师的强化学习课程的视频，会有一个更深得理解哒（悄咪咪说，我第一次看周老师的视频，就有点迷糊，哈哈哈，坚持学习哦，没有讲好的地方大家见谅，宝子们有问题可以评论区留言哦）

强化学习通用工作方式（敲重点！！）

这个图超级重要一定要清楚啊！！！！！

几个重要概念

Agent：神经网络 ，可以看成人的大脑

Evironment：Agent所处的环境，即要进行的任何学习任务，都从环境中学习

state：Agent对的环境的观察，主观性质的

action：Agent对环境观察后的状态会做出动作即action

reward：action会对环境产生影响，影响有好有坏，故环境会根据这个影响对Agent反馈回报（包含正回报或负回报）

工作流程

Agent先对环境有一个观察
根据观察到的状态思考后做出动作
动作会对环境产生影响，导致环境发生变化
环境对变化进行评估，好的变化就给agent正回报，坏的变化就给agent负回报

生活例子——司机学习红绿灯

agent： 司机，环境：路况， 任务： 司机学会在红绿灯的环境中开车

强化学习流程描述：

司机处在十字路口，前面存在一个红绿灯，初始情况，司机对于红灯停绿灯行没有智商。第一次，司机观察到前面有个红绿灯，且为红灯状态，司机对于这个状态做出了个随机动作——继续前行，这个动作对于整个路况来说，造成了危险，故环境给司机负回报，第二次，司机观察到前面为绿灯状态，依旧选择了——继续前行，环境给司机正回报，这样不断的循环，最后司机逐渐有了一个对于红绿灯的智商

就和人一样呀，做错事受到惩罚，你就长记性了，不得犯了

【强化学习系列】超详细整理实用资料——1 强化学习概述（包含马尔科夫、贝尔曼方程、蒙特卡洛、时间差分法）相关推荐

NLP复习资料(3)-六~七章：马尔科夫模型与条件随机场、词法分析与词性标注
NLP复习资料 1.第六章马尔科夫模型与条件随机场 2.第七章词法分析与词性标注国科大,宗老师<自然语言处理>课程复习笔记,个人整理,仅供参考. 1.第六章马尔科夫模型与条件随机场 ...

stm32正常运行流程图_STM32单片机学习笔记（超详细整理143个问题，学习必看）...
原标题:STM32单片机学习笔记(超详细整理143个问题,学习必看) 1.AHB系统总线分为APB1(36MHz)和APB2(72MHz),其中2>1,意思是APB2接高速设备 2.Stm32f ...

【强化学习】MOVE37-Introduction（导论）/马尔科夫链/马尔科夫决策过程
写在前面的话:从今日起,我会边跟着硅谷大牛Siraj的MOVE 37系列课程学习Reinforcement Learning(强化学习算法),边更新这个系列.课程包含视频和文字,课堂笔记会按视频为单位 ...

强化学习马尔科夫决策过程(MDP)
1. 强化学习引入MDP的原因强化学习的环境的状态转化模型,它可以表示为一个概率模型,即在状态下采取动作a,转到下一个状态s′的概率,表示为如果按照真实的环境转化过程看,转化到下一个状态s′的概率 ...

机器学习-白板推导-系列（九）笔记：概率图模型: 贝叶斯网络/马尔可夫随机场/推断/道德图/因子图
文章目录 0 笔记说明 1 背景介绍 1.1 概率公式 1.2 概率图简介 1.2.1 表示 1.2.2 推断 1.2.3 学习 1.2.4 决策 1.3 图 2 贝叶斯网络 2.1 条件独立性 2. ...

强化学习系列（三）：马尔科夫决策过程
一.前言第二章中我们提到了多臂老虎 ji问题,该问题只有一个state,需要选择一个action,不需要考虑在不同state下选择action的问题--(associative problem), ...

【强化学习入门】马尔科夫决策过程
本文介绍了马尔可夫决策过程,首先给出了马尔可夫决策过程的定义形式 ,其核心是在时序上的各种状态下如何选择最优决策得到最大回报的决策序列,通过贝尔曼方程得到累积回报函数:然后介绍两种基本的求解最优决策的 ...

强化学习2——有模型强化学习MDP（搬砖马尔科夫，贝尔曼等式）
文章目录强化学习--马尔科夫系列前言马尔科夫决策过程(MDP) 1 马尔科夫过程(MP) 1.1 马尔科夫性质 1.2 马尔科夫过程 1.3 马尔科夫的一个例子 2 马尔科夫奖励过程(MRP) ...

强化学习（一）---马尔科夫决策过程
目录先大致了解工智能,机器学习,深度学习之间的联系与区别主学习网址莫烦python网址 [David Silver强化学习公开课中文讲解及实践](https://zhuanlan.zhihu.c ...

最新文章

最长公共子序列（LCS）问题 Longest Common Subsequence 与最长公告字串 longest common substr...

java runnable main_Java 线程类问题写一个线程类MyThread，该线程实现了Runnable接口，写一个main方法， * 用for循...

阿里研究院潘永花：大数据将成为新的煤和石油

django学习——通过HttpResponseRedirect 和 reverse实现重定向（转载）

在Servlet中实现页面转发

RTC 音频质量评价和保障

reactjs组件实例的三大属性之state属性使用示例

优动漫PAINT-草地教程

RH131 网络配置

用Python画中国地图（二）

pads layout 无法将dxf文件导入进来的2D Line转换成Board Outline

android的密码是多少,Android图形密码中你最常用的是哪一个呢？

怎么打开系统服务器,Win10怎么打开系统服务管理器 Win10打开系统服务管理器操作方法...

P1829 [国家集训队]Crash的数字表格

MATLAB中矩阵求和的方法

装黑苹果的那些事儿（以ThinkpadE540为例）

重估维信金科：担保压身，负重难行

解决各种中文乱码问题

大班音乐机器人反思_大班音乐活动lbrack;机器人rsqb;

pr 导入歌词字幕

热门文章

一种可以使肉体吸收电子的电脑

华为手机这几个默认设置，一定要关闭，再也不卡顿

七、JDK1.7中HashMap扩容机制

上海linux地址,Linux

预则立他山之石--团队计划、访谈优秀前辈

firework导出html到dw,dw4 应用基础之firework 文件详解

剑网3 插件取得服务器信息,《剑网3》插件认证资料及接口白名单表

web渗透之sql注入

flask的引入js路径

安装计算机主板应注意,组装一台电脑注意事项