github RL: DP

这是github上RL练习的笔记

https://github.com/dennybritz/reinforcement-learning/tree/master/DP

Implement Policy Evaluation in Python (Gridworld)

首先观察opai env.P的构造

env: OpenAI env. env.P represents the transition probabilities of the environment.
            env.P[s][a] is a list of transition tuples (prob, next_state, reward, done).
            env.nS is a number of states in the environment.
            env.nA is a number of actions in the environment.

回忆policy evaluation的迭代公式:

使用向量进行计算

R_pi = np.zeros(shape=(env.nS))
P_pi = np.zeros(shape=(env.nS,env.nS))
v_pi = np.zeros(shape=(env.nS))
for s,s_item in env.P.items():for a,a_item in s_item.items():for dis in a_item:prob,next_state,reward,_ = disR_pi[s] += policy[s,a] * rewardP_pi[s,next_state] += policy[s,a] * prob
v_change = np.ones(shape=(env.nS,env.nS))
while (np.abs(v_change) > theta).any():v_change = R_pi + discount_factor * np.dot(P_pi,v_pi) - v_piv_pi += v_change 

首先展开env.P计算R和P,之后进行迭代至收敛

posted on 2018-07-31 12:47 pine73 阅读(...) 评论(...) 编辑 收藏

转载于:https://www.cnblogs.com/esoteric/p/9395261.html

github RL: DP相关推荐

  1. MachineLearning(6)-Daviad Silver强化学习课程脉络整理

    强化学习-Daviad Silver强化学习课程脉络整理 1.lecture1 introduction 1.1 强化学习简介 1.2 强化学习类别 1.3 强化学习的主要问题 2.lecture2 ...

  2. 学习记录 动态规划实时更新

    这里是目录 写在读前: Part1 前景知识: Part2 具体模型: 简单模型: 简单递推与数学:[P1077 [NOIP2012 普及组] 摆花](https://www.luogu.com.cn ...

  3. RL极简入门:从MDP、DP MC TC到Q函数、策略学习、PPO

    前言 22年底/23年初ChatGPT大火,在写ChatGPT通俗笔记的过程中,发现ChatGPT背后技术涉及到了RL/RLHF,于是又深入研究RL,研究RL的过程中又发现里面的数学公式相比ML/DL ...

  4. 资源 |“从蒙圈到入坑”,推荐新一波ML、DL、RL以及数学基础等干货资源

    向AI转型的程序员都关注了这个号☝☝☝ 编译 | AI科技大本营(rgznai100) 参与 | suiling 此前营长曾发过一篇高阅读量.高转发率,高收藏量的文章<爆款 | Medium上6 ...

  5. codeforces Palindromic characteristics(hash或者dp)

    1.动态规划 用dp(l,r)表示子串s[l..r]的回文串阶数.对于长度len为1的有dp(l,r)=1.对于长度len等于2的,看字符串左右是否相等即可.当r-l>1时,如果s[l]不等于s ...

  6. 强化学习蘑菇书Easy RL第二、三章学习(马尔可夫决策过程、表格型方法)

    马尔可夫决策过程概述 Markov Process(MP)通常来说是未来状态的条件概率分布仅依赖于当前的状态.在离散随机过程里,我们需要把随机变量所有可能取值的集合放到一个状态空间里,在强化学习里,我 ...

  7. 离线强化学习(Offline RL)系列3: (算法篇) IQL(Implicit Q-learning)算法详解与实现

    [更新记录] 论文信息:Ilya Kostrikov, Ashvin Nair, Sergey Levine: "Offline Reinforcement Learning with Im ...

  8. ChatGPT通俗导论:从RL之PPO算法、RLHF到GPT-N、instructGPT

    前言 自从我那篇BERT通俗笔记一经发布,然后就不断改.不断找人寻求反馈.不断改,其中一位朋友倪老师(之前我司NLP高级班学员现课程助教老师之一)在谬赞BERT笔记无懈可击的同时,给我建议到,&quo ...

  9. 线性求逆元模板_ZXBlog/ACM模板(C++).md at bb6f2522054d5370df79222461293721e8edede2 · cw1027/ZXBlog · GitHub...

    ACM模板(C++) 1.大数 加法,乘法模板 //题目链接 : http://poj.org/problem?id=2506 //题目大意 : 就是问你用2*1,1*2,2*2的砖拼成2*n的长方形 ...

最新文章

  1. 初识redis(redis基础命令)
  2. c语言拟合线性直线误差最小,急~~~~~~!!!求解!用C语言编写最小二乘法求数据的拟合曲线~并做出图显示拟合效果!高分悬赏!...
  3. c++学习笔记之静态成员函数
  4. 【Python基础避坑】函数内存底层分析,全局变量/局部变量,参数传递,浅拷贝/深拷贝
  5. git的入门摸索和入门研究
  6. 跟我一起学.NetCore之WebApi接口裸奔有风险(Jwt)
  7. python图像标记工具怎么用_一眼看穿的最佳图像标记工具!
  8. python的文件读取方式_python中文件读取方式
  9. 可以判断用户打开页面次数吗?_看前端如何单枪匹马实现小程序页面级版本控制...
  10. 我们盘点了7家财税SaaS平台,深入解读财税SaaS AB面
  11. 3DMAX的vray自发光材质为什么渲出来是黑的?
  12. 华为机顶盒问题奇怪处理!!!
  13. PC微信逆向--定位sqlite3_exec和数据库句柄
  14. .Net Core 3.0 控制台 WebAPI 开发 基础环境搭建.
  15. Server 2016/Windows 10使用域管理员账户操作提示权限不足的问题
  16. 关于logarithmicDepthBuffer属性
  17. [chatgpt] 写一个邮箱正则表达式
  18. 19英寸标准服务器和网络机柜尺寸表
  19. 支付宝和微信开发文档
  20. 相约上海,以边缘计算之名!

热门文章

  1. 亚马逊手机端测评软件/PC端测评软件各有什么优缺点?
  2. 动态加载的js文件在Chrome进行调试时找不到
  3. 配置nginx的那些参数
  4. 关于序列化的 10 几个问题,你顶得住不?
  5. 代码对比工具,我就用这 6 个!
  6. 2019年DevOps实践最有价值的技能Top 8
  7. 源代码遭泄露,大疆员工被罚20万,判刑半年。
  8. vue项目-点击添加或者修改按钮浏览器的屏幕变黑,再次点击屏幕之后浏览器恢复正常(火狐浏览器、ChromeCoreLauncher双核浏览器)
  9. Uncaught TypeError: Cannot read property 'style' of null
  10. 属兔的人今日运势-360星座网_【生肖运势】12月17日