github RL: DP

这是github上RL练习的笔记

https://github.com/dennybritz/reinforcement-learning/tree/master/DP

Implement Policy Evaluation in Python (Gridworld)

首先观察opai env.P的构造

env: OpenAI env. env.P represents the transition probabilities of the environment.
            env.P[s][a] is a list of transition tuples (prob, next_state, reward, done).
            env.nS is a number of states in the environment.
            env.nA is a number of actions in the environment.

回忆policy evaluation的迭代公式：

使用向量进行计算

R_pi = np.zeros(shape=(env.nS))
P_pi = np.zeros(shape=(env.nS,env.nS))
v_pi = np.zeros(shape=(env.nS))
for s,s_item in env.P.items():for a,a_item in s_item.items():for dis in a_item:prob,next_state,reward,_ = disR_pi[s] += policy[s,a] * rewardP_pi[s,next_state] += policy[s,a] * prob
v_change = np.ones(shape=(env.nS,env.nS))
while (np.abs(v_change) > theta).any():v_change = R_pi + discount_factor * np.dot(P_pi,v_pi) - v_piv_pi += v_change

首先展开env.P计算R和P，之后进行迭代至收敛

posted on 2018-07-31 12:47 pine73 阅读(...) 评论(...) 编辑收藏

转载于:https://www.cnblogs.com/esoteric/p/9395261.html

github RL: DP相关推荐

MachineLearning(6)-Daviad Silver强化学习课程脉络整理
强化学习-Daviad Silver强化学习课程脉络整理 1.lecture1 introduction 1.1 强化学习简介 1.2 强化学习类别 1.3 强化学习的主要问题 2.lecture2 ...
学习记录动态规划实时更新
这里是目录写在读前: Part1 前景知识: Part2 具体模型: 简单模型: 简单递推与数学:[P1077 [NOIP2012 普及组] 摆花](https://www.luogu.com.cn ...
RL极简入门：从MDP、DP MC TC到Q函数、策略学习、PPO
前言 22年底/23年初ChatGPT大火,在写ChatGPT通俗笔记的过程中,发现ChatGPT背后技术涉及到了RL/RLHF,于是又深入研究RL,研究RL的过程中又发现里面的数学公式相比ML/DL ...
资源 |“从蒙圈到入坑”，推荐新一波ML、DL、RL以及数学基础等干货资源
向AI转型的程序员都关注了这个号☝☝☝ 编译 | AI科技大本营(rgznai100) 参与 | suiling 此前营长曾发过一篇高阅读量.高转发率,高收藏量的文章<爆款 | Medium上6 ...
codeforces Palindromic characteristics(hash或者dp)
1.动态规划用dp(l,r)表示子串s[l..r]的回文串阶数.对于长度len为1的有dp(l,r)=1.对于长度len等于2的,看字符串左右是否相等即可.当r-l>1时,如果s[l]不等于s ...
强化学习蘑菇书Easy RL第二、三章学习（马尔可夫决策过程、表格型方法）
马尔可夫决策过程概述 Markov Process(MP)通常来说是未来状态的条件概率分布仅依赖于当前的状态.在离散随机过程里,我们需要把随机变量所有可能取值的集合放到一个状态空间里,在强化学习里,我 ...
离线强化学习(Offline RL)系列3: (算法篇) IQL(Implicit Q-learning)算法详解与实现
[更新记录] 论文信息:Ilya Kostrikov, Ashvin Nair, Sergey Levine: "Offline Reinforcement Learning with Im ...
ChatGPT通俗导论：从RL之PPO算法、RLHF到GPT-N、instructGPT
前言自从我那篇BERT通俗笔记一经发布,然后就不断改.不断找人寻求反馈.不断改,其中一位朋友倪老师(之前我司NLP高级班学员现课程助教老师之一)在谬赞BERT笔记无懈可击的同时,给我建议到,&quo ...
线性求逆元模板_ZXBlog/ACM模板(C++).md at bb6f2522054d5370df79222461293721e8edede2 · cw1027/ZXBlog · GitHub...
ACM模板(C++) 1.大数加法,乘法模板 //题目链接 : http://poj.org/problem?id=2506 //题目大意 : 就是问你用2*1,1*2,2*2的砖拼成2*n的长方形 ...

github RL: DP

Implement Policy Evaluation in Python (Gridworld)

github RL: DP相关推荐

最新文章

热门文章