Q-learning算法

以前在阿里云上面搭了一个wordpress博客，最近快毕业了，阿里云真的很贵，所以转到CSDN上写博客，主要是为了方便以后查询。

Q-learning算法是强化学习的一种算法，强化学习目前主要应用到游戏中，主要是目的是训练一个知道怎么做才能得到高分的model。强化学习的介绍很多，李宏毅在https://www.youtube.com/watch?v=W8XF3ME8G2I上的课程就做了一些介绍，此外。强化学习和深度学习究竟是什么关系？？很多地方所增强学习(就是强化学习，reinforcement learning)是深度学习的一种，其实不能这么说，强化学习可以结合深度学习算法，比如说Google的DQN项目就是使用卷积神经网络学习一个自动打游戏的模型，https://blog.csdn.net/jiandanjinxin/article/details/54133521文章较好的介绍了深度学习和强化学习的关系。

AlphaGo是强化学习的一个例子，个人感觉，监督学习不能够实现真正的人工智能，需要一些半监督，无监督学习方法才有可能实现真的的人工智能。强化学习感觉和自动机的原理差不多，都是在一些state里面采取一些action，然后不断的进行。只不过自动机没有reward这个东西，在强化学习中，每采取一些action，环境(environment)会给一些reward，然后我们可以用于对modle进行更新。

Q-learning算法的简介可以查看http://baijiahao.baidu.com/s?id=1597978859962737001&wfr=spider&for=pc，主要详细介绍下面几点：

1：Q-table的更新原则

这里的r是reward，指的是每次进行一步的时候,environment所给的分数，和Q(s,a)是不一样的，http://baijiahao.baidu.com/s?id=1597978859962737001&wfr=spider&for=pc使用一个例子介绍了Q-table的更新过程。

2：疑虑？？？

Q-learning必须要知道所有的state和action，那么训练之后得到的实际上就是一个能够得到高reward的模型。能不能不指定state，那么得到的model才能够对未知的情况进行判断。

强化学习之Q-learning算法相关推荐

RL之Q Learning：利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(复杂迷宫)的宝藏位置
RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(复杂迷宫)的宝藏位置目录输出结果设计思路实现代码测试记录全过程输出结果设计思路实现代码 f ...
RL之Q Learning：利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(简单迷宫)的宝藏位置
RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(简单迷宫)的宝藏位置目录输出结果设计思路实现代码测试记录全过程输出结果设计思路实现代码 f ...
mdp框架_强化学习中q learning和MDP的区别是什么？
MDP通常是指一种用转移概率描述连续不确定概率过程的数学框架,是强化学习中最基础的概念,很多强化学习的算法都是在把问题抽象为一个MDP之后再想办法求解的. 而q-learning是求解强化学习问题的算 ...
强化学习（二）：Q learning 算法
强化学习(一):基础知识强化学习(二):Q learning算法 Q learning 算法是一种value-based的强化学习算法,Q是quality的缩写,Q函数 Q(state,action ...
Q学习（Q learning）强化学习
Q学习(Q learning) 强化学习的简单例子 Matlab实现可视化_Morty 的挖坑记录-CSDN博客强化学习(MATLAB) - 叮叮当当sunny - 博客园
自动驾驶前沿综述：基于深度强化学习的自动驾驶算法
©作者 | 陈道明学校 | 布里斯托尔大学研究方向 | 自动驾驶方向这是 21 年的一篇综述文章,可以算得上是最前沿的自动驾驶技术综述.这几年随着深度表征学习的发展,强化学习领域也得到了加强.本 ...
强化学习（RL）算法
目录文章目录前言一.什么是强化学习? 二.强化学习的基本元素 1.环境Environment 2.主体Agent 3.状态State 4.行动Action 5.收益Reward 三,R ...
强化学习之Q学习与SARSA
** Q学习路径规划与SARSA法路径规划 ** Q学习与SARSA学习简介强化学习的历史可以用两条各自独立但丰富多彩的主线来追溯..一条主线聚焦于研究最优化控制,以及使用价值函数动态规划等算法来 ...
第七章深度强化学习-深度Q网络系列1（Deep Q-Networks，DQN）
获取更多资讯,赶快关注上面的公众号吧! 文章目录第七章深度强化学习-深度Q网络 7.1 学习目标 7.2 深度学习和强化学习的区别 7.3 DQN原理 7.4 DQN算法 7.4.1 预处理 7. ...
强化学习（Reinforcement learning）综述
文章目录 Reinforcement learning 综述强化学习的分类环境(Model-free,Model-based) Based(Policy-Based RL & Value- ...

强化学习之Q-learning算法

Q-learning算法

强化学习之Q-learning算法相关推荐

最新文章

热门文章