Q-learning算法

以前在阿里云上面搭了一个wordpress博客,最近快毕业了,阿里云真的很贵,所以转到CSDN上写博客,主要是为了方便以后查询。

Q-learning算法是强化学习的一种算法,强化学习目前主要应用到游戏中,主要是目的是训练一个知道怎么做才能得到高分的model。强化学习的介绍很多,李宏毅在https://www.youtube.com/watch?v=W8XF3ME8G2I上的课程就做了一些介绍,此外。强化学习和深度学习究竟是什么关系??很多地方所增强学习(就是强化学习,reinforcement learning)是深度学习的一种,其实不能这么说,强化学习可以结合深度学习算法,比如说Google的DQN项目就是使用卷积神经网络学习一个自动打游戏的模型,https://blog.csdn.net/jiandanjinxin/article/details/54133521文章较好的介绍了深度学习和强化学习的关系。

AlphaGo是强化学习的一个例子,个人感觉,监督学习不能够实现真正的人工智能,需要一些半监督,无监督学习方法才有可能实现真的的人工智能。强化学习感觉和自动机的原理差不多,都是在一些state里面采取一些action,然后不断的进行。只不过自动机没有reward这个东西,在强化学习中,每采取一些action,环境(environment)会给一些reward,然后我们可以用于对modle进行更新。

Q-learning算法的简介可以查看http://baijiahao.baidu.com/s?id=1597978859962737001&wfr=spider&for=pc,主要详细介绍下面几点:

1:Q-table的更新原则

这里的r是reward,指的是每次进行一步的时候,environment所给的分数,和Q(s,a)是不一样的,http://baijiahao.baidu.com/s?id=1597978859962737001&wfr=spider&for=pc使用一个例子介绍了Q-table的更新过程。

2:疑虑???

Q-learning必须要知道所有的state和action,那么训练之后得到的实际上就是一个能够得到高reward的模型。能不能不指定state,那么得到的model才能够对未知的情况进行判断。

强化学习之Q-learning算法相关推荐

  1. RL之Q Learning:利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(复杂迷宫)的宝藏位置

    RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(复杂迷宫)的宝藏位置 目录 输出结果 设计思路 实现代码 测试记录全过程 输出结果 设计思路 实现代码 f ...

  2. RL之Q Learning:利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(简单迷宫)的宝藏位置

    RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(简单迷宫)的宝藏位置 目录 输出结果 设计思路 实现代码 测试记录全过程 输出结果 设计思路 实现代码 f ...

  3. mdp框架_强化学习中q learning和MDP的区别是什么?

    MDP通常是指一种用转移概率描述连续不确定概率过程的数学框架,是强化学习中最基础的概念,很多强化学习的算法都是在把问题抽象为一个MDP之后再想办法求解的. 而q-learning是求解强化学习问题的算 ...

  4. 强化学习(二):Q learning 算法

    强化学习(一):基础知识 强化学习(二):Q learning算法 Q learning 算法是一种value-based的强化学习算法,Q是quality的缩写,Q函数 Q(state,action ...

  5. Q学习(Q learning) 强化学习

    Q学习(Q learning) 强化学习的简单例子 Matlab实现 可视化_Morty 的挖坑记录-CSDN博客 强化学习(MATLAB) - 叮叮当当sunny - 博客园

  6. 自动驾驶前沿综述:基于深度强化学习的自动驾驶算法

    ©作者 | 陈道明 学校 | 布里斯托尔大学 研究方向 | 自动驾驶方向 这是 21 年的一篇综述文章,可以算得上是最前沿的自动驾驶技术综述.这几年随着深度表征学习的发展,强化学习领域也得到了加强.本 ...

  7. 强化学习(RL)算法

    ​​​​​目录 文章目录 前言 一.什么是强化学习? 二.强化学习的基本元素 1.环境Environment 2.主体Agent 3.状态State 4.行动Action 5.收益Reward 三,R ...

  8. 强化学习之Q学习与SARSA

    ** Q学习路径规划与SARSA法路径规划 ** Q学习与SARSA学习简介 强化学习的历史可以用两条各自独立但丰富多彩的主线来追溯..一条主线聚焦 于研究最优化控制,以及使用价值函数动态规划等算法来 ...

  9. 第七章 深度强化学习-深度Q网络系列1(Deep Q-Networks,DQN)

    获取更多资讯,赶快关注上面的公众号吧! 文章目录 第七章 深度强化学习-深度Q网络 7.1 学习目标 7.2 深度学习和强化学习的区别 7.3 DQN原理 7.4 DQN算法 7.4.1 预处理 7. ...

  10. 强化学习(Reinforcement learning)综述

    文章目录 Reinforcement learning 综述 强化学习的分类 环境(Model-free,Model-based) Based(Policy-Based RL & Value- ...

最新文章

  1. 人工智能--野人过河
  2. 2.javascript之缓存 localStorage 和sessionStorage之间的区别
  3. 可以永久改变你的编程技巧的40个Tips
  4. 工业互联网 — 5G 与 IIoT
  5. 聚焦国内名企开源!OSCAR 开源先锋日(1020)全部议程首次曝光
  6. linux 防火墙开端口(转)
  7. 【酷熊科技】工作积累 ----------- Unity3D 读取 图片
  8. react-踩坑记录——swiper报错!
  9. 【图像处理】基于matlab GUI数字图像处理平台【含Matlab源码 381期】
  10. ubuntu 安装qq
  11. 群贤路附近哪有计算机学校,袍江,镜湖,皋埠,富盛…绍兴各镇学校2017年施教区划定!你家孩子该在哪就读?...
  12. Python爬虫——查询英语四、六级成绩
  13. 路由器DNS被劫持 解决办法
  14. ctf MISC 放松一下吧
  15. 中医药大学远程教育计算机,《中医药大学远程教育计算机作业 1-7》.doc
  16. 汉字编码问题(附编码察看器)
  17. 电脑端(PC)按键精灵2023——入门小白 详细 教程
  18. README.md的内容格式
  19. 嵌入式培训多少钱?嵌入式学习要了解这些内容!
  20. Android Proguard 不混淆所有第三方jar(忽略配置设置)

热门文章

  1. pythonocc 等步长平分周长的分割曲线
  2. 四旋翼无人机硬件,飞控,基站,NX
  3. 计算机考试文科生报什么专业好就业,文科生也能报考理工科专业?这4个专业不仅能报考,毕业前景大好...
  4. 自然语言处理NLP星空智能对话机器人系列:深入理解Transformer自然语言处理 WMT数据处理
  5. Markdown用法排版
  6. STC单片机驱动1.8‘TFT SPI屏幕示例模板(含资料包)
  7. python两张图合成一张_Python图像处理实现两幅图像合成一幅图像的方法【测试可用】...
  8. 【大数据】一堆大数据名词
  9. win11更新软件商店
  10. matlab compiler使用,安装和使用MatlabCompilerRuntime