增强学习(一) ----- 基本概念
机器学习算法大致可以分为三种:
1. 监督学习(如回归,分类)
2. 非监督学习(如聚类,降维)
3. 增强学习
什么是增强学习呢?
增强学习(reinforcementlearning, RL)又叫做强化学习,是近年来机器学习和智能控制领域的主要方法之一。
定义: Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.[1]
也就是说增强学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报。
通过增强学习,一个智能体应该知道在什么状态下应该采取什么行为。RL是从环境状态到动作的映射的学习,我们把这个映射称为策略。
那么增强学习具体解决哪些问题呢,我们来举一些例子:
例1. flappy bird 是现在很流行的一款小游戏,不了解的同学可以点链接进去玩一会儿。现在我们让小鸟自行进行游戏,但是我们却没有小鸟的动力学模型,也不打算了解它的动力学。要怎么做呢? 这时就可以给它设计一个增强学习算法,然后让小鸟不断的进行游戏,如果小鸟撞到柱子了,那就获得-1的回报,否则获得0回报。通过这样的若干次训练,我们最终可以得到一只飞行技能高超的小鸟,它知道在什么情况下采取什么动作来躲避柱子。
例2. 假设我们要构建一个下国际象棋的机器,这种情况不能使用监督学习
增强学习(一) ----- 基本概念相关推荐
- 增强学习(一)——马尔科夫决策过程(MDP)
最近因为研究需要,要开始学习机器学习了.之前只是懂些CNN什么的皮毛,对机器学习的整体认识都比较缺乏,后面我会从头开始一点点打基础,正好也用博客把自己的学习历程记录一下,如果有大牛看到博文中有错误,欢 ...
- 增强学习(一) ----- 基本概念
机器学习算法大致可以分为三种: 1. 监督学习(如回归,分类) 2. 非监督学习(如聚类,降维) 3. 增强学习 什么是增强学习呢? 增强学习(reinforcementlearning, RL)又叫 ...
- 增强学习(一)-基本概念的理解
Reinforcement learning 1.定义: Reinforcement learning is learning what to do --how to map situations t ...
- 独家 | Michael I.Jordan:大数据时代下的安全实时决策堆栈与增强学习(视频+精华笔记)
金秋九月,2017国际大数据产业技术创新高峰论坛暨大数据系统软件国家工程实验室第一次会议盛大开幕,大数据系统软件国家工程实验室作为大数据系统软件技术研发与工程化的国家级创新平台,将通过大数据系统软件技 ...
- 干货 | 算法工程师入门第二期——穆黎森讲增强学习(一) 本文作者:大牛讲堂 编辑:刘芳平 2017-07-19 11:38 导语:地平线大牛讲堂算法工程师入门第二期来啦!本期地平线资深算法工程师、增
干货 | 算法工程师入门第二期--穆黎森讲增强学习(一) 本文作者:大牛讲堂 编辑:刘芳平 2017-07-19 11:38 导语:地平线大牛讲堂算法工程师入门第二期来啦!本期地平线资深算法工程师.增 ...
- 干货 | 算法工程师入门第二期——穆黎森讲增强学习(一)
今天我很荣幸有机会在这里,跟大家分享增强学习(Reinforcement Learning,RL)这个话题.这次分享,我希望能达到三方面的目的: 第一,希望没有相关背景的同学能够对RL有一定的了解,所 ...
- 深度增强学习前沿算法思想
作者: Flood Sung,CSDN博主,人工智能方向研究生,专注于深度学习,增强学习与机器人的研究. 责编:何永灿,欢迎人工智能领域技术投稿.约稿.给文章纠错,请发送邮件至heyc@csdn.n ...
- 马里奥AI实现方式探索 ——神经网络+增强学习
首先,对于实现马里奥AI当中涉及到的神经网络和增强学习的相关概念进行整理,之后对智能通关的两种方式进行阐述.(本人才疏学浅,在神经网络和增强学习方面基本门外汉,如有任何纰漏,还请大神指出,我会第一时间 ...
- 深度增强学习(DRL)漫谈 - 从AC(Actor-Critic)到A3C(Asynchronous Advantage Actor-Critic)
前言 之前在文章<深度增强学习(DRL)漫谈 - 从DQN到AlphaGo>扯了一些关于DRL的内容,但因为是以DQN为主线,其中大部分谈的是value-based方法.我们知道传统增强学 ...
最新文章
- 小视频开发过程中最关注的两点关键
- 报表工具JasperReports视频教程
- CodeForces - 1525D Armchairs(dp)
- 减治法解决俄式乘法问题(JAVA)
- 纱窗.20190512
- MS SQL SERVER2005更新触发器
- C# 中将所有引用的DLL 和exe文件打成一个exe文件(转)
- datatable排序:DataTable的排序、检索、合并
- 电子信息工程跨保计算机、生物医学工程保研经验分享~
- wincc报表日报表实例_wincc报表例程
- 3D游戏编程与设计作业五
- PNP三极管作为开关管如何使用(集电极接 负载)
- oracle fnd_global,Oracle Report(Report 6i/RDF)使用全局变量fnd_global, fnd_frofile
- 设计模式-工厂模式的3中不同实现[JAVA]
- 谷歌浏览器打开金格在线编辑插件
- 人工智能实践:tensorflow笔记
- 上架一款APP,用户量高于1万的概率有多少?
- #4.2混沌数学与混沌理论
- (无导师学习神经网络)竞争神经网络、SOFM神经网络
- 成都java培训班要多少钱
热门文章
- 实验一HSRP与STP结合
- 【RHCA翻译计划】EX436第一章:集群存储概论2
- 算法提高课-动态规划-树形DP-AcWing 1072. 树的最长路径:dfs写法
- Java类的继承(将来填坑)
- php向ldap插入数据,给LDAP添加用户,构造用户文件,然后使用phpLadpadmin导入
- java 单字节_java文件读取。(单字节读取和按行读取读取)
- 运动会管理系统php,运动会管理系统源代码.doc
- go int 最大值_Dig101 - Go之灵活的slice
- 驱动设计的思想:面向对象/分层/分离
- StaicArray