文章目录

  • Deep Reinforcement Learning
    • Reference
    • Example: Scenario of Reinforcement Learning(强化学习的应用场景)
    • Supervised vs Reinforcement Learning(监督 vs 强化)
    • applications(应用)
      • Learning a chat-bot
      • More applications
    • Interactive retrieval(交互搜索)
    • Example: Playing Video Game
    • 强化学习的难点
    • 强化学习的方法
      • Policy-based方法
        • 步骤一:Neural Network as Actor
        • 步骤二:Goodness of Actor(决定function的好坏)
        • 步骤三:Pick the best function
        • 四个问题(※)
        • 两个技巧(※)
        • Policy-based的另一种描述
      • Value-based方法
      • Actor-Critic

Deep Reinforcement Learning

2015年2月的时候,google在nature上发了一篇用reinforcement learning 的方法来玩akari的小游戏,然后痛鞭人类

2016的春天,又有大家都耳熟能详的alpha go,也是可以痛鞭人类

David Silver 说 AI 就是 Reinforcement Learning+Deep Learning Deep Reinforcement Learning : AI = RL + DL

Reference

  1. Textbook: Reinforcement Learning: An Introduction

    • http://incompleteideas.net/sutton/book/the-book.html
  2. Lectures of David Silver
    • http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html (10 lectures, around 1:30 each)
    • http://videolectures.net/rldm2015_silver_reinforcement_learning/ (Deep Reinforcement Learning )
  3. Lectures of John Schulman
    • https://youtu.be/aUrX-rP_ss4

上面是一些学习资源,有兴趣的可以看看。

Example: Scenario of Reinforcement Learning(强化学习的应用场景)

在Reinforcement Learning里面会有一个Agent跟一个Environment。这个Agent会有Observation看到世界种种变化,这个Observation又叫做State,这个State指的是环境的状态,也就是你的machine所看到的东西。所以在这个Reinforcement Learning领域才会有这个XXX做法,我们的state能够观察到一部分的情况,机器没有办法看到环境所有的状态,所以才会有这个partial of state 这个想法,这个state其实就是Observation。machine会做一些事情,它做的事情叫做Action,Action会影响环境,会跟环境产生一些互动。因为它对环境造成的一些影响,它会得到Reward,这个Reward告诉它,它的影响是好的还是不好的。看下图:

举个例子,比如机器看到一杯水,然后它就take一个action,这个action把水打翻了,Environment就会得到一个negative的reward,告诉它不要这样做,它就得到一个负向的reward。

在Reinforcement Learning这些动作都是连续的,因为水被打翻了,接下来它看到的就是水被打翻的状态,它会take另外一个action,决定把它擦干净,Environment觉得它做得很对,就给它一个正向的reward。

机器生来的目标就是要去学习采取那些action,可以让maximize expected reward

接着,以alpha go为例子:

一开始machine的Observation是棋盘,棋盘可以用一个19*19的矩阵来描述,接下来,它要take一个action,这个action就是落子的位置。落子在不同的位置就会引起对手的不同反应,对手下一个子,Agent的Observation就变了。Agent看到另外一个Observation后,就要决定它的action,再take一个action,落子在另外一个位置。

用机器下围棋就是这么个回事。在围棋这个case里面,还是一个蛮难的Reinforcement Learning,在多数的时候,你得到的reward都是0,落子下去通常什么事情也没发生这样子。只有在你赢了,得到reward是1,如果输了,得到reward是-1。Reinforcement Learning困难的地方就是有时候你的reward是sparse的,只有倒数几步才有reward。即在只有少数的action 有reward的情况下去挖掘正确的action。

对于machine来说,它要怎么学习下围棋呢,就是找一某个对手一直下下,有时候输有时候赢,它就是调整Observation和action之间的关系,调整model让它得到的reward可以被maximize。

Supervised vs Reinforcement Learning(监督 vs 强化)

我们可以比较下下围棋采用Supervised 和Reinforcement 有什么区别。

如果是Supervised 你就是告诉机器说看到什么样的态势就落在指定的位置。Supervised不足的地方就是具体态势下落在哪个地方是最好的,其实人也不知道,因此不太容易做Supervised。用Supervised就是machine从老师那学,老师说下哪就下哪。

如果是Reinforcement 呢,就是让机器找一个对手不断下下,赢了就获得正的reward,没有人告诉它之前哪几步下法是好的,它要自己去试,去学习。Reinforcement 是从过去的经验去学习,没有老师告诉它什么是好的,什么是不好的,machine要自己想办法,其实在做Reinforcement 这个task里面,machine需要大量的training,可以两个machine互相下。alpha Go 是先做Supervised Learning,做得不错再继续做Reinforcement Learning。

applications(应用)

Learning a chat-bot

Reinforcement Learning 也可以被用在Learning a chat-bot。chat-bot 是seq2seq,input 就是一句话,output 就是机器的回答。

其实这块内容我们之前再讲GAN对于Sequence Generation的提高的时候也说过了:

机器学习-49-RL-01-Deep Reinforcement Learning(强化学习-强化学习的基本介绍 Policy-based方法的基本介绍)相关推荐

  1. Decision-making Strategy on Highway for Autonomous Vehicles using Deep Reinforcement Learning

    Decision-making Strategy on Highway for Autonomous Vehicles using Deep Reinforcement Learning 采用深度强化 ...

  2. Paper Reading 1 - Playing Atari with Deep Reinforcement Learning

    来源:NIPS 2013 作者:DeepMind 理解基础: 增强学习基本知识 深度学习 特别是卷积神经网络的基本知识 创新点:第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控 ...

  3. 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning

    A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述 作者: Kai Arulkumaran, Marc Peter Deisenroth ...

  4. 深度强化学习—— 译 Deep Reinforcement Learning(part 0: 目录、简介、背景)

    深度强化学习--概述 翻译说明 综述 1 简介 2 背景 2.1 人工智能 2.2 机器学习 2.3 深度学习 2.4 强化学习 2.4.1 Problem Setup 2.4.2 值函数 2.4.3 ...

  5. 基于强化学习的医疗诊断 Inquire and Diagnose: Neural Symptom Checking Ensemble using Deep Reinforcement Learning

    将强化学习应用于医疗诊断的早期代表工作是发表在2016年人工智能领域顶级会议NIPS深度强化学习研讨会上的一篇工作(Inquire and Diagnose: Neural Symptom Check ...

  6. 深度强化学习 Deep Reinforcement Learning 学习整理

    这学期的一门机器学习课程中突发奇想,既然卷积神经网络可以识别一副图片,解决分类问题,那如果用神经网络去控制'自动驾驶',在一个虚拟的环境中不停的给网络输入车周围环境的图片,让它去选择前后左右中的一个操 ...

  7. 深度强化学习(Deep Reinforcement Learning)的资源

    深度强化学习(Deep Reinforcement Learning)的资源 2015-04-08 11:21:00|  分类: Torch |  标签:深度强化学习   |举报 |字号 订阅 Goo ...

  8. 【强化学习】Playing Atari with Deep Reinforcement Learning (2013)

    Playing Atari with Deep Reinforcement Learning (2013) 这篇文章提出了第一个可以直接用强化学习成功学习控制policies的深度学习模型. 输入是r ...

  9. 深度强化学习篇2:从Playing Atari with Deep Reinforcement Learning 看神经网络的输入,学习的状态空间

    Introduction:学习直接从高维的感观输入(视觉,语音)去直接控制智能体是强化学习一个长期的挑战.一些成功的RL应用都是依赖于hand-crafted的特征.最近深度学习的进步使提取高水平的特 ...

  10. 基于深度强化学习的车道线检测和定位(Deep reinforcement learning based lane detection and localization) 论文解读+代码复现

    之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位 官方源码下载:https://github.co ...

最新文章

  1. 有限域f9的特征是多少_宽频域谐波的潜在威胁欠缺全面考虑,现有标准需进一步优化...
  2. python selenium --处理下拉框
  3. 教育培训行业如何在抖音快速获客、变现?
  4. python中的正则表达式re模块_python中的正则表达式(re模块)
  5. 机器学习(二十二)——推荐算法中的常用排序算法, Tri-training
  6. 前端学习(1383):多人管理项目3
  7. 石头机器人红灯快闪_机器人集体“快闪”活动爆红网络 “我是AI”与您相约智能新时代...
  8. python3的soker模块实现功能
  9. javaWeb图书购物商城
  10. 花瓣图片采集工具研究
  11. ISCC2021——web部分
  12. 7.6-7.13牟尼沟、若尔盖旅游日记
  13. 用yara实现分析恶意样本_Yara –识别和分类恶意软件样本
  14. 如何裁剪图片中不要的部分?这个裁剪方法很好用
  15. oracle job interval(关于时间误差)
  16. maplesim matlab,maple
  17. 笔记 - chalk 使用
  18. 设计一个有利于A股东的配股方案
  19. 软件工程网上书店小组作业转载
  20. 80老翁谈人生(203):748工程支撑王选最终走向成功!

热门文章

  1. 华为OD机试 - 新员工座位安排系统(C 语言解题)【独家】
  2. 三星 s6 edge onDestroy多次调用问题
  3. 杭州人才居住证怎么办理,申请流程一览
  4. react 全选_react实现全选、取消全选和个别选择
  5. SVG排版公众号文章『两次互动,展开长图』模板代码
  6. 感人至深的 DB:帮助 probability map 更好地学习(training)却在功成之后(inference)退隐
  7. 基础不扎实,工作中很迷茫。
  8. autojs打包apk插件 下载
  9. asp.net超强日历
  10. 介绍聚对苯二甲酸乙二醇酯聚乙烯醇和姜黄素CUR改性CAP/PLGA等静电纺丝纳米纤维膜