机器学习-49-RL-01-Deep Reinforcement Learning(强化学习-强化学习的基本介绍 Policy-based方法的基本介绍)

文章目录

Deep Reinforcement Learning
- Reference
- Example: Scenario of Reinforcement Learning(强化学习的应用场景)
- Supervised vs Reinforcement Learning(监督 vs 强化)
- applications(应用)
- - Learning a chat-bot
  - More applications
- Interactive retrieval(交互搜索)
- Example: Playing Video Game
- 强化学习的难点
- 强化学习的方法
- - Policy-based方法
  - - 步骤一：Neural Network as Actor
    - 步骤二：Goodness of Actor（决定function的好坏）
    - 步骤三：Pick the best function
    - 四个问题(※)
    - 两个技巧(※)
    - Policy-based的另一种描述
  - Value-based方法
  - Actor-Critic

Deep Reinforcement Learning

2015年2月的时候，google在nature上发了一篇用reinforcement learning 的方法来玩akari的小游戏，然后痛鞭人类

2016的春天，又有大家都耳熟能详的alpha go，也是可以痛鞭人类

David Silver 说 AI 就是 Reinforcement Learning+Deep Learning Deep Reinforcement Learning : AI = RL + DL

Reference

Textbook: Reinforcement Learning: An Introduction
- http://incompleteideas.net/sutton/book/the-book.html
Lectures of David Silver
- http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html (10 lectures, around 1:30 each)
- http://videolectures.net/rldm2015_silver_reinforcement_learning/ (Deep Reinforcement Learning )
Lectures of John Schulman
- https://youtu.be/aUrX-rP_ss4

上面是一些学习资源，有兴趣的可以看看。

Example: Scenario of Reinforcement Learning(强化学习的应用场景)

在Reinforcement Learning里面会有一个Agent跟一个Environment。这个Agent会有Observation看到世界种种变化，这个Observation又叫做State，这个State指的是环境的状态，也就是你的machine所看到的东西。所以在这个Reinforcement Learning领域才会有这个XXX做法，我们的state能够观察到一部分的情况，机器没有办法看到环境所有的状态，所以才会有这个partial of state 这个想法，这个state其实就是Observation。machine会做一些事情，它做的事情叫做Action，Action会影响环境，会跟环境产生一些互动。因为它对环境造成的一些影响，它会得到Reward，这个Reward告诉它，它的影响是好的还是不好的。看下图：

举个例子，比如机器看到一杯水，然后它就take一个action，这个action把水打翻了，Environment就会得到一个negative的reward，告诉它不要这样做，它就得到一个负向的reward。

在Reinforcement Learning这些动作都是连续的，因为水被打翻了，接下来它看到的就是水被打翻的状态，它会take另外一个action，决定把它擦干净，Environment觉得它做得很对，就给它一个正向的reward。

机器生来的目标就是要去学习采取那些action，可以让maximize expected reward。

接着，以alpha go为例子：

一开始machine的Observation是棋盘，棋盘可以用一个19*19的矩阵来描述，接下来，它要take一个action，这个action就是落子的位置。落子在不同的位置就会引起对手的不同反应，对手下一个子，Agent的Observation就变了。Agent看到另外一个Observation后，就要决定它的action，再take一个action，落子在另外一个位置。

用机器下围棋就是这么个回事。在围棋这个case里面，还是一个蛮难的Reinforcement Learning，在多数的时候，你得到的reward都是0，落子下去通常什么事情也没发生这样子。只有在你赢了，得到reward是1，如果输了，得到reward是-1。Reinforcement Learning困难的地方就是有时候你的reward是sparse的，只有倒数几步才有reward。即在只有少数的action 有reward的情况下去挖掘正确的action。

对于machine来说，它要怎么学习下围棋呢，就是找一某个对手一直下下，有时候输有时候赢，它就是调整Observation和action之间的关系，调整model让它得到的reward可以被maximize。

Supervised vs Reinforcement Learning(监督 vs 强化)

我们可以比较下下围棋采用Supervised 和Reinforcement 有什么区别。

如果是Supervised 你就是告诉机器说看到什么样的态势就落在指定的位置。Supervised不足的地方就是具体态势下落在哪个地方是最好的，其实人也不知道，因此不太容易做Supervised。用Supervised就是machine从老师那学，老师说下哪就下哪。

如果是Reinforcement 呢，就是让机器找一个对手不断下下，赢了就获得正的reward，没有人告诉它之前哪几步下法是好的，它要自己去试，去学习。Reinforcement 是从过去的经验去学习，没有老师告诉它什么是好的，什么是不好的，machine要自己想办法，其实在做Reinforcement 这个task里面，machine需要大量的training，可以两个machine互相下。alpha Go 是先做Supervised Learning，做得不错再继续做Reinforcement Learning。

applications(应用)

Learning a chat-bot

Reinforcement Learning 也可以被用在Learning a chat-bot。chat-bot 是seq2seq，input 就是一句话，output 就是机器的回答。

其实这块内容我们之前再讲GAN对于Sequence Generation的提高的时候也说过了：