算法学习（四）—

模型推荐看原文：

https://xueshu.baidu.com/usercenter/paper/show?paperid=a7600bdc74f5a07ed65256035cd15c6b&site=xueshu_se

自己的理解：

MCTS解决的是算力分配的问题，alphago主要解决了五个问题：

一是把深度学习和蒙特卡洛法相结合，取得一个准确和速度的平衡，用于评估当前局面。

二是使用监督数据，防止强化学习网络陷入策略循环，然后通过自博弈再提升自己。

三是网络训练方法，在监督学习阶段，将人类数据按照前后步切片，这样一局可以产生大量的训练数据，并且和输赢奖励联系起来，避免奖励稀疏。

四是使用策略网络模拟对手的落子，算是一种对minimax预测对手落子的一种改进吧？

五是工程上使用分布式计算，但是不知道怎么实现的，分布式mcts？

六.特征工程

如上图所示，AlphaGo的策略网络和价值网络用于描述棋局当前局势的49个特征，棋盘上的361个点每个点都可以用这49个特征进行描述，下面将一一进行解读：

1、Stonecolour：

这个点放的黑子、白子还是空点。

2、Ones

赋值为常量1，具体作用不详。

3、Turns since

在周围的八个点中，这一步棋有多少变化。

4、Liberties

环绕这个点的八个点中，有几个空点。

5、Capture size

周围的八个点中，有几个点是对方的死子。

6、Self-atari size

周围的八个点中，有几个点是自己一方的死子。

7、Liberties after move

走过一步棋后，周围八个点有几个空点。

8、Ladder capture

征子是否成功捕获。

9、Ladder escape
征子是否成功逃脱。

10、Sensibleness
下步棋如果下这个点，是否合法（填在对方的眼里，并且没有气，则为不合法），或者有没有填自己的眼。

11、Zeros

和Ones一样，赋值为常量0，具体作用不详。

12、Player color

下一步是否该黑棋下。

alphago模型实际上并不美观，更多的一种训练网络的工程方法。

对alphago zero的期待：

zero没有使用监督数据，如何避免的低级策略循环？

算法学习（四）——alphago模型相关推荐

算法学习四：算法性能分析理论基础——函数增长与渐进分析
算法学习四:算法性能分析理论基础--函数增长与渐进分析在算法性能分析过程中,特别是在算法运行效率分析中,我们经常使用渐渐分析法,它使我们在分析算法性能时不必纠结于不同硬件平台的差异性,着重考虑算法的 ...
强化学习(四) - 无模型学习(MC、TDL)
上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题.具体的做法有两个:一个是策略迭代,一个是值迭代. 从这一节开始,我们将要进入模型未知的情况下,如何去解决MDP问题. ...
《machine learning in action》机器学习算法学习笔记决策树模型
决策树模型重要任务:是为了理解数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,这些机器根据数据集创建规则的过程就是机器学习的过程. 优点:计算复杂度不高,输出结果 ...
C++ 算法学习四（直线、抛物线拟合）
好久没写博客了,忘了怎么开场,哈哈,小编在从事车道线检测,以及机器学习算法线性回归时都用到了线性拟合与多项式拟合,其实可以直接通过opencv的API接口也可实现,具体可见 polynomial_cu ...
一次递减代码matlab,DEA算法学习系列之三：一次性求解CCR模型所有DMU参数——效率、规模效益、有效性特征、调整值的matlab代码...
<DEA算法学习系列之三:一次性求解CCR模型所有DMU参数--效率.规模效益.有效性特征.调整值的matlab代码>由会员分享,可在线阅读,更多相关<DEA算法学习系列之三:一次性 ...
python机器学习（一）算法学习的步骤、机器学习的应用及流程(获取数据、特征工程、模型、模型评估)
机器学习入门机器学习中需要理论性的知识,如数学知识为微积分(求导过程,线性回归的梯度下降法),线性代数(多元线性回归,高纬度的数据,矩阵等),概率论(贝叶斯算法),统计学(贯穿整个学习过程),算法根 ...
统计学习三要素模型＋策略＋算法
统计学习方法都是由模型. 策略和算法构成的. 即统计学习方法由三要素构成, 可以简单地表示为:方法＝模型+策略+算法模型统计学习首要考虑的问题是学习什么样的模型. 在监督学习过程中, 模型就是所要 ...
R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型、并评估模型在测试集和训练集上的分类效果（accuray、F1、偏差Deviance）：Bagging算法与随机森林对比
R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型.并评估模型在测试集和训练集上的分类效果(accuray.F1.偏差Deviance):Bagging算法与随机森林对比 ...
深度学习多变量时间序列预测：LSTM算法构建时间序列多变量模型预测交通流量+代码实战
深度学习多变量时间序列预测:LSTM算法构建时间序列多变量模型预测交通流量+代码实战 LSTM(Long Short Term Memory Network)长短时记忆网络,是一种改进之后的循环神经网 ...
深度学习多变量时间序列预测：Bi-LSTM算法构建时间序列多变量模型预测交通流量+代码实战
深度学习多变量时间序列预测:Bi-LSTM算法构建时间序列多变量模型预测交通流量+代码实战人类并不是每时每刻都从一片空白的大脑开始他们的思考.在你阅读这篇文章时候,你都是基于自己已经拥有的对先前所见 ...

算法学习（四）——alphago模型

算法学习（四）——alphago模型相关推荐

最新文章

热门文章