模型推荐看原文:

https://xueshu.baidu.com/usercenter/paper/show?paperid=a7600bdc74f5a07ed65256035cd15c6b&site=xueshu_se

自己的理解:

MCTS解决的是算力分配的问题,alphago主要解决了五个问题:

一是把深度学习和蒙特卡洛法相结合,取得一个准确和速度的平衡,用于评估当前局面。

二是使用监督数据,防止强化学习网络陷入策略循环,然后通过自博弈再提升自己。

三是网络训练方法,在监督学习阶段,将人类数据按照前后步切片,这样一局可以产生大量的训练数据,并且和输赢奖励联系起来,避免奖励稀疏。

四是使用策略网络模拟对手的落子,算是一种对minimax预测对手落子的一种改进吧?

五是工程上使用分布式计算,但是不知道怎么实现的,分布式mcts?

六.特征工程

如上图所示,AlphaGo的策略网络和价值网络用于描述棋局当前局势的49个特征,棋盘上的361个点每个点都可以用这49个特征进行描述,下面将一一进行解读:

1、Stonecolour:

这个点放的黑子、白子还是空点。

2、Ones

赋值为常量1,具体作用不详。

3、Turns since

在周围的八个点中,这一步棋有多少变化。

4、Liberties

环绕这个点的八个点中,有几个空点。

5、Capture size

周围的八个点中,有几个点是对方的死子。

6、Self-atari size

周围的八个点中,有几个点是自己一方的死子。

7、Liberties after move

走过一步棋后,周围八个点有几个空点。

8、Ladder capture

征子是否成功捕获。

9、Ladder escape
征子是否成功逃脱。

10、Sensibleness
下步棋如果下这个点,是否合法(填在对方的眼里,并且没有气,则为不合法),或者有没有填自己的眼。

11、Zeros

和Ones一样,赋值为常量0,具体作用不详。

12、Player color

下一步是否该黑棋下。

alphago模型实际上并不美观,更多的一种训练网络的工程方法。

对alphago zero的期待:

zero没有使用监督数据,如何避免的低级策略循环?

算法学习(四)——alphago模型相关推荐

  1. 算法学习四:算法性能分析理论基础——函数增长与渐进分析

    算法学习四:算法性能分析理论基础--函数增长与渐进分析 在算法性能分析过程中,特别是在算法运行效率分析中,我们经常使用渐渐分析法,它使我们在分析算法性能时不必纠结于不同硬件平台的差异性,着重考虑算法的 ...

  2. 强化学习(四) - 无模型学习(MC、TDL)

    上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题.具体的做法有两个:一个是策略迭代,一个是值迭代. 从这一节开始,我们将要进入模型未知的情况下,如何去解决MDP问题. ...

  3. 《machine learning in action》机器学习 算法学习笔记 决策树模型

    决策树模型 重要任务:是为了理解数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,这些机器根据数据集创建规则的过程就是机器学习的过程. 优点:计算复杂度不高,输出结果 ...

  4. C++ 算法学习四(直线、抛物线拟合)

    好久没写博客了,忘了怎么开场,哈哈,小编在从事车道线检测,以及机器学习算法线性回归时都用到了线性拟合与多项式拟合,其实可以直接通过opencv的API接口也可实现,具体可见 polynomial_cu ...

  5. 一次递减代码matlab,DEA算法学习系列之三:一次性求解CCR模型所有DMU参数——效率、规模效益、有效性特征、调整值的matlab代码...

    <DEA算法学习系列之三:一次性求解CCR模型所有DMU参数--效率.规模效益.有效性特征.调整值的matlab代码>由会员分享,可在线阅读,更多相关<DEA算法学习系列之三:一次性 ...

  6. python机器学习(一)算法学习的步骤、机器学习的应用及流程(获取数据、特征工程、模型、模型评估)

    机器学习入门 机器学习中需要理论性的知识,如数学知识为微积分(求导过程,线性回归的梯度下降法),线性代数(多元线性回归,高纬度的数据,矩阵等),概率论(贝叶斯算法),统计学(贯穿整个学习过程),算法根 ...

  7. 统计学习三要素 模型+策略+算法

    统计学习方法都是由模型. 策略和算法构成的. 即统计学习方法由三要素构成, 可以简单地表示为:方法=模型+策略+算法 模型 统计学习首要考虑的问题是学习什么样的模型. 在监督学习过程中, 模型就是所要 ...

  8. R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型、并评估模型在测试集和训练集上的分类效果(accuray、F1、偏差Deviance):Bagging算法与随机森林对比

    R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型.并评估模型在测试集和训练集上的分类效果(accuray.F1.偏差Deviance):Bagging算法与随机森林对比 ...

  9. 深度学习多变量时间序列预测:LSTM算法构建时间序列多变量模型预测交通流量+代码实战

    深度学习多变量时间序列预测:LSTM算法构建时间序列多变量模型预测交通流量+代码实战 LSTM(Long Short Term Memory Network)长短时记忆网络,是一种改进之后的循环神经网 ...

  10. 深度学习多变量时间序列预测:Bi-LSTM算法构建时间序列多变量模型预测交通流量+代码实战

    深度学习多变量时间序列预测:Bi-LSTM算法构建时间序列多变量模型预测交通流量+代码实战 人类并不是每时每刻都从一片空白的大脑开始他们的思考.在你阅读这篇文章时候,你都是基于自己已经拥有的对先前所见 ...

最新文章

  1. 学编程当中最重要的三点,一些很正经的建议
  2. rocketmq sql解析过滤
  3. 从实体类get方法拿不到值,可能是字段带_的原因
  4. BZOJ4197 [Noi2015]寿司晚宴 【状压dp】
  5. date()---求N个月后的1号
  6. windows安装安卓开发环境Eclipse+SDK+ADT
  7. 识别图片并可视化_数据可视化3大发展方向
  8. Python接口测试之moco
  9. 【Luogu1631】序列合并(优先队列)
  10. 控制变频器调节电机梯形图_如何通过PLC控制变频器进行电机转速控制,含代码...
  11. mysql 大小限制_MYSQL 表大小限制
  12. Macs Fan Control Pro for mac(电脑风扇控制软件)v1.5.10中文
  13. 博客园文章markdown实现
  14. 麻省理工18年春软件构造课程阅读06“规格说明”
  15. 液压系统原理动画_3大类12种液压阀工作原理,直观动画演示一看就懂
  16. 明尼苏达双城计算机科学硕士申请截止日期,明尼苏达大学双城分校
  17. 安装oracle提示你对制定的路径没有足够写入的权限,【网络安全知识竞赛】模拟题5...
  18. 内容创业洗稿,知识付费拆书
  19. html单元格斜线分割,在网页中画单元格斜线分割
  20. 【电路理论】KCL、KVL、线性直流电路各大方法、定理详解

热门文章

  1. CATIA转的STP打开什么都没有_ProE打开Creo7.0模型文件的方法视频教程
  2. Python 分词与词云图生成
  3. 使用 JMeter 进行API接口压力测试
  4. 浅谈C/C++编程中的字符编码转换
  5. 人物-发明家-特斯拉:尼古拉·特斯拉
  6. 计算机主板性能由什么决定,电脑内存条频率取决于CPU还是主板?
  7. 统计学(贾俊平《第七版》) 导论部分
  8. 智能推送LeetCode中文站点题目思路解析
  9. Solaris 查看系统信息命令
  10. 双轴旋转云台plc控制_基于STM32的双轴监控云台精准控制系统设计