算法学习(四)——alphago模型
模型推荐看原文:
https://xueshu.baidu.com/usercenter/paper/show?paperid=a7600bdc74f5a07ed65256035cd15c6b&site=xueshu_se
自己的理解:
MCTS解决的是算力分配的问题,alphago主要解决了五个问题:
一是把深度学习和蒙特卡洛法相结合,取得一个准确和速度的平衡,用于评估当前局面。
二是使用监督数据,防止强化学习网络陷入策略循环,然后通过自博弈再提升自己。
三是网络训练方法,在监督学习阶段,将人类数据按照前后步切片,这样一局可以产生大量的训练数据,并且和输赢奖励联系起来,避免奖励稀疏。
四是使用策略网络模拟对手的落子,算是一种对minimax预测对手落子的一种改进吧?
五是工程上使用分布式计算,但是不知道怎么实现的,分布式mcts?
六.特征工程
如上图所示,AlphaGo的策略网络和价值网络用于描述棋局当前局势的49个特征,棋盘上的361个点每个点都可以用这49个特征进行描述,下面将一一进行解读:
1、Stonecolour:
这个点放的黑子、白子还是空点。
2、Ones
赋值为常量1,具体作用不详。
3、Turns since
在周围的八个点中,这一步棋有多少变化。
4、Liberties
环绕这个点的八个点中,有几个空点。
5、Capture size
周围的八个点中,有几个点是对方的死子。
6、Self-atari size
周围的八个点中,有几个点是自己一方的死子。
7、Liberties after move
走过一步棋后,周围八个点有几个空点。
8、Ladder capture
征子是否成功捕获。
9、Ladder escape
征子是否成功逃脱。
10、Sensibleness
下步棋如果下这个点,是否合法(填在对方的眼里,并且没有气,则为不合法),或者有没有填自己的眼。
11、Zeros
和Ones一样,赋值为常量0,具体作用不详。
12、Player color
下一步是否该黑棋下。
alphago模型实际上并不美观,更多的一种训练网络的工程方法。
对alphago zero的期待:
zero没有使用监督数据,如何避免的低级策略循环?
算法学习(四)——alphago模型相关推荐
- 算法学习四:算法性能分析理论基础——函数增长与渐进分析
算法学习四:算法性能分析理论基础--函数增长与渐进分析 在算法性能分析过程中,特别是在算法运行效率分析中,我们经常使用渐渐分析法,它使我们在分析算法性能时不必纠结于不同硬件平台的差异性,着重考虑算法的 ...
- 强化学习(四) - 无模型学习(MC、TDL)
上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题.具体的做法有两个:一个是策略迭代,一个是值迭代. 从这一节开始,我们将要进入模型未知的情况下,如何去解决MDP问题. ...
- 《machine learning in action》机器学习 算法学习笔记 决策树模型
决策树模型 重要任务:是为了理解数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,这些机器根据数据集创建规则的过程就是机器学习的过程. 优点:计算复杂度不高,输出结果 ...
- C++ 算法学习四(直线、抛物线拟合)
好久没写博客了,忘了怎么开场,哈哈,小编在从事车道线检测,以及机器学习算法线性回归时都用到了线性拟合与多项式拟合,其实可以直接通过opencv的API接口也可实现,具体可见 polynomial_cu ...
- 一次递减代码matlab,DEA算法学习系列之三:一次性求解CCR模型所有DMU参数——效率、规模效益、有效性特征、调整值的matlab代码...
<DEA算法学习系列之三:一次性求解CCR模型所有DMU参数--效率.规模效益.有效性特征.调整值的matlab代码>由会员分享,可在线阅读,更多相关<DEA算法学习系列之三:一次性 ...
- python机器学习(一)算法学习的步骤、机器学习的应用及流程(获取数据、特征工程、模型、模型评估)
机器学习入门 机器学习中需要理论性的知识,如数学知识为微积分(求导过程,线性回归的梯度下降法),线性代数(多元线性回归,高纬度的数据,矩阵等),概率论(贝叶斯算法),统计学(贯穿整个学习过程),算法根 ...
- 统计学习三要素 模型+策略+算法
统计学习方法都是由模型. 策略和算法构成的. 即统计学习方法由三要素构成, 可以简单地表示为:方法=模型+策略+算法 模型 统计学习首要考虑的问题是学习什么样的模型. 在监督学习过程中, 模型就是所要 ...
- R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型、并评估模型在测试集和训练集上的分类效果(accuray、F1、偏差Deviance):Bagging算法与随机森林对比
R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型.并评估模型在测试集和训练集上的分类效果(accuray.F1.偏差Deviance):Bagging算法与随机森林对比 ...
- 深度学习多变量时间序列预测:LSTM算法构建时间序列多变量模型预测交通流量+代码实战
深度学习多变量时间序列预测:LSTM算法构建时间序列多变量模型预测交通流量+代码实战 LSTM(Long Short Term Memory Network)长短时记忆网络,是一种改进之后的循环神经网 ...
- 深度学习多变量时间序列预测:Bi-LSTM算法构建时间序列多变量模型预测交通流量+代码实战
深度学习多变量时间序列预测:Bi-LSTM算法构建时间序列多变量模型预测交通流量+代码实战 人类并不是每时每刻都从一片空白的大脑开始他们的思考.在你阅读这篇文章时候,你都是基于自己已经拥有的对先前所见 ...
最新文章
- 学编程当中最重要的三点,一些很正经的建议
- rocketmq sql解析过滤
- 从实体类get方法拿不到值,可能是字段带_的原因
- BZOJ4197 [Noi2015]寿司晚宴 【状压dp】
- date()---求N个月后的1号
- windows安装安卓开发环境Eclipse+SDK+ADT
- 识别图片并可视化_数据可视化3大发展方向
- Python接口测试之moco
- 【Luogu1631】序列合并(优先队列)
- 控制变频器调节电机梯形图_如何通过PLC控制变频器进行电机转速控制,含代码...
- mysql 大小限制_MYSQL 表大小限制
- Macs Fan Control Pro for mac(电脑风扇控制软件)v1.5.10中文
- 博客园文章markdown实现
- 麻省理工18年春软件构造课程阅读06“规格说明”
- 液压系统原理动画_3大类12种液压阀工作原理,直观动画演示一看就懂
- 明尼苏达双城计算机科学硕士申请截止日期,明尼苏达大学双城分校
- 安装oracle提示你对制定的路径没有足够写入的权限,【网络安全知识竞赛】模拟题5...
- 内容创业洗稿,知识付费拆书
- html单元格斜线分割,在网页中画单元格斜线分割
- 【电路理论】KCL、KVL、线性直流电路各大方法、定理详解