一、目标

一种启发式的搜索算法，在搜索空间巨大的场景下比较有效

算法完成后得到一棵树，这棵树可以实现：给定一个游戏状态，直接选择最佳的下一步

二、算法四阶段

1、选择（Selection）

父节点选择UCB值最大的子节点作为当前节点
U C B = V i ‾ + c 2 l n N n i UCB=\overline{V_{i}} +c\sqrt{\frac{2lnN}{n_{i}}} UCB=Vi+cni2lnN
其中，c通常取2。

n i n_{i} ni代表 i i i 节点被选择的次数， N N N代表其父节点被选择的次数。

V i ‾ \overline{V_{i}} Vi 代表 i i i 节点的平均价值大小（例如 i i i 节点 V i = v , n i = 3 V_{i}=v,n_{i}=3 Vi=v,ni=3，则 V i ‾ = v / 3 \overline{V_{i}}=v/3 Vi=v/3）。

2、扩展（Expansion）

为当前节点创建一个或多个子节点（子节点代表当前节点下可采取的动作）

3、仿真（Simulation/Rollout）

在某一节点用随机策略进行模拟（rollout）

def Rollout(S_i): # S_i = 当前状态While True: # S_i达到终止条件/状态(下棋中某方获胜或平局)if S_i a terimal state: # 返回结果valuereturn value(S_i)   # 还未终止，则# 随机选择一个当前状态下的可用动作A_i = random(available_action(S_i)) # 在当前状态下采取动作，得到新的状态S_i = simulate(A_i, S_i)

4、反向传播（Backpropagation）

得到模拟结果后不断反向更新父节点

三、运行过程

n代表当前节点被探索的次数。

则运行过程如下：

1、选择节点

当前节点是叶节点，则选择该节点
当前节点有孩子，孩子中UCB值最大的作为选择的节点

2、节点扩展 + 模拟

若选择的节点未模拟过（n=0），则进行模拟，得到结果后更新该节点 n=1 , value=结果数值。
若选择的节点模拟过（n≠0），则扩展节点。添加在该节点下所有可采取的动作，作为孩子
- 选择第一个孩子作为当前节点，进行模拟

def Rollout(S_i): # S_i = 当前状态While True: # S_i达到终止条件/状态(下棋中某方获胜或平局)if S_i a terimal state: # 返回结果valuereturn value(S_i)   # 还未终止，则# 随机选择一个当前状态下的可用动作A_i = random(available_action(S_i)) # 在当前状态下采取动作，得到新的状态S_i = simulate(A_i, S_i)

3、反向传播

当孩子得到 V c = v , n c + = 1 V_{c}=v,n_{c}+=1 Vc=v,nc+=1，反向传播到父节点，父节点 V p + = v , n p + = 1 V_{p}+=v,n_{p}+=1 Vp+=v,np+=1，直至传播到根节点。

三、实例

具体样例可参考博客蒙特卡洛树搜索（MCTS）详解、蒙特卡洛树搜索 MCTS 入门或b站视频AI如何下棋？直观了解蒙特卡洛树搜索MCTS！！！

蒙特卡洛树搜索（MTCS）相关推荐

围棋AI，蒙特卡洛树搜索
目录 1 蒙特卡罗方法(Monte Carlo method) 2. 蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS) 3 Upper Confidence Bounds(U ...
AlphaGo的制胜秘诀：蒙特卡洛树搜索初学者指南
编译 | reason_W 出品 | AI科技大本营(公众号ID:rgznai100) 长久以来,计算机在围棋领域不可能达到人类专家的水平一直是学术界的主流观点.围棋,被认为是人工智能的" ...
AlphaGo制胜绝招：蒙特卡洛树搜索入门指南
作者 | int8.io 编译 | 张健欣编辑 | Emily Chen AI 前线导读:本文是一篇关于蒙特卡洛树搜索的入门指南,介绍什么是蒙特卡洛树搜索及其各个细节的基本概念,然后通过一个简单的例 ...
AlphaGo背后的力量：蒙特卡洛树搜索入门指南
我们都知道 DeepMind 的围棋程序 AlphaGo,以及它超越人类的强大能力,也经常会听到「蒙特卡洛树搜索」这个概念.事实上,蒙特卡洛树搜索是在完美信息博弈场景中进行决策的一种通用技术,除游戏之 ...
蒙特卡洛树搜索_Query 理解和语义召回在知乎搜索中的应用
分享嘉宾:方宽知乎算法工程师文章整理:艺饭饭内容来源:DataFunTalk 出品平台:DataFun 注:欢迎转载,转载请留言. 导读:随着用户规模和产品的发展, 知乎搜索面临着越来越大的 ...
蒙特卡洛树搜索_蒙特卡洛树搜索与Model-free DRL
我们这里所说的MCTS(蒙特卡洛树搜索),是指通过蒙特卡洛评估和树搜索,对强化学习环境π(•|s)建模的方法. 何为蒙特卡洛? Monte Carlo method,也就是先从某个分布采样,再基于采样 ...
AI强度相关的研究：MCTS 蒙特卡洛树搜索 Monte Carlo Tree Search
提供具有挑战性的人工智能对手是使视频游戏令人愉悦和身临其境的重要方面. 太简单或反之太难的游戏可能会让玩家感到沮丧或无聊. 动态难度调整是一种方法,旨在通过为对手提供量身定制的挑战来改进传统的难度选择 ...
五子棋AI - 蒙特卡洛树搜索
动机自高中时代做了一个带简单AI的五子棋游戏后,一直以来实现一个更加厉害的五子棋AI算是我的小目标.之前也尝试过使用 MinMax 算法,最终结果不甚理想.当然并不是算法问题,而是搭配这个算法需要许 ...
蒙特卡洛树搜索(The monte carlo search tree)
蒙特卡洛树搜索又称随机抽样或统计试验方法,属于计算数学的一个分支,它是在上世纪四十年代中期为了适应当时原子能事业的发展而发展起来的.传统的经验方法由于不能逼近真实的物理过程,很难得到满意的结果,而蒙特 ...

蒙特卡洛树搜索（MTCS）