[机器学习] 超参数优化算法-SuccessiveHalving, BH与BOHB

一传统优化算法

机器学习中模型性能的好坏往往与超参数(如batch size,filter size等)有密切的关系。最开始为了找到一个好的超参数，通常都是靠人工试错的方式找到"最优"超参数。但是这种方式效率太慢，所以相继提出了网格搜索(Grid Search, GS) 和 随机搜索(Random Search,RS)。

但是GS和RS这两种方法总归是盲目地搜索，所以贝叶斯优化(Bayesian Optimization,BO) 算法闪亮登场。BO算法能很好地吸取之前的超参数的经验，更快更高效地最下一次超参数的组合进行选择。但是BO算法也有它的缺点，如下：

对于那些具有未知平滑度和有噪声的高维、非凸函数，BO算法往往很难对其进行拟合和优化，而且通常BO算法都有很强的假设条件，而这些条件一般又很难满足。
为了解决上面的缺点，有的BO算法结合了启发式算法(heuristics)，但是这些方法很难做到并行化

二多保真优化--Multi Fidelity Optimization

在自动机器学习(Automatic Machine Learning, AutoML)任务中评价往往通过 k 折交叉验证获得，在大数据集的机器学习任务上，获得一个评价的时间代价巨大。这也影响了优化算法在自动机器学习问题上的效果。所以一些减少评价代价的方法被提出来，其中多保真度优化(Multi-Fidelity Optimization)[1]就是其中的一种。而多臂老虎机算法(Multi-armed Bandit Algorithm, MBA)是多保真度算法的一种。在此基础上，有两种主流的bandit-based优化策略：

在贝叶斯方法中，目标函数的估计非常昂贵。有没有更便宜的方法来估计目标函数？多保真优化方法就是答案。我会告诉你：

Successive Halving (SH) 连续减半
Hyperband (HB)
BOHB

1. SuccessiveHalving算法

SuccessiveHalving算法：假设有nn组超参数组合，然后对这nn组超参数均匀地分配预算并进行验证评估，根据验证结果淘汰一半表现差的超参数组，然后重复迭代上述过程直到找到最终的一个最优超参数组合。

连续减半试图为最有前途的方法提供最多的预算。它假设所有配置都可以提前停止并且可以获得验证分数。

想象一下，您有 N 个不同的配置和 B个预算（例如时间）。在每次迭代中，如下图所示，连续减半保留了最好的一半配置，并丢弃了一半不好的算法。它将一直持续到我们只有一个配置。此方法将在达到其预算的最大值时完成。

连续减半最初是在 Non-stochastic Best Arm Identification and Hyperparameter Optimization 由 Kevin Jamieson 和 Ameet Talwalkar 撰写的

在连续减半策略中，我们将评价代价参数化为一个变量budget，即预算。根据BOHB论文的阐述，我们可以根据不同的场景定义不同的budget，举例如下：

迭代算法的迭代数(如：神经网络的epoch、随机森林，GBDT的树的个数)
机器学习算法所使用的样本数
贝叶斯神经网络中MCMC链的长度
深度强化学习中的尝试数

举例说明，我们定义budgetmax=1, budgetmin=18, η=2 (eta = 2) 。在这里budget的语义表示使用100×budget%的样本。

首先我们从配置空间(或称为超参空间)随机采样8个配置，实例化为8个机器学习模型。
然后用1/8的训练样本训练这8个模型并在验证集得到相应的损失值。
保留这8个模型中loss最低的前4个模型，其余的舍弃。
依次类推，最后仅保留一个模型，并且其budget=1(可以用全部的样本进行训练)

2. Hyperband算法

连续减半有什么问题？

在连续减半中，我们需要在开始时选择多少配置和需要多少削减之间进行权衡。

1.Hyperband是什么

Hyperband 是随机搜索的一种变体，但使用一些探索-利用理论来为每种配置找到最佳时间分配。您可以查看此研究论文以获取更多参考。

在介绍Hyperband之前我们需要理解怎样的超参数优化算法才算是好的算法，如果说只是为了找到最优的超参数组合而不考虑其他的因素，那么我们那可以用穷举法，把所有超参数组合都尝试一遍，这样肯定能找到最优的。但是我们都知道这样肯定不行，因为我们还需要考虑时间，计算资源等因素。而这些因素我们可以称为Budget,用