AAAI 2019 | 自动机器学习计算量大！这种多保真度优化技术是走向应用的关键

机器之心编辑

作者：Yi-Qi Hu, Yang Yu, Wei-Wei Tu, Qiang Yang, Yuqiang Chen , Wenyuan Dai

参与：路雪

自动机器学习一直以来都以计算量大而著称，贝叶斯优化等以高效著称的方法也都没能很好解决此问题，机器学习开发者很多还是依赖于经验与直观理解进行手动调参。近日南京大学、第四范式和香港科技大学提出了一种多保真度自动机器学习方法，其在优化过程中利用修正后低保真度评价来代替原始的高保真度评价，而大大减少了总体评价的代价。

自动机器学习能够大幅度降低机器学习门槛，使非机器学习甚至非计算机领域能够快速使用机器学习算法，因而越来越受到关注。目前求解自动机器学习问题的常规方法是将机器学习过程形式化为一个黑盒优化任务，优化的目标是学习过程在学习任务上的某一评价指标。

由于自动机器学习的优化目标具有不连续、不可导等数学性质，所以一些搜索和非梯度优化算法被用来求解该问题。此类算法通过采样和对采样的评价进行搜索，往往需要大量对采样的评价才能获得比较好的结果。然而，在自动机器学习任务中评价往往通过 k 折交叉验证获得，在大数据集的机器学习任务上，获得一个评价的时间代价巨大。这也影响了优化算法在自动机器学习问题上的效果。所以一些减少评价代价的方法被提出来，其中多保真度优化就是其中的一种。

多保真优化的设定是有多种不同保真度的评价方式。低保真度评价上，获得评价结果代价小，但是评价结果不准确；在高保真度评价上，评价结果准确，但是获得评价的代价很大。自动机器学习天然吻合这样的优化设定，通过随机选取部分数据集作为评价中训练数据集的方式可以构建不同保真度的评价。但是 PAC 理论可知，在部分数据集上的评价结果存在一定的偏差，本工作提出了一种利用修正后低保证度评价来代替高保真度评价，用于优化中，大大减少了评价的代价，提高了优化效果。

本工作利用有限的高保真度评价样本学习一个预测器，用于预测高低保真度评价之间的残差，在优化中使用低保真度评价和残差预测值之和代替高保真度评价。关键难点在于高保真度评价有限，用于训练预测器的样本极少，本工作提出了一种系列化迁移扩展的方式，预训练数个基预测器，然后线性组合基预测器的方式得到最终的残差预测器。通过这种方式解决了训练样本较少的问题。

多保真度技术是大规模自动机器学习优化问题走向实用的关键技术，大幅度降低评价代价为优化算法提供了更多探索的机会，使得优化算法能够发挥最大效能求解自动机器学习问题。

论文：Multi-Fidelity Automatic Hyper-Parameter Tuning via Transfer Series Expansion

论文地址：http://lamda.nju.edu.cn/huyq/papers/mfopt-19.pdf

论文提出的方法

我们提出一种通用的多保真度优化框架，此框架通过简单的变换即可应用于任意非梯度优化（derivative-free optimization）方法中。该框架的主要思路是：基于一些高保真度的观察结果，学习残差预测器以纠正优化过程中低保真度评价的偏差。由于高保真度评价有限，因此训练准确的预测器非常困难。为了解决该问题，我们提出了系列化迁移扩展（Transfer Series Expansion，TSE）方法，TSE 通过迁移多个基预测器的方式来训练最终的残差预测器。Ψ 指最终的预测器，ψ = {ψ_1, ψ_2, . . . , ψ_k} 指一系列基预测器。通过线性组合的方式将 ψ 扩展为 Ψ。

多保真度优化框架

我们设计了一个适用于任意非梯度优化方法的通用多保真度框架，主要研究最小化问题。非梯度优化的关键步骤是如何生成新样本 x。现在令 SampleO 表示非梯度优化方法中生成采样的步骤，其中 O 为非梯度优化方法。大多数非梯度优化方法都属于基于模型（model-based）的方法，采样步骤包括在（X, f）的建模过程和基于模型的采样过程，不同的模型有不同的采样步骤。

在多保真度优化中，它会引入低保真度评价 f_L 以减少总的评价成本。该框架还会学习一个预测器 Ψ 以估计高保真度和低保真度评价之间的残差。随后在修正后的评价（f_L+Ψ）上执行优化，这样我们在修正后评价的优化结果，在真实的高保真度评价上仍有很好的表现。

系列化迁移扩展 (TSE)

在 Algorithm 2 中，用于训练 Ψ 的数据集实例数量很少，因为 f_H 的评价成本高。TSE 可以在训练数据集规模很小的情况下使 Ψ 收敛。

实验

我们基于分类优化方法，利用 TSE 实现了多保真度框架，并将其命名为 TSESRACOS。在实验部分，我们使用 TSESRACOS 在一些真实数据集上对 LightGBM 调参。

表 1：数据集信息。|D| 表示数据集 D 中的样本数。验证数据集是通过对 D^train 中的样本以 10% 的采样律进行随机采样获得。r_L 和 r_M 是 的构建低保真度训练样本时的子采样率。

表 2：多个对比方法的 AUC 性能和整体时间（wall-clock time）对比。LF-Eval 和 HF-Eval 表示最优解的低保真度和高保真度评价值、Test 表示最优解的泛化性能、加粗数字表示最好的 AUC 分数。TSETRANS 方法将 Miniboone 数据集上的基预测器迁移到其他数据集。因此 TSETRANS 在 Miniboone 上的结果为空。HF-ONLY^∗ 表示 HF-ONLY 在大型数据集上的超参优化在消耗一定的时间后提前停止。

图 1：总体时间 AUC 曲线图。实线表示高保真度值曲线，虚线表示低保真度值曲线，带圆点的线表示优化的目标函数曲线。同样颜色的实线和虚线是在同样样本上的高保真度和低保真度评价值。X 轴展示的时间为 LF-ONLY 所消耗的时间。

图 2：在每一个预测器训练中，平均回归预测器误差 |f_L+Ψ−f_H| 的直方图。仅对比 TSESRACOS（绿色）和 RFSRACOS（蓝色）的预测误差。X 轴表示残差预测器训练数据集中的样本个数。

本文为机器之心编辑，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告 & 商务合作：bd@jiqizhixin.com

AAAI 2019 | 自动机器学习计算量大！这种多保真度优化技术是走向应用的关键相关推荐

解决Mysql数据量大的时候分页优化(使用limit)的问题
解决Mysql数据量大的时候分页优化(使用limit)的问题参考文章: (1)解决Mysql数据量大的时候分页优化(使用limit)的问题 (2)https://www.cnblogs.com/ ...
历史数据如何处理_数据库表数据量大读写缓慢如何优化（1）【冷热分离】
今天讨论的内容是冷热分离,也许概念并不陌生,对其使用场景也比较熟悉,但涉及锁的内容时仍然需要认真思考,这部分内容在我们实际开发中的"坑"还是不少的. 业务场景一曾经经历过供应链相 ...
做个爱学习的孩子！收藏2019知名机器学习暑期学校大列表
机器之心报道,参与:李亚洲. 2018 年,机器之心为大家介绍了大量的教程.课程等学习资源.新的一年已经到来,小编在此文章中为热爱学习的读者们推荐 2019 年暑期课程列表,收藏了吧! Github ...
自动机器学习超参数调整（贝叶斯优化）
[导读]机器学习中,调参是一项繁琐但至关重要的任务,因为它很大程度上影响了算法的性能.手动调参十分耗时,网格和随机搜索不需要人力,但需要很长的运行时间.因此,诞生了许多自动调整超参数的方法.贝叶斯优化 ...
【机器学习】模型压缩大杀器！详解高效模型设计的自动机器学习流水线
作者丨科技猛兽编辑丨极市平台导读本文首先对模型压缩进行了综述,论述目前深度学习存在的挑战,同时对三种高效自动机器流水线方法ProxyLessNAS.AMC和AMC进行了详细的介绍.最后探讨了如何 ...
收藏、点赞、退出一气呵成，2019年机器学习干货教程都在这里了
机器之心整理参与:张倩.蛋酱从 2016 年起,机器之心每年都会盘点全年的精华教程.去年就有小伙伴留言说要在 2019 年上半年把 2018 年的教程合集「啃下来」.现在都 2020 了,不知道这 ...
自动机器学习-auto-sklearn
1.前言自动机器学习(AutoML) 旨在通过让一些通用步骤 (如数据预处理.模型选择和调整超参数) 自动化,来简化机器学习中生成模型的过程.AutoML是指尽量不通过人来设定超参数,而是使用某种学 ...
机器学习之十大算法入门
一.决策树(有监督算法)原理就是条件熵特点: 1.只能接受离散特征分类决策树 2.准确类不高,可解释性强,可视化 3.贪心算法,无法从全局的观点来观察决策树,从而难以调优 4.决策树算法可以看成把 ...
AAAI 2019评审惹争议！“好论文”遭退稿？程序主席回应
报道:闻菲源文:新智元 2019人工智能开年顶会AAAI的录取结果已出,投稿数量高达7745篇,录取率仅为16.2%,论文评审的繁重与严格可想而知.这两年AI顶会论文灌水与评审不专业的问题愈 ...

AAAI 2019 | 自动机器学习计算量大！这种多保真度优化技术是走向应用的关键

AAAI 2019 | 自动机器学习计算量大！这种多保真度优化技术是走向应用的关键相关推荐

最新文章

热门文章