作者:Xu LIANG

翻译:王雨桐

校对:王威力

本文长度约为1300字,建议阅读5分钟

自动化程度

Jeff Dean在ICML 2019上进行了有关AutoML的演讲,并将自动化分为4个级别:

  1. 手动构造预测变量,不引入学习的步骤;

  2. 手工选择特征,学习预测。引入自动化超参数调优(HPO)工具,例如Hyperopt,Optuna,SMAC3,scikit-optimize等;

  3. 手工构造算法,端到端学习特征和预测。除了HPO外,还有其他一些工具,例如featuretools,tsfresh,boruta等;

  4. 完全自动化。端到端学习算法,特征和预测。自动化算法(模型)选择工具,例如Auto-sklearn,TPOT,H2O,auto_ml,MLBox等。

参数自动优化的两种方法

广泛使用的优化方法有两种,一种是贝叶斯优化方法,它基于过去的结果搜索未知参数范围。典型的算法有TPE,SMAC,GP-EL等。

另一种方法是在训练时终止学习,从而高效地搜索参数,例如逐层减半(Successive Halving),超带宽(Hyperband)等。

蓝色点表示训练将继续,红色点表示训练将停止。

AutoML库

我们可以将这些库分为贝叶斯优化算法和早停法算法。

综合考虑到质量和速度,我们推荐使用的两个库是Optuna和scikit-optimize。

自动化特征工程

TPOT和Auto-sklear在使用上仍然有局限性。因此,我们将特征工程分为两类,特征生成和特征选择。

  • 特征生成

  • Featuretools: Deep feature synthesis

  • tsfresh

  • 特征选择

  • 3种方法: 包装法(Wrapper),过滤法(Filter),嵌入法(Embedded)

  • Scikit-lean 和Boruta

自动化算法(模型)选择

AutoML作为一个CASH问题(混合算法选择和超参优化),其中两个重要的问题是,没有一个适用于所有数据集的最优模型;一些模型对于超参数很敏感。我们需要同时解决模型选择和超参调优的问题。

Optuna也可以解决CASH问题,如下图。

自动算法选择的比较如下:

  • Auto-sklearn

  • TPOT

  • h2o-3

  • auto_ml

  • MLBox

图七表示的是不同框架算法下,在分类数据集问题上的F1值。图八表示的不同框架算法下,在回归数据集上的均方误差(MSE)。其中箱型图分别表示上限、下四分位、中位、下四分位、下限,灰色圆圈表示异常值。

针对不同的任务推荐使用不同方法。

  • 回归任务:auto-sklearn(基于贝叶斯)

  • 分类任务:TPOT(基于遗传算法)


自动化的神经体系结构搜索

自动神经体系结构搜索在学术界也是一个非常热门的话题,但在工业界并未得到广泛使用。

Reference

  • https://www.slideshare.net/c-bata/pythonautoml-at-pyconjp-2019

  • https://arxiv.org/pdf/1012.2599.pdf

  • https://arxiv.org/pdf/1810.05934.pdf

  • https://arxiv.org/pdf/1502.07943.pdf

  • https://arxiv.org/pdf/1808.06492.pdf

以下是日语幻灯片的链接:

https://www.slideshare.net/c-bata/pythonautoml-at-pyconjp-2019

原文链接:

https://towardsdatascience.com/overview-of-automl-from-pycon-jp-2019-c8996954692f

编辑:王菁

校对:林亦霖

译者简介

王雨桐,UIUC统计学在读硕士,本科统计专业,目前专注于Coding技能的提升。理论到应用的转换中,敬畏数据,持续进化。

一文盘点AutoML 库,自动机器学习演讲摘要相关推荐

  1. 独家 | 一文盘点AutoML 库(附PPT等链接)

    作者:Xu LIANG 翻译:王雨桐 校对:王威力 本文长度约为1300字,建议阅读5分钟 本文是Masashi Shibata针对AutoML演讲中的摘要. 自动化程度 Jeff Dean在ICML ...

  2. 独家 | 一文盘点AutoML 库

    作者:Xu LIANG 翻译:王雨桐 校对:王威力 本文长度约为1300字,建议阅读5分钟 本文是Masashi Shibata针对AutoML演讲中的摘要. 自动化程度 Jeff Dean在ICML ...

  3. 【机器学习】盘点常见的自动机器学习(AutoML)工具库

    本文总结了常见的AutoML库,可供大家选择. LightAutoML 项目链接:https://github.com/sberbank-ai-lab/LightAutoML 推荐指数:⭐⭐⭐ Lig ...

  4. 文末送书 | 自动机器学习(AutoML):方法、系统与挑战

    OPENNING 最新上架 近十年来,不管是机器学习相关的应用还是研究,都迎来了爆发式增长.尤其是深度学习,使得很多应用领域都取得了关键性突破,如计算机视觉.语音处理和游戏. 然而,多数机器学习方法的 ...

  5. 不用深度学习网络,只需预先设置NAS算法,就能实现AutoML自动机器学习的革命吗?

    AutoML(自动机器学习)是深度学习的新方式,利用大数据分析.高性能计算.数据管理.算法.边缘计算等技术.有了AutoML,我们就不再需要设计复杂的深度学习网络,用于数据采集.数据预处理.优化.应用 ...

  6. 如何应用AutoML加速图机器学习任务的处理?

    来源|机器之心 如何应用自动机器学习 (AutoML) 加速图机器学习任务的处理?清华大学发布全球首个开源自动图学习工具包:AutoGL (Auto Graph Learning),支持在图数据上全自 ...

  7. 一文讲解自动机器学习(AutoML)!

    Datawhale 作者:瞿晓阳,AutoML书籍作者 寄语:让计算机自己去学习和训练规则,是否能达到更好的效果呢?自动机器学习就是答案,也就是所谓"AI的AI",让AI去学习AI ...

  8. 自动机器学习AutoML

    [研究背景]随着深度神经网络的不断发展,各种模型和新颖模块的不断发明利用,人们逐渐意识到开发一种新的神经网络结构越来越费时费力,为什么不让机器自己在不断的学习过程中创造出新的神经网络呢? 正是出于这个 ...

  9. 自动机器学习(AutoML)

    自动机器学习(AutoML) 不再需要苦恼于学习各种机器学习的算法 目录: 一.为什么需要自动机器学习 二.超参数优化 Hyper-parameter Optimization 三.元学习 Meta ...

最新文章

  1. SpringBoot整合MyBatis详细教程~
  2. 【故事】创业者破产后自述:别总谈商业模式、推广和体验
  3. webLogic11g部署war包问题解决方案(转)
  4. AOGNet:基于深度 AND-OR 语法网络的目标识别方法 | PaperDaily #28
  5. 如果你恨一个程序员,忽悠他去做iOS开发
  6. iis express8 自动关闭
  7. 想在客户端脚本中引用CHECKBOXLIST中的CHECKBOX项?
  8. SpringCloudGateway 集成 nacos 整合实现动态路由_04
  9. Design Patterns(设计模式-观察者)
  10. LuaTinker向Linux移植成功
  11. vue UI框架比较
  12. bat 设置变量带中文
  13. wps文档一敲空格就换行_wps敲空格变成点
  14. 基于Springboot的个人健康监控管理系统 毕业论文+项目源码、
  15. 泰文Unicode编码表及排版规则
  16. 系统集成项目管理工程师2021年报名时间
  17. 【LEDE】树莓派上玩LEDE终极指南-92-自己编译的LEDE为啥子不能用SSR和KoolProxy?
  18. LeetCode1156. 单字符重复子串的最大长度
  19. Cadence OrCAD Capture 自底而上的设计流程
  20. js获取当前时间24小时制

热门文章

  1. C语言之数组中你所不在意的重要知识
  2. 字符串最易犯的错误 总是和 那个\0 有关
  3. WIKI与BLOG殊途同归(转)
  4. 【组队学习】【32期】动手学数据分析
  5. 技术图文:如何解决 DAO 抛出的 80040154 错误?
  6. Matlab与线性代数 -- 矩阵的特征值与特征向量
  7. 软件开发过程中遇到的问题
  8. 开源的 6 条社会契约
  9. 提气!清华成立集成电路学院,专研“卡脖子”技术
  10. Java 领域offer收割:程序员黄金 5 年进阶心得!