一文盘点AutoML 库,自动机器学习演讲摘要
作者:Xu LIANG
翻译:王雨桐
校对:王威力
本文长度约为1300字,建议阅读5分钟
自动化程度
Jeff Dean在ICML 2019上进行了有关AutoML的演讲,并将自动化分为4个级别:
手动构造预测变量,不引入学习的步骤;
手工选择特征,学习预测。引入自动化超参数调优(HPO)工具,例如Hyperopt,Optuna,SMAC3,scikit-optimize等;
手工构造算法,端到端学习特征和预测。除了HPO外,还有其他一些工具,例如featuretools,tsfresh,boruta等;
完全自动化。端到端学习算法,特征和预测。自动化算法(模型)选择工具,例如Auto-sklearn,TPOT,H2O,auto_ml,MLBox等。
参数自动优化的两种方法
广泛使用的优化方法有两种,一种是贝叶斯优化方法,它基于过去的结果搜索未知参数范围。典型的算法有TPE,SMAC,GP-EL等。
另一种方法是在训练时终止学习,从而高效地搜索参数,例如逐层减半(Successive Halving),超带宽(Hyperband)等。
蓝色点表示训练将继续,红色点表示训练将停止。
AutoML库
我们可以将这些库分为贝叶斯优化算法和早停法算法。
综合考虑到质量和速度,我们推荐使用的两个库是Optuna和scikit-optimize。
自动化特征工程
TPOT和Auto-sklear在使用上仍然有局限性。因此,我们将特征工程分为两类,特征生成和特征选择。
特征生成
Featuretools: Deep feature synthesis
tsfresh
特征选择
3种方法: 包装法(Wrapper),过滤法(Filter),嵌入法(Embedded)
Scikit-lean 和Boruta
自动化算法(模型)选择
AutoML作为一个CASH问题(混合算法选择和超参优化),其中两个重要的问题是,没有一个适用于所有数据集的最优模型;一些模型对于超参数很敏感。我们需要同时解决模型选择和超参调优的问题。
Optuna也可以解决CASH问题,如下图。
自动算法选择的比较如下:
Auto-sklearn
TPOT
h2o-3
auto_ml
MLBox
图七表示的是不同框架算法下,在分类数据集问题上的F1值。图八表示的不同框架算法下,在回归数据集上的均方误差(MSE)。其中箱型图分别表示上限、下四分位、中位、下四分位、下限,灰色圆圈表示异常值。
针对不同的任务推荐使用不同方法。
回归任务:auto-sklearn(基于贝叶斯)
分类任务:TPOT(基于遗传算法)
自动化的神经体系结构搜索
自动神经体系结构搜索在学术界也是一个非常热门的话题,但在工业界并未得到广泛使用。
Reference
https://www.slideshare.net/c-bata/pythonautoml-at-pyconjp-2019
https://arxiv.org/pdf/1012.2599.pdf
https://arxiv.org/pdf/1810.05934.pdf
https://arxiv.org/pdf/1502.07943.pdf
https://arxiv.org/pdf/1808.06492.pdf
以下是日语幻灯片的链接:
https://www.slideshare.net/c-bata/pythonautoml-at-pyconjp-2019
原文链接:
https://towardsdatascience.com/overview-of-automl-from-pycon-jp-2019-c8996954692f
编辑:王菁
校对:林亦霖
译者简介
王雨桐,UIUC统计学在读硕士,本科统计专业,目前专注于Coding技能的提升。理论到应用的转换中,敬畏数据,持续进化。
一文盘点AutoML 库,自动机器学习演讲摘要相关推荐
- 独家 | 一文盘点AutoML 库(附PPT等链接)
作者:Xu LIANG 翻译:王雨桐 校对:王威力 本文长度约为1300字,建议阅读5分钟 本文是Masashi Shibata针对AutoML演讲中的摘要. 自动化程度 Jeff Dean在ICML ...
- 独家 | 一文盘点AutoML 库
作者:Xu LIANG 翻译:王雨桐 校对:王威力 本文长度约为1300字,建议阅读5分钟 本文是Masashi Shibata针对AutoML演讲中的摘要. 自动化程度 Jeff Dean在ICML ...
- 【机器学习】盘点常见的自动机器学习(AutoML)工具库
本文总结了常见的AutoML库,可供大家选择. LightAutoML 项目链接:https://github.com/sberbank-ai-lab/LightAutoML 推荐指数:⭐⭐⭐ Lig ...
- 文末送书 | 自动机器学习(AutoML):方法、系统与挑战
OPENNING 最新上架 近十年来,不管是机器学习相关的应用还是研究,都迎来了爆发式增长.尤其是深度学习,使得很多应用领域都取得了关键性突破,如计算机视觉.语音处理和游戏. 然而,多数机器学习方法的 ...
- 不用深度学习网络,只需预先设置NAS算法,就能实现AutoML自动机器学习的革命吗?
AutoML(自动机器学习)是深度学习的新方式,利用大数据分析.高性能计算.数据管理.算法.边缘计算等技术.有了AutoML,我们就不再需要设计复杂的深度学习网络,用于数据采集.数据预处理.优化.应用 ...
- 如何应用AutoML加速图机器学习任务的处理?
来源|机器之心 如何应用自动机器学习 (AutoML) 加速图机器学习任务的处理?清华大学发布全球首个开源自动图学习工具包:AutoGL (Auto Graph Learning),支持在图数据上全自 ...
- 一文讲解自动机器学习(AutoML)!
Datawhale 作者:瞿晓阳,AutoML书籍作者 寄语:让计算机自己去学习和训练规则,是否能达到更好的效果呢?自动机器学习就是答案,也就是所谓"AI的AI",让AI去学习AI ...
- 自动机器学习AutoML
[研究背景]随着深度神经网络的不断发展,各种模型和新颖模块的不断发明利用,人们逐渐意识到开发一种新的神经网络结构越来越费时费力,为什么不让机器自己在不断的学习过程中创造出新的神经网络呢? 正是出于这个 ...
- 自动机器学习(AutoML)
自动机器学习(AutoML) 不再需要苦恼于学习各种机器学习的算法 目录: 一.为什么需要自动机器学习 二.超参数优化 Hyper-parameter Optimization 三.元学习 Meta ...
最新文章
- SpringBoot整合MyBatis详细教程~
- 【故事】创业者破产后自述:别总谈商业模式、推广和体验
- webLogic11g部署war包问题解决方案(转)
- AOGNet:基于深度 AND-OR 语法网络的目标识别方法 | PaperDaily #28
- 如果你恨一个程序员,忽悠他去做iOS开发
- iis express8 自动关闭
- 想在客户端脚本中引用CHECKBOXLIST中的CHECKBOX项?
- SpringCloudGateway 集成 nacos 整合实现动态路由_04
- Design Patterns(设计模式-观察者)
- LuaTinker向Linux移植成功
- vue UI框架比较
- bat 设置变量带中文
- wps文档一敲空格就换行_wps敲空格变成点
- 基于Springboot的个人健康监控管理系统 毕业论文+项目源码、
- 泰文Unicode编码表及排版规则
- 系统集成项目管理工程师2021年报名时间
- 【LEDE】树莓派上玩LEDE终极指南-92-自己编译的LEDE为啥子不能用SSR和KoolProxy?
- LeetCode1156. 单字符重复子串的最大长度
- Cadence OrCAD Capture 自底而上的设计流程
- js获取当前时间24小时制