独家 | 一文盘点AutoML 库(附PPT等链接)
作者:Xu LIANG
翻译:王雨桐
校对:王威力
本文长度约为1300字,建议阅读5分钟
本文是Masashi Shibata针对AutoML演讲中的摘要。
自动化程度
手动构造预测变量,不引入学习的步骤;
手工选择特征,学习预测。引入自动化超参数调优(HPO)工具,例如Hyperopt,Optuna,SMAC3,scikit-optimize等;
手工构造算法,端到端学习特征和预测。除了HPO外,还有其他一些工具,例如featuretools,tsfresh,boruta等;
完全自动化。端到端学习算法,特征和预测。自动化算法(模型)选择工具,例如Auto-sklearn,TPOT,H2O,auto_ml,MLBox等。
参数自动优化的两种方法
AutoML库
自动化特征工程
特征生成
Featuretools: Deep feature synthesis
tsfresh
特征选择
3种方法: 包装法(Wrapper),过滤法(Filter),嵌入法(Embedded)
Scikit-lean 和Boruta
自动化算法(模型)选择
AutoML作为一个CASH问题(混合算法选择和超参优化),其中两个重要的问题是,没有一个适用于所有数据集的最优模型;一些模型对于超参数很敏感。我们需要同时解决模型选择和超参调优的问题。
Auto-sklearn
TPOT
h2o-3
auto_ml
MLBox
图七表示的是不同框架算法下,在分类数据集问题上的F1值。图八表示的不同框架算法下,在回归数据集上的均方误差(MSE)。其中箱型图分别表示上限、下四分位、中位、下四分位、下限,灰色圆圈表示异常值。
回归任务:auto-sklearn(基于贝叶斯)
分类任务:TPOT(基于遗传算法)
自动化的神经体系结构搜索
Reference
- https://www.slideshare.net/c-bata/pythonautoml-at-pyconjp-2019
- https://arxiv.org/pdf/1012.2599.pdf
- https://arxiv.org/pdf/1810.05934.pdf
- https://arxiv.org/pdf/1502.07943.pdf
- https://arxiv.org/pdf/1808.06492.pdf
编辑:王菁
校对:林亦霖
译者简介
王雨桐,UIUC统计学在读硕士,本科统计专业,目前专注于Coding技能的提升。理论到应用的转换中,敬畏数据,持续进化。
翻译组招募信息
工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。
其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。
点击文末“阅读原文”加入数据派团队~
点击“阅读原文”拥抱组织
独家 | 一文盘点AutoML 库(附PPT等链接)相关推荐
- 独家 | 一文盘点AutoML 库
作者:Xu LIANG 翻译:王雨桐 校对:王威力 本文长度约为1300字,建议阅读5分钟 本文是Masashi Shibata针对AutoML演讲中的摘要. 自动化程度 Jeff Dean在ICML ...
- 一文盘点AutoML 库,自动机器学习演讲摘要
作者:Xu LIANG 翻译:王雨桐 校对:王威力 本文长度约为1300字,建议阅读5分钟 自动化程度 Jeff Dean在ICML 2019上进行了有关AutoML的演讲,并将自动化分为4个级别: ...
- Geoffrey Hinton大佬经典的《神经网络机器学习》,附PPT下载链接!
↑ 点击上方[计算机视觉联盟]关注我们 深度学习三大巨头Geoffrey Hinton经典的<神经网络机器学习>课程.课程中详细介绍了神经网络的各种概念与特点,虽然来自于5年前,但是是一份 ...
- 【推荐实践】RALM:实时Look-alike算法在微信看一看中的应用(附PPT下载链接)...
话不多说,直接上干货,文末附PPT及论文下载链接. 更多细节请关注公众号并回复"看一看",获取下载链接. 论文链接: Real-time Attention Based Look- ...
- 独家 | 一文盘点数据行业的动态演变(附链接)
作者:Deepesh Nair 翻译:王雨桐 校对:丁楠雅 本文约5800字,建议阅读15分钟. 本文从多个角度盘点数据行业近年来的变化,并对当前数据行业现状进行了分析和评价. 近年来,数据行业不断涌 ...
- 独家 | 一文盘点数据集市和数据仓库的差异(附链接)
作者:By Gilad David Maayan 翻译:王雨桐 校对:丁楠雅 本文约1600字,建议阅读10分钟. 本文从基本定义入手分析数据集市和数据仓库的差异,并分析了各自的适用情况. 当一家企业 ...
- 陆奇最新分享:数字化进程加速,创新者如何把握机会?(文末附PPT下载链接)...
4月8日,腾讯产业加速器学员社群"毕加所"举行线上发布会,邀请到陆奇博士一同见证发布时刻.从硅谷顶级科技公司高管转型企业孵化领域的创业者,奇绩创坛(原YC中国)创始人兼CEO陆奇为 ...
- Embedding技术在房产推荐中的应用(文末附PPT下载链接)
分享嘉宾:周彤 58同城 资深算法工程师 编辑整理:吴雪松 内容来源:58推荐系统技术沙龙 出品平台:DataFunTalk 导读:在深度学习的应用过程中,Embedding 这样一种将离散变量转变为 ...
- 微众银行在联邦推荐算法上的探索及应用(文末附PPT下载链接)
分享嘉宾:谭奔 微众银行 高级研究员 编辑整理:王少华 内容来源:微众·AI 出品平台:DataFunTalk 导读:现如今推荐系统已经得到了广泛的应用,其性能通常是随着数据量的增加而提高.但现实中, ...
最新文章
- DataAccessResourceFailureException异常解决方法
- 滑动窗口与拥塞窗口_流云哭翠-ChinaUnix博客
- getElementById 和 getElementByName的区别
- python章节总结_《Python深度学习》第一章总结
- 配置hibernate根据实体类自动建表功能
- c++ 使用nacos_想自学Maven?推荐Maven极简高速入门及常规使用
- tesseract win 训练
- python 类的简单实用和定义
- 服装企业的信息管理及主要对象(转)
- environment variable is too large 2047
- makefile ------ subst、foreach、wildcard、notdir
- php excel引入tp,TP5引用PHPExcel实现导入导出功能
- JQuery常用属性整理
- php网站静态页面模板,用PHP制作静态网站的模板框架
- 福禄克FLUKE 9142/9143/9144/9170/9771/9173-A-P-256计量干井炉技术指标
- 牛客刷题:放苹果(编程题)
- 编写一个学生和教师数据的输入和显示程序,学生数据有编号、姓名、班号和成绩,教师数据有编号、姓名、职称和部门
- 王者荣耀服务器维修多久,王者荣耀今天维护到几点 维护时间详解
- 一种电源突然掉电的检测方式
- 部门月度例会的一些创新,让会议参与者不再那么沉闷枯燥
热门文章
- 【Luogu P2764】最小路径覆盖问题
- 086.冒泡排序的缺点及解决方案
- 《Python面向对象编程指南》——1.2 基类中的__init__()方法
- CAP in tns
- 分享一些 WINDOWS 资源站点(备用)
- ”计算机操作系统“学习笔记1
- tar.xz、tar.bz2 压缩包解压方式
- 职场新人:工作七大忌
- java jni demo_Android JNI:让你一眼知之的JNI DEMO
- 数据库原理实验二 数据库管理 实验报告