什么是AutoML?

自动化机器学习(AutoML)入门简介

AutoML即为Auto+ML,是自动化+机器学习两个学科的结合体;从技术角度来说,则是泛指在机器学习各阶段流程中有一个或多个阶段采取自动化而无需人工参与的实现方案。例如在本文开篇引用的AutoML经典图例中:其覆盖了特征工程(Feature Engineering)、模型选择(Model Selection)、算法选择(Algorithm Selection)以及模型评估(Model Evaluation)4个典型阶段,而仅有问题定义、数据准备和模型部署这三部分工作交由人工来实现。

一、官方文档

auto.gluon.ai

AutoML自动对数据抽取特征并进行模型训练,大部分automl模型框架是基于超参数搜索技术,Autogluon则依赖于融合多个无需超参数搜索的模型。使用了stacking、k-则交叉bagging、多层stacking技术来提高预测精度。

基本功能代码展示

### 1、安装
# 前面的感叹号表示linux命令
!pip install autogluon### 2、使用
# TabularPredictor表示针对一个表数据进行预测
from autogluon.tabular import TabularPredictor  # label:表示需要预测的目标变量-因变量
# columns_names:表示输入的特征变量-自变量
# time_limit:表示设置的计算时间,240 s = 4 min
# 训练过程中会展示预测过程中使用的模型、模型超参数、预测精度等信息
predictor = TabularPredictor(label = target).fit(train_df[columns_names + [target]],tuning_data = validation_df[columns_names + [target]],timelimit = 240)### 3、结果分析
# 测试集 test_df
# 会对多个模型的预测精度进行对比,同时可以自动实现多个模型融合
predictor.leaderboard(test_df, silent = True)### 4、特征重要性
# 可以查看测试数据集里面特征的重要性
predictor.feature_importance(test_df, subsample_size = None)

二、相关论文

AutoGluon: AutoML for Text, Image, and Tabular Data

项目代码

ABSTRACT
We introduce AutoGluon-Tabular, an open-source AutoML framework that requires only a single line of Python to train highly accurate machine learning models on an unprocessed tabular dataset such as a CSV file. Unlike existing AutoML frameworks that primarily focus on model/hyperparameter selection, AutoGluon-Tabular succeeds by ensembling multiple models and stacking them in multiple layers. Experiments reveal that our multi-layer combination of many models offers better use of allocated training time than seeking out the best. A second contribution is an extensive evaluation of public and commercial AutoML platforms including TPOT, H2O, AutoWEKA, auto-sklearn, AutoGluon, and Google AutoML Tables. Tests on a suite of 50 classification and regression tasks from Kaggle and the OpenML AutoML Benchmark reveal that AutoGluon is faster, more robust, and much more accurate. We find that AutoGluon often even outperforms the best-in-hindsight combination of all of its competitors. In two popular Kaggle competitions, AutoGluon beat 99% of the participating data scientists after merely 4h of training on the raw data.

三、本地安装使用

Window端Autogluon环境(Pycharm+Docker)搭建教程

由于Autogluon支持的环境有限,目前仅支持LINUX和MAC操作系统,因此要想在windows操作系统上安装,只能通过Docker在本地创建虚拟机环境。

Docker简介
Docker takes away repetitive, mundane configuration tasks and is used throughout the development lifecycle for fast, easy and portable application development - desktop and cloud. Docker’s comprehensive end to end platform includes UIs, CLIs, APIs and security that are engineered to work together across the entire application delivery lifecycle.(Docker 消除了重复的、平凡的配置任务,并在整个开发生命周期中用于快速、简单和可移植的应用程序开发 - 桌面和云。Docker 全面的端到端平台包括 UI、CLI、API 和安全性,它们旨在在整个应用程序交付生命周期中协同工作。)

四、在线平台

可以借助第三方平台,这些机器学习平台一般都支持机器学习相关环境,而且都是基于LINUX操作系统开发,例如国外Google的colab,但是需要翻墙,国内可使用的平台有百度AI Studio,而且近期有活动,为认证用户提供免费算力。

百度 AI Studio


实际操作

  • 1、注册成功之后创建个人项目

  • 2、上传数据集

  • 可实现一键安装,支持Python3环境,Linux环境

  • Jupyter Notebook操作界面

自动机器学习-AutoGluon: AutoML for Text, Image, and Tabular Data相关推荐

  1. 自动机器学习(AutoML)

    自动机器学习(AutoML) 不再需要苦恼于学习各种机器学习的算法 目录: 一.为什么需要自动机器学习 二.超参数优化 Hyper-parameter Optimization 三.元学习 Meta ...

  2. 【赠书】快速入门自动机器学习!自动机器学习(AutoML):方法、系统与挑战 图书赠送!...

    周末了,这次给大家赠送3本机器学习好书,<自动机器学习(AutoML):方法.系统与挑战>,请看细节. 这是一本什么书 这是一本全面介绍自动机器学习的好书,主要包含自动机器学习的方法.实际 ...

  3. 文末送书 | 自动机器学习(AutoML):方法、系统与挑战

    OPENNING 最新上架 近十年来,不管是机器学习相关的应用还是研究,都迎来了爆发式增长.尤其是深度学习,使得很多应用领域都取得了关键性突破,如计算机视觉.语音处理和游戏. 然而,多数机器学习方法的 ...

  4. 什么是自动机器学习(AutoML)?(译)

    本文选自<Hands-On Automated Machine Learning> 自动机器学习(AutoML) 旨在通过让一些通用步骤 (如数据预处理.模型选择和调整超参数) 自动化,来 ...

  5. 一文讲解自动机器学习(AutoML)!

    Datawhale 作者:瞿晓阳,AutoML书籍作者 寄语:让计算机自己去学习和训练规则,是否能达到更好的效果呢?自动机器学习就是答案,也就是所谓"AI的AI",让AI去学习AI ...

  6. 概述自动机器学习(AutoML)

    来源:混沌巡洋舰 华为年薪百万招聘的机器学习博士,其中一个的研究方向就是AutoML,今天借着最新的综述,来对AutoML进行简要的概述. 机器学习是让算法自动的从数据中找出一组规则,从而提取数据中对 ...

  7. 自动机器学习(AutoML)最新综述

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  8. [转载]自动机器学习(AutoML)领域论文合集

    转载自:2019年 https://blog.csdn.net/mrjkzhangma/article/details/103024818 Awesome-AutoML-Papers includes ...

  9. 如何评价亚马逊AI新开源自动机器学习项目AutoGluon?

    链接:https://www.zhihu.com/question/360250836 编辑:深度学习与计算机视觉 声明:仅做学术分享,侵删 作者:李沐 https://www.zhihu.com/q ...

最新文章

  1. 残差神经网络_什么是残差——一文让你读懂GBDT(梯度提升树)-和-Resnet-(残差网络)的原理...
  2. 曾在字节实习的程序员小姐姐,教你一步提取动漫线稿!比用PS更清晰
  3. Netweaver和SAP云平台的quota管理
  4. MySQL中的读锁和写锁
  5. C#中 ??、 ?、 ?: 、?.、?[ ]、:
  6. 时间即财富:创业者浪费精力的八个错误
  7. 信息学奥赛一本通C++语言——1119:矩阵交换行
  8. nginx配置与常见错误解决方法
  9. vant部署_Vue 3.x配置Vuex使用Vant TabBar及部署
  10. windows.h 详解
  11. linux端更新pip
  12. 大数据技术的发展趋势
  13. K - Star Arrangements
  14. 【树莓派】搭建OpenWrt软路由,并作为旁路由的配置与应用方法
  15. 机器学习中的F1-score
  16. Linux--命名管道(FIFO)
  17. 会做饭,擅长烹饪,会给你的工作生活带来怎样的不同?
  18. SQLite Expert Professional v5.4.34-Crack
  19. (笔记)斯坦福机器学习第十讲--特征选择
  20. 用这个工具可以批量分割视频

热门文章

  1. Robotium 介绍
  2. MFC CList使用
  3. 【SpringBoot】banner在线生成网站
  4. 扩展欧几里得算法、乘法逆元与中国剩余定理
  5. 推荐一个博客工具——Boke宝贝
  6. HTK 安装、编译以及测试——Ubuntu 14.04
  7. MSYS+MinGW64环境的搭建
  8. 天津大学计算机课程设计挂,天津大学智能装置课程设计 电子时钟..doc
  9. 凤凰新闻自动评论推荐软件--把自己的评论推荐到最前面,然后通过头像、用户名或者评论内容进行展示
  10. 钰泰半导体ETA4034爆款OVP+OCP+NTC+OTP+FAULT五合一方案, 兼容BQ24314