来源:混沌巡洋舰

华为年薪百万招聘的机器学习博士,其中一个的研究方向就是AutoML,今天借着最新的综述,来对AutoML进行简要的概述。

机器学习是让算法自动的从数据中找出一组规则,从而提取数据中对分类/聚类/决策有帮助的特征,随着机器学习的发展,其中人工需要干预的部分越来越多,而AutoML则是对机器学习模型从构建到应用的全过程自动化,最终得出端对端的模型(end to end)。有了AutoML,机器学习就会从下图的曲折变为上图的一马平川。

从流程先后顺序来分,最初是数据准备,包括数据收集和清洗,之后是特征工程,其中包括特征选择(决定哪些特征需要保留),特征提取(对特征进行降维,常用的方法例如PCA),特征组合(将多个特征合并/构建为一个新的特征);在之后的模型构建中,最关键的是模型选择,之后超参数优化,可以采取很多方式,最简单的做法是网格搜索,常用的方法包括用强化学习,进化算法,贝叶斯优化,以及梯度下降,来缩小搜索空间;最后,AutoML通过引入提前停止,降低模型的精度,参数共享来自动化模型评价的过程。

数据收集这项任务,不在是搜索与收集真实数据,还包括产生模拟数据,用来扩展训练数据集,可以使用的新技术包括对抗神经网络(点击查看对应文章),还可以使用强化学习的框架,来优化用于控制生成数据的参数,从而使得生成的数据能更有效的助力模型的训练。而数据清洗则是自动完成包括缺失值补全,离群点处理,特征归一化,类别型特征的不同编码等之前手动完成的工作。

模型的自动化选择,传统的方法是从传统的模型,例如KNN,SVM,决策树中选出一个,或多个组合起来效果最好的模型,而当前AutoML的研究热点是Neural Architecture Search, 也就是不经过人工干预,模型自动生成一个对当前任务最有效的网络结构,如下图所示,图中的每一个圆圈,代表一个操作,例如卷积,池化,批量正则化等,模型自动在自我生产的不同结构下搜索最好的操作组合序列。

搜索的结果如下图所示:

其中应用到强化学习的部分如下图所示:

这里的行为是以一定的概率选择某个网络结构,行为是在该结构下,训练子网络,使其在训练集上达到预设的准确率,奖励是该子网络在测试数据集上的准确率与该网络被选择的概率的乘积,通过将子模型的泛化能力作为反馈,用于控制不同模型被选择概率的RNN得以优化其梯度,以选出泛化能力最强的模型,同时通过始终保持一定概率选择其他模型,处理explore VS exploit的权衡。

NAS算法作为当前AutoML最热的研究领域,有很多变种,下图展示了在CIFAR1000上,不同NAS方法的效果及训练用时。相比于强化学习和进化算法,传统方法的用时更少。

为了找到合适的网络架构,除了传统的串行网络,还有基于cell来做层级化网络架构搜索的。下图展示的是先从几个最基本的操作,搜索得出一个一级的网络组件,之后在自动化的搜索如何用一级组件搭建网络。

模型选定后的调参过程,最常用的是网格搜索,也就是按照固定的间距,在搜索空间上打点,但下图指出,网格搜索不一定好过随机搜索,原因是对于重要参数,网格搜索采样的点会不足,从而导致无法取到对模型效果相对较好的点,autoML会使用随机抽样,首先评价各个超参数的重要性,之后再对重要的参数进行微调。

另一种超参数搜索的策略是进化算法,从初始随机产生的参数,经过杂交(将俩组参数的前后部分组合),并对其加上随机噪音,形成子代的超参数,在依据模型在改组超参数上的训练结果作为反馈,选出其中效果较好的超参数,

最后举一个AutoML的例子,用一个函数搞定整个机器学习流程,使用的是H2O这个常用的AutoML包,任务是对fashionMinst这个数据集进行分类

运行完成后,函数会返回所尝试各模型的准确度,以及每个模型的最佳参数,由于模型尝试的深度学习是全连接网络,因此效果不好,如果使用CNN,可以将模型的准确度提升到0.92

张亚勤、刘慈欣、周鸿祎、王飞跃、约翰.翰兹联合推荐

这是一部力图破解21世纪前沿科技大爆发背后的规律与秘密,深度解读数十亿群体智能与数百亿机器智能如何经过50年形成互联网大脑模型,详细阐述互联网大脑为代表的超级智能如何深刻影响人类社会、产业与科技未来的最新著作。

《崛起的超级智能;互联网大脑如何影响科技未来》2019年7月中信出版社出版。刘锋著。了解详情请点击:【新书】崛起的超级智能:互联网大脑如何影响科技未来

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文

概述自动机器学习(AutoML)相关推荐

  1. 【机器学习】盘点常见的自动机器学习(AutoML)工具库

    本文总结了常见的AutoML库,可供大家选择. LightAutoML 项目链接:https://github.com/sberbank-ai-lab/LightAutoML 推荐指数:⭐⭐⭐ Lig ...

  2. 自动机器学习AutoML

    [研究背景]随着深度神经网络的不断发展,各种模型和新颖模块的不断发明利用,人们逐渐意识到开发一种新的神经网络结构越来越费时费力,为什么不让机器自己在不断的学习过程中创造出新的神经网络呢? 正是出于这个 ...

  3. 开源自动机器学习(AutoML)框架盘点

    开发十年,就只剩下这套Java开发体系了 >>>    自从Google推出了能自动设计神经网络自我进化的AutoML论文后,我便开始持续关注这个领域 到目前为止,从网上显示的信息来 ...

  4. 轻松玩转自动机器学习AutoML:H2O Flow

    想想我们每次创建机器学习模型时,编写多行代码是不是很累!虽然这里给大家总结了一个建立机器学习模型的万能模版,但还是累啊! 有没有想过,如果我们可以通过鼠标点击来构建机器学习模型会变得多么容易和高效?H ...

  5. 微软开源的自动机器学习工具上新了:NNI概览及新功能详解

    作者 | 宋驰 来源 | 微软研究院AI头条(ID: MSRAsia) 2018年9月,微软亚洲研究院发布了第一版 NNI (Neural Network Intelligence) ,目前已在 Gi ...

  6. 自动机器学习大师班:15个项目

    Automated Machine Learning Masterclass: 15 (AutoML) Projects 使用自动ML解决数据科学问题,学会使用评估ML,Pycaret,Auto Ke ...

  7. 自动机器学习(AutoML)

    自动机器学习(AutoML) 不再需要苦恼于学习各种机器学习的算法 目录: 一.为什么需要自动机器学习 二.超参数优化 Hyper-parameter Optimization 三.元学习 Meta ...

  8. 【赠书】快速入门自动机器学习!自动机器学习(AutoML):方法、系统与挑战 图书赠送!...

    周末了,这次给大家赠送3本机器学习好书,<自动机器学习(AutoML):方法.系统与挑战>,请看细节. 这是一本什么书 这是一本全面介绍自动机器学习的好书,主要包含自动机器学习的方法.实际 ...

  9. 一文讲解自动机器学习(AutoML)!

    Datawhale 作者:瞿晓阳,AutoML书籍作者 寄语:让计算机自己去学习和训练规则,是否能达到更好的效果呢?自动机器学习就是答案,也就是所谓"AI的AI",让AI去学习AI ...

最新文章

  1. 深度并非一切:普林斯顿、英特尔提出ParNet,速度和准确性显著优于ResNet
  2. 智能合约不够安全?微软建专项小组从编程语言入手根治
  3. 各品牌笔记本BIOS设置硬盘为兼容模式(IDE)方法
  4. uc浏览器为什么安装在c盘_你肯定不知道为什么Windows上面的软件都想把自己安装在C盘...
  5. 一文彻底理解Java单元测试
  6. 加快发展设施业 农业大健康-林裕豪:从玉农业践行基础支撑
  7. 为什么JAVA的垃圾回收机制无法避免内存泄漏
  8. 微型计算机常用的worm是,2010江西省计算机等级考试试题 二级C试题考试答题技巧...
  9. python自动化测试框架结构_基于Python的HTTP接口自动化测试框架实现
  10. python_对象的基本组成和内存示意图---python工作笔记016
  11. ”十六“进制查看器(转)
  12. java SSM(Spring+SpringMVC+MyBatis)maven项目 intellij idea 2017配置 MAC,(Linux,ubuntu,centos 只要更改相应目录即可)
  13. centos分区方案
  14. 数据分析-常用分析方法-(1)描述性分析-用Excel实现
  15. smss,lsass, http://laji.xrlyy.com病毒处理
  16. Python之多张图片拼接
  17. 仿照苏宁易购小程序页面
  18. JS判断当前页面是在 QQ客户端/微信客户端/iOS浏览器/Android浏览器/PC客户端
  19. 记最近一周的一个支线任务
  20. 在移动硬盘里移动视频文件到移动硬盘 另外一个文件夹 显示正在计算_移动硬盘也支持AES-256位硬件加密,希捷锦系列入手体验...

热门文章

  1. 知识图谱的关键技术及其智能应用(附PPT)
  2. 站立潮头、无问西东 | 第二届“大数据在清华”高峰论坛成功举办
  3. ML:教你聚类并构建学习模型处理数据(附数据集)
  4. 2018新年快乐 !(附幸运读者名单)
  5. 张继平院士:40年北大数学路 | 北大黄金一代是如何培养的
  6. 分层级联Transformer!苏黎世联邦提出TransCNN: 显著降低了计算/空间复杂度!
  7. 《可解释机器学习》中文资源重磅来袭!复旦研究生翻译,原作者转发点赞!...
  8. 医疗行业的AI应用,要避免“垃圾进、垃圾出”
  9. 机器学习工程师需要具备的5种软技能
  10. 从2019 AI顶会最佳论文,看深度学习的理论基础