1  超参数优化

调参即超参数优化,是指从超参数空间中选择一组合适的超参数,以权衡好模型的偏差(bias)和方差(variance),从而提高模型效果及性能。常用的调参方法有:

  • 人工手动调参

  • 网格/随机搜索(Grid / Random Search)

  • 贝叶斯优化(Bayesian Optimization)

注:超参数 vs 模型参数差异 超参数是控制模型学习过程的(如网络层数、学习率);模型参数是通过模型训练学习后得到的(如网络最终学习到的权重值)。

2  人工调参

手动调参需要结合数据情况及算法的理解,选择合适调参的优先顺序及参数的经验值。

不同模型手动调参思路会有差异,如随机森林是一种bagging集成的方法,参数主要有n_estimators(子树的数量)、max_depth(树的最大生长深度)、max_leaf_nodes(最大叶节点数)等。(此外其他参数不展开说明) 对于n_estimators:通常越大效果越好。参数越大,则参与决策的子树越多,可以消除子树间的随机误差且增加预测的准度,以此降低方差与偏差。对于max_depth或max_leaf_nodes:通常对效果是先增后减的。取值越大则子树复杂度越高,偏差越低但方差越大。

3 网格/随机搜索

  • 网格搜索(grid search),是超参数优化的传统方法,是对超参数组合的子集进行穷举搜索,找到表现最佳的超参数子集。

  • 随机搜索(random search),是对超参数组合的子集简单地做固定次数的随机搜索,找到表现最佳的超参数子集。对于规模较大的参数空间,采用随机搜索往往效率更高。

import numpy as np
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestClassifier# 选择模型
model = RandomForestClassifier()
# 参数搜索空间
param_grid = {'max_depth': np.arange(1, 20, 1),'n_estimators': np.arange(1, 50, 10),'max_leaf_nodes': np.arange(2, 100, 10)}
# 网格搜索模型参数
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='f1_micro')
grid_search.fit(x, y)
print(grid_search.best_params_)
print(grid_search.best_score_)
print(grid_search.best_estimator_)
# 随机搜索模型参数
rd_search = RandomizedSearchCV(model, param_grid, n_iter=200, cv=5, scoring='f1_micro')
rd_search.fit(x, y)
print(rd_search.best_params_)
print(rd_search.best_score_)
print(rd_search.best_estimator_)

4 贝叶斯优化

贝叶斯优化(Bayesian Optimization) 与网格/随机搜索最大的不同,在于考虑了历史调参的信息,使得调参更有效率。(但在高维参数空间下,贝叶斯优化复杂度较高,效果会近似随机搜索。)

4.1 算法简介

贝叶斯优化思想简单可归纳为两部分:

  • 高斯过程(GP):以历史的调参信息(Observation)去学习目标函数的后验分布(Target)的过程。

  • 采集函数(AC):由学习的目标函数进行采样评估,分为两种过程:1、开采过程:在最可能出现全局最优解的参数区域进行采样评估。2、勘探过程:兼顾不确定性大的参数区域的采样评估,避免陷入局部最优。

4.2 算法流程

for循环n次迭代:采集函数依据学习的目标函数(或初始化)给出下个开采极值点 Xn+1;评估超参数Xn+1得到表现Yn+1;加入新的Xn+1、Yn+1数据样本,并更新高斯过程模型;

"""
随机森林分类Iris使用贝叶斯优化调参
"""
import numpy as np
from hyperopt import hp, tpe, Trials, STATUS_OK, Trials, anneal
from functools import partial
from hyperopt.fmin import fmin
from sklearn.metrics import f1_score
from sklearn.ensemble import RandomForestClassifierdef model_metrics(model, x, y):""" 评估指标 """yhat = model.predict(x)return  f1_score(y, yhat,average='micro')def bayes_fmin(train_x, test_x, train_y, test_y, eval_iters=50):"""bayes优化超参数eval_iters:迭代次数"""def factory(params):"""定义优化的目标函数"""fit_params = {'max_depth':int(params['max_depth']),'n_estimators':int(params['n_estimators']),'max_leaf_nodes': int(params['max_leaf_nodes'])}# 选择模型model = RandomForestClassifier(**fit_params)model.fit(train_x, train_y)# 最小化测试集(- f1score)为目标train_metric = model_metrics(model, train_x, train_y)test_metric = model_metrics(model, test_x, test_y)loss = - test_metricreturn {"loss": loss, "status":STATUS_OK}# 参数空间space = {'max_depth': hp.quniform('max_depth', 1, 20, 1),'n_estimators': hp.quniform('n_estimators', 2, 50, 1), 'max_leaf_nodes': hp.quniform('max_leaf_nodes', 2, 100, 1)}# bayes优化搜索参数best_params = fmin(factory, space, algo=partial(anneal.suggest,), max_evals=eval_iters, trials=Trials(),return_argmin=True)# 参数转为整型best_params["max_depth"] = int(best_params["max_depth"])best_params["max_leaf_nodes"] = int(best_params["max_leaf_nodes"])best_params["n_estimators"] = int(best_params["n_estimators"])return best_params#  搜索最优参数
best_params = bayes_fmin(train_x, test_x, train_y, test_y, 100)
print(best_params)

阅读原文可访问Github源码


往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑
本站qq群704220115,加入微信群请扫码:

【机器学习基础】一文归纳AI调参炼丹之法相关推荐

  1. 一文归纳Ai调参炼丹之法

    1 超参数优化 调参即超参数优化,是指从超参数空间中选择一组合适的超参数,以权衡好模型的偏差(bias)和方差(variance),从而提高模型效果及性能.常用的调参方法有: 人工手动调参 网格/随机 ...

  2. 【机器学习】一文归纳AI数据增强之法

    数据.算法.算力是人工智能发展的三要素.数据决定了Ai模型学习的上限,数据规模越大.质量越高,模型就能够拥有更好的泛化能力.然而在实际工程中,经常有数据量太少(相对模型而言).样本不均衡.很难覆盖全部 ...

  3. Datawhale 零基础入门数据挖掘- 建模与调参

    Task4 建模与调参 此部分为零基础入门数据挖掘之心电图分类的 Task4 建模调参部分,带你来了解各种模型以及模型的评价和调参策略,欢迎大家后续多多交流. 赛题:零基础入门数据挖掘 - 心电图分类 ...

  4. AI调参师会被取代吗?对话AutoML初创公司探智立方

    1955 年,约翰·麦卡锡(John McCarthy).马文·闵斯基(Marvin Minsky).克劳德·香农(Claude Shannon)等人聚在一起,为第二年即将召开的具有重要历史意义的&q ...

  5. 【零基础入门数据挖掘】-建模调参

    Datawhale 作者:徐韬 ,Datawhale优秀学习者 摘要:对于数据挖掘项目,本文将学习如何建模调参?从简单的模型开始,如何去建立一个模型:如何进行交叉验证:如何调节参数优化等. 建模调参: ...

  6. 一文掌握模型调参神器:Hyperopt

    hyperopt是一个Python库,主要使用 ①随机搜索算法 ②模拟退火算法 ③TPE算法 来对某个算法模型的最佳参数进行智能搜索,它的全称是Hyperparameter Optimization. ...

  7. Datawhale 零基础入门数据挖掘-Task4 建模调参

    本节内容为各种模型以及模型的评价和调参策略. 一.读取数据 import pandas as pd import numpy as np import warnings warnings.filter ...

  8. R语言机器学习mlr3:特征选择和hyperband调参

    获取更多R语言和生信知识,请关注公众号:医学和生信笔记. 公众号后台回复R语言,即可获得海量学习资料! 目录 Hyperband调参 特征选择 filters 计算分数 计算变量重要性 组合方法(wr ...

  9. 各路丹师 调参[炼丹]经验小结

    作者:hzwer 链接:https://www.zhihu.com/question/41631631/answer/859040970 来源:知乎 总结一下在旷视实习两年来的炼丹经验,我主要做了一些 ...

最新文章

  1. Python-装饰器
  2. 内存溢出原因及解决方案
  3. Linux学习:文件描述符相关函数
  4. 5年时间,我从开发做到总裁的秘籍--如何提升技术型管理者的领导力
  5. Oracle闪回报错,oracle 闪回区满了,ORA-19815
  6. oracle重建服务器,Oracle重建控制文件的实例教程
  7. 在Windows下删除Linux系统的方法
  8. Windows 10的成功能让苹果学到点什么?
  9. 6月热点:BML全新升级WebIDE编程环境,度目智能视频分析盒G1上新
  10. 沿着哈勃望远,看清MyBatis整体架构
  11. Frament与activity切换
  12. 首届“中科杯”全国软件设计大赛获奖名单揭晓
  13. 视觉SLAM中的公制尺度(metric scale)
  14. 南京大学计算机实验教程,南京大学 计算机系统基础 课程实验 2018(PA0-1)
  15. GPIO的配置及使用(MC9S08AW60)
  16. 【react】This synthetic event is reused for performance reasons.
  17. 中国有望成为世界第一个发射量子轨道卫星的国家
  18. 利用OpenXml生成Word2007文档
  19. python 如何计算平方、次方?平方根、方根?(math.pow()、math.sqrt())
  20. xml--include用法--xml文件模块化

热门文章

  1. javaandroid知识点汇总整理(不定期更新)
  2. @Autowired注解警告Field injection is not recommended
  3. 移动端web自适应适配布局解决方案
  4. suoi46 最大和和 (线段树)
  5. React 的组件与 this.props对象
  6. POJ 3207 Ikki's Story IV - Panda's Trick (POJ 六道2-SAT之一)
  7. 机器人学习--路径规划算法
  8. 导入jar包到Maven本地仓库(maven install jar)
  9. Spring 数据访问那些事儿(二)Spring + JdbcTemplate
  10. oracle时区参考表,ORACLE 时区