介绍

维基百科上说,“Hyperparameter optimizationtuning是为学习算法选择一组最优的hyperparameters的问题”。

本文转载于收藏 | 机器学习四种调参方法总结

ML工作流中最困难的部分之一是为模型找到最好的超参数。ML模型的性能与超参数直接相关。超参数调优的越好,得到的模型就越好。调优超参数可能是非常乏味和困难的,更像是一门艺术而不是科学。

超参数

超参数是在建立模型时用于控制算法行为的参数。这些参数不能从常规训练过程中获得。在对模型进行训练之前,需要对它们进行赋值。

超参数的简单列表

目录

介绍

超参数

1. 传统手工搜索

2. 网格搜索

3. 随机搜索

4. 贝叶斯搜索

总结


1. 传统手工搜索

在传统的调参过程中,我们通过训练算法手动检查随机超参数集,并选择符合我们目标的最佳参数集。

我们看看代码:

#importing required libraries
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold , cross_val_score
from sklearn.datasets import load_winewine = load_wine()
X = wine.data
y = wine.target#splitting the data into train and test set
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.3,random_state = 14)#declaring parameters grid
k_value = list(range(2,11))
algorithm = ['auto','ball_tree','kd_tree','brute']
scores = []
best_comb = []
kfold = KFold(n_splits=5)#hyperparameter tunning
for algo in algorithm:for k in k_value:knn = KNeighborsClassifier(n_neighbors=k,algorithm=algo)results = cross_val_score(knn,X_train,y_train,cv = kfold)print(f'Score:{round(results.mean(),4)} with algo = {algo} , K = {k}')scores.append(results.mean())best_comb.append((k,algo))best_param = best_comb[scores.index(max(scores))]
print(f'\nThe Best Score : {max(scores)}')
print(f"['algorithm': {best_param[1]} ,'n_neighbors': {best_param[0]}]")

缺点

  1. 没办法确保得到最佳的参数组合。

  2. 这是一个不断试错的过程,所以,非常的耗时。

2. 网格搜索

网格搜索是一种基本的超参数调优技术。它类似于手动调优,为网格中指定的所有给定超参数值的每个排列构建模型,评估并选择最佳模型。考虑上面的例子,其中两个超参数 k_value =[2,3,4,5,6,7,8,9,10] & algorithm =[ auto , ball_tree , kd_tree ,brute ],在这个例子中,它总共构建了9*4 = 36不同的模型。

让我们来了解一下sklearn的GridSearchCV是如何工作的:

from sklearn.model_selection import GridSearchCVknn = KNeighborsClassifier()
grid_param = { 'n_neighbors' : list(range(2,11)) , 'algorithm' : ['auto','ball_tree','kd_tree','brute'] }grid = GridSearchCV(knn,grid_param,cv = 5)
grid.fit(X_train,y_train)#best parameter combination
grid.best_params_#Score achieved with best parameter combination
grid.best_score_#all combinations of hyperparameters
grid.cv_results_['params']#average scores of cross-validation
grid.cv_results_['mean_test_score']

缺点

由于它尝试了超参数的每一个组合,并根据交叉验证得分选择了最佳组合,这使得GridsearchCV非常慢。

3. 随机搜索

使用随机搜索代替网格搜索的动机是,在许多情况下,所有的超参数可能不是同等重要的。随机搜索从超参数空间中随机选择参数组合,参数由n_iter给定的固定迭代次数的情况下选择。实验证明,随机搜索的结果优于网格搜索。

让我们来了解sklearn的RandomizedSearchCV是如何工作的:

from sklearn.model_selection import RandomizedSearchCVknn = KNeighborsClassifier()grid_param = { 'n_neighbors' : list(range(2,11)) , 'algorithm' : ['auto','ball_tree','kd_tree','brute'] }rand_ser = RandomizedSearchCV(knn,grid_param,n_iter=10)
rand_ser.fit(X_train,y_train)#best parameter combination
rand_ser.best_params_#score achieved with best parameter combination
rand_ser.best_score_#all combinations of hyperparameters
rand_ser.cv_results_['params']#average scores of cross-validation
rand_ser.cv_results_['mean_test_score']

缺点

随机搜索的问题是它不能保证给出最好的参数组合。

4. 贝叶斯搜索

贝叶斯优化属于一类优化算法,称为基于序列模型的优化(SMBO)算法。这些算法使用先前对损失 f 的观察结果,以确定下一个(最优)点来抽样 f。该算法大致可以概括如下。

  1. 使用先前评估的点 X 1:n,计算损失 f 的后验期望。

  2. 在新的点 X 的抽样损失 f,从而最大化f的期望的某些方法。该方法指定 f 域的哪些区域最适于抽样。

重复这些步骤,直到满足某些收敛准则。

让我们用scikit- optimization的BayesSearchCV来理解。

Installation: pip install scikit-optimize

from skopt import BayesSearchCVimport warnings
warnings.filterwarnings("ignore")# parameter ranges are specified by one of below
from skopt.space import Real, Categorical, Integerknn = KNeighborsClassifier()
#defining hyper-parameter grid
grid_param = { 'n_neighbors' : list(range(2,11)) , 'algorithm' : ['auto','ball_tree','kd_tree','brute'] }#initializing Bayesian Search
Bayes = BayesSearchCV(knn , grid_param , n_iter=30 , random_state=14)
Bayes.fit(X_train,y_train)#best parameter combination
Bayes.best_params_#score achieved with best parameter combination
Bayes.best_score_#all combinations of hyperparameters
Bayes.cv_results_['params']#average scores of cross-validation
Bayes.cv_results_['mean_test_score']

另一个实现贝叶斯搜索的类似库是bayesian-optimization

Installation: pip install bayesian-optimization

缺点

要在2维或3维的搜索空间中得到一个好的代理曲面需要十几个样本,增加搜索空间的维数需要更多的样本。

总结

在确定参数的最佳组合的保证和计算时间之间总是存在权衡。如果超参数空间(超参数个数)非常大,则使用随机搜索找到超参数的潜在组合,然后在该局部使用网格搜索(超参数的潜在组合)选择最优特征。

机器学习四种调参方法总结相关推荐

  1. Xgboost回归四种调参方法及Python简单实现

    前言 Xgboost对特征工程和数据处理比较友好,相比之下调参成为用好Xgboost重要的一环,本文分别从参数.调参方法.Python实现的维度进行梳理,作为调参思路的记录. 本文将关注以下几个问题: ...

  2. 机器学习中四种调参方法总结

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨AI公园 编辑丨极市平台 导读 ML工作流中最困难的部分之一是 ...

  3. 【PID控制】几种调参方法的比较 (含计算代码)

    ⭐⭐几种整定方法总结(含参数计算代码)⭐⭐ PID 参数整定方法 临界比例度法 (Ziegle-Nichols算法 齐格勒尼科尔斯整定方法) 适用条件 主要原理 PID控制器类型的选择 开环阶跃响应曲 ...

  4. 手把手系列—风控模型的调参方法和实际应用

    序言: 大数据时代的风控体系必有模型部分的参与,用策略贯穿整个风控体系,以数据为驱动,模型一定是标配内容.于是在模型的建设上,如何精细化地输出一套有效的模型,就是在精细化管理上非常重要的一个差异点.不 ...

  5. 2、机器学习中的调参:随机搜索和网格搜索

    机器学习中的调参 前言 1.随机搜索 2. 网格搜索 前言 超参数调优是机器学习中的重要一环,拿随机森林算法而言,树的个数,数的深度,剪枝参数等等需要找到最优的参数组合,超参数较少时,我们可以采用fo ...

  6. python网格搜索核函数_机器学习笔记——模型调参利器 GridSearchCV(网格搜索)参数的说明...

    算法 数据结构 机器学习笔记--模型调参利器 GridSearchCV(网格搜索)参数的说明 GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数.但是这个 ...

  7. 提升机器算法LightGBM(图解+理论+增量训练python代码+lightGBM调参方法)

    LightGBM是个快速的,分布式的,高性能的基于决策树算法的梯度提升框架.可用于排序,分类,回归以及很多其他的机器学习任务中. 在竞赛题中,我们知道XGBoost算法非常热门,它是一种优秀的拉动框架 ...

  8. python调参工作都是干啥的_xgboost原理及调参方法-通俗易懂版本

    xgboost是各种比赛中最常使用的方法,网上介绍非常多,但是大部分看起来都比较费劲,这篇文章我将通俗的讲一下xgboost是在干什么,是怎么实现的,每一步的细节中要注意什么问题,达到理解-应用的程度 ...

  9. 四种连接数据库的方法(DriverManager、DataSource子类、DBCP、c3p0)

    四种连接数据库的方法(DriverManager.DataSource子类.DBCP.c3p0) 一.环境     1.数据库驱动jar文件 2.DBCP方法  Commons-dbcp.jar:连接 ...

最新文章

  1. harmonyos2.0开发者beta,华为鸿蒙 HarmonyOS 2.0 手机开发者 Beta 活动(广州站)报名开启...
  2. linux下源码安装vim,ubuntu 源码编译安装最新的vim 8.0
  3. Python网络爬虫与信息提取(三):网络爬虫之实战
  4. Linux C 中字符串化操作符#
  5. python post form data_python实现发送form-data数据的方法详解
  6. 如何修改动态库符号表
  7. php5.4 的 php-fpm 的重启
  8. linux中ssh登录Permanently added (RSA) to the list of known hosts问题解决
  9. (十七)用JAVA编写MP3解码器——解码Layer1
  10. 学习日记16、easyui editor datagrid 动态绑定url
  11. 高并发下如何保证数据库和缓存双写一致性?
  12. Hadoop学习之路(一)理论基础和逻辑思维
  13. ATTCK实战系列三(msf域渗透)
  14. 抓包工具Fiddler的安装与使用
  15. selenium 模拟登录qq空间
  16. AMD Fluid Motion Video补帧教程
  17. Lighting build failed. Swarm failed to kick off UE4光照构建失败
  18. APS计划排产软件在食品饮料行业的应用
  19. python的小程序分析_Python小程序,红楼梦关键词分析
  20. Install YouTube-DL – A Command Line Video Download Tool for Linux

热门文章

  1. 13的高次方数(C语言)
  2. scikit-learn sklearn 0.18 官方文档中文版
  3. Bonjour,CSDN.
  4. Hadoop默认端口说明
  5. 机器学习算法线上部署方法
  6. 生物医药实验室规划设计方案SICOLAB
  7. 《uni-app》uni-app实现疯狂点赞效果(二) 封装与优化
  8. Mac OS下安装ffmpeg和ffplay
  9. WP+Nginx+Ubuntu平滑升级PHP版本
  10. 使用PDF编辑器可以将图片转成PDF文档吗?