cross_validation.KFold与model_selection.KFold的区别

KFold是sklearn中用来做交叉检验的，在sklearn 的版本升级中，KFold被挪了地方。

在sklearn 0.18及以上的版本中，sklearn.cross_validation包被废弃，KFold被挪到了sklearn.model_selection中，本来以为挪就挪了，用法没变就行，结果，，谁用谁知道。

cross_validation.KFold与model_selection.KFold的不同用法

cross_validation.KFold做交叉验证

from sklearn.linear_model import LogisticRegression
from sklearn.cross_validation import KFold, cross_val_score
from sklearn.metrics import confusion_matrix,recall_score,classification_reportdef printing_Kfold_scores(x_train_data,y_train_data):fold = KFold(len(y_train_data),5,shuffle=False) #将训练集切分成5份，做交叉验证#正则化惩罚项系数c_param_range = [0.01,0.1,1,10,100]results_table = pd.DataFrame(index = range(len(c_param_range),2), columns = ['C_parameter','Mean recall score'])results_table['C_parameter'] = c_param_rangej = 0for c_param in c_param_range:print('-------------------------------------------')print('C parameter: ', c_param)print('-------------------------------------------')print('')recall_accs = []#循环进行交叉验证for iteration, indices in enumerate(fold,start=1):#建立逻辑回归模型，选择正则惩罚类型L1lr = LogisticRegression(C = c_param, penalty = 'l1')lr.fit(x_train_data.iloc[indices[0],:],y_train_data.iloc[indices[0],:].values.ravel())y_pred_undersample = lr.predict(x_train_data.iloc[indices[1],:].values)recall_acc = recall_score(y_train_data.iloc[indices[1],:].values,y_pred_undersample)#计算召回率recall_accs.append(recall_acc)print('Iteration ', iteration,': recall score = ', recall_acc)results_table.ix[j,'Mean recall score'] = np.mean(recall_accs)j += 1print('')print('Mean recall score ', np.mean(recall_accs))print('')results_table['Mean recall score'] = results_table['Mean recall score'].astype('float64')best_c = results_table.loc[results_table['Mean recall score'].idxmax()]['C_parameter']# Finally, we can check which C parameter is the best amongst the chosen.print('*********************************************************************************')print('Best model to choose from cross validation is with C parameter = ', best_c)print('*********************************************************************************')return best_c

model_selection.KFold做交叉验证

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import KFold, cross_val_score
from sklearn.metrics import confusion_matrix,recall_score,classification_report def printing_Kfold_scores(x_train_data,y_train_data):#将训练集切分成5份，做交叉验证kf = KFold(n_splits=5,shuffle=False)kf.get_n_splits(x_train_data)#正则化惩罚项系数c_param_range = [0.01,0.1,1,10,100]results_table = pd.DataFrame(index = range(len(c_param_range),2), columns = ['C_parameter','Mean recall score'])results_table['C_parameter'] = c_param_rangej = 0for c_param in c_param_range:print('-------------------------------------------')print('C parameter: ', c_param)print('-------------------------------------------')print('')recall_accs = []#循环进行交叉验证for iteration, indices in kf.split(x_train_data):lr = LogisticRegression(C = c_param, penalty = 'l1',solver='liblinear')lr.fit(x_train_data.iloc[iteration,:],y_train_data.iloc[iteration,:].values.ravel())y_pred_undersample = lr.predict(x_train_data.iloc[indices,:].values)recall_acc = recall_score(y_train_data.iloc[indices,:].values,y_pred_undersample)#计算召回率recall_accs.append(recall_acc)print('recall score = ', recall_acc)results_table.ix[j,'Mean recall score'] = np.mean(recall_accs)j += 1print('')print('Mean recall score ', np.mean(recall_accs))print('')results_table['Mean recall score'] = results_table['Mean recall score'].astype('float64')best_c = results_table.loc[results_table['Mean recall score'].idxmax()]['C_parameter']# Finally, we can check which C parameter is the best amongst the chosen.print('*********************************************************************************')print('Best model to choose from cross validation is with C parameter = ', best_c)print('*********************************************************************************')return best_c

在新版中，将数据切分需要两行代码：kf = KFold(n_splits=5,shuffle=False) 、 kf.get_n_splits(x_train_data)，用for iteration, indices in kf.split(x_train_data):取出，看到iteration和indices装的是两段index值，iteration装了五分之四，indices装的是五分之一，如下图

在旧版本中，将数据切分成n份就是一句代码：fold = KFold(len(y_train_data),5,shuffle=False)，并且切分后用：for iteration, indices in enumerate(fold,start=1):，取出的iteration是1、2、3、4、5这几个数，indices是上图中两部分的合集

cross_validation.KFold与model_selection.KFold的区别相关推荐

【模型评估与选择】sklearn.model_selection.KFold
1. 描述 KFold divides all the samples in k groups of samples, called folds (if k = n, this is equivale ...
机器学习中sklearn.model_selection.KFold的用法详解
content 类信息参数信息类信息 class (n_splits=5, *, shuffle=False, random_state=None sklearn.model_selection. ...
StratifiedKFold(分类）和Kfold（回归）的区别
一. StratifiedKFlod与KFlod主要区别 StratifiedKFlod:分层采样,训练集与测试集中各类别样本的比列与原始数据中相同:(分类问题) KFlod:分层采样,将数据分成训练 ...
KFold、StratifiedKFold、GroupKFold的区别
一.问题来源: 在kaggle代码中第一次看到GroupKFold,不太清楚和KFold的区别,所以才想着去搞清楚这个问题二.KFold >>> import numpy as n ...
5. KFold, StratifiedKFold,StratifiedShuffleSplit, GroupKFold区别以及Stratified Group KFold
目录 5. KFold, StratifiedKFold,StratifiedShuffleSplit, GroupKFold区别以及Stratified Group KFold 实现 1. KFol ...
oxford5k和paris6k数据集介绍_sklearn函数：KFold（分割训练集和测试集）
上一篇介绍了train_test_split函数: 橘猫吃不胖:sklearn函数:train_test_split(分割训练集和测试集)zhuanlan.zhihu.com 主要场景是,我们想要将 ...
kfold和StratifiedKFold 用法
kfold和StratifiedKFold 用法两者区别代码及结果展示结果分析补充:random_state(随机状态) 两者区别代码及结果展示 from sklearn.model_sel ...
sklearn K折(KFold)交叉验证案例，展开细节代码与cross_validate简写
文章目录一.通常的随机森林模型代码二.K折交叉验证的随机森林代码 1. 切分方式:随机切分 2.切分方式:不均衡数据集下按比例切分三.KFold的简便写法四.随机森林预测与KFold交叉验证完 ...
cross-validation：从 holdout validation 到 k-fold validation
构建机器学习模型的一个重要环节是评价模型在新的数据集上的性能.模型过于简单时,容易发生欠拟合(high bias):模型过于复杂时,又容易发生过拟合(high variance).为了达到一个合理的 ...

cross_validation.KFold与model_selection.KFold的区别

cross_validation.KFold与model_selection.KFold的不同用法

cross_validation.KFold与model_selection.KFold的区别相关推荐

最新文章

热门文章