交叉验证是一种非常常用的对于模型泛化能力进行评估 方法,交叉验证既可以解决数据集的数据量不够大问题,也可以解决参数调优的问题。常用的交叉验证方法有:简单交叉验证(HoldOut检验,例如train_test_split)、k折交叉验证(例如KFold)、自助法

kfold是将数据集划分为K-折,只是划分数据集;

cross_val_score是根据模型进行计算,计算交叉验证的结果,你可以简单认为就是cross_val_score中调用了kfold进行数据集划分。

函数原型:

sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs’)

参数解释:

estimator:数据对象

X:数据

y:预测数据

soring:调用的方法

cv:交叉验证生成器或可迭代的次数.cv可能的输入有:

-无,使用默认的三折交叉验证,

-整数,用于指定“(分层的)KFold”中的折叠数,

-用作交叉验证生成器的对象。

-一个可迭代产生的序列,测试分裂。

对于整数/无输入,如果估计器是一个分类器,并且' ' y ' '是二进制的或多类的,则使用:class: ' StratifiedKFold '。在所有其他情况下,使用:class: ' KFold '。

n_jobs:同时工作的cpu个数(-1代表全部)

verbose:详细程度

fit_params:传递给估计器的拟合方法的参数

pre_dispatch:控制并行执行期间调度的作业数量。减少这个数量对于避免在CPU发送更多作业时CPU内存消耗的扩大是有用的。该参数可以是:

1.没有,在这种情况下,所有的工作立即创建并产生。将其用于轻量级和快速运行的作业,以避免由于按需产生作业而导致延迟

2.一个int,给出所产生的总工作的确切数量

3.一个字符串,给出一个表达式作为n_jobs的函数,如'2 * n_jobs'

返回

交叉验证每次运行的评分数组

一、(分层)K折交叉验证

采用红酒数据进行交叉验证

#导入hongjiu数据

from sklearn.datasets import load_wine

#导入交叉验证数据

from sklearn.model_selection import cross_val_score,StratifiedKFold

#导入用于分类的支持向量机模型

from sklearn.svm import SVC

#载入红酒数据

wine = load_wine()

#设置SVC的核函数为 linear

svc = SVC(kernel='linear')

#使用交叉验证法对SVC进行评分

score = cross_val_score(svc, wine.data, wine.target)

print('交叉验证得分:{}'.format(score))

#获取平均分数

print('交叉验证平均得分:{:.3f}'.format(score.mean()))

print('\n======================设置cv=5')

#数据集拆分成5个部分来评分,cv=5

scores = cross_val_score(svc, wine.data, wine.target, cv = 5)

print('交叉验证得分:{}'.format(scores))

#获取平均分数

print('交叉验证平均得分:{:.3f}'.format(scores.mean()))

#打印红酒数据集的分类标签

print('酒的分类标签:\n{}'.format(wine.target))

print('\n======================使用StratifiedKFold 分层交叉验证')

strKFold = StratifiedKFold(n_splits=5,shuffle=False,random_state=0)

scores = cross_val_score(svc,wine.data, wine.target,cv=strKFold)

print("straitified cross validation scores:{}".format(scores))

print("Mean score of straitified cross validation:{:.3f}".format(scores.mean()))

print('\n======================使用KFold 交叉验证')

strKFold = KFold(n_splits=5,shuffle=False,random_state=0)

scores = cross_val_score(svc,wine.data, wine.target,cv=strKFold)

print("KFold cross validation scores:{}".format(scores))

print("Mean score of KFold cross validation:{:.3f}".format(scores.mean()))

执行结果如下所示:

[ 0.83333333 0.95 1. ]

交叉验证得分:[ 0.83333333 0.95 1. ]

交叉验证平均得分:0.928

======================设置cv=5

交叉验证得分:[ 0.86486486 0.97222222 0.97222222 1. 1. ]

交叉验证平均得分:0.962

酒的分类标签:

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]

======================使用StratifiedKFold 分层交叉验证

straitified cross validation scores:[ 0.86486486 0.97222222 0.97222222 1. 1. ]

Mean score of straitified cross validation:0.962

======================使用KFold 交叉验证

KFold cross validation scores:[ 0.91666667 0.88888889 0.88888889 0.94285714 0.91428571]

Mean score of KFold cross validation:0.910

可以看出:

1.cross_val_score 在默认情况下会使用3个折叠,因此会得到3个分数

2.如果要将数据集拆分成5个部分来评分,那么需要修改cross_val_score的 cv 参数为5,就会得到5个评分

3.从红酒的标签可以看出,在拆分数据集的时候,有可能每个子集都是同一个标签,这样会导致模型的评分不高,所以采用分层k折交叉验证的优势在于,它会在每个不同分类中进行拆分,确保每个子集中都有数量基本一致的不同分类标签。

4.从分数可以看出。cross_val_score 对于分类模型默认采用的是分层k交叉验证。

二、随机拆分交叉验证

随机拆分交叉验证的原理是,先从数据集中随机抽取一部分数据集作为训练集,再从其余的部分随机抽取一部分作为测试集,进行评分后再迭代,重复上一步的动作,直到把我们希望迭代的次数全部跑完。

依旧采用红酒数据为例

函数原型:

sklearn.cross_validation.ShuffleSplit(n_splits=10, test_size=None, train_size=None, random_state=None)[source]

作用:生成高斯分布的概率密度随机数

参数解释:

n_splits :产生的随机抽样组数

test_size :测试集比例或样本数量,该值为[0.0, 1.0]内的浮点数时,表示测试集占总样本的比例;该值为整型值时,表示具体的测试集样本数量;train_size不设定具体数值时,该值取默认值0.1,train_size设定具体数值时,test_size取剩余部分

train_size : 训练集比例或样本数量,该值为[0.0, 1.0]内的浮点数时,表示训练集占总样本的比例;该值为整型值时,表示具体的训练集样本数量;该值为None(默认值)时,训练集取总体样本除去测试集的部分

random_state :随机数种子

#导入hongjiu数据

from sklearn.datasets import load_wine

#导入交叉验证数据

from sklearn.model_selection import cross_val_score,ShuffleSplit # ShuffleSplit随机拆分工具

#导入用于分类的支持向量机模型

from sklearn.svm import SVC

#载入红酒数据

wine = load_wine()

#设置SVC的核函数为 linear

svc = SVC(kernel='linear')

#二、使用随机拆分交叉验证法对SVC进行评分

#设置拆分的份数为10个

shuffle_split = ShuffleSplit(test_size=.2, train_size=.7, n_splits=10)

#对拆分好的数据进行交叉验证

scores = cross_val_score(svc,wine.data, wine.target,cv=shuffle_split)

print('\n======================使用shuffle_split 交叉验证')

print("shuffle_split cross validation scores:{}".format(scores))

print("Mean score of shuffle_split cross validation:{:.3f}".format(scores.mean()))

执行结果如下所示:

======================使用shuffle_split 交叉验证

shuffle_split cross validation scores:[ 0.91666667 1. 0.97222222 0.97222222 0.86111111 0.94444444

0.88888889 0.94444444 0.94444444 0.91666667]

Mean score of shuffle_split cross validation:0.936

ShuffleSplit 一共为SVC模型进行了10次评分。

三、留一法交叉验证

与k折交叉验证类似,只是它把每一个数据点都当成一个测试集,所以,数据集中有多少个样本,它就要迭代多少次,如果数据集的数据量较大的话,是比较耗时的;但是。如果数据量很小的话,它的评分准确度是最高的。

#导入hongjiu数据

from sklearn.datasets import load_wine

#导入交叉验证数据

from sklearn.model_selection import cross_val_score,LeaveOneOut

#导入用于分类的支持向量机模型

from sklearn.svm import SVC

#载入红酒数据

wine = load_wine()

#设置SVC的核函数为 linear

svc = SVC(kernel='linear')

#三、使用LeaveOneOut交叉验证法对SVC进行评分

cv = LeaveOneOut()

#对拆分好的数据进行交叉验证

scores = cross_val_score(svc,wine.data, wine.target,cv=shuffle_split)

print('\n======================使用LeaveOneOut 交叉验证')

print("迭代次数:{}".format(len(scores)))

print("Mean score of LeaveOneOut cross validation:{:.3f}".format(scores.mean()))

执行结果如下所示:

======================使用LeaveOneOut 交叉验证

迭代次数:178

Mean score of LeaveOneOut cross validation:0.955

python交叉验证结合线性回归_Python机器学习之交叉验证相关推荐

  1. 验证集准确率上不去_Python机器学习之“模型验证”

    有监督机器学习模型的基本步骤: (1) 选择模型类: (2) 选择模型超参数: (3) 用模型拟合训练数据: (4) 用模型预测新数据的标签. 前两步--模型选择和超参数选择--可能是有效使用各种机器 ...

  2. python交叉验证结合线性回归_Python数据分析-线性回归、逻辑回归

    一.机器学习 1.什么是机器学习? 输入:训练数据,特征,标签 机器学习算法会自动学习其中的规律 这时,如果我们输入测试数据,就会输出关于测试数据特征的结果. 输入的特征指的是:数据的属性/特点 输出 ...

  3. python 多元线性回归_Python机器学习,多元线性回归分析问题

    @Author:润森,Runsen,公众号:润森笔记 什么是多元线性回归 在回归分析中,如果有两个或两个以上的自变量,就称为多元回归.**事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组 ...

  4. python进行回归分析与检验_Python机器学习模型-线性回归模型相关检验

    假设检验: 模型显著性检验--F检验(利用statsmodels中建立模型的summary/summary2方法) 偏回归系数显著性检验--t检验(利用statsmodels中建立模型的summary ...

  5. python scikit learn 关闭开源_Python机器学习工具:Scikit-Learn介绍与实践

    Scikit-learn 简介 官方的解释很简单: Machine Learning in Python, 用python来玩机器学习. 什么是机器学习 机器学习关注的是: 计算机程序如何随着经验积累 ...

  6. python随机森林变量重要性_python机器学习之随机森林(七)

    机器学习之随机森林,供大家参考,具体内容如下 1.Bootstraping(自助法) 名字来自成语"pull up by your own bootstraps",意思是依靠你自己 ...

  7. python 随机森林调参_Python机器学习实践:随机森林算法训练及调参-附代码

    原标题:Python机器学习实践:随机森林算法训练及调参-附代码 文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源 | 博客园 作者 | 战争热诚 ...

  8. python算法很难吗_python 机器学习难吗?

    机器学习涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科,其学习门槛相对还是比较高的,长期以来,机器学习方面的人才培养也一直以高学历为主.要从事机器学习方面的研发,既要具备一定的软件开发知 ...

  9. opencv机器学习线性回归_Python机器学习之?线性回归入门(二)

    线性回归原理介绍 文章目录 机器学习分类 线性回归原理 线性回归定义 线性回归背后矩阵运算 机器学习分类 机器学习的主要任务便是聚焦于两个问题:分类和回归 分类相信大家都不会陌生,生活中会见到很多的应 ...

最新文章

  1. 一张900w的数据表,怎么把原先要花费17s执行的SQL优化到300ms?
  2. KLayout 软件使用崩溃
  3. C++ 传指针还是引用?
  4. pyspark reduce代码示例
  5. 使用JS制作一个鼠标可拖的DIV(三)——移动带图片DIV
  6. inline函数和一般的函数有什么不同
  7. IP地址子网的划分机制
  8. matlab中取文件名函数,matlab从文件夹名中获取该文件夹下所图像文件名
  9. Kite Compositor for Mac基本工具的使用教程
  10. 计算机毕业设计java+SSM网上购物超市网站(源码+系统+mysql数据库+Lw文档)
  11. RS485设计技巧TOP10
  12. Java毕设项目直播购物平台计算机(附源码+系统+数据库+LW)
  13. 三维全息显微镜成生物成像领域“新宠”
  14. SigmaStudio之Sine Tone的Freq\Ison换算
  15. Exp1 PC平台逆向破解 20164302 王一帆
  16. 判断闰年(YZOJ-1045)
  17. 【产品人卫朋】2022年产品人必备的13个设计类网站(1.0版)
  18. 2021年南非经济发展研究报告
  19. 乐普生物上市一度破发:收盘市值118亿 年亏损超10亿
  20. matlab用diag直接使用错误_Matlab diag的用法

热门文章

  1. Linux:僵死进程
  2. 这可能是90后最大的时代红利...
  3. c语言单片机实训心得体会,单片机实训心得体会_单片机实习感悟与收获
  4. iOS学习笔记-106.多线程05——CGD同步、异步函数和并行、串行、主队列示例
  5. php绘制空心圆,HTML_html5使用canvas画空心圆与实心圆,这里给大家分享的是一个学习c - phpStudy...
  6. Flutter 调用地图软件(高德、百度、腾讯、苹果)
  7. 【java】克隆(clone),浅拷贝和深拷贝的区别
  8. java接收json数组_后端如何接收json数组
  9. linux ipv6教程,CentOS IPv6设置
  10. 华为超级计算机,华为超级计算机打破世界纪录,是否超越了我国第一的“神威太湖之光”?...