Cross-Validation官方文档说明

一、train_test_split
train_test_split是sklearn库中提供数据分割方法,将X,y分割成,X_train, X_valid, y_train, y_valid,其中X_train,y_train用来做训练集,X_valid,y_valid用来做测试集。

二、为什么要引入交叉验证
但在实际运用中,数据集不足是我们经常遇到的问题,那么怎么样将现有的数据集的利用率提高,充分利用呢?那么就引入交叉验证即可。

三、什么是交叉验证

使用这5个Split分割,分别训练出五个模型(蓝色为测试,绿色为训练集),在计算模型准确率时,使用5个模型准确率的均值,在模型预测时,使用五个模型预测均值。

四、代码实现

import numpy as np
from sklearn import datasets,svm
from sklearn.model_selection import train_test_split,cross_val_score,ShuffleSplit
from sklearn.ensemble import RandomForestClassifierX,y = datasets.load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=0)clf = svm.SVC(kernel='linear',C=1,random_state=42)scores = cross_val_score(clf,X,y,cv=5)
print(scores.mean())

五、运行结果

没有使用交叉验证时得分为:0.96(这里没有使用代码演示,官网文档有更加详细的解释)

Cross-validation 交叉验证相关推荐

  1. cross validation交叉验证

    交叉验证是一种检测model是否overfit的方法.最常用的cross validation是k-fold cross validation. 具体的方法是: 1.将数据平均分成k份,0,1,2,, ...

  2. Sklearn——交叉验证(Cross Validation)

    文章目录 1.前言 2.非交叉验证实验 3.交叉验证实验 4.准确率与平方误差 4.1.准确率实验 4.2.均方误差实验 5.Learning curve 检查过拟合 5.1.加载必要模块 5.2.加 ...

  3. K-近邻算法之交叉验证,网格搜索

    K-近邻算法之交叉验证,网格搜索 1 什么是交叉验证(cross validation) 交叉验证:将拿到的训练数据,分为训练和验证集.以下图为例:将数据分成4份,其中一份作为验证集.然后经过4次(组 ...

  4. python实现留一法_数据分割:留出法train_test_split、留一法LeaveOneOut、GridSearchCV(交叉验证法+网格搜索)、自助法...

    1.10 交叉验证,网格搜索 学习目标 目标 知道交叉验证.网格搜索的概念 会使用交叉验证.网格搜索优化训练模型 1 什么是交叉验证(cross validation) 交叉验证:将拿到的训练数据,分 ...

  5. 交叉验证方法汇总【附代码】(留一法、K折交叉验证、分层交叉验证、对抗验证、时间序列交叉验证)

    目录 交叉验证是什么? 留一验证(LOOCV,Leave one out cross validation ) LOOCC代码 验证集方法 验证集方法代码 K折交叉验证(k-fold cross va ...

  6. 简单粗暴理解与实现机器学习之K-近邻算法(十):交叉验证,网格搜索(模型选择与调优)API、鸢尾花案例增加K值调优

    K-近邻算法 文章目录 K-近邻算法 学习目标 1.10 交叉验证,网格搜索 1 什么是交叉验证(cross validation) 1.1 分析 1.2 为什么需要交叉验证 **问题:那么这个只是对 ...

  7. 机器学习算法------1.10 交叉验证,网格搜索(交叉验证,网格搜索(模型选择与调优)API、鸢尾花案例增加K值调优)

    文章目录 1.10 交叉验证,网格搜索 学习目标 1 什么是交叉验证(cross validation) 1.1 分析 1.2 为什么需要交叉验证 2 什么是网格搜索(Grid Search) 3 交 ...

  8. 十折交叉验证10-fold cross validation, 数据集划分 训练集 验证集 测试集

    机器学习 数据挖掘 数据集划分 训练集 验证集 测试集 Q:如何将数据集划分为测试数据集和训练数据集? A:three ways: 1.像sklearn一样,提供一个将数据集切分成训练集和测试集的函数 ...

  9. R语言构建xgboost模型:交叉验证(cross validation)训练xgboost模型,配置自定义的损失函数评估函数并使用交叉验证训练xgboost模型

    R语言构建xgboost模型:交叉验证(cross validation)训练xgboost模型,配置自定义的损失函数(loss function).评估函数(evaluation function) ...

  10. R语言构建xgboost模型:交叉验证(cross validation)训练xgboost模型

    R语言构建xgboost模型:交叉验证(cross validation)训练xgboost模型 目录

最新文章

  1. 洛谷P1073最优贸易——双向取值
  2. 吕布流水账 -- 纪念我的爱情
  3. getLastSql()用法
  4. 符号库匹配不对的原因_王者荣耀:万恶的游戏匹配机制,最菜的队友才是游戏胜利的关键...
  5. TensorFlow 学习(六) —— TensorFlow 与 numpy 的交互
  6. [转载]linux+nginx+python+mysql安装文档
  7. 49 html鼠标事件(在线测试)
  8. Serializer及ModelSerializer的使用
  9. html caption属性的值,然后在属性面板中更改控件的Caption属性值
  10. PAT 乙级 1001 害死人不偿命的(3n+1)猜想 (15 分) C++
  11. springboot跳转外部链接
  12. coreldraw怎样定数等分_coreldraw 里怎么将线段等分?
  13. 开源网络模拟器资源统计列表
  14. 通过禁用受保护的视图来启用所有Office 2010文档的编辑
  15. 短距离无线通讯-RFID
  16. iOS WebView加载图片严重拉伸变形,解决方案很简单,让图片比例拉伸就好。
  17. libreoffice安装+libreoffice转换pdf (linux)
  18. 绿色版与安装版的区别 /(0^◇^0)/
  19. cronolog-1.6.2.tar.gz cronolog-1.6.2下载
  20. 揭秘淘宝倒卖QQ产业,他们上万QQ号都是哪来的?

热门文章

  1. 老板最讨厌的10种烂个性
  2. 2.4~5 x86计算机的组成
  3. Confluence 6 PostgreSQL 输入你的数据库细节
  4. You Probably Dont Need Derived State
  5. 使用源代码编译安装基于LAMP的网站架构
  6. C++输出九九乘法表
  7. 如何启用Domino 8 的ODS磁盘结构
  8. Oracle 分析函数row_number() over (partition by order by )
  9. SSM集成activiti6.0错误集锦(二)
  10. C++笔记------数据类型