在学习的过程中,我们经常会听到CV,那么什么是CV呢?

交叉验证(Cross Validation,简称CV)是在机器学习建立模型和验证模型参数时常用的方法。顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集。用训练集来训练模型,测试集来评估模型的好坏。

在有监督的机器学习过程中,我们首先第一步要做的就是将数据划分为训练集测试集Hold-Out就是比较简单的一个划分方法,其中训练集用于训练模型,测试集用于验证模型。但Hold-Out不属于CV,因为这种方式有一个很大的缺点:只进行了一次划分,当数据集的划分不是随机进行的,数据结果具有偶然性,如果在某次划分中,训练集里全是容易学习的数据,测试集里全是复杂的数据,这样就会导致欠拟合;反之,容易导致过拟合。

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(data_train,y_train,test_size = 0.20,random_state = 50)

常用的CV方式,有多种,例如:

K折交叉验证(K-Fold Cross Validation)

K折交叉验证会把样本数据随机的分成 K份,每次随机的选择 K−1份作为训练集,剩下的1份做测试集。当这一轮完成后,重新随机选择 K−1份来训练数据。若干轮(小于 K)之后,选择损失函数评估最优的模型和参数。

留一交叉验证(Leave-one-out Cross Validation)

此时 K等于样本数 N,这样对于 N个样本,每次选择 N−1个样本来训练数据,留一个样本来验证模型预测的好坏。此方法主要用于样本量非常少的情况,比如对于普通适中问题,N小于50时,一般采用留一交叉验证。

机器学习中常说的CV是什么?相关推荐

  1. 机器学习中的分类距离

    https://www.toutiao.com/a6710061523777094151/ 生活中,距离通常是用于形容两个地方或两个物体之间的远近.在人工智能机器学习领域,常使用距离来衡量两个样本之间 ...

  2. python决策树实例_机器学习中的决策树及python实例

    一棵树在现实生活中有许多枝叶,事实上树的概念在机器学习也有广泛应用,涵盖了分类和回归.在决策分析中,决策树可用于直观地决策和作出决策.决策树,顾名思义,一个树状的决策模型.尽管数据挖掘与机器学习中常常 ...

  3. 机器学习(Machine Learning)、深度学习(Deep Learning)、NLP面试中常考到的知识点和代码实现

    网址:https://github.com/NLP-LOVE/ML-NLP 此项目是机器学习(Machine Learning).深度学习(Deep Learning).NLP面试中常考到的知识点和代 ...

  4. 独家 | 在机器学习中利用统计插补来处理缺失值(附代码)

    作者:Jason Brownlee 翻译:吴振东 校对:冯羽 本文约4500字,建议阅读10分钟 本文以病马数据集为例,帮助你了解在机器学习领域如何利用统计策略来处理缺失值,对代码进行了较为详细的讲解 ...

  5. 机器学习中的L1与L2正则化图解!

    今日锦囊 特征锦囊:今天一起搞懂机器学习里的L1与L2正则化 今天我们来讲讲一个理论知识,也是老生常谈的内容,在模型开发相关岗位中出场率较高的,那就是L1与L2正则化了,这个看似简单却十分重要的概念, ...

  6. 干货丨一文介绍机器学习中基本的数学符号

    在机器学习中,你永远都绕不过数学符号. 通常,只要有一个代数项或一个方程符号看不懂,你就完全看不懂整个过程是怎么回事了.这种境况非常令人沮丧,尤其是对于那些正在成长中的机器学习初学者来说更是如此. 如 ...

  7. 范数与距离的关系以及在机器学习中的应用

     范数与距离的关系以及在机器学习中的应用 1 范数 向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离. 向量的范数定义:向量的范数是一个函数||x||,满 ...

  8. 从重采样到数据合成:如何处理机器学习中的不平衡分类问题?

    从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 2017-03-19 13:17 来源:机器之心 技术 原标题:从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 选自Analytic ...

  9. 从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 转载 2017年08月01日 17:09:03 标签: 机器学习 / 数据 719 转自:http://www.sohu.com/a/12

    从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 转载 2017年08月01日 17:09:03 标签: 机器学习 / 数据 719 转自:http://www.sohu.com/a/1293 ...

最新文章

  1. python能实现excel什么功能_Python pandas对excel的操作实现示例
  2. 如何使用Java代码给图片增加倒影效果
  3. ruby hash方法_Ruby中带有示例的Hash.length方法
  4. php rgb,php颜色转换函数hex-rgb
  5. Python学习之==装饰器
  6. 浏览器保存密码后文本框出现黄色背景的解决方案
  7. 笔记 33 | Android通信之Thread类实现多线程
  8. 区块链 智能合约 虚拟机 EVM 资料总结
  9. Java中成员变量、局部变量和静态变量的区别
  10. matlab 调速系统试验,实验三-双闭环直流调速系统MATLAB仿真.doc
  11. oracle财务模块培训,ORACLE财务管理系统培训手册之现金模块
  12. c语言经纬度和大地坐标转换,经纬度与我国54、80大地坐标转换的小工具
  13. 索尼手机服务器在哪个文件夹,索尼手机云服务器
  14. 华为路由器配置ip类
  15. java则么实现md5解密_java的md5解密
  16. 国内知名流程管理软件-汇总介绍
  17. aptx与ldac音质区别_蓝牙协议LDAC和aptx的区别?
  18. android tv 菜单键,Android TV开发总结(三)构建一个TV app的焦点控制及遇到的坑
  19. Win32: 数据类型常用最大值和最小值
  20. 计算机职称证书退休工资,职称就像是一座大山,相同教龄不同职称的教师退休工资相差多少?...

热门文章

  1. 不知道吃什么?来个随即点餐,点到啥吃啥!
  2. 《思维力—高效的系统思维》
  3. win10关闭自带键盘(亲测有用)
  4. matlab一些常用的技巧函数
  5. 快速批量更改或添加文件后缀名
  6. Facebook速推帖子和Facebook广告有什么区别
  7. 全国酒店预订API接口
  8. 医院计算机网络故障护士,医院信息系统网络故障应急预案.doc
  9. K8S命名空间处于Terminating状态,如何强制删除
  10. 19年秋季第一题 PAT甲级 1161 Forever (20 分) 有点儿意思