机器学习中常说的CV是什么?
在学习的过程中,我们经常会听到CV,那么什么是CV呢?
交叉验证(Cross Validation,简称CV)是在机器学习建立模型和验证模型参数时常用的方法。顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集。用训练集来训练模型,测试集来评估模型的好坏。
在有监督的机器学习过程中,我们首先第一步要做的就是将数据划分为训练集和测试集,Hold-Out就是比较简单的一个划分方法,其中训练集用于训练模型,测试集用于验证模型。但Hold-Out不属于CV,因为这种方式有一个很大的缺点:只进行了一次划分,当数据集的划分不是随机进行的,数据结果具有偶然性,如果在某次划分中,训练集里全是容易学习的数据,测试集里全是复杂的数据,这样就会导致欠拟合;反之,容易导致过拟合。
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(data_train,y_train,test_size = 0.20,random_state = 50)
常用的CV方式,有多种,例如:
K折交叉验证(K-Fold Cross Validation)
K折交叉验证会把样本数据随机的分成 K份,每次随机的选择 K−1份作为训练集,剩下的1份做测试集。当这一轮完成后,重新随机选择 K−1份来训练数据。若干轮(小于 K)之后,选择损失函数评估最优的模型和参数。
留一交叉验证(Leave-one-out Cross Validation)
此时 K等于样本数 N,这样对于 N个样本,每次选择 N−1个样本来训练数据,留一个样本来验证模型预测的好坏。此方法主要用于样本量非常少的情况,比如对于普通适中问题,N小于50时,一般采用留一交叉验证。
机器学习中常说的CV是什么?相关推荐
- 机器学习中的分类距离
https://www.toutiao.com/a6710061523777094151/ 生活中,距离通常是用于形容两个地方或两个物体之间的远近.在人工智能机器学习领域,常使用距离来衡量两个样本之间 ...
- python决策树实例_机器学习中的决策树及python实例
一棵树在现实生活中有许多枝叶,事实上树的概念在机器学习也有广泛应用,涵盖了分类和回归.在决策分析中,决策树可用于直观地决策和作出决策.决策树,顾名思义,一个树状的决策模型.尽管数据挖掘与机器学习中常常 ...
- 机器学习(Machine Learning)、深度学习(Deep Learning)、NLP面试中常考到的知识点和代码实现
网址:https://github.com/NLP-LOVE/ML-NLP 此项目是机器学习(Machine Learning).深度学习(Deep Learning).NLP面试中常考到的知识点和代 ...
- 独家 | 在机器学习中利用统计插补来处理缺失值(附代码)
作者:Jason Brownlee 翻译:吴振东 校对:冯羽 本文约4500字,建议阅读10分钟 本文以病马数据集为例,帮助你了解在机器学习领域如何利用统计策略来处理缺失值,对代码进行了较为详细的讲解 ...
- 机器学习中的L1与L2正则化图解!
今日锦囊 特征锦囊:今天一起搞懂机器学习里的L1与L2正则化 今天我们来讲讲一个理论知识,也是老生常谈的内容,在模型开发相关岗位中出场率较高的,那就是L1与L2正则化了,这个看似简单却十分重要的概念, ...
- 干货丨一文介绍机器学习中基本的数学符号
在机器学习中,你永远都绕不过数学符号. 通常,只要有一个代数项或一个方程符号看不懂,你就完全看不懂整个过程是怎么回事了.这种境况非常令人沮丧,尤其是对于那些正在成长中的机器学习初学者来说更是如此. 如 ...
- 范数与距离的关系以及在机器学习中的应用
范数与距离的关系以及在机器学习中的应用 1 范数 向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离. 向量的范数定义:向量的范数是一个函数||x||,满 ...
- 从重采样到数据合成:如何处理机器学习中的不平衡分类问题?
从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 2017-03-19 13:17 来源:机器之心 技术 原标题:从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 选自Analytic ...
- 从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 转载 2017年08月01日 17:09:03 标签: 机器学习 / 数据 719 转自:http://www.sohu.com/a/12
从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 转载 2017年08月01日 17:09:03 标签: 机器学习 / 数据 719 转自:http://www.sohu.com/a/1293 ...
最新文章
- python能实现excel什么功能_Python pandas对excel的操作实现示例
- 如何使用Java代码给图片增加倒影效果
- ruby hash方法_Ruby中带有示例的Hash.length方法
- php rgb,php颜色转换函数hex-rgb
- Python学习之==装饰器
- 浏览器保存密码后文本框出现黄色背景的解决方案
- 笔记 33 | Android通信之Thread类实现多线程
- 区块链 智能合约 虚拟机 EVM 资料总结
- Java中成员变量、局部变量和静态变量的区别
- matlab 调速系统试验,实验三-双闭环直流调速系统MATLAB仿真.doc
- oracle财务模块培训,ORACLE财务管理系统培训手册之现金模块
- c语言经纬度和大地坐标转换,经纬度与我国54、80大地坐标转换的小工具
- 索尼手机服务器在哪个文件夹,索尼手机云服务器
- 华为路由器配置ip类
- java则么实现md5解密_java的md5解密
- 国内知名流程管理软件-汇总介绍
- aptx与ldac音质区别_蓝牙协议LDAC和aptx的区别?
- android tv 菜单键,Android TV开发总结(三)构建一个TV app的焦点控制及遇到的坑
- Win32: 数据类型常用最大值和最小值
- 计算机职称证书退休工资,职称就像是一座大山,相同教龄不同职称的教师退休工资相差多少?...