训练集和测试集的标准化中的坑!!!
问题:数据标准化,应该在训练集和测试集划分前还是后?
答:数据标准化,应该在训练集和测试集划分后,分别对训练集和测试集进行数据标准化处理。不应该是数据标准化后,再进行划分。虽然从模型测试的结果看,可能出现的差距不大。
解释:当你手头已经有一份训练和测试数据。在真正的部署过程中,测试数据实际上就是那些源源不断刚刚出现的数据,你不知道它什么分布,也不知道它出现什么样的数值。所以你要用训练数据得到的均值和标准偏差,去转换它。这更加贴近部署的实际。测试集的归一化的均值和标准偏差应该来源于训练集
代码:
from sklearn import preprocessing
Standard = preprocessing.StandardScaler()
x_train = Standard.fit_transform(x_train)
x_test = Standard.transform(x_test)
注意事项:
1.必须现在train上使用fit_transform,再在test数据集上使用transform
2. x_train = preprocessing.StandardScaler().fit_transform(x_train)
x_test = preprocessing.StandardScaler().transform(x_test)
会报错:
This StandardScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator.
解决办法:需要Standard = preprocessing.StandardScaler(),定义一个对象后,再进行标准化处理。
训练集和测试集的标准化中的坑!!!相关推荐
- 训练集和测试集的标准化处理
原博客 踩坑:必须现在train上使用fit_transform,再在test数据集上使用transform
- idea2020.2中@test是怎么测试的_Sklearn 划分训练集和测试集
[从零开始学机器学习第 03 篇] 摘要:手写 Sklearn 的 train_test_split 函数. 之前两篇文章以酒吧的红酒故事引出了 kNN 分类算法,根据已倒好的酒(样本),预测新倒的酒 ...
- 机器学习中训练集和测试集归一化(matlab版)
转载自 https://blog.csdn.net/lkj345/article/details/50352385 背景介绍: 归一化后加快了梯度下降求最优解的速度,归一化有可能提高精度. 训练集 ...
- 5.sklearn之转换器(划分训练集和测试集、以及标准化、归一化数据会用transform,独热编码也会用到)
文章目录 1. 什么是转换器? 2. 测试集和训练集 2.1 训练集 .测试集.验证集 2.2 拆分训练集测试集有个问题 2.3 代码 3. 标准化 3.1 上离差标准化代码(举一反三就好了,其他几个 ...
- sklearn.model_selection.train_test_split随机划分训练集和测试集
1 函数用途 train_test_split()是交叉验证中常用的函数,功能是将数组或矩阵按比例随机划分为训练集和测试集,使用方法为: X_train,X_test, y_train, y_test ...
- Sklearn-train_test_split随机划分训练集和测试集
sklearn.model_selection.train_test_split随机划分训练集和测试集 官网文档:http://scikit-learn.org/stable/modules/gene ...
- python划分数据集用pandas_用pandas划分数据集实现训练集和测试集
1.使用model_select子模块中的train_test_split函数进行划分 数据:使用kaggle上Titanic数据集 划分方法:随机划分 # 导入pandas模块,sklearn中mo ...
- 31,32,33_过拟合、欠拟合的概念、L2正则化,Pytorch过拟合欠拟合,交叉验证-Train-Val-Test划分,划分训练集和测试集,K-fold,Regularization
1.26.过拟合.欠拟合及其解决方案 1.26.1.过拟合.欠拟合的概念 1.26.1.1.训练误差和泛化误差 1.26.1.2.验证数据集与K-fold验证 1.26.1.3.过拟合和欠拟合 1.2 ...
- 处理训练集和测试集分布同的方法(对抗训练)
https://www.kaggle.com/c/santander-value-prediction-challenge 在kaggle该题中,需要通过所给的匿名变量来预测target值 featu ...
最新文章
- 20天持续压测,告诉你云存储性能哪家更强?
- 十进制转十六进制c语言_蓝桥杯十六进制转十进制,十进制转十六进制精简版(C++)...
- Zookeeper C 回调函数
- linux下面实时查看进程,内存以及cpu使用情况使用命令
- jenkinsapi操作Jenkins,提示:No valid crumb was included in the request
- 某公司防火墙配置-2
- 【转载】规则化和模型选择(Regularization and model selection)
- java 之UDP编程
- Python设计模式:原型模式
- Base64编码原理
- 迈捷php邮箱系统源码,10分钟临时邮箱源码-php bccto.me的php版本源码 windows主机即可 - 下载 - 搜珍网...
- 北科大计算机学院何杰,北京科技大学计算机科学与技术系硕士生导师何杰_计算机考研导师...
- 刻意练习:Python基础 -- Task07. 文件与文件系统
- canvas手写签名
- R语言【轮廓图、调和曲线图】
- ASP.NET访问Excel 失败的解决方法(错误号:80070005,8000401a)
- 上海理工计算机考研2020,2020上海理工大学研究生分数线汇总(含2016-2019历年复试)...
- cd40系列芯片_cd40110的工作原理详细(cd40110引脚图功能_如何计数及应用电路分享) - 全文...
- 邮储银行修改快捷支付绑定手机号
- linux卸载nfs软件,ubuntu肿么卸载nfs服务器
热门文章
- 从ABC模式入手的合理情绪疗法
- 360工业互联网安全研究院入选2021年度AloT“独角兽”创新企业奖
- spring cloud resttemplate at com.controller.OrderController.getPaymentById2(OrderController.java:38)
- 测试点云反射强度的辅助脚本
- p-中位模型与pareto解集
- 亿级用户的分布式数据存储解决方案,MySQL进阶!
- 钉钉自定义机器人配合SVN钩子事件进行消息的推送实践
- C++入门系列---cout、cerr、clog 三者的区别
- 张蕾:北斗链社区发展白皮书
- mysql数据库优化 曹政_MySQL:数据库优化,看这篇就够了