问题:数据标准化,应该在训练集和测试集划分前还是后?

答:数据标准化,应该在训练集和测试集划分后,分别对训练集和测试集进行数据标准化处理。不应该是数据标准化后,再进行划分。虽然从模型测试的结果看,可能出现的差距不大。

解释:当你手头已经有一份训练和测试数据。在真正的部署过程中,测试数据实际上就是那些源源不断刚刚出现的数据,你不知道它什么分布,也不知道它出现什么样的数值。所以你要用训练数据得到的均值和标准偏差,去转换它。这更加贴近部署的实际。测试集的归一化的均值和标准偏差应该来源于训练集

代码:

from sklearn import preprocessing
Standard = preprocessing.StandardScaler()
x_train = Standard.fit_transform(x_train)
x_test = Standard.transform(x_test)
注意事项:

1.必须现在train上使用fit_transform,再在test数据集上使用transform

2.    x_train = preprocessing.StandardScaler().fit_transform(x_train)
       x_test = preprocessing.StandardScaler().transform(x_test)

会报错:

This StandardScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator.

解决办法:需要Standard = preprocessing.StandardScaler(),定义一个对象后,再进行标准化处理。

训练集和测试集的标准化中的坑!!!相关推荐

  1. 训练集和测试集的标准化处理

    原博客 踩坑:必须现在train上使用fit_transform,再在test数据集上使用transform

  2. idea2020.2中@test是怎么测试的_Sklearn 划分训练集和测试集

    [从零开始学机器学习第 03 篇] 摘要:手写 Sklearn 的 train_test_split 函数. 之前两篇文章以酒吧的红酒故事引出了 kNN 分类算法,根据已倒好的酒(样本),预测新倒的酒 ...

  3. 机器学习中训练集和测试集归一化(matlab版)

    转载自   https://blog.csdn.net/lkj345/article/details/50352385 背景介绍: 归一化后加快了梯度下降求最优解的速度,归一化有可能提高精度. 训练集 ...

  4. 5.sklearn之转换器(划分训练集和测试集、以及标准化、归一化数据会用transform,独热编码也会用到)

    文章目录 1. 什么是转换器? 2. 测试集和训练集 2.1 训练集 .测试集.验证集 2.2 拆分训练集测试集有个问题 2.3 代码 3. 标准化 3.1 上离差标准化代码(举一反三就好了,其他几个 ...

  5. sklearn.model_selection.train_test_split随机划分训练集和测试集

    1 函数用途 train_test_split()是交叉验证中常用的函数,功能是将数组或矩阵按比例随机划分为训练集和测试集,使用方法为: X_train,X_test, y_train, y_test ...

  6. Sklearn-train_test_split随机划分训练集和测试集

    sklearn.model_selection.train_test_split随机划分训练集和测试集 官网文档:http://scikit-learn.org/stable/modules/gene ...

  7. python划分数据集用pandas_用pandas划分数据集实现训练集和测试集

    1.使用model_select子模块中的train_test_split函数进行划分 数据:使用kaggle上Titanic数据集 划分方法:随机划分 # 导入pandas模块,sklearn中mo ...

  8. 31,32,33_过拟合、欠拟合的概念、L2正则化,Pytorch过拟合欠拟合,交叉验证-Train-Val-Test划分,划分训练集和测试集,K-fold,Regularization

    1.26.过拟合.欠拟合及其解决方案 1.26.1.过拟合.欠拟合的概念 1.26.1.1.训练误差和泛化误差 1.26.1.2.验证数据集与K-fold验证 1.26.1.3.过拟合和欠拟合 1.2 ...

  9. 处理训练集和测试集分布同的方法(对抗训练)

    https://www.kaggle.com/c/santander-value-prediction-challenge 在kaggle该题中,需要通过所给的匿名变量来预测target值 featu ...

最新文章

  1. 20天持续压测,告诉你云存储性能哪家更强?
  2. 十进制转十六进制c语言_蓝桥杯十六进制转十进制,十进制转十六进制精简版(C++)...
  3. Zookeeper C 回调函数
  4. linux下面实时查看进程,内存以及cpu使用情况使用命令
  5. jenkinsapi操作Jenkins,提示:No valid crumb was included in the request
  6. 某公司防火墙配置-2
  7. 【转载】规则化和模型选择(Regularization and model selection)
  8. java 之UDP编程
  9. Python设计模式:原型模式
  10. Base64编码原理
  11. 迈捷php邮箱系统源码,10分钟临时邮箱源码-php bccto.me的php版本源码 windows主机即可 - 下载 - 搜珍网...
  12. 北科大计算机学院何杰,北京科技大学计算机科学与技术系硕士生导师何杰_计算机考研导师...
  13. 刻意练习:Python基础 -- Task07. 文件与文件系统
  14. canvas手写签名
  15. R语言【轮廓图、调和曲线图】
  16. ASP.NET访问Excel 失败的解决方法(错误号:80070005,8000401a)
  17. 上海理工计算机考研2020,2020上海理工大学研究生分数线汇总(含2016-2019历年复试)...
  18. cd40系列芯片_cd40110的工作原理详细(cd40110引脚图功能_如何计数及应用电路分享) - 全文...
  19. 邮储银行修改快捷支付绑定手机号
  20. linux卸载nfs软件,ubuntu肿么卸载nfs服务器

热门文章

  1. 从ABC模式入手的合理情绪疗法
  2. 360工业互联网安全研究院入选2021年度AloT“独角兽”创新企业奖
  3. spring cloud resttemplate at com.controller.OrderController.getPaymentById2(OrderController.java:38)
  4. 测试点云反射强度的辅助脚本
  5. p-中位模型与pareto解集
  6. 亿级用户的分布式数据存储解决方案,MySQL进阶!
  7. 钉钉自定义机器人配合SVN钩子事件进行消息的推送实践
  8. C++入门系列---cout、cerr、clog 三者的区别
  9. 张蕾:北斗链社区发展白皮书
  10. mysql数据库优化 曹政_MySQL:数据库优化,看这篇就够了