0. StandardScaler

去均值时,在测试集上进行预测时减去的均值是训练集上得到的均值;

import sklearn.preprocessing as prepdef standard_scale(X_train, X_test):preprocessor = prep.StandardScaler().fit(X_train)X_train = preprocessor.transform(X_train)X_test = preprocessor.transform(X_test)return X_train, X_test

1. one hot encoder

sklearn.preprocessing.OneHotEncoder

one hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码:

>>> from sklearn.preprocessing import OneHotEncoder
>>> enc = OneHotEncoder()>>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])  >>> enc.n_values_
array([2, 3, 4])>>> enc.feature_indices_
array([0, 2, 5, 9])>>> enc.transform([[0, 1, 1]]).toarray()
array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])

为 OneHotEncoder 类传递进来的数据集:

[[0, 0, 3],
[1, 1, 0],
[0, 2, 1],
[1, 0, 2]]

每一列代表一个属性,fit 操作之后:

  • 对象encn_values_成员变量,记录着每一个属性的最大取值数目,如本例第一个属性:0, 1, 0, 1 ⇒ 2,0, 1, 2, 0 ⇒ 3,3, 0, 1, 24

    • 即各个属性(feature)在 one hot 编码下占据的位数;
  • 对象 encfeature_indices_,则记录着属性在新 One hot 编码下的索引位置,
    • feature_indices_ 是对 n_values_ 的累积值,不过 feature_indices 的首位是 0;

进一步通过 fit 好的 one hot encoder 对新来的特征向量进行编码:

>>> enc.transform([[0, 1, 1]]).toarray()
array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])
  • 前 2 位 1, 0,对 0 进行编码
  • 中间 3 位 0, 1, 0 对 1 进行编码;
  • 末尾 4 位 0, 1, 0, 0 对 1 进行编码;

sklearn preprocessing 数据预处理(OneHotEncoder)相关推荐

  1. sklearn preprocessing 数据预处理 OneHotEncoder

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 0. S ...

  2. 泰坦尼克号python数据预处理_sklearn preprocessing 数据预处理(OneHotEncoder)

    1. one hot encoder one hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码: >>> from ...

  3. Python: sklearn库——数据预处理

    Python: sklearn库 -- 数据预处理 数据集转换之预处理数据:       将输入的数据转化成机器学习算法可以使用的数据.包含特征提取和标准化.       原因:数据集的标准化(服从均 ...

  4. pandas 下的 one hot encoder 及 pd.get_dummies() 与 sklearn.preprocessing 下的 OneHotEncoder 的区别

    sklearn.preprocessing 下除了提供 OneHotEncoder 还提供 LabelEncoder(简单地将 categorical labels 转换为不同的数字): 1. 简单区 ...

  5. sklearn 中的preprocessing数据预处理

    1. sklearn preprocessing Standardization即标准化,尽量将数据转化为均值为零,方差为一的数据,形如标准正态分布(高斯分布).实际中我们会忽略数据的分布情况,仅仅是 ...

  6. Sklearn常用数据预处理方法介绍

    主要介绍了Sklearn中常用的数据预处理方法. 数据预处理 1.导入用到的库 import numpy as np import pandas as pd from sklearn.preproce ...

  7. 【数据挖掘】利用sklearn进行数据预处理讲解与实战(超详细 附源码)

    需要源码和PPT请点赞关注收藏后评论区留言私信~~~ scikit-learn提供的数据预处理相关的功能如下图 1. 数据标准化.平均去除和方差缩放 sklearn.preprocessing.sca ...

  8. 使用sklearn进行数据预处理 —— 归一化/标准化/正则化

    本文主要是对照scikit-learn的preprocessing章节结合代码简单的回顾下预处理技术的几种方法,主要包括标准化.数据最大最小缩放处理.正则化.特征二值化和数据缺失值处理.内容比较简单, ...

  9. 关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

    20220121 z-score标准化 模型存储和load再调用其实没有关系 再load计算的时候,也是以实际的数据重新计算 并不是以save模型的边界来计算的 20211227 onehot训练集保 ...

最新文章

  1. 韦世东:计划 35 岁「退休」的资深爬虫工程师
  2. linux环境中,查询网卡的速度(带宽)
  3. C9---include,编译
  4. vb.net 弹出对话框 修改按钮名_批量修改日期格式
  5. Rational Rose 2003 下载、破解及安装方法(图文)
  6. kali linux超级用户_如何优雅的在Linux上使用Powershell]
  7. java drawimage()方法
  8. WebMagic爬取58同城租房数据
  9. Python 数据分析三剑客之 Pandas(九):时间序列
  10. arm64动态链接库通过函数名获取函数偏移
  11. 各种水龙头拆卸图解_水龙头上包卫生纸,竟有这种效果!邻居看了都想学
  12. baidumap vue 判断范围_一个Vue引发的性能问题
  13. 新能源界首陷“漏电门”奥迪将召回1644辆电动车e-tron
  14. tolua++ 使用有感
  15. 0. SQL Server监控清单
  16. 华为交换机 查ip冲突_华为交换机:如何解决网络中IP地址发生冲突故障?
  17. linux下sqlite3的使用
  18. 2021龙小丽高考成绩查询,学霸高考672分,家长强令复读考清华,分数出来全家人失望...
  19. win10解压软件哪个好(win10用哪个解压软件)
  20. python老男孩scrapy视频刷课记录

热门文章

  1. linux centos网卡配置,centos网卡配置详解
  2. 编译lzlib mysql5.6_CentOS下编译安装MySQL5.6
  3. linux版的微博客户端,在Linux下安装Weibird:查看和编写微博的GTK+客户端
  4. 5.2.4 std::atomic:指针运算
  5. SparkContext详述
  6. linux部署多个jar 会宕机_我常用的自动化部署技巧,贼好用,推荐给大家!
  7. Spring Boot AOP的使用
  8. c语言文件pt是什么意思,C语言文件p的pt.ppt
  9. nginx过滤post请求头_Nginx Header,实现对HTTP/S请求、响应进行添加、修改、删除等操作...
  10. python文件目录无权限_python检查目录文件权限并修改目录文件权限的操作