sklearn preprocessing 数据预处理 OneHotEncoder
分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow
也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴!
0. StandardScaler
去均值时,在测试集上进行预测时减去的均值是训练集上得到的均值;
import sklearn.preprocessing as prepdef standard_scale(X_train, X_test): preprocessor = prep.StandardScaler().fit(X_train) X_train = preprocessor.transform(X_train) X_test = preprocessor.transform(X_test) return X_train, X_test
- 1
- 2
- 3
- 4
- 5
- 6
- 7
1. one hot encoder
<a href=“http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html”, target="_blank">sklearn.preprocessing.OneHotEncoder
one hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码:
>>> from sklearn.preprocessing import OneHotEncoder>>> enc = OneHotEncoder()>>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]) >>> enc.n_values_array([2, 3, 4])>>> enc.feature_indices_array([0, 2, 5, 9])>>> enc.transform([[0, 1, 1]]).toarray()array([[ 1., 0., 0., 1., 0., 0., 1., 0., 0.]])
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
为 OneHotEncoder 类传递进来的数据集:
[[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]
- 1
- 2
- 3
- 4
每一列代表一个属性,fit 操作之后:
- 对象
enc
的n_values_
成员变量,记录着每一个属性的最大取值数目,如本例第一个属性:0, 1, 0, 1
⇒ 2,0, 1, 2, 0
⇒ 3,3, 0, 1, 2
⇒4
;- 即各个属性(feature)在 one hot 编码下占据的位数;
- 对象
enc
的feature_indices_
,则记录着属性在新 One hot 编码下的索引位置,- feature_indices_ 是对 n_values_ 的累积值,不过 feature_indices 的首位是 0;
进一步通过 fit 好的 one hot encoder 对新来的特征向量进行编码:
>>> enc.transform([[0, 1, 1]]).toarray()array([[ 1., 0., 0., 1., 0., 0., 1., 0., 0.]])
- 1
- 2
- 前 2 位 1, 0,对 0 进行编码
- 中间 3 位 0, 1, 0 对 1 进行编码;
- 末尾 4 位 0, 1, 0, 0 对 1 进行编码;
给我老师的人工智能教程打call!http://blog.csdn.net/jiangjunshow
sklearn preprocessing 数据预处理 OneHotEncoder相关推荐
- sklearn preprocessing 数据预处理(OneHotEncoder)
0. StandardScaler 去均值时,在测试集上进行预测时减去的均值是训练集上得到的均值: import sklearn.preprocessing as prepdef standard_s ...
- 泰坦尼克号python数据预处理_sklearn preprocessing 数据预处理(OneHotEncoder)
1. one hot encoder one hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码: >>> from ...
- Python: sklearn库——数据预处理
Python: sklearn库 -- 数据预处理 数据集转换之预处理数据: 将输入的数据转化成机器学习算法可以使用的数据.包含特征提取和标准化. 原因:数据集的标准化(服从均 ...
- pandas 下的 one hot encoder 及 pd.get_dummies() 与 sklearn.preprocessing 下的 OneHotEncoder 的区别
sklearn.preprocessing 下除了提供 OneHotEncoder 还提供 LabelEncoder(简单地将 categorical labels 转换为不同的数字): 1. 简单区 ...
- sklearn 中的preprocessing数据预处理
1. sklearn preprocessing Standardization即标准化,尽量将数据转化为均值为零,方差为一的数据,形如标准正态分布(高斯分布).实际中我们会忽略数据的分布情况,仅仅是 ...
- Sklearn常用数据预处理方法介绍
主要介绍了Sklearn中常用的数据预处理方法. 数据预处理 1.导入用到的库 import numpy as np import pandas as pd from sklearn.preproce ...
- 【数据挖掘】利用sklearn进行数据预处理讲解与实战(超详细 附源码)
需要源码和PPT请点赞关注收藏后评论区留言私信~~~ scikit-learn提供的数据预处理相关的功能如下图 1. 数据标准化.平均去除和方差缩放 sklearn.preprocessing.sca ...
- 使用sklearn进行数据预处理 —— 归一化/标准化/正则化
本文主要是对照scikit-learn的preprocessing章节结合代码简单的回顾下预处理技术的几种方法,主要包括标准化.数据最大最小缩放处理.正则化.特征二值化和数据缺失值处理.内容比较简单, ...
- 关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化
20220121 z-score标准化 模型存储和load再调用其实没有关系 再load计算的时候,也是以实际的数据重新计算 并不是以save模型的边界来计算的 20211227 onehot训练集保 ...
最新文章
- php写js跳转页面,php实现页面的三种跳转
- 如何配置三层交换机创建VLAN
- 通俗易懂的讲解区块链
- 其他的AdapterView——Gallery
- T-SQL | 你需要了解的执行计划
- Sublime text 2下alignment插件无效的解决办法
- java applet socket_Java swing applet中使用的套接字
- 【操作系统】核心知识归纳总结
- vue 为什么要销毁第三方实例_Web前端工程师面试之Vue问题汇总解析
- struts2 空文件上传解决
- 平面内 两直线/两向量的夹角方向 逆时针 还是顺时针
- 微软internet连接服务器,微软WEBS安装攻略之建立临时 Internet 连接
- 2022华为杯研究生数学建模解题思路和代码思路
- 模拟调节器和数字计算机如何实现PID控制,模拟PID-调节器设计及数字化实现.doc...
- java string替换最后一个字符_sed替换每行最后一个字符
- Waiter,Servant, Attendant的区别
- 16个经典面试问题回答思路
- 校验组织机构代码 合法性
- freebsd java 能用吗_FreeBSD6.2 java web环境搭建
- 人过青年,我们的黄金时代过去了吗?
热门文章
- 计算机每年有多少博士毕业,中国每年有多少博士毕业生,博士过剩了吗?
- 【SAP】ABAP——小币种转换
- VSTO PPT图表对象的操作(1)
- ppt python 图表_5分钟python:在PPT里做三联柱形图
- java ip地址接口_java获取ip地址与网络接口的方法示例
- 动物电子标签阅读器识读器L8600系列选型与安装注意事项
- 十年前他在马王堆送快递,如今当上航空主管,拯救客户亿元大单
- 《自然语言处理》的相关资源
- 微软云服务Azure产品简介
- android刷广告,android – 广告不可见.没有刷新广告.屏幕关闭后