分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴!

0. StandardScaler

去均值时,在测试集上进行预测时减去的均值是训练集上得到的均值;

import sklearn.preprocessing as prepdef standard_scale(X_train, X_test): preprocessor = prep.StandardScaler().fit(X_train) X_train = preprocessor.transform(X_train) X_test = preprocessor.transform(X_test) return X_train, X_test
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

1. one hot encoder

<a href=“http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html”, target="_blank">sklearn.preprocessing.OneHotEncoder

one hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码:

>>> from sklearn.preprocessing import OneHotEncoder>>> enc = OneHotEncoder()>>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])  >>> enc.n_values_array([2, 3, 4])>>> enc.feature_indices_array([0, 2, 5, 9])>>> enc.transform([[0, 1, 1]]).toarray()array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

为 OneHotEncoder 类传递进来的数据集:

[[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]
  • 1
  • 2
  • 3
  • 4

每一列代表一个属性,fit 操作之后:

  • 对象encn_values_成员变量,记录着每一个属性的最大取值数目,如本例第一个属性:0, 1, 0, 1 ⇒ 2,0, 1, 2, 0 ⇒ 3,3, 0, 1, 24

    • 即各个属性(feature)在 one hot 编码下占据的位数;
  • 对象 encfeature_indices_,则记录着属性在新 One hot 编码下的索引位置,
    • feature_indices_ 是对 n_values_ 的累积值,不过 feature_indices 的首位是 0;

进一步通过 fit 好的 one hot encoder 对新来的特征向量进行编码:

>>> enc.transform([[0, 1, 1]]).toarray()array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])
  • 1
  • 2
  • 前 2 位 1, 0,对 0 进行编码
  • 中间 3 位 0, 1, 0 对 1 进行编码;
  • 末尾 4 位 0, 1, 0, 0 对 1 进行编码;

给我老师的人工智能教程打call!http://blog.csdn.net/jiangjunshow

sklearn preprocessing 数据预处理 OneHotEncoder相关推荐

  1. sklearn preprocessing 数据预处理(OneHotEncoder)

    0. StandardScaler 去均值时,在测试集上进行预测时减去的均值是训练集上得到的均值: import sklearn.preprocessing as prepdef standard_s ...

  2. 泰坦尼克号python数据预处理_sklearn preprocessing 数据预处理(OneHotEncoder)

    1. one hot encoder one hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码: >>> from ...

  3. Python: sklearn库——数据预处理

    Python: sklearn库 -- 数据预处理 数据集转换之预处理数据:       将输入的数据转化成机器学习算法可以使用的数据.包含特征提取和标准化.       原因:数据集的标准化(服从均 ...

  4. pandas 下的 one hot encoder 及 pd.get_dummies() 与 sklearn.preprocessing 下的 OneHotEncoder 的区别

    sklearn.preprocessing 下除了提供 OneHotEncoder 还提供 LabelEncoder(简单地将 categorical labels 转换为不同的数字): 1. 简单区 ...

  5. sklearn 中的preprocessing数据预处理

    1. sklearn preprocessing Standardization即标准化,尽量将数据转化为均值为零,方差为一的数据,形如标准正态分布(高斯分布).实际中我们会忽略数据的分布情况,仅仅是 ...

  6. Sklearn常用数据预处理方法介绍

    主要介绍了Sklearn中常用的数据预处理方法. 数据预处理 1.导入用到的库 import numpy as np import pandas as pd from sklearn.preproce ...

  7. 【数据挖掘】利用sklearn进行数据预处理讲解与实战(超详细 附源码)

    需要源码和PPT请点赞关注收藏后评论区留言私信~~~ scikit-learn提供的数据预处理相关的功能如下图 1. 数据标准化.平均去除和方差缩放 sklearn.preprocessing.sca ...

  8. 使用sklearn进行数据预处理 —— 归一化/标准化/正则化

    本文主要是对照scikit-learn的preprocessing章节结合代码简单的回顾下预处理技术的几种方法,主要包括标准化.数据最大最小缩放处理.正则化.特征二值化和数据缺失值处理.内容比较简单, ...

  9. 关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

    20220121 z-score标准化 模型存储和load再调用其实没有关系 再load计算的时候,也是以实际的数据重新计算 并不是以save模型的边界来计算的 20211227 onehot训练集保 ...

最新文章

  1. php写js跳转页面,php实现页面的三种跳转
  2. 如何配置三层交换机创建VLAN
  3. 通俗易懂的讲解区块链
  4. 其他的AdapterView——Gallery
  5. T-SQL | 你需要了解的执行计划
  6. Sublime text 2下alignment插件无效的解决办法
  7. java applet socket_Java swing applet中使用的套接字
  8. 【操作系统】核心知识归纳总结
  9. vue 为什么要销毁第三方实例_Web前端工程师面试之Vue问题汇总解析
  10. struts2 空文件上传解决
  11. 平面内 两直线/两向量的夹角方向 逆时针 还是顺时针
  12. 微软internet连接服务器,微软WEBS安装攻略之建立临时 Internet 连接
  13. 2022华为杯研究生数学建模解题思路和代码思路
  14. 模拟调节器和数字计算机如何实现PID控制,模拟PID-调节器设计及数字化实现.doc...
  15. java string替换最后一个字符_sed替换每行最后一个字符
  16. Waiter,Servant, Attendant的区别
  17. 16个经典面试问题回答思路
  18. 校验组织机构代码 合法性
  19. freebsd java 能用吗_FreeBSD6.2 java web环境搭建
  20. 人过青年,我们的黄金时代过去了吗?

热门文章

  1. 计算机每年有多少博士毕业,中国每年有多少博士毕业生,博士过剩了吗?
  2. 【SAP】ABAP——小币种转换
  3. VSTO PPT图表对象的操作(1)
  4. ppt python 图表_5分钟python:在PPT里做三联柱形图
  5. java ip地址接口_java获取ip地址与网络接口的方法示例
  6. 动物电子标签阅读器识读器L8600系列选型与安装注意事项
  7. 十年前他在马王堆送快递,如今当上航空主管,拯救客户亿元大单
  8. 《自然语言处理》的相关资源
  9. 微软云服务Azure产品简介
  10. android刷广告,android – 广告不可见.没有刷新广告.屏幕关闭后