这个模块主要是对数据的预处理,例如标准化,中心化,scaling,二值化等

官方文档介绍此模块的作用
sklearn的中文文档

RobustScaler

官方地址

class sklearn.preprocessing.RobustScaler(*, with_centering=True, with_scaling=True, quantile_range=(25.0, 75.0), copy=True)

这个Scaler将每个样本减去其中位数,然后除以IQR。

因为异常值往往对样本的均值/方差产生负面影响,在这种情况下,这样处理可以取得较好的结果

关于IQR查看此链接

vi′=vi−medianIQRv^{\prime}_i = \frac{v_i - median}{IQR}vi′​=IQRvi​−median​

  • viv_ivi​表示样本值
  • medianmedianmedian是样本的中位数
  • IQRIQRIQR是样本的四分位距

参数

  • with_centering
  • with_scaling
  • quantitle_range:tuple (q_min,q_max),0.0 < q_min < q_max < 100.0
  • copy:boolean,可选,默认为True

示例

>>> from sklearn.preprocessing import RobustScaler
>>> X = [[ 1., -2.,  2.],
...      [ -2.,  1.,  3.],
...      [ 4.,  1., -2.]]
>>> transformer = RobustScaler().fit(X)
>>> transformer
RobustScaler()
>>> transformer.transform(X)
array([[ 0. , -2. ,  0. ],[-1. ,  0. ,  0.4],[ 1. ,  0. , -1.6]])

StandardScaler

官方地址
sklearn.preprocessing.StandardScaler(*, copy=True, with_mean=True, with_std=True)

对数据进行标准化
z=x−μσz = \frac{x-\mu}{\sigma}z=σx−μ​

参数

  • with_mean:bool,default=True

    • 是否使用平均值,False则平均值为0
  • with_std:bool,default=True
    • False则σ\sigmaσ=1

示例

>>> from sklearn.preprocessing import StandardScaler
>>> data = [[0, 0], [0, 0], [1, 1], [1, 1]]
>>> scaler = StandardScaler()
>>> print(scaler.fit(data))
StandardScaler()
>>> print(scaler.mean_)
[0.5 0.5]
>>> print(scaler.transform(data))
[[-1. -1.][-1. -1.][ 1.  1.][ 1.  1.]]
>>> print(scaler.transform([[2, 2]]))
[[3. 3.]]#standardizing data
saleprice_scaled = StandardScaler().fit_transform(df_train['SalePrice'][:,np.newaxis]);
low_range = saleprice_scaled[saleprice_scaled[:,0].argsort()][:10]
high_range= saleprice_scaled[saleprice_scaled[:,0].argsort()][-10:]
print('outer range (low) of the distribution:')
print(low_range)
print('\nouter range (high) of the distribution:')
print(high_range)

Normalizer

sklearn.preprocessing.Normalizer(X, norm='l2', *, axis=1, copy=True, return_norm=False)

官方地址

参数

  • norm

    • l1:样本各个特征值除以各个特征值 的绝对值之和
    • l2:样本各个特征值除以各个特征值的平方和
    • max:样本各个特征值除以样本中特征值最大值

示例

>>> from sklearn.preprocessing import Normalizer
>>> X = [[4, 1, 2, 2],
...      [1, 3, 9, 3],
...      [5, 7, 5, 1]]
>>> transformer = Normalizer().fit(X)  # fit does nothing.
>>> transformer
Normalizer()
>>> transformer.transform(X)
array([[0.8, 0.2, 0.4, 0.4],[0.1, 0.3, 0.9, 0.3],[0.5, 0.7, 0.5, 0.1]])

sklearn笔记之preprocessing相关推荐

  1. sklearn 笔记:数据归一化(StandardScaler)

    1 StandardScaler原理 去均值和方差归一化.且是针对每一个特征维度来做的,而不是针对样本. ,其中μ为所有样本数据的均值,σ为所有样本数据的标准差. 2 用sklearn 实现数据归一化 ...

  2. sklearn 中的preprocessing数据预处理

    1. sklearn preprocessing Standardization即标准化,尽量将数据转化为均值为零,方差为一的数据,形如标准正态分布(高斯分布).实际中我们会忽略数据的分布情况,仅仅是 ...

  3. sklearn 笔记:高斯过程

    class sklearn.gaussian_process.GaussianProcessRegressor(kernel=None, *, alpha=1e-10, optimizer='fmin ...

  4. sklearn 笔记 TSNE

    0 基本介绍 机器学习笔记:t-SNE_UQI-LIUWJ的博客-CSDN博客 将高维数据降维,使得高维数据各点的联合概率,和对应的低维数据各点的联合概率之间的 KL散度尽量小 对T-SNE使用不同的 ...

  5. sklearn 笔记:make_blobs 生成聚类数据

    from sklearn.datasets import make_blobs 1 基本用法 data, label = make_blobs(n_features=2, n_samples=100, ...

  6. sklearn 笔记整理:sklearn.mertics

    理论部分:RMSE.MAE等误差指标整理_UQI-LIUWJ的博客-CSDN博客 1 sklearn.metrics.mean_squared_error sklearn.metrics.mean_s ...

  7. sklearn笔记29 线性回归 天猫双十一销量预测

    完整代码 sklearn代码21 2-2020天猫双十一销量 天猫双十一历年销量 数据是曲线的,不是线性的 # 认为天猫销量与年份之间存在函数关系,一元二次,一元三次 导包 import numpy ...

  8. Sklearn笔记--逻辑回归调参指南

    1 逻辑回归概述 pθ(y=1∣x)=δ(θ⊤x)=11+e−θ⊤xpθ(y=0∣x)=e−θ⊤x1+e−θ⊤x\begin{array}{c} p_{\theta}(y=1 | x)=\delta\ ...

  9. sklearn笔记26 pandas批量处理成绩表

    完整代码 sklearn代码18 python自动化处理数据 导包 import numpy as npimport pandas as pdfrom pandas import Series,Dat ...

  10. sklearn笔记24 算法回顾

    算法使用 ·创建 ·参数调节 cross_val_score:求单一参数最合适的值(KNN) GridSearchCV网格搜索:多参数组合最优的值. 标准:准确率,精确率,召回率,F1 数据清洗 操作 ...

最新文章

  1. Python 3.8 即将到来,这是你需要关注的几大新特性
  2. Python 值传递与地址传递总结
  3. Eclipse中在线安装spring-tool-suite插件
  4. 改变单元格内容触发事件(转)
  5. Java常见异常(Runtime Exception )小结
  6. 远程无法连接svn服务器失败_windows vscode 远程连接linux服务器
  7. php transfer-encoding: chunked,php – 使用chunked transfer encoding和gzip
  8. Windows环境下安装redis以及出现的一些未解决的问题
  9. 服务高可用利器——限流算法介绍与示例
  10. macOS 运行react项目
  11. pycharm的编码问题
  12. 京东程序员回应“被猝死”;淘宝特价版已提交微信小程序;苹果 M1 单核性能勇超 Intel 11 代 i7...
  13. 百度文库和豆丁网的在线文档阅读功能
  14. “抖音群控系统”教你如何抓住短视频时代风口,进行流量红利变现
  15. GO语言Comma-ok断言
  16. 设置来电铃声、卡2来电铃声、短信铃声、提示铃声、闹铃铃声
  17. 盘点全球最热门十家大数据公司中国占据三席
  18. 构建一个类book,其中含有2个私有数据成员qu和price,建立一个有5个元素的数组对象,将qu初始化为1~5,将price初始化为qu的10倍。
  19. PMP考点梳理大全(考生必看)-6.5
  20. 数据预处理——离散化

热门文章

  1. 修改UINavigationController返回按钮的标题及如何隐藏导航栏
  2. 马哥Linux学习笔记之一——关于多磁盘的组织问题
  3. MongoDB是我想要的存储么?
  4. 微信域名防红防屏蔽系统的原理 微信域名防屏蔽的注意点
  5. android入门问题--R文件丢失
  6. C#网站发布在IIS10上,Access数据库读取为空白的解决方案
  7. 纯PHP实现定时器任务(Timer)
  8. 《构建之法》 第5.5 第6 第7章
  9. 微软SQLHelper.cs类 中文版
  10. UVA 10330 Power Transmission