sklearn笔记之preprocessing
这个模块主要是对数据的预处理,例如标准化,中心化,scaling,二值化等
官方文档介绍此模块的作用
sklearn的中文文档
RobustScaler
官方地址
class sklearn.preprocessing.RobustScaler(*, with_centering=True, with_scaling=True, quantile_range=(25.0, 75.0), copy=True)
这个Scaler将每个样本减去其中位数,然后除以IQR。
因为异常值往往对样本的均值/方差产生负面影响,在这种情况下,这样处理可以取得较好的结果
关于IQR查看此链接
vi′=vi−medianIQRv^{\prime}_i = \frac{v_i - median}{IQR}vi′=IQRvi−median
- viv_ivi表示样本值
- medianmedianmedian是样本的中位数
- IQRIQRIQR是样本的四分位距
参数
- with_centering
- with_scaling
- quantitle_range:tuple (q_min,q_max),0.0 < q_min < q_max < 100.0
- copy:boolean,可选,默认为True
示例
>>> from sklearn.preprocessing import RobustScaler
>>> X = [[ 1., -2., 2.],
... [ -2., 1., 3.],
... [ 4., 1., -2.]]
>>> transformer = RobustScaler().fit(X)
>>> transformer
RobustScaler()
>>> transformer.transform(X)
array([[ 0. , -2. , 0. ],[-1. , 0. , 0.4],[ 1. , 0. , -1.6]])
StandardScaler
官方地址
sklearn.preprocessing.StandardScaler(*, copy=True, with_mean=True, with_std=True)
对数据进行标准化
z=x−μσz = \frac{x-\mu}{\sigma}z=σx−μ
参数
- with_mean:bool,default=True
- 是否使用平均值,False则平均值为0
- with_std:bool,default=True
- False则σ\sigmaσ=1
示例
>>> from sklearn.preprocessing import StandardScaler
>>> data = [[0, 0], [0, 0], [1, 1], [1, 1]]
>>> scaler = StandardScaler()
>>> print(scaler.fit(data))
StandardScaler()
>>> print(scaler.mean_)
[0.5 0.5]
>>> print(scaler.transform(data))
[[-1. -1.][-1. -1.][ 1. 1.][ 1. 1.]]
>>> print(scaler.transform([[2, 2]]))
[[3. 3.]]#standardizing data
saleprice_scaled = StandardScaler().fit_transform(df_train['SalePrice'][:,np.newaxis]);
low_range = saleprice_scaled[saleprice_scaled[:,0].argsort()][:10]
high_range= saleprice_scaled[saleprice_scaled[:,0].argsort()][-10:]
print('outer range (low) of the distribution:')
print(low_range)
print('\nouter range (high) of the distribution:')
print(high_range)
Normalizer
sklearn.preprocessing.Normalizer(X, norm='l2', *, axis=1, copy=True, return_norm=False)
官方地址
参数
- norm
- l1:样本各个特征值除以各个特征值 的绝对值之和
- l2:样本各个特征值除以各个特征值的平方和
- max:样本各个特征值除以样本中特征值最大值
示例
>>> from sklearn.preprocessing import Normalizer
>>> X = [[4, 1, 2, 2],
... [1, 3, 9, 3],
... [5, 7, 5, 1]]
>>> transformer = Normalizer().fit(X) # fit does nothing.
>>> transformer
Normalizer()
>>> transformer.transform(X)
array([[0.8, 0.2, 0.4, 0.4],[0.1, 0.3, 0.9, 0.3],[0.5, 0.7, 0.5, 0.1]])
sklearn笔记之preprocessing相关推荐
- sklearn 笔记:数据归一化(StandardScaler)
1 StandardScaler原理 去均值和方差归一化.且是针对每一个特征维度来做的,而不是针对样本. ,其中μ为所有样本数据的均值,σ为所有样本数据的标准差. 2 用sklearn 实现数据归一化 ...
- sklearn 中的preprocessing数据预处理
1. sklearn preprocessing Standardization即标准化,尽量将数据转化为均值为零,方差为一的数据,形如标准正态分布(高斯分布).实际中我们会忽略数据的分布情况,仅仅是 ...
- sklearn 笔记:高斯过程
class sklearn.gaussian_process.GaussianProcessRegressor(kernel=None, *, alpha=1e-10, optimizer='fmin ...
- sklearn 笔记 TSNE
0 基本介绍 机器学习笔记:t-SNE_UQI-LIUWJ的博客-CSDN博客 将高维数据降维,使得高维数据各点的联合概率,和对应的低维数据各点的联合概率之间的 KL散度尽量小 对T-SNE使用不同的 ...
- sklearn 笔记:make_blobs 生成聚类数据
from sklearn.datasets import make_blobs 1 基本用法 data, label = make_blobs(n_features=2, n_samples=100, ...
- sklearn 笔记整理:sklearn.mertics
理论部分:RMSE.MAE等误差指标整理_UQI-LIUWJ的博客-CSDN博客 1 sklearn.metrics.mean_squared_error sklearn.metrics.mean_s ...
- sklearn笔记29 线性回归 天猫双十一销量预测
完整代码 sklearn代码21 2-2020天猫双十一销量 天猫双十一历年销量 数据是曲线的,不是线性的 # 认为天猫销量与年份之间存在函数关系,一元二次,一元三次 导包 import numpy ...
- Sklearn笔记--逻辑回归调参指南
1 逻辑回归概述 pθ(y=1∣x)=δ(θ⊤x)=11+e−θ⊤xpθ(y=0∣x)=e−θ⊤x1+e−θ⊤x\begin{array}{c} p_{\theta}(y=1 | x)=\delta\ ...
- sklearn笔记26 pandas批量处理成绩表
完整代码 sklearn代码18 python自动化处理数据 导包 import numpy as npimport pandas as pdfrom pandas import Series,Dat ...
- sklearn笔记24 算法回顾
算法使用 ·创建 ·参数调节 cross_val_score:求单一参数最合适的值(KNN) GridSearchCV网格搜索:多参数组合最优的值. 标准:准确率,精确率,召回率,F1 数据清洗 操作 ...
最新文章
- Python 3.8 即将到来,这是你需要关注的几大新特性
- Python 值传递与地址传递总结
- Eclipse中在线安装spring-tool-suite插件
- 改变单元格内容触发事件(转)
- Java常见异常(Runtime Exception )小结
- 远程无法连接svn服务器失败_windows vscode 远程连接linux服务器
- php transfer-encoding: chunked,php – 使用chunked transfer encoding和gzip
- Windows环境下安装redis以及出现的一些未解决的问题
- 服务高可用利器——限流算法介绍与示例
- macOS 运行react项目
- pycharm的编码问题
- 京东程序员回应“被猝死”;淘宝特价版已提交微信小程序;苹果 M1 单核性能勇超 Intel 11 代 i7...
- 百度文库和豆丁网的在线文档阅读功能
- “抖音群控系统”教你如何抓住短视频时代风口,进行流量红利变现
- GO语言Comma-ok断言
- 设置来电铃声、卡2来电铃声、短信铃声、提示铃声、闹铃铃声
- 盘点全球最热门十家大数据公司中国占据三席
- 构建一个类book,其中含有2个私有数据成员qu和price,建立一个有5个元素的数组对象,将qu初始化为1~5,将price初始化为qu的10倍。
- PMP考点梳理大全(考生必看)-6.5
- 数据预处理——离散化