数据不给力,再高级的算法都没有用。

教程和sklearn中的数据,都堪称完美。现实中的数据,离使用的完美数据集,相差十万八千里
数据挖掘的五大流程:

  1. 获取数据

  2. 数据预处理
    数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程 可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。 也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太大或太小 数据预处理的目的:让数据适应模型,匹配模型的需求

  3. 特征工程
    特征工程是将原始数据转换为更能代表预测模型的潜在问题的特征的过程, 可以通过挑选最相关的特征,提取特征以及创造特征来实现。其中创造特征又经常以降维算法的方式实现。 可能面对的问题有:特征之间有相关性,特征和标签无关,特征太多或太小,或者干脆就无法表现出应有的数据现象或无法展示数据的真实面貌 特征工程的目的:1) 降低计算成本,2) 提升模型上限

  4. 建模,测试模型并预测出结果

  5. 上线,验证模型效果

Preprocessing 预处理
Dimensionality reduction 降维
模块preprocessing:几乎包含数据预处理的所有内容
模块Impute:填补缺失值专用
模块feature_selection:包含特征选择的各种方法的实践
模块decomposition:包含降维算法

数据无量纲化–归一化

将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求–无量纲化
数据的无量纲化可以是线性的,也可以是非线性的。线性的无量纲化包括中心化(Zero-centered或者Meansubtraction)处理和缩放处理(Scale)。
中心化的本质是让所有记录减去一个固定值,即让数据样本数据平移到某个位置。
缩放的本质是通过除以一个固定值,将数据固定在某个范围之中,取对数也算是一种缩放处理

当数据(x)按照最小值中心化后,再按极差(最大值 - 最小值)缩放,会被收敛到[0,1]之间,而这个过程,就叫做数据归一化(Normalization,又称Min-Max Scaling)。
注意,Normalization是归一化,不是正则化,
真正的正则化是regularization,不是数据预处理的一种手段。归一化之后的数据服从正态分布

在sklearn当中,使用preprocessing.MinMaxScaler来实现归一化
feature_range,控制我们希望把数据压缩到的范围,默认是[0,1]。

from sklearn.preprocessing import MinMaxScaler
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
#如果换成表是什么样子?
import pandas as pd
pd.DataFrame(data)
#实现归一化
#实例化-fit-接口
scaler = MinMaxScaler() #实例化
scaler = scaler.fit(data) #fit,在这里本质是生成min(x)和max(x)
result = scaler.transform(data) #通过接口导出结果
result  #归一化完毕后的结果
#压缩后,发现这两组数据的分布是一样的
result_ =  scaler.fit_transform(data) #一步实现三步
result_ scaler.inverse_transform(result) #将归一化后的结果逆转
#使用MinMaxScaler的参数feature_range实现将数据归一化到[0,1]以外的范围中
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler = MinMaxScaler(feature_range=[5,10]) #依然实例化
result =  scaler.fit_transform(data) #一步导出结果
result

当X中的特征数量非常多的时候,fit会报错并表示,数据量太大了我计算不了
此时使用partial_fit作为训练接口
scaler = scaler.partial_fit(data)

import numpy as np
X = np.array([[-1, 2], [-0.5, 6], [0, 10], [1, 18]])
#归一化,套公式
X_nor = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_nor
#X.min(axis=0)----返回每列的最小值
#逆转归一化
X_returned = X_nor * (X.max(axis=0) - X.min(axis=0)) + X.min(axis=0)
X_returned

数据无量纲化–标准化

当数据(x)按均值(μ)中心化后,再按标准差(σ)缩放
数据就会服从为均值为0,方差为1的正态分布(即标准正态分布),
而这个过程,就叫做数据标准化(Standardization,又称Z-score normalization)

from sklearn.preprocessing import StandardScaler
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]scaler = StandardScaler() #实例化
scaler.fit(data) #fit,本质是生成均值和方差scaler.mean_ #查看均值的属性mean_
scaler.var_ #查看方差的属性var_
x_std = scaler.transform(data) #通过接口导出结果
x_stdx_std.mean() #导出的结果是一个数组,用mean()查看均值
x_std.std() #用std()查看方差
scaler.fit_transform(data) #使用fit_transform(data)一步达成结果
scaler.inverse_transform(x_std) #使用inverse_transform逆转标准化

对于StandardScaler和MinMaxScaler来说,空值NaN会被当做是缺失值
大多数机器学习算法中,会选择StandardScaler来进行特征缩放
因为MinMaxScaler对异常值非常敏感。
在PCA,聚类,逻辑回归,支持向量机,神经网络这些算法中,StandardScaler往往是最好的选择
建议先试试看StandardScaler,效果不好换MinMaxScaler

在希望压缩数据,却不影响数据的稀疏性时(不影响矩阵中取值为0的个数时),我们会使用MaxAbsScaler;
在异常值多,噪声非常大时,我们可能会选用分位数来无量纲化,此时使用RobustScaler。

数据预处理和特征工程1--无量纲化:数据归一化、标准化相关推荐

  1. 数据预处理与特征工程—12.常见的数据预处理与特征工程手段总结

    文章目录 引言 1.数据预处理 1.1 数据清洗 1.1.1 异常值处理 1.1.2 缺失值处理 1.2 特征预处理 1.2.1 数值型特征无量纲化 1.2.2 连续数值型特征分箱 1.2.2.1 无 ...

  2. 《scikit-learn》数据预处理与特征工程(一)数据归一化

    数据挖掘的五大流程 1:获取数据 从调查问卷,网络,爬虫,算法转变等一系列方式获得数据 2:数据预处理 这是从数据中检测.纠正.或者删除损坏.不准确.不适用的数据的过程. 可能面对的问题有:数据类型不 ...

  3. sklearn 神经网络_sklearn中的数据预处理和特征工程

    小伙伴们大家好~o( ̄▽ ̄)ブ,今天我们看一下Sklearn中的数据预处理和特征工程,老规矩还是先强调一下,我的开发环境是Jupyter lab,所用的库和版本大家参考: Python 3.7.1(你 ...

  4. sklearn中eof报错_sklearn中的数据预处理和特征工程

    小伙伴们大家好~o( ̄▽ ̄)ブ,今天我们看一下Sklearn中的数据预处理和特征工程,老规矩还是先强调一下,我的开发环境是Jupyter lab,所用的库和版本大家参考: Python 3.7.1(你 ...

  5. sklearn实战-----3.数据预处理和特征工程

    1 概述 1.1 数据预处理与特征工程 想象一下未来美好的一天,你学完了菜菜的课程,成为一个精通各种算法和调参调库的数据挖掘工程师了.某一天 你从你的同事,一位药物研究人员那里,得到了一份病人临床表现 ...

  6. 使用Sklearn库学习数据预处理和特征工程

    目录 1,概述 1.1,数据预处理和特征工程 1.2,sklearn中的数据预处理和特征工程 2,数据预处理 Preprocessing & Impute 2.1,数据无量纲化 2.2,缺失值 ...

  7. pandas用众数填充缺失值_sklearn中的数据预处理和特征工程

    小伙伴们大家好~o()ブ,我是菜菜,我的开发环境是Jupyter lab,所用的库和版本大家参考: Python 3.7.1(你的版本至少要3.4以上 Scikit-learn 0.20.0 (你的版 ...

  8. sklearn_数据预处理和特征工程

    转载自:菜菜的sklearn课堂 文章目录 1 概述 1.1 数据预处理与特征工程 1.2 sklearn中的数据预处理和特征工程 2 数据预处理 Preprocessing & Impute ...

  9. 天池- IJCAI-18 阿里妈妈搜索广告转化预测新手入门经历(一:数据预处理、特征工程)

    第一次正式参加数据挖掘类的比赛,投入了三个星期.结果没有进入复赛,但是学到了许多经验.感谢技术圈和github的大佬们提供的baseline,让我少走了很多弯路. 第一次写博客,其一为了防止以后忘记, ...

  10. 「机器学习速成」数据预处理,特征工程,良好特征的特点

    https://www.toutiao.com/a6703863693408469516/ 大家好,今天我们学习[机器学习速成]之 数据预处理,特征工程,良好特征的特点 我们 马上学三点 , 特征工程 ...

最新文章

  1. Linux virtualenv, virtualenvwrapper, pip freeze
  2. 如何兼容並蓄Android Studio 與 Eclipse 的優點, 減少顧此失彼的缺憾
  3. 机器学习梯度下降法举例
  4. 韦东山 文件系统映像,mount挂接文件系统
  5. 步进电机红外遥控C语言程序,单片机红外遥控+步进电机+1602液晶显示c语言源程序...
  6. 利用xsl和xml转html没有内容_P系列2代码页转pdf后篇
  7. Eureka深入理解
  8. android 蓝牙各种UUID(转载)
  9. matlab安装MinGW-64代码C/C++编译器的方法
  10. 写文章最难写的是标题
  11. 现在有一个整数数组,已知一个数出现的次数超过了一半,请用O(n)的复杂度的算法找出这个数...
  12. js——引用类型和基本类型
  13. HTML5 device access 设备访问
  14. web前端开发规范总结
  15. C#3.0中的新特性
  16. 西北工业大学计算机专业课考什么,西北工业大学西工大计算机考研经验
  17. 5.VM虚拟机网络设置---桥接模式
  18. 如何永久性取消WPS热点推广
  19. HDS NAS原理及Storage Pool方案
  20. 领域驱动架构(DDD)建模中的模型到底是什么? 1

热门文章

  1. 锦鲤阅读自动阅读问题解答,小白必看!
  2. div九宫格图片布局
  3. 《北京市自动驾驶车辆道路测试报告(2021年)》正式发布
  4. CAD高版本窗体阵列LISP_AutoCAD高版本把阵列对话框调出来
  5. java 中的连接超时_【java中处理http连接超时的方法】
  6. 计算机word文本段落位置互换,word中调换位置 用word怎么使两个段落互换位置
  7. 鸡蛋,必须放在合适的篮子里
  8. 电源纹波和电源噪声有什么区别?
  9. php 白鹭对接,微信好友排行榜 - 白鹭对接
  10. picgo+sharex写markdown笔记