数据预处理之无量纲化、缺失值处理（三）

1.无量纲化

无量纲化以我个人的理解，就是指在两个特征的单位不一样，其数值在大小上不是一个数量级，但是不能只凭数值的大小来决定两个特征谁的影响大，需要将两个特征归一到同一可比的范围内，来决定谁的影响范围。
常见的无量纲化有 min-max归一化和z-score标准化
（1）min-max归一化
min-max归一化是指对原始数据进行线性变换，将其映射到[0,1]之间,该方法也被称为离差标准化，与z-score标准化有本质区别。min-max的公式如下所示，

x’为归一化后的变量，x为原始数据，xmin为原始数据样本中的最小值，xmax为原始数据样本中的最大值。
Python实现

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
x = np.array([[1,-1,2],[2,0,0],[0,1,-1]])
x1 = MinMaxScaler().fit_transform(x)
print("x1=",x1)

结果为

x1= [[0.5        0.         1.        ][1.         0.5        0.33333333][0.         1.         0.        ]]

不难发现，x1每列的值都在[0,1]之间，也就是说，该模块是按列计算的。
（2）z-score标准化
z-score标准化是主要是用于样本数据量较大的情况，z-score标准化方法试图将原始数据集标准化成均值为0，方差为1且接近于标准正态分布的数据集。其公式为：

上式中，x是原始数据，u是样本均值，σ是样本标准差。回顾下正态分布的基本性质，若x～N(u,σ^2),则有

z-score其实就是将原始数据标准化为标准正态分布，但是一旦原始数据的分布不接近于一般正态分布，则标准化的效果会不好。
其Python实现：

import numpy as np
from sklearn.preprocessing import StandardScaler
y = np.array([[1,2,3],[4,5,6],[1,2,1]])
y1 = StandardScaler().fit_transform(x)
print("y1=",y1)

结果为：

y1= [[ 0.         -1.22474487  1.33630621][ 1.22474487  0.         -0.26726124][-1.22474487  1.22474487 -1.06904497]]

可以发现，y1的每一列加起来都是0，方差是1左右。注意该方法同样按列(即每个属性/特征)进行计算。

2.缺失值处理

缺失值是指在一个系统中，有些数据出现了部分属性的缺失，有可能是机器原因造成，有可能是人为原因造成的，
缺失值的丢失有可能对整个系统来说丢失了大量信息，使系统的不确定性变得更加显著，或者使整个系统的更加混乱。因此需要对数据中的缺失值进行处理。主要包括：
（1）简单删除：就是将含有缺失值的对象直接删除，这种方法有可能丢失掉重要的信息，对于样本少的数据，直接删除使得样本数量更少，对整个模型的训练或其他方面，会影响整个结果的判断。
（2）填补缺失值：即对缺失的属性进行不齐，补齐的方式有很多，比如人工直接填充，特殊值代替填充，就近补齐（对于一个包含空值的对象，热卡填充法在完整数据中找到一个与它最相似的对象，然后用这个相似对象的值来进行填充。），聚类填充（最为典型的代表是K最近距离邻法，先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本，将这K个值加权平均来估计该样本的缺失数据。）等等。