数据预处理（处理缺失值、属性编码、数据标准化正则化、特征选择、主成分分析）

数据存在的问题

在实际中，我们拿到的数据通常是脏数据，数据可能存在以下几种主要问题：
1.数据缺失（Incomplete）：属性值为空的情况
2. 数据噪声（Noisy）：数据值不合常理的情况
3. 数据不一致（Inconsistent）：数据前后存在矛盾的情况。如 Age = “42” vs. Birthday = “01/09/1985”
4. 数据冗余（Redundant）：数据量或者属性数目超出数据分析需要的情况。
5. 数据集不均衡（Imbalance）：各个类别的数据量相差悬殊的情况。
6. 离群点/异常值（Outliers）：远离数据集中其余部分的数据。
7. 数据重复（Duplicate）：在数据集中出现多次的数据。

1.处理缺失值

缺失值的分类
1.完全随机缺失：指的是数据的缺失是完全随机的；
2.随机缺失：指的是数据的缺失不是完全随机的，和完全变量有关；
3.完全不随机缺失：指的是数据的缺失与不完全变量自身的取值相关；缺失值会使得系统丢失了大量的有用信息，系统所表现出来的不确定性更加显著，系统中蕴含的确定性成分更难把握，包含空值的不完全变量会使得挖掘过程陷入混乱。
缺失值处理的方法：
(1)均值插补；(2)利用同类均值插补；(3)极大似然估计；(4)多重插补；（5）插值法填充；（6）模型填充

2.处理离群值

离群值的判断标准有三种，分别为 MAD、 3σ、百分位法。
异常值的处理方法：
（1）根据异常点的数量和影响，考虑是否将该条记录删除，信息损失多
（2）若对数据做了log-scale 对数变换后消除了异常值，则此方法生效，且不损失信息
（3）平均值或中位数替代异常点，简单高效，信息的损失较少
（4）在训练树模型时，树模型对离群点的鲁棒性较高，无信息损失，不影响模型训练效果

3.属性编码

（1）分箱—特征二元化/多元化
特征二元化的过程是将数值型的属性转换为布尔值的属性，设定一个阈值作为划分属性值为0和1的分隔点。
（2）独热编码（One-HotEncoding）
独热编码采用N位状态寄存器来对N个可能的取值进行编码，每个状态都由独立的寄存器来表示，并且在任意时刻只有其中一位有效。
独热编码的优点：能够处理非数值属性；在一定程度上扩充了特征；编码后的属性是稀疏的，存在大量的零元分量

4.数据标准化

数据标准化是将样本的属性缩放到某个指定的范围，归一化后求优过程范围变小，寻优过程变得平缓，更容易正确收敛到最优解。（之前写的一点小笔记）
常用的有以下两种方式：
1.减均值除方差，得X~N（0,1）

2.减最小值除最大值最小值之差，标准化，对X进行放缩

5.特征选择——降维

常见的特征选择类型分为三类：过滤式（filter）、包裹式（wrapper）、嵌入式（embedding）。常见的降维方法：SVD、PCA、LDA