特征选择-处理缺失值-处理不平衡的数据-处理异常值-分档-编码-特征缩放

特征工程的主要目标是从算法中获得最好的结果，今天小普从以下7个步骤，让大家了解机器学习算法特征工程的分步过程，如果你觉得有帮助的话，记得给小普点赞支持一下吧，小普又充满了动力~

特征选择
处理缺失值
处理不平衡的数据
处理异常值
分档
编码
特征缩放

1.特征选择

特征选择是对所需的独立特征的选择。选择与依赖特征有更多关系的独立特征将有助于建立一个好的模型。一般做好特征选择有以下几种方法：

2.1 与热图的相关矩阵

热图是 2D（二维）数据的图形表示。每个数据值表示在一个矩阵中。

我们首先，绘制所有独立特征和依赖特征之间的配对图。它将给出依赖和独立特征之间的关系。独立特征和依赖特征之间的关系小于 0.2 则选择该独立特征来构建模型。

2.2 单变量选择

在这种情况下，可以使用统计测试来选择与依赖特征具有最强关系的独立特征。SelectKBest方法可以与一套不同的统计测试一起使用，以选择特定数量的特征。

得分最高的特征将与依赖特征更相关，并为模型选择这些特征。

2.3 ExtraTreesClassifier 方法

在此方法中，ExtraTreesClassifier 方法将有助于通过依赖特征给出每个独立特征的重要性。特征重要性将为您的数据的每个特征提供分数，分数越高，与输出变量的特征越重要或相关。

3. 处理缺失值

在一些数据集中，我们得到了特征中的 NA 值。这只不过是丢失的数据。通过处理这种类型的数据，有很多方法：

在缺失值的地方，用平均值或中位数替换缺失值到数值数据，用众数替换分类数据。

删除 NA 值整行。

删除 NA 值整个特征。（如果特征中的 NA 值超过 50%，这会有所帮助）

将 NA 值替换为 0。

如果选择放弃选项的话，很有可能会丢失其中的重要信息，因此，这里建议大家最好选择替换选项。

4. 处理不平衡数据

为什么需要处理不平衡的数据？因为减少过拟合和欠拟合的问题。

假设一个特征有一个因子 level2（0 和 1）。它由 1 的 5% 和 0 的 95% 组成。它被称为不平衡数据。

例子：-

为了防止这个问题，有一些方法：

4.1 欠采样多数类

对多数类进行欠采样将重新采样数据中的多数类点，使它们等于少数类。

4.2 通过重复对少数类进行过采样

过采样少数类将重新采样数据中的少数类点，使它们等于多数类。

4.3 使用合成少数类过采样技术（SMOTE）对少数类进行过采样

在这种方法中，为少数类生成合成样本，并等于多数类。

5. 处理异常值

首先，计算特征的偏度并检查它们是正偏斜、负偏斜还是正常偏斜。另一种方法是将箱线图绘制为特征并检查是否有任何值超出范围。如果存在，它们被称为异常值。

如何处理这些异常值： –

首先，计算 25% 和 75% 的分位数值。

接下来，计算四分位距

IQR = Q3 – Q1

接下来，计算上极值和下极值

下限=Q1 – 1.5 * IQR

上限=Q3– 1.5 * IQRe

最后，检查值将高于上限或低于下限。如果出现则删除它们或用平均值、中值或任何分位数替换它们。
用均值替换离群值

用分位数值替换异常值

丢弃异常值

6. 分档

分箱只不过是使范围内的任何数据值适合分箱。这在您的数据探索活动中很重要。我们通常使用它将连续变量转换为离散变量。

假设如果我们有连续的 AGE 特征，并且我们需要将年龄分组作为一个特征，那么它将很有用。

7. 编码：

为什么这将适用？因为在数据集中我们可能包含对象数据类型。为了构建模型，我们需要让所有特征都是整数数据类型。因此，Label Encoder 和 OneHotEncoder 用于将对象数据类型转换为整数数据类型。

标签编码

应用标签编码之前

应用标签编码后，然后应用列转换器方法将标签转换为 0 和 1

一种热编码：

通过应用 get_dummies，我们直接将分类转换为数值

8. 特征缩放

为什么这种缩放适用？因为要减少方差效应并克服拟合问题。有两种类型的缩放方法：

8.1 标准化

什么时候用这个方法呢？。当所有特征都具有高值时，而不是 0 和 1。

它是一种标准化存在于固定范围内的独立特征以使所有值达到相同量级的技术。

在标准化中，独立特征的均值为0，标准差为1。

方法一：

方法二：

编码后的特征标签在 0 和 1 中。这可能会影响标准化。为了克服这个问题，我们使用归一化。

8.2 规范化

归一化还通过特征的规模使训练过程不那么敏感。这导致在训练后获得更好的系数。

方法一：-MinMaxScaler

它是一种通过减去特征的最小值然后除以范围来将特征重新缩放到[0,1]的硬且快速范围的方法。

方法 2: – 均值归一化

这是一种将特征重新缩放到 [-1,1] 且均值 = 0 的硬性和快速范围的方法。

在本文中，我逐步介绍了特征工程的过程，目的是提高机器学习算法的预测精度。

当然，没有特定的方法可以提高预测准确性，取决于数据并应用多种方法。

小普推荐尝试使用不同的数据集并对其进行分析，码字不易，给小普一点鼓励