数据预处理的分箱操作

介绍

我们在建立模型前，一般需要对特征变量进行离散化，特征离散化后，模型会更稳定，降低模型过拟合的风险。尤其是采用 logsitic 建立评分卡模型时，必须对连续变量进行离散化。而特征离散化处理通常采用的就是分箱法，数据分箱（也称为离散分箱或分段）是一种数据预处理技术，用于减少次要观察误差的影响，提高泛化性。

数据分箱又分为有监督分箱和无监督分箱，是否使用标签进行离散化（分箱）决定了有监督还是无监督的离散化方法。

知识点

无监督分箱
split 分箱
merge 分箱

无监督分箱

这里为了实验，我们就随机生成了一些实验数据，下面先来看下具体详情：

import pandas as pd
import numpy as npdata = pd.read_csv("data.csv")
data.shape

(252939, 88)

data.head()

	datetime	category_1	category_14	category_77	category_21	category_13	category_42	category_28	...	category_71	category_3	category_34	category_58	category_47	category_25	category_48	y	category_74	category_79
0	2020-06-13	0.495720	11638800	90	-999	1	0	6	...	0	100007	0.574799	3	1	0.560708	1.0	0	-1.0	79
1	2020-10-22	0.517549	734893200	38	-999	2	6	5	...	1	100008	0.390684	5	1	0.495632	1.0	0	100.0	132
2	2020-09-11	0.435992	860778000	21	9	1	11	229	...	1	200000	0.473826	37	2	0.462364	1.0	1	400.0	20
3	2020-05-05	0.504451	872010000	143	-999	1	4	33	...	1	100008	0.491736	34	2	0.440723	1.0	1	-1.0	53
4	2020-05-13	0.511435	846349200	56	-999	2	3	0	...	1	100008	0.529865	0	1	0.474624	1.0	1	400.0	83

其中 datetime 表示数据日期；y 表示标签值，取值1、0；category_1 ~ category_86 表示用户的特征数据。

等频法：

等频法属于自动分箱，每个箱内的样本数量是相同的，假设有 10000 个样本，设置频数为 100，则按照数值排序后，就会分成 100 个箱子。等频法在 python 中的实现如下所示。

"""
qcut函数是根据数据本身的数量来对数据进行分割
:param X: 原始数据，只接收1维矩阵或Series
:param q: 整数，当q为整数时，代表分箱数
:param duplicates: 默认值为raise，如果X中有重复值时会报错。当duplicates='drop'时，X中有重复值时会对分箱合并
:param labels: 接收array型或False型数据，当labels=False时，只返回分箱的索引。当labels为array时，其长度要和q相等
"""
equal_frequency_cut = pd.qcut(data.category_34, q=5, duplicates="drop", labels = range(0, 5))

下面是分箱后的结果，我们可以看到分箱后的数据基本是均匀分布的（最后两个柱子不均匀是因为有重复数据，在分箱时进行了数据合并）。

import pandas as pd
from sklearn import datasetsequal_frequency_cut.hist()

等距法：

等距法同样属于自动分箱，可以理解为每个箱子中的数据极差是相同的，也就是区间的距离是一致的。等距法在 python 中的实现如下所示。

"""
cut函数是根据数据的值来对数据进行分割
:param X: 原始数据，只接收1维矩阵或Series
:param bins: 为整数时，代表分箱数，和qcut的q参数一样
:param labels: 接收array型或False型数据，当labels=False时，只返回分箱的索引。当labels为array时，其长度要和bins相等
"""
equal_distance_cut = pd.cut(data.category_34, 5, labels = range(0, 5))

同样的我们再来看下分箱完的结果，此时分箱后的数据就不再均匀分布。

equal_distance_cut.hist()

自定义法：

通常在业务中，会根据经验，对分箱规则做出定义。这里的经验既可以是专业人员的之前经验，也可以是数据探索性分析中得出的结论。自定义法在 python 中的实现如下所示。

"""
cut函数是根据数据的值来对数据进行分割
:param X: 原始数据，只接收1维矩阵或Series
:param bins: 为array时，代表自定义分箱区间,默认左开右闭
:param labels: 接收array型或False型数据，当labels=False时，只返回分箱的索引。当labels为array时，其长度要和bins相等
"""
user_defined_cut = pd.cut(data.category_34, [0, 0.5, 0.6, 1], labels = ['(0, 0.5]', '(0.5, 0.6]', '(0.6, 1]'])

下面是划分结果

user_defined_cut.hist()

<matplotlib.axes._subplots.AxesSubplot at 0x27b1500ea88>

聚类法：

分箱其实就是一个聚类的应用，我们希望具有相同特征的数据点能够被放置在同一个箱子中，因此可以通过聚类的方式找到具有相同属性的类别。聚类分箱就是用 python 中的 k-means 函数进行划分。

from sklearn.cluster import KMeansnum_clusters = 3 km_cluster = KMeans(n_clusters=num_clusters, max_iter=300, n_init=40,init='k-means++',n_jobs=-1)
result = km_cluster.fit_predict(np.array(data.category_34).reshape(-1,1))
cluster_cut = pd.DataFrame({'Data':np.array(data.category_34),"Categories":result})
cluster_cut.head()

	Data	Categories
0	0.574799	1
1	0.390684	2
2	0.473826	0
3	0.491736	0
4	0.529865	0

下面是用聚类方式划分的分布情况

cluster_cut.Categories.hist()

同时在聚类分析中还有一个对聚类效果的评价，这里简单介绍一下，常用的聚类效果评价标准。

对于每个点