《推荐系统笔记（十）》CTR预估以及一般算法介绍（GBDT+LR）

前言

CTR预估是推荐系统中重要的问题，根据历史数据，我们需要预测用户是否点击。CTR预估同样可以运用到广告中，预测广告的点击率等。

CTR数据形式

CTR预估问题的数据形式一般是这样的：

列名：特征1，特征2，…，特征n，是否点击

这其实也是二分类问题，预测是否点击。

对于CTR这种二分类问题，我们可以用LR模型。由于LR模型是线性模型，我们需要对原始数据进行特征工程的时候，提取出原始特征的高阶组合特征。

比如，当特征有国家和节日这两项时，显然，不同国家在不同节日里，用户对某种商品的需求是不同的，或者说点击是不同的。这就意味着，用户点击明显受到国家+节日这个组合特征的影响。

考虑到人工提取特征的效率和费用，我们期望模型能够自动学习到高阶组合特征。FM算法是一个选择，它能够以较小的计算代价学习到二阶组合特征，但对于更高阶的特征，FM学习起来会很费力。

这里，我们有两种办法，

使用GBDT来提取非线性特征，再用LR训练
使用深度学习网络（DNN）来学习非线性特征

GBDT+LR

一般步骤是这样的，

将数据分为训练集和测试集
将训练集进一步分为GBDT训练集和LR训练集，防止过拟合
利用训练过的GBDT模型，将LR训练集数据转化为新的特征向量（GBDT是一系列树的集合，将一个数据丢进去，最终都会落进每一棵树的某个叶节点，记录这些叶节点位置合并成一个向量，这就是这个数据被转化成的新的特征向量）
对新的特征向量进行one-hot编码，为训练LR模型做准备
利用LR模型进行训练
做测试和预测的时候，同样要用上面训练好的GBDT做特征转化，然后再用LR模型给出预测结果

给一个简单例子吧。

# 第三方库
import pandas as pd
import numpy as np
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import roc_curve, roc_auc_score
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import KFold, train_test_split
import matplotlib.pyplot as plt

# 生成二分类数据，20万条数据，20个特征
X, y = make_classification(n_samples=200000, n_features=20, n_classes=2)
data = pd.DataFrame(X, columns=list('abcdefghijklmnopqrst'))
data['label'] = y

# 训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(data.iloc[:, :-1], data.iloc[:, -1], test_size=0.2)# 进一步将训练集分成GBDT训练集和LR训练集
X_train_gbdt, X_train_lr, y_train_gbdt, y_train_lr = train_test_split(X_train, y_train, test_size=0.5)

# 训练gbdt，确定最重要的参数，
#树的数量：n_estimators，
#树深度：max_depth，
#内部节点的样本数：min_samples_split，
#叶节点的样本数：min_samples_leaf
gbdt = GradientBoostingClassifier(n_estimators=20, max_depth=3, min_samples_split=3, min_samples_leaf=2)
# 训练好模型
gbdt.fit(X_train_gbdt, y_train_gbdt)

# gbdt得到的训练集中数据转化为对应特征向量
# 每一行对应一个数据
# 每一行向量是20维的，对应着gbdt的20棵树，输入x进入树后，落在叶子结点上，每一列数字就是第几个叶子结点
np.reshape(gbdt.apply(X_train_gbdt), (-1, 20))

# 输出
array([[ 3.,  3.,  3., ...,  4.,  4.,  4.],[ 7.,  7.,  7., ...,  4.,  6.,  7.],[10., 10., 10., ..., 14., 13., 10.],...,[ 3.,  4.,  3., ...,  7.,  4.,  4.],[10., 10., 10., ..., 10., 13., 10.],[10., 10., 10., ..., 10., 13., 10.]])

# 训练OneHotEncoder
oh = OneHotEncoder()
oh.fit(np.reshape(gbdt.apply(X_train_gbdt), (-1, 20)))

# 开始对LR训练集进行特征转换
# 对转换之后的训练集，用lr训练
lr = LogisticRegression(max_iter=1000)
lr.fit(oh.transform(np.reshape(gbdt.apply(X_train_lr), (-1, 20))), y_train_lr)

# 现在，lr已经训练完毕
# 现在对测试集进行测试
# 我们依然需要先对测试集进行gbdt的特征转换
pred = lr.predict_proba(oh.transform(np.reshape(gbdt.apply(X_test), (-1, 20))))[:,1]

为了评测预测效果，对于二分类问题，我们通常用Auc值。这种评测指标在博客最后面会介绍。

# 考虑roc曲线和auc值
fpr, tpr, thresholds = roc_curve(y_test, pred)# 把roc曲线画出来
plt.plot(fpr, tpr)
plt.xlabel('False positive rate')
plt.ylabel('True positive rate')
plt.show()print('Auc值为', roc_auc_score(y_test, pred))

DNN

为了提取高阶特征，我们还可以引入DNN。DNN天然就具有提取非线性特征的作用，因此，将DNN引入到CTR预估中就显得较为自然。

离散的特征经过one-hot编码之后，会非常稀疏且维数庞大，为了避免进入DNN后维度爆炸，需要进行dense embedding，将这样的特征变成稠密的规模较小的特征向量。一个方法就是利用FM，将每一个特征对应着一个k维隐向量，在一个filed内，只会有一个这样的k为隐向量，然后将所有field内的隐向量合并起来，作为embedding之后的结果。

FNN：通过上面的dense embedding之后，直接将特征向量送入DNN中，得到预测值
Wide & Deep：Deep部分和FNN一样，Wide部分与LR一样，最终将两部分结果综合起来考虑
DeepFM：将Wide部分换成FM

ROC曲线和AUC值

对于二分类问题，我们通常用auc值来说明好坏。Auc值是Roc曲线与横轴之间围成区域的面积，处于0到1之间，越是接近于1，说明模型越好；而越是接近0，则模型越差。

我们首先介绍ROC曲线。在二分类问题中，我们给出下面四个值，

FP：将负样本判断为正的数量
FN：将正样本判断为负的数量
TP：将正样本判断为正的数量
TN：将负样本判断为负的数量

有了上述定义，我们可以给出ROC曲线的横纵轴，

横轴：FP rate，即 $\frac{FP}{FP+TN}$ ，将负样本判断为正的概率
纵轴：TP rate，即 $tpr=TPTP+FNtpr=\frac{TP}{TP+FN}$ ，将正样本判断为正的概率

显然，tpr越高越好，fpr越低越好。为了做出曲线，我们往往这样做，根据模型预测到的判断为正的概率，将整个测试集按照概率从大到小排序，我们的thresholds就依次选取这些概率。对于大于thresholds的概率，我们判断为正，小于thresholds的概率，我们判断为负。

举个例子，将样本按照预测为正的概率排序，

样本类别，为正的概率
正，0.9
正，0.8
负，0.7
正，0.6
负，0.5

依次选择这些概率作为threshold，并计算tpr和fpr，

阈值，tpr，fpr
0.9，1/3，0/2=0
0.8，2/3，0/2=0
0.7，2/3，1/2
0.6，3/3=1，1/2
0.5，3/3=1，2/2=1

依次连接这些点，就可以作出ROC曲线。