CTR预测经典模型GBDT+LR

CTR预测：点击率预测，

基本思想：

GBDT 基于集成学习中的boosting思想，每次迭代都在减少残差的梯度方向新建立一颗决策树，迭代多少次就会生成多少颗决策树，不断减少误差。假设GBDT由两颗树构成，如下图中的树1 和树2 ：

对于有三个叶节点的树1而言，按照红色箭头的路径，落在了第2个叶子节点上，则树1输出的编码为[0, 1, 0]。同理，对于树2而言，其输出的编码为 [1, 0]。将所有树的编码拼接起来就得到了 [0, 1, 0, 1, 0]，此编码就可以作为该样本的新特征使用。最后将得到的[0, 1, 0, 1, 0] 作为特征输入到LR模型，完成CTR的预估。

代码实现

代码将LightGBM作为GBDT使用，LR模型则使用Sklearn内置的方法。假设使用32棵树，且每棵树有64个叶节点，则训练这样的模型代码如下：

def gbdt_lr_predict(data,category_feature,continuous_feature):# 类别特征one-hot编码for col in category_feature:onehot_feats = pd.get_dummies(data[col],prefix=col)data.drop([col],axis=1,inplace=True)data = pd.concat([data,onehot_feats],axis=1)train = data[data['Label']!=-1]target = train.pop('Label')test = data[data['Label']==-1]test.drop(['Label'],axis=1,inplace=True)#划分数据集x_train,x_val,y_train,y_val = train_test_split(train,target,test_size=0.2,random_state=2020)n_estimators=32num_leaves = 64# 开始训练gbdt,使用32棵树，每棵树64个叶节点model = lgb.LGBMRegressor(objective="binary",subsample=0.8,      # 随机样本min_child_weight=0.5,# 孩子节点中最小的样本权重和colsample_bytree=0.7, # 特征随机采样的比例num_leaves=num_leaves, # 叶子的个数learning_rate=0.05,n_estimators=n_estimators,random_state=2020)model.fit(x_train,y_train,eval_set=[(x_train,y_train),(x_val,y_val)],eval_names=['train','val'],eval_metric='binary_logloss',verbose=0)# 得到每一条数据每棵树的哪个叶子节点上gbdt_feats_train = model.predict(train,pred_leaf=True)# 打印结果的shapeprint(gbdt_feats_train.shape)# 打印前5个数据print(gbdt_feats_train[:5])# 同样获得测试集的叶节点索引gbdt_feats_test = model.predict(test,pred_leaf=True)# 将32棵树的叶节点序号构造成DataFrame,方便后续进行one-hotgbdt_feats_name=['gbdt_leaf_'+str(i) for i in range(n_estimators)]df_train_gbdt_feats = pd.DataFrame(gbdt_feats_train,columns=gbdt_feats_name)df_test_gbdt_feats = pd.DataFrame(gbdt_feats_test,columns=gbdt_feats_name)train_len = df_train_gbdt_feats.shape[0]data = pd.concat([df_train_gbdt_feats,df_test_gbdt_feats])# 对每棵树的叶节点进行one-hotfor col in gbdt_feats_name:onehot_feats = pd.get_dummies(data[col],prefix=col)data.drop([col],axis=1,inplace=True)data = pd.concat([data,onehot_feats],axis=1)train = data[:train_len]test = data[train_len:]# 划分LR训练集、验证集x_train,x_val,y_train,y_val= train_test_split(train,target,test_size=0.3,random_state=2018)# 开始训练lrlr = LogisticRegression()lr.fit(x_train,y_train)tr_logloss = log_loss(y_train,lr.predict_proba(x_train)[:,1])print("tr_logloss",tr_logloss)val_logloss = log_loss(y_val,lr.predict_proba(x_val)[:,1])print("val_logloss", val_logloss)# 对测试集预测y_pred = lr.predict_proba(test)[:,1]

参考文章：

广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践（附数据 + 代码）_VariableX的博客-CSDN博客

推荐系统遇上深度学习(十)–GBDT+LR融合方案实战

CTR预测经典模型GBDT+LR相关推荐

广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践（附数据 + 代码）
CTR 系列文章: 广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践(附数据 + 代码) CTR经典模型串讲:FM / FFM / 双线性 FFM 相关推导与理解 CTR深度学习模型之 ...
推荐系统 | 基础推荐模型 | GBDT+LR模型 | Python实现
基础推荐模型--传送门: 推荐系统 | 基础推荐模型 | 协同过滤 | UserCF与ItemCF的Python实现及优化推荐系统 | 基础推荐模型 | 矩阵分解模型 | 隐语义模型 | PyTor ...
Facebook如何预测广告点击：剖析经典论文GBDT+LR
作者 | 梁唐来源 | TechFlow 今天我们来剖析一篇经典的论文:Practial Lessons from Predicting Clicks on Ads at Facebook.从这篇p ...
CTR经典模型串讲：FM / FFM / 双线性 FFM 相关推导与理解
CTR 系列文章: 广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践(附数据 + 代码) CTR经典模型串讲:FM / FFM / 双线性 FFM 相关推导与理解 CTR深度学习模型之 ...
CTR深度学习模型之 DeepFM 模型解读
CTR 系列文章: 广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践(附数据 + 代码) CTR经典模型串讲:FM / FFM / 双线性 FFM 相关推导与理解 CTR深度学习模型之 ...
推荐系统组队学习——GBDT+LR
文章目录一.逻辑回归模型二.GBDT模型三.GBDT+LR模型四.编程实践一.逻辑回归模型逻辑回归是在线性回归的基础上加了一个 Sigmoid 函数(非线形)映射,使得逻辑回归成为了一个优 ...
传统推荐算法Facebook的GBDT+LR模型深入理解
目标: 深入理解Facebook 2014年提出的的GBDT+LR模型. CSDN上泛泛而谈的文章很多,真正讲解透彻的没几篇.争取我这篇能讲解透彻. 今晚又想了许久,想通了一些原理.也分享出来. 算法 ...
Facebook的GBDT+LR模型python代码实现
承接上篇讲解,本文代码,讲解看上篇目标:GBDT+LR模型步骤:GBDT+OneHot+LR 测试数据:iris 代码: 结果比较:与直接GBDT模型的比较目标:GBDT+LR模型实现GBDT ...
《推荐系统笔记（十）》CTR预估以及一般算法介绍（GBDT+LR）
前言 CTR预估是推荐系统中重要的问题,根据历史数据,我们需要预测用户是否点击.CTR预估同样可以运用到广告中,预测广告的点击率等. CTR数据形式 CTR预估问题的数据形式一般是这样的: 列名:特征 ...

CTR预测经典模型GBDT+LR

CTR预测：点击率预测，

基本思想：

代码实现

CTR预测经典模型GBDT+LR相关推荐

最新文章

热门文章