一、树模型与线性模型的融合模型

树模型GBDT原理：https://blog.csdn.net/woniu201411/article/details/83114226

线性模型LR原理：https://blog.csdn.net/woniu201411/article/details/81335863

海量的离散特征+线性模型LR，因其较高的精度和较少的运算开销在业界广为使用。 线性模型LR无法捕捉到非线性特征对标签的影响，因而提升线性模型精度的有效方法是构造有效的交叉特征。比较成熟的构造交叉特征的方法包含：

结合业务，构造有效的交叉特征，这种方法对线性模型的精度提升是显著的，但要花费巨大的人力和时间，特别当特征达到上百维时，难以构造有效的交叉特征；
根据信息增益，分箱划分连续特征，将一个连续特征划分为多个类别特征，为线性模型增加了非线性表达，提高了模型的精度和健壮性。但这种方法构造的非线性特征包含的信息是很有限的；
离散特征通过笛卡尔积，获取所有的组合特征，但笛卡尔积获取的组合特征呈爆炸式增长，并且很多组合特征是无效的，为线性模型增加了很多噪音。

2014年faceBook提出了树模型GBDT与线性模型LR的融合模型（Practical Lessons from Predicting Clicks on Ads at Facebook），利用GBDT构造有效的交叉特征，从根节点到叶子节点的路径，代表部分特征组合的一个规则，提升树将连续特征转化为离散特征，可以明显提升线性模型的非线性表达能力，提高线性模型精度

以下图所示，GBDT构造两棵树，第一棵树有三个叶子节点，第二颗树有两个叶子节点，若训练样本落入第一棵树的第二个叶子节点，第二颗树的第一个叶子节点，GBDT构造的交叉离散特征输出为[0,1,0,1,0]，其中前三个元素对应第一棵树的叶子节点，后两个元素对应第二颗树的叶子节点，输出的交叉离散特征作为LR的输入。

关于GBDT与LR融合模型的思考：

1、树模型采用集成决策树，而非单颗决策树

一棵树的表达能力很弱，不足以表达多个有区分性的特征组合，多棵树的表达能力更强一些。GBDT每棵树都在学习前面棵树尚存的不足，迭代多少次就会生成多少颗树。按paper的GBDT+LR融合方式，多棵树正好满足LR每条训练样本可以通过GBDT映射成多个特征的需求。

2、建树采用GBDT而非RF

RF也是多棵树，但从效果上有实践证明不如GBDT。且GBDT前面的树，特征分裂主要体现对多数样本有区分度的特征；后面的树，主要体现的是经过前N颗树，残差仍然较大的少数样本。优先选用在整体上有区分度的特征，再选用针对少数样本有区分度的特征，思路更加合理，这应该也是用GBDT的原因。

二、Python sklearn实现GBDT+LR融合模型

引用包引入：

import numpy as np
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import (RandomTreesEmbedding,RandomForestClassifier,GradientBoostingClassifier)
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve,roc_auc_score,accuracy_score,auc

数据集划分（树模型和线性模型的训练分别用不同数据集，防止过拟合）：

tmp = np.loadtxt("E:\\ensembleModelData.csv",dtype=np.str,delimiter=',')
data = tmp[1:,2:-1].astype(np.float)
label = tmp[1:,-1].astype(np.int)
#data,label = make_classification(n_samples=80000,n_features=30)
X_train,X_test,Y_train,Y_test = train_test_split(data,label,test_size=0.2)
X_train_tree,X_train_lr,Y_train_tree,Y_train_lr = train_test_split(X_train,Y_train,test_size=0.5)

利用网格搜索，获取最优参数：

for n_estimator in [80,100,150,200,250]:for depth in [1,2,3,5]:for maxiter in [300,400,500]: GBDT = GradientBoostingClassifier(learning_rate=0.1,n_estimators=n_estimator,max_depth=depth)OHE = OneHotEncoder()LRGBDT = LogisticRegression(max_iter=maxiter)GBDT.fit(X_train_tree,Y_train_tree)OHE.fit(GBDT.apply(X_train_tree)[:,:,0])LRGBDT.fit(OHE.transform(GBDT.apply(X_train_lr)[:,:,0]),Y_train_lr)Y_pred_gbdt_lr = LRGBDT.predict_proba(OHE.transform(GBDT.apply(X_test)[:,:,0]))[:,1]auc_gbdt_lr = roc_auc_score(Y_test,Y_pred_gbdt_lr)print(n_estimator,depth,maxiter,auc_gbdt_lr)

最终结果为：100，5， 500， 0.9440185179246727

参考资料：

Practical Lesson from Predicting Clicks on Ads at Facebook

https://blog.csdn.net/u010352603/article/details/80681100

https://blog.csdn.net/asdfghjkl1993/article/details/78606268

https://blog.csdn.net/TwT520Ly/article/details/79769705

https://scikit-learn.org/stable/auto_examples/ensemble/plot_feature_transformation.html#sphx-glr-download-auto-examples-ensemble-plot-feature-transformation-py

树模型与线性模型的融合模型(Python实现)相关推荐

非期望产出的sbm模型_线性模型 vs. Logistic模型——离散选择模型之二
前言:为什么因变量是分类变量的时候,我们会选择Logistic模型.而非最常见的线性回归模型?或者,换个说法:线性回归模型的劣势是什么?Logistic模型的优势又是什么?--针对这些问题,本文为您详 ...
AI：人工智能的多模态融合模型的简介、发展以及未来趋势
AI:人工智能的多模态融合模型的简介.发展以及未来趋势目录人工智能的多模态融合模型的简介.发展以及未来趋势多模态融合模型的简介多模态融合模型的发展趋势多模态常见应用分类 1.按照模态分类 2 ...
树模型与线性模型的区别决策树分类和逻辑回归分类的区别【总结】
树模型与线性模型的区别在于: (一)树模型 ①树模型产生可视化的分类规则,可以通过图表表达简单直观,逐个特征进行处理,更加接近人的决策方式 ②产生的模型可以抽取规则易于理解,即解释性比线性模型强. ...
python garch模型 forecast_Python时间序列分析--从线性模型到GARCH模型
目录一.Motivation 二.基础知识 1.平稳性 2.序列相关(自相关) 3.为什么我们关心序列相关性? 三.白噪声和随机游动四.线性模型五.对数线性模型六.AR模型(P) 七.移动平均 ...
推荐系统系列教程之十六：深度和宽度兼具的融合模型
编者按:之前推出了<推荐系统系列教程>,反响不错,前面已经推出了十五期,今天按约推出第十六期:深度和宽度兼具的融合模型.希望粉丝朋友们多点"在看",多多转发,我会在&q ...
基于集成融合模型检测电商异常订单
目录一.摘要二.数据探索三.数据预处理 3.1 缺失值处理 3.2 重复值处理 3.3 异常值处理四.特征工程 4.1 建立benchmark 4.2 划分训练集和测试集 4.3 订单时间 4 ...
机器学习模型可解释性的6种Python工具包，总有一款适合你！
开发一个机器学习模型是任何数据科学家都期待的事情.我遇到过许多数据科学研究,只关注建模方面和评估,而没有解释. 然而,许多人还没有意识到机器学习可解释性在业务过程中的重要性.以我的经验,商业人士希望知 ...
常用的三种线性模型算法--线性回归模型、岭回归模型、套索回归模型
常用的三种线性模型算法–线性回归模型.岭回归模型.套索回归模型线性模型基本概念线性模型的一般预测模型是下面这个样子的,一般有多个变量,也可以称为多个特征x1.x2.x3 - 最简单的线性模型就是一 ...
一般线性模型和线性回归模型_您的线性回归模型指南
一般线性模型和线性回归模型 Interpretability is one of the biggest challenges in machine learning. A model has mor ...

树模型与线性模型的融合模型(Python实现)

一、树模型与线性模型的融合模型

二、Python sklearn实现GBDT+LR融合模型

树模型与线性模型的融合模型(Python实现)相关推荐

最新文章

热门文章