Python statsmodel包训练LR模型
Python中训练LR模型一般使用sklearn包,输出模型报告和其他机器学习方法一样。但从统计背景出发,想看更详细的报告,statsmodel包可以帮助实现。
1.训练模型
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor#train样本上训练模型y = trainData[y_name]X = trainData[model_list]X['intercept'] = [1] * X.shape[0]LR = sm.Logit(y, X).fit()
2.模型报告
#LR自带的summary报告,直接输出到excel不方便summary = LR.summary()#查看VIFX_m = np.matrix(X)VIF_list = [variance_inflation_factor(X_m, i) for i in range(X_m.shape[1])]#varname_list = [X.columns[i] for i in range(len(VIF_list))]#计算标准化系数X_new = X.drop(['intercept'],axis = 1)X_new2 = X_new.apply(lambda x: (x - np.mean(x)) / np.std(x))LR_N = sm.Logit(trainData[y_name], X_new2).fit()#wald检验wald_test = LR.wald_test_terms().table#拼接reportmodel_rpt1 = pd.concat([LR.params,LR.pvalues,wald_test['statistic'],LR_N.params],sort = False,axis = 1)model_rpt1.columns = ['params','pvals','wald','normal_params']model_rpt1['VIF'] = VIF_listmodel_rpt1.sort_values(['normal_params'],ascending = True,inplace = True)model_rpt1.fillna(0,inplace = True)#计算模型变量间的相关系数corr = X.drop(['intercept'],axis = 1).corr()corr2 = corr.reset_index()
3.其他
1.statsmodel训练模型过程不涉及筛选变量,所有送进去的模型变量都会参与拟合;
2.LR.predict(X_test) 可以给其他样本打分,其结果是p,而根据系数得到的结果是log(p/1-p)。
Python statsmodel包训练LR模型相关推荐
- 使用spark训练LR模型
最近在工作之余参加了一个CTR预估的比赛,CTR预估是一个成熟又经典的问题,工业界目前使用的主流方案仍然是LR+海量特征.趁着这一次比赛的机会,正好抱着学习的心态尝试着学习用spark集群来训练一下L ...
- 【Spark】Spark训练Lr模型,并保存为Pmml
scala版本spark构建的Lr模型: 一.问题背景 需要构建一个Lr模型来进行物品的Ctr预测. 二.解决方案 由于我们训练的数据量较多,所以首先考虑采用spark来构建模型并测试训练,这 ...
- python如何保存训练好的模型_Python机器学习7:如何保存、加载训练好的机器学习模型...
本文将介绍如何使用scikit-learn机器学习库保存Python机器学习模型.加载已经训练好的模型.学会了这个,你才能够用已有的模型做预测,而不需要每次都重新训练模型. 本文将使用两种方法来实现模 ...
- python机器学习算法(赵志勇)学习笔记( Logistic Regression,LR模型)
Logistic Regression(逻辑回归) 分类算法是典型的监督学习,分类算法通过对训练样本的学习,得到从样本特征到样本的标签之间的映射关系,也被称为假设函数,之后可利用该假设函数对新数据进行 ...
- Java如何跨语言调用Python/R训练的模型
在 如何使用sklearn进行在线实时预测(构建真实世界中可用的模型) 这篇文章中,我们使用 sklearn + flask 构建了一个实时预测的模型应用.无论是 sklearn 还是 flask,都 ...
- Facebook的GBDT+LR模型python代码实现
承接上篇讲解,本文代码,讲解看上篇 目标:GBDT+LR模型 步骤:GBDT+OneHot+LR 测试数据:iris 代码: 结果比较:与直接GBDT模型的比较 目标:GBDT+LR模型 实现GBDT ...
- XGBOOST + LR 模型融合 python 代码
XGBOOST + LR (XGBOOST grid search) 先留个广告,最近做一个数据挖掘的比赛,主要用的就是 xgboost,等比赛完后年前好好整理代码开源,到时候代码会比下面整份完整. ...
- python ocr中文训练_cnocr: cnocr是用来做中文OCR的Python 3包。cnocr自带了训练好的识别模型,安装后即可直接使用...
English README. cnocr 使用交流QQ群 欢迎扫码加入QQ交流群: 最近更新 [2020.05.29]:V1.2.2 主要变更: 优化了对数字识别的准确度. 优化了模型结构,进一步降 ...
- pythonocr训练模型_cnocr: cnocr是用来做中文OCR的Python 3包。cnocr自带了训练好的识别模型,安装后即可直接使用...
English README. cnocr 使用交流QQ群 欢迎扫码加入QQ交流群: Release Notes Update 2020.04.21: 发布 cnocr V1.1.0 V1.1.0对代 ...
最新文章
- 并发异步处理队列 .NET 4.5+
- boost::math::tools::luroth_expansion用法的测试程序
- 分组数据方差公式_统计学公式
- 图像处理之 opencv 学习---opencv 中的常用算法
- 【312】◀▶ arcpy 常用函数说明
- WebP 在减少图片体积和流量上的效果如何?—— WebP 技术实践分享
- Linux下搭建iSCSI共享存储详细步骤(服务器模拟IPSAN存储)
- java 内部类 作用_java内部类的作用分析
- 【conda】解决 An HTTP error occurred when trying to retrieve this URL.
- python基础语法手册-python语法大全,python语法手册
- MySql 数据库安装、环境变量配置 以及 本地连接
- c语言版本双人贪吃蛇
- 电力设备巡检管理系统
- win7计算机搜索文件搜不到,Win7搜不到文件如何解决?Win7搜不到文件的解决方法...
- C++A类继承B C类_长期投资指数基金到底选择A类收费还是C类收费
- input()函数的简单介绍
- 蓝牙耳机无法与计算机连接,电脑连接蓝牙耳机时无法连接
- Java实现蓝桥杯 九宫幻方
- 基于2017年亚太建模比赛A题数据的多种分类模型评价
- 天蝎项目整机柜服务器技术规格,天蝎项目整机柜服务器技术规范v1.01天蝎项目整机柜服务器技术规范v1.01.pdf...