Python中训练LR模型一般使用sklearn包,输出模型报告和其他机器学习方法一样。但从统计背景出发,想看更详细的报告,statsmodel包可以帮助实现。

1.训练模型

import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor#train样本上训练模型y = trainData[y_name]X = trainData[model_list]X['intercept'] = [1] * X.shape[0]LR = sm.Logit(y, X).fit()

2.模型报告

 #LR自带的summary报告,直接输出到excel不方便summary = LR.summary()#查看VIFX_m = np.matrix(X)VIF_list = [variance_inflation_factor(X_m, i) for i in range(X_m.shape[1])]#varname_list = [X.columns[i] for i in range(len(VIF_list))]#计算标准化系数X_new = X.drop(['intercept'],axis = 1)X_new2 = X_new.apply(lambda x: (x - np.mean(x)) / np.std(x))LR_N = sm.Logit(trainData[y_name], X_new2).fit()#wald检验wald_test = LR.wald_test_terms().table#拼接reportmodel_rpt1 = pd.concat([LR.params,LR.pvalues,wald_test['statistic'],LR_N.params],sort = False,axis = 1)model_rpt1.columns = ['params','pvals','wald','normal_params']model_rpt1['VIF'] = VIF_listmodel_rpt1.sort_values(['normal_params'],ascending = True,inplace = True)model_rpt1.fillna(0,inplace = True)#计算模型变量间的相关系数corr = X.drop(['intercept'],axis = 1).corr()corr2 = corr.reset_index()

3.其他

1.statsmodel训练模型过程不涉及筛选变量,所有送进去的模型变量都会参与拟合;
2.LR.predict(X_test) 可以给其他样本打分,其结果是p,而根据系数得到的结果是log(p/1-p)。

Python statsmodel包训练LR模型相关推荐

  1. 使用spark训练LR模型

    最近在工作之余参加了一个CTR预估的比赛,CTR预估是一个成熟又经典的问题,工业界目前使用的主流方案仍然是LR+海量特征.趁着这一次比赛的机会,正好抱着学习的心态尝试着学习用spark集群来训练一下L ...

  2. 【Spark】Spark训练Lr模型,并保存为Pmml

    scala版本spark构建的Lr模型: 一.问题背景   需要构建一个Lr模型来进行物品的Ctr预测. 二.解决方案   由于我们训练的数据量较多,所以首先考虑采用spark来构建模型并测试训练,这 ...

  3. python如何保存训练好的模型_Python机器学习7:如何保存、加载训练好的机器学习模型...

    本文将介绍如何使用scikit-learn机器学习库保存Python机器学习模型.加载已经训练好的模型.学会了这个,你才能够用已有的模型做预测,而不需要每次都重新训练模型. 本文将使用两种方法来实现模 ...

  4. python机器学习算法(赵志勇)学习笔记( Logistic Regression,LR模型)

    Logistic Regression(逻辑回归) 分类算法是典型的监督学习,分类算法通过对训练样本的学习,得到从样本特征到样本的标签之间的映射关系,也被称为假设函数,之后可利用该假设函数对新数据进行 ...

  5. Java如何跨语言调用Python/R训练的模型

    在 如何使用sklearn进行在线实时预测(构建真实世界中可用的模型) 这篇文章中,我们使用 sklearn + flask 构建了一个实时预测的模型应用.无论是 sklearn 还是 flask,都 ...

  6. Facebook的GBDT+LR模型python代码实现

    承接上篇讲解,本文代码,讲解看上篇 目标:GBDT+LR模型 步骤:GBDT+OneHot+LR 测试数据:iris 代码: 结果比较:与直接GBDT模型的比较 目标:GBDT+LR模型 实现GBDT ...

  7. XGBOOST + LR 模型融合 python 代码

    XGBOOST + LR (XGBOOST grid search) 先留个广告,最近做一个数据挖掘的比赛,主要用的就是 xgboost,等比赛完后年前好好整理代码开源,到时候代码会比下面整份完整. ...

  8. python ocr中文训练_cnocr: cnocr是用来做中文OCR的Python 3包。cnocr自带了训练好的识别模型,安装后即可直接使用...

    English README. cnocr 使用交流QQ群 欢迎扫码加入QQ交流群: 最近更新 [2020.05.29]:V1.2.2 主要变更: 优化了对数字识别的准确度. 优化了模型结构,进一步降 ...

  9. pythonocr训练模型_cnocr: cnocr是用来做中文OCR的Python 3包。cnocr自带了训练好的识别模型,安装后即可直接使用...

    English README. cnocr 使用交流QQ群 欢迎扫码加入QQ交流群: Release Notes Update 2020.04.21: 发布 cnocr V1.1.0 V1.1.0对代 ...

最新文章

  1. 并发异步处理队列 .NET 4.5+
  2. boost::math::tools::luroth_expansion用法的测试程序
  3. 分组数据方差公式_统计学公式
  4. 图像处理之 opencv 学习---opencv 中的常用算法
  5. 【312】◀▶ arcpy 常用函数说明
  6. WebP 在减少图片体积和流量上的效果如何?—— WebP 技术实践分享
  7. Linux下搭建iSCSI共享存储详细步骤(服务器模拟IPSAN存储)
  8. java 内部类 作用_java内部类的作用分析
  9. 【conda】解决 An HTTP error occurred when trying to retrieve this URL.
  10. python基础语法手册-python语法大全,python语法手册
  11. MySql 数据库安装、环境变量配置 以及 本地连接
  12. c语言版本双人贪吃蛇
  13. 电力设备巡检管理系统
  14. win7计算机搜索文件搜不到,Win7搜不到文件如何解决?Win7搜不到文件的解决方法...
  15. C++A类继承B C类_长期投资指数基金到底选择A类收费还是C类收费
  16. input()函数的简单介绍
  17. 蓝牙耳机无法与计算机连接,电脑连接蓝牙耳机时无法连接
  18. Java实现蓝桥杯 九宫幻方
  19. 基于2017年亚太建模比赛A题数据的多种分类模型评价
  20. 天蝎项目整机柜服务器技术规格,天蝎项目整机柜服务器技术规范v1.01天蝎项目整机柜服务器技术规范v1.01.pdf...

热门文章

  1. jq insertBefore 的返回值
  2. API 接口分类汇总
  3. 压缩感知重构算法之基追踪(Basis Pursuit, BP)
  4. PostgreSQL的generate_series函数应用
  5. QtCreaotr4K分辨率屏幕显示太小
  6. jupyter中更换工作目录最简单方式
  7. Midjourney入门指南:从零开始学习图形设计
  8. 原子谓词公式和合式公式
  9. JAVA_23种设计模式
  10. 名言警句(看到、听到、认同)