利用Scikit-Learn对以下数据集进行逻辑回归分析。首先进行特征筛选,特征筛选的方法很多,主要包含在Scikit-Learn的feature-selection库中,比较简单的有通过F检验(f_regression)来给出各个特征的F值和p值,从而可以筛选变量(选择F值大的或者p值小的特征)。其次有递归特征消除(Recursive Feature Elimination, RFE)和稳定性选择(Stability Selection)等比较新的方法。这里使用了稳定性选择方法中的随机逻辑回归进行特征筛选,然后利用筛选后的特征建立逻辑回归模型,输出平均正确率,代码如下:

代码来源: Python数据分析与挖掘实战

#-*- coding: utf-8 -*-import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression as LR
from sklearn.linear_model import RandomizedLogisticRegression as RLRfilename = '../data/bankloan.xls'
data = pd.read_excel(filename)x = data.iloc[:,:8].as_matrix()  #自变量;data.iloc[:,:8]取除违约列的数据,官方文档说明as_matrix()方法将会在pandas 0.23.0开始被values()代替,as_matrix()这里将所有记录转换为数组表示
y = data.iloc[:,8].as_matrix()     #data[:,8]只取违约列的数据; y在这里做为逻辑回归的因变量,取值只能为0,1rlr = RLR()    #建立随机逻辑回归模型,筛选变量
rlr.fit(x, y)    #训练模型rlr.get_support(indices=True)   #获取特征筛选结果:返回为True的索引[2 3 5 6];也可以用.score_方法获取各个特征的分数print(u'通过随机逻辑回归模型筛选特征结束')
print(u'有效特征为: %s' % ','.join(data.columns[rlr.get_support(indices=True)]))     #','.join(...)表示后面的各个元素以逗号分割, data.columns: Index([u'年龄', u'教育', u'工龄', u'地址', u'收入', u'负债率', u'信用卡负债', u'其他负债', u'违约'], dtype='object')x = data[data.columns[rlr.get_support(indices=True)]].as_matrix()     #筛选好特征lr = LR()    #建立逻辑货柜模型
lr.fit(x, y)    #用筛选后的特征数据来训练模型
print(u'逻辑回归模型训练结束。')
print(u'模型的平均正确率为: %s' % lr.score(x, y))    #给出模型的平均正确率,本例为81.4%

返回值:

通过随机逻辑回归模型筛选特征结束
有效特征为: 工龄,地址,负债率,信用卡负债
逻辑回归模型训练结束。
模型的平均正确率为: 0.8142857142857143

挖掘建模-分类与预测-回归分析-逻辑回归相关推荐

  1. 【Python数据分析】数据挖掘建模——分类与预测——回归分析

    根据挖掘目标和数据形式可以建立分类与预测.聚类分析.关联规则.时序模型.离群点检测等模型.首先介绍一下分类与预测模型. 一.分类预测模型实现过程 分类模型主要是预测分类编号,预测模型主要是建立连续值函 ...

  2. 挖掘建模-分类与预测-决策树

    代码来源:Python数据分析与挖掘实战 分析数据: #-*- coding: utf-8 -*- #使用ID3决策树算法预测销量高低import pandas as pd from sklearn. ...

  3. 分类任务如何用逻辑回归实现_【机器学习面试总结】—— LR(逻辑回归)

    逻辑回归是一个非常经典的算法,其中也包含了非常多的细节,曾看到一句话:如果面试官问你熟悉哪个机器学习模型,可以说 SVM,但千万别说 LR,因为细节真的太多了. 1. 模型介绍 Logistic Re ...

  4. 分类问题常用算法——逻辑回归原理

    逻辑回归模型算是机器学习的一种基本方法,但也有很多细节.本篇文章从原理入手,力求化繁为简,如有错漏,烦请指正. 什么是逻辑回归: 逻辑回归是一种分类模型.给定输入X, 可以将Y的条件概率P(Y|X)形 ...

  5. 【数学建模】统计领域的逻辑回归(分类变量相关性检验、优势比OR、包含分类变量的多元逻辑回归)

    统计领域的逻辑回归 0 指导方针 1 分类变量之间的相关性检验 1.1 分类变量相关性的示例 1.2 列联表分析 1.3 信用风险建模案例 1.3.1 制作两分类变量交叉表并求解交叉频率 1.3.2 ...

  6. 逻辑回归分类python实例_Python逻辑回归原理及实际案例应用

    前言 目录 1. 逻辑回归 2. 优缺点及优化问题 3. 实际案例应用 4. 总结 正文 在前面所介绍的线性回归, 岭回归和Lasso回归这三种回归模型中, 其输出变量均为连续型, 比如常见的线性回归 ...

  7. 数学建模-分类模型(基于logistic回归)

    基于logistic回归的分类模型: 对于二分类模型,采用基础逻辑回归(logistic regression) 对于多分类模型,采用多分类逻辑回归 模型要求(针对01 logistic) 假设1:因 ...

  8. DSML_分类算法笔记之逻辑回归模型

    其他相关文章 DS&ML_关联分析笔记 DS&ML_分类算法笔记之支持自动机SVM模型 DS&ML_分类算法笔记之随机森林.梯度提升树.XGBoost模型 DS&ML_ ...

  9. 降维后输入分类器分类时报错_逻辑回归解决多分类方法及其优缺点分析

    众所周知,逻辑回归常用于解决二分类任务,但是在工作/学习/项目中,我们也经常要解决多分类问题.本文总结了 3 种逻辑回归解决多分类的方法,并分析了他们的优缺点. 一.One-Vs-Rest 假设我们要 ...

最新文章

  1. RNA-seq分析流程
  2. 2017年深度学习重大研究进展全解读
  3. 使用ifconfig取出网卡eth0的ip地址-看看你有多少方法 ?
  4. php抓取页面400错误
  5. ConcurrentHashMap和Collections.synchronizedMap(Map)的区别是什么?
  6. 蚂蚁之江要退地?官方回应:假的
  7. ireport +jasperreport 中文不能显示
  8. Linux版MySQL下载教程
  9. 探索Bitmap使用姿势
  10. pale moon 最新版中文包安装方法
  11. XXE漏洞(XML外部实体注入)
  12. 5G NR的新特征—超低时延
  13. 基本概念学习(9013)---通用寄存器、机器字长、数据通路
  14. 编辑器如何加载多张图片
  15. IOS防破解 加密
  16. 32位ARM核单片机XL32F003开发板可替代STM32、华大、GD,脚位兼容
  17. trans系列平移距离模型
  18. 通用贷款计算器js 计算方法
  19. AOP 主要应用场景
  20. Python从网易云音乐、QQ 音乐、酷狗音乐等搜索和下载歌曲

热门文章

  1. C/C++:读写文件
  2. C++:两种类实例化
  3. 编译C/C++为dll供Python调用
  4. StyleGAN如何定制人脸生成
  5. [实验流体力学][Matlab] pi 定理的应用
  6. 四轴码垛机器人配件_四轴码垛机器人的应用范围
  7. ios保存gif到相册_如何在iOS中保存和下载GIF图片
  8. python oled_用官方的SSD1306.py 驱动 OLED
  9. 后端代码之服务端 - 项目工程化创建目录启动服务 -讲解篇
  10. phpcms authkey生成算法问题导致authkey泄露