基于logistic回归的分类模型:

  1. 对于二分类模型,采用基础逻辑回归(logistic regression)
  2. 对于多分类模型,采用多分类逻辑回归

模型要求(针对01 logistic)

假设1:因变量(结局)是二分类变量。
假设2:有至少1个自变量,自变量可以是连续变量,也可以是分类变量。
假设3:每条观测间相互独立。分类变量(包括因变量和自变量)的分类必须全面且每一个分类间互斥。
假设4:最小样本量要求为自变量数目的15倍,但一些研究者认为样本量应达到自变量数目的50倍。
假设5:连续的自变量与因变量的logit转换值之间存在线性关系。
假设6:自变量之间无多重共线性。
假设7:没有明显的离群点、杠杆点和强影响点。

ps. 如何检验假设5-7,并进行Logistics回归

参考: 二分类logistic回归,更新几个常见问题的解决方法

解决问题

逻辑回归的结果一般用于估计某种事物的可能性(“可能性”,而非数学上的“概率”),不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘。

逻辑回归可以用于预测在给定的过程中,系统或产品的故障的可能性。还用于市场营销应用程序,例如预测客户购买产品或中止订购的倾向等。在经济学中它可以用来预测一个人选择进入劳动力市场的可能性,而商业应用则可以用来预测房主拖欠抵押贷款的可能性。则可以根据logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。最初由Boyd 等人开发的创伤和损伤严重度评分(TRISS)被广泛用于预测受伤患者的死亡率,使用逻辑回归 基于观察到的患者特征(年龄,性别,体重指数,各种血液检查的结果等)分析预测发生特定疾病(例如糖尿病,冠心病)的风险。

逻辑回归模型现在同样是很多分类算法的基础组件。

参考:机器学习算法: 逻辑回归的介绍和应用

逻辑回归原理

逻辑回归一种广义线性回归模型,逻辑回归假设因变量 y 服从伯努利分布,在线性回归基础上利用Sigmoid映射函数来实现。其主要用于分类。它在线性回归的基础上加入了sigmoid函数,将线性回归的结果输入至sigmoid函数中,并且设定一个阈值,如果大于阈值为1,小于阈值为0。通过Sigmoid函数引入了非线性因素,因此可以轻松处理0/1分类问题。

标准线性回归:

logistic回归:
核心函数:

具体推导过程:
机器学习算法(二)逻辑回归的原理和实现
逻辑回归原理解释

二元逻辑回归

1. 使用场景

2. 使用方法

利用Spss软件
操作:

Analyze→Regression→Binary Logistic

具体使用方法:
SPSS操作方法:逻辑回归

输出结果分析:
logistic回归分析优点_SPSS统计分析全解析Logistic回归(逻辑回归)

多元逻辑回归

核心: Sigmoid函数 推广为 Softmax函数
Softmax回归——logistic回归模型在多分类问题上的推广

1. 使用场景

在实际应用中,可能还会碰到因变量是多个分类的情况,并且不包含排序信息

2. 使用方法

注意,这里要将几个自变量放到协变量中。

Spss中因子和协变量的区别
因子指分类型变量,例如性别、学历等
协变量指连续型变量,例如面积、重量等

多因素logistic回归分析spss步骤:打开数据,依次点击:analyse–regression–binarylogistic,打开二分回归对话框

具体步骤:多因素logistic回归分析spss步骤

注意事项

a. 交互项的影响

如果想要进行交互作用的分析,同时选中两个自变量,将两个变量的交互作用项选入方程来进行分析。

b.如何确定合适的模型

把数据分为训练组和测试组,用训练组的数据来估计出模
型,再用测试组的数据来进行测试。(训练组和测试组的比
例一般设置为80%和20%)

(注意:为了消除偶然性的影响,可以对上述步骤多重复几次,最
终对每个模型求一个平均的准确率,这个步骤称为交叉验证。)

可在logistic回归模型中加入平方项、交互项等。

c. 分类变量的转化

两种方法
(1)先创建虚拟变量,然后删除任意一列以排除完全多重共线性的影响;
(2)直接点击分类,然后定义分类协变量,Spss会自动帮我们生成。
(如果没有生成虚拟变量这个选项,则说明SPSS没有安装到默认位置)

d. 逐步回归的设置

向前(向后)逐步回归可选择的统计量有所区别。
进入(或者除去)自变量的显著性水平可以自己调节。

c. 连续的自变量与因变量的logit转换值之间存在线性关系

可用Box-Tidwell法检验连续的自变量与因变量的logit转换值之间是否存在线性关系,即将连续自变量与其自然对数值的交互项纳入回归方程。

e. 样本要求

  1. 进行logistic回归分析要求样本量最少要为自变量个数的10-15倍
  2. 对于自变量是定量资料的情况,模型参数的实际意义往往不够明确,最好将其按变量值分成几组再进行logistic回归分析。

f. 过拟合现象

h. 多重共线性

与线性回归一样,Logistic回归模型也需要检验自变量之间是否存在多重共线性。自变量之间的简单相关或多重相关都会产生多重共线性。

容忍度(Tolerance)或方差膨胀因子(VIF)可以用来诊断自变量之间的多重共线性。

如果容忍度(Tolerance)小于0.1或方差膨胀因子(VIF)大于10,则表示有共线性存在。本例中,容忍度均远大于0.1,方差膨胀因子均小于10,所以不存在多重共线性。如果数据存在多重共线性,则需要用复杂的方法进行处理,其中最简单的方法是剔除引起共线性的因素之一,剔除哪一个因素可以基于理论依据。

i. 检测没有明显的离群点、杠杆点和强影响点

j. 对于输出警告的解读


如果遇到了该警告,说明我们的数据中自变量之间存在多重共线性,或者样本中某些类别的观测值较少。
由于我们使用多元逻辑回归是出于分类的目的,因此我们重点因关注分类预测的准确度,这个警告可以忽略。


这个警告说明我们的数据区分度非常高,存在准完全分隔说明样本划分的比较彻底,这一般对于分类结果而言是好事情。

k. 预处理问题

在进行二分类Logistic回归(包括其它Logistic回归)分析前,如果样本不多而变量较多,建议先通过单变量分析(t检验、卡方检验等)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。

即使样本足够大,也不建议直接把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。

详细见:
二分类logistic回归,更新几个常见问题的解决方法

模型评价

1. 模型整体评价

a. 模型系数的综合检验(Omnibus Tests of Model Coefficients):

Omnibus Tests of Model Coefficients是模型系数的综合检验。其中Model一行输出了Logistic回归模型中所有参数是否均为0的似然比检验结果。P<0.05表示本次拟合的模型中,纳入的变量中,至少有一个变量的OR值有统计学意义,即模型总体有意义。

b. Hosmer and Lemeshow Test

Hosmer and Lemeshow Test是检验模型的拟合优度。当P值不小于检验水准时(即P>0.05),认为当前数据中的信息已经被充分提取,模型拟合优度较高。

c. Model Summary表格

Model Summary表格中,提供了因变量的变异能够被拟合的模型解释的比例。该表格包含Cox & Snell R Square和Nagelkerke R Square,这两种R2有时被称为伪R2,在Logistic回归中意义不大(与线性回归中的不同),可以不予关注。

2. 模型预测能力

对于每一个自变量组合,均可以得到结局事件发生的概率。
如果事件发生的概率大于或等于0.5,Logistic回归判断为事件发生;如果可能性小于0.5,则判断为事件未发生。
因此,与真实情况相比,就可以评价Logistic回归模型的预测效果。

Variables in the Equation表格
列出了所有自变量及其参数。其中Sig.一列表示相应变量在模型中的P值,Exp (B)和95% CI for EXP (B)表示相应变量的OR值和其95%可信区间。

参考资料

机器学习算法: 逻辑回归的介绍和应用
机器学习算法(二)逻辑回归的原理和实现
逻辑回归原理解释
SPSS操作方法:逻辑回归
logistic回归分析优点_SPSS统计分析全解析Logistic回归(逻辑回归)
Softmax回归——logistic回归模型在多分类问题上的推广
多因素logistic回归分析spss步骤
二分类logistic回归,更新几个常见问题的解决方法 import

数学建模-分类模型(基于logistic回归)相关推荐

  1. 数学建模-分类模型(SPSS)

    目录 1.简介 2.样例-二元 1.对于预测结果不理想,在logistics模型里加入平方项交互项等. 2.如果自变量有分类变量(如男女,行业有互联网行业.旅游行业--) 3.分训练集.测试集 4.f ...

  2. 误差、梯度下降、概率分类模型、logistic回归笔记

    PS:学习内容来自李宏毅机器学习2019版 误差 误差的来源   平均误差(Average Error)会随着模型复杂增加呈指数上升趋势.更复杂的模型并不能给测试集带来更好的效果,而这些Error的主 ...

  3. 用python计算贷款_Python基于Logistic回归建模计算某银行在降低贷款拖欠率的数据示例...

    本文实例讲述了Python基于Logistic回归建模计算某银行在降低贷款拖欠率的数据.分享给大家供大家参考,具体如下: 一.Logistic回归模型: 二.Logistic回归建模步骤 1.根据分析 ...

  4. R语言限制性立方样条(RCS, Restricted cubic spline)分析:基于logistic回归模型、南非心脏病数据集(South African Heart Disease)

    R语言限制性立方样条(RCS, Restricted cubic spline)分析:基于logistic回归模型.南非心脏病数据集(South African Heart Disease) 目录

  5. python基于logistic回归模型的预测概率和标签信息可视化ROC曲线

    python基于logistic回归模型的预测概率和标签信息可视化ROC曲线 目录 python基于logistic回归模型的预测概率和标签信息可视化ROC曲线

  6. 基于Logistic回归的上市公司ROE预测

    基于Logistic回归的上市公司ROE预测 目录 基于Logistic回归的上市公司ROE预测 前言 基于Logistic回归的上市公司ROE预测 导入相关库 读取并查看数据基本情况 划分自变量与因 ...

  7. 广义线性模型?链接函数?sigmoid和softmax?Logistic处理多分类问题?logistic回归处理超大数据?使用logistic和randomsearch进行组合获取最优参数组合、优缺点

    广义线性模型?链接函数?sigmoid和softmax?Logistic处理多分类问题?logistic回归处理超大数据?使用logistic和randomsearch进行组合获取最优参数组合.优缺点 ...

  8. 机器学习笔记1:基于Logistic回归进行数据预测

    机器学习笔记1:基于Logistic回归进行数据预测 一.背景 近期项目的一个核心部分就是实现对数据的预测,因为没有实际的数据样本,所以我准备近期学习Machine Learning的几种方式,从简单 ...

  9. 数学建模常见模型总结

    数学建模常见模型总结 一.插值 当已有数据量不够,需要补充,且认定已有数据可信时,通常利用函数插值方法. 常用插值方法 拉格朗日插值 分段线性插值 Hermite 三次样条插值 克里金法 matlab ...

最新文章

  1. 无法访问xxx指向的web服务器,请检查网络设置
  2. java的query_Java-Query
  3. PyCharm的高效使用技巧
  4. 栈和队列的Java实现_栈和队列的java简单实现
  5. 分享:When.js 2.0.0 发布,Promises/A 的实现
  6. 【ES6(2015)】Proxy
  7. 软化边硬化边_夏天多给小朋友吃它,蛋白质是牛肉的3倍,老人吃还能软化血管...
  8. requirejs的用法(二)
  9. vn的可变数据类型_可变与不可变数据类型详解
  10. CFS 调度器数据结构篇
  11. java stax_浅谈stax
  12. 【HDLBits刷题】Dff8r
  13. VMware使用OVFTool导出Esxi 6.7.0版本中的虚拟机
  14. pandas使用to_datetime函数将时间字符串转化为时间对象、使用dt.tz_localize为转化后的时间对象添加时区信息(timezone)
  15. c语言中,从键盘输入一个长方体的长宽高,用函数实现求长方体的体积,由主函数调用该函数,要求长方体的长、宽、高从主函数输入,长方体的体积作为函数返回值。
  16. java如何循环输出一个表格,Java编程for循环输出俄文字母表
  17. 拼多多“造血”新农商
  18. latex并排显示多个图片
  19. 耳机不分主从是什么意思_不疯魔不成活!红魔TWS蓝牙耳机告诉你什么是“低延怪兽”...
  20. 视频聊天软件开发技术

热门文章

  1. 全景拍摄不推荐使用全景相机的背后原因
  2. Win10右键菜单“发送到”添加/删除选项的方法
  3. CSP(内容安全策略)防运营商劫持
  4. c语言编程中负1什么意思,C语言中的if(1)是什么意思啊
  5. Bert 源码(pytorch)超详细的解读
  6. 2020 人工智能金炼奖,容联荣登最强AI企业榜单
  7. springboot以FTP方式上传文件到远程服务器
  8. gunicorn的作用
  9. 计算机网络——访问控制列表
  10. 【统计学】参数估计、点估计、区间估计、置信区间