分类模型

  • 分类问题的基本概念
  • 逻辑斯蒂回归(Logistic)
  • Fisher线性判别分析
  • 多分类问题的SPSS求解

分类问题的基本概念

分类问题概述:对于给定的一个对象,根据其特征将其划分到多个已给定的类别中的一个。

二分类和多分类:给定的类别有多少个就是几分类。如果有两个类别则称为二分类,如果有多个(两个以上)类别则称为多分类。

分类问题的预处理-创建虚拟变量

  • 必须的预处理:创建虚拟变量的过程也就是将分类变量转换成数字进行表示。这是处理分类问题必须的数据预处理过程。
  • SPSS创建虚拟变量

打开SPSS并导入数据后如图所示点击:转换→创建虚变量


在如下所示的窗体右上方选择需要创建虚拟变量的分类变量,下方根名称处填写虚拟变量的名称。选择需要创建虚拟变量的变量→给虚拟变量组命名

最后,分类变量可以取多少个值,就会生成多少个虚拟变量,每个虚拟变量占据新的一列。

清除掉多余的虚拟变量,并给保留的虚拟变量重命名。清除过程略,给虚拟变量重命名只需要打开左下角的变量视图,然后在里面双击变量名修改即可。

逻辑斯蒂回归(Logistic)

逻辑回归模型的基本思想:把因变量视为分类变量的概率,大于0.5表示事件发生,否则认为事件不发生。由此得到的模型称为线性概率模型(LPM)。线性概率模型的基本形式与多元线性回归模型的基本形式相同。但是由于因变量的取值范围只能是[0,1],因此需要借助连接函数将因变量的范围进行压缩。

连接函数:常用的连接函数有两种,分别是标准正态分布的累积密度函数和Sigmoid函数,分别对应的两种回归方式是Probit回归和逻辑斯蒂回归。但是由于逻辑斯蒂回归有解析表达式,所以该模型更加方便。

逻辑斯蒂模型的求解方法:模型可以通过极大似然估计法进行参数求解。

SPSS建立并求解逻辑斯蒂回归模型

1.打开SPSS并导入数据,依次点击:分析→回归→二元Logistic


2.在新窗体中分别选择好因变量和协变量,其中协变量就是指自变量。窗口中的”方法“部分可以选择回归的方法,具体选择哪个没有确定的准则,可以都尝试一下。


3.如果自变量中存在定性变量且没有手动生成虚拟变量,则需要点击窗体右边的“分类”按钮,在如下所示的窗体中将定性变量移动到右边。

  1. 保存选项中对应需要输出并放在原始表格中的结果。
  • 概率:表示逻辑斯蒂回归模型函数求解出的预测值,是一个小数。
  • 组成员:表示逻辑斯蒂回归模型的分类结果。

5.在“选项”按钮菜单中可以设置最大迭代次数和分类临界值。分类临界值一般设置为0.5(默认),增大最大迭代次数高可能会提高模型准确率。

6.“自助抽样”方法是指在样本数很少的情况下通过对原始样本的重复使用来扩大样本集,一般不使用。

SPSS逻辑斯蒂回归结果解读

  • 分类表:表示各类的预测正确率。
  • 方程中的变量:表示逻辑斯蒂回归模型的各个回归系数(B所在列)以及对应的显著性。一般认为显著性小于0.05的是显著的,因此width height和 color_score是显著的。

逻辑回归模型预测成功率低的优化方法:在原始模型中增加自变量,自变量可以是原始自变量的平方项、交互项等。但是这种方法可能会导致过拟合问题,需要使用交叉验证进行检验。

SPSS增加自变量的方法

  • 打开导入了数据的SPSS表格,依次点击:转换→计算变量

  • 在新的窗体中定义新自变量的名称和计算公式:

Fisher线性判别分析

Fisher线性判别分析基本思想:给定训练集样例,设法将样例投影到一维的直线上,使得同类样例的投影点尽可能接近和密集,不同类投影点尽可能远离。

SPSS进行Fisher线性判别分析

1.打开导入了数据集的SPSS软件,依次点击:分析→分类→判别式

2.选择因变量和自变量,过程与逻辑斯蒂回归模型的使用类似。但是,需要给因变量定义范围。

3.在”统计“按钮菜单中,勾选”费希尔“和”未标准化“。

4.在“分类”选项菜单中勾选摘要表,用于记录分类结果。

5.在“保存”按钮菜单中勾选预测组成员和组成员概率。

SPSS进行Fisher线性判别分析的结果

  • 典型判别函数系数表

  • 分类结果表格:记录了分类的准确率等信息。

  • 分类函数系数:也称为贝叶斯判别函数系数。可以将各个样本的参数代入不同类的分类函数,所得到的函数值最大的一类就是该样本的分类结果。

多分类问题的SPSS求解

使用Fisher线性判别分析求解多分类问题:在求解二分类问题的基础上,修改因变量的取值范围即可。

使用逻辑斯蒂回归求解多分类问题:将Sigmoid函数推广到Softmax函数即可用于逻辑斯蒂的多分类问题。在SPSS中依次点击:分析→回归→多元Logistic

使用方法和二元Logistic方法类似。

数学建模学习笔记(13)分类模型相关推荐

  1. 清风数学建模学习笔记——K-means聚类模型详解及SPSS操作流程

    聚类模型   聚类模型,就是将样本划分为有类似的对象组成的多个类的过程.聚类后,我们可以更加准确的在每个类中单独使用统计模型进行估计.分析或预测:也可以探究不同类之间的相关性和主要差异.此外,聚类与分 ...

  2. 数学建模学习笔记——模糊综合评价模型(评价类,发放问卷一般不用)

             二氧化硫在每一个等级(I级 II级 III级 IV级)中的隶属度  专家判断因素集的权重

  3. 数学建模学习笔记(1)数学模型的特点和分类

    数学建模学习笔记(1)数学模型的特点和分类 ps:学习的教材为姜启源著的<数学模型(第四版)> 领取数模资料和更多内容请关注公众号:拾壹纪元 传送门: 线性规划(LP)问题 https:/ ...

  4. 数学建模学习笔记之评价问题聚类分析法

    数学建模学习笔记之评价问题聚类分析法 物以类聚.人以群分. 聚类分析是一个很大的概念,显然根据分类的依据不同会出现很多很多聚类的方法.例如K-Means .Sequential Leader.Mode ...

  5. 数学建模_随机森林分类模型详解Python代码

    数学建模_随机森林分类模型详解Python代码 随机森林需要调整的参数有: (1) 决策树的个数 (2) 特征属性的个数 (3) 递归次数(即决策树的深度)''' from numpy import ...

  6. 【数学建模学习笔记【集训十天】之第六天】

    数模学习目录 Matplotlib 学习 Matplotlib简介 Matplotlib 散点图 运行效果如下: Matplotlib Pyplot 运行效果如下: 关于plot() 运行效果如下: ...

  7. 数学建模学习笔记(2.3)lingo软件求解线性规划问题

    数学建模学习笔记(2.3)lingo软件求解线性规划问题 lingo软件的优势在于体积小,专注于解决优化问题 且编程语言通俗易懂,没有门槛 对于刚刚接触数学建模同学比较友善 当然对于已经参与建模很久的 ...

  8. 数学建模学习笔记(八)——分类模型

    文章目录 一.分类模型综述 二.逻辑回归 三.两点分布(伯努利分布) 四.连接函数的取法 五.Logistic回归模型 六.在SPSS中进行二元Logistic回归 七.预测结果较差的解决 八.Fis ...

  9. 数学建模学习笔记(二):非线性规划模型例题与灵敏度分析

    文章目录 前言 一.一个简单的非线性规划模型 二.问题的求解 1.模型的建立与求解 2.得出结论 三.灵敏度分析 总结 参考书目 前言 数学建模解决问题的过程一般分为五个步骤,称为五步方法,五个步骤如 ...

最新文章

  1. 在wamp环境下面安装Zend Optimizer的方法
  2. 2.11 linux的软防火墙apf安装配置
  3. 【循序渐进学Python】7.面向对象的核心——类型(上)
  4. python字典的setdefault方法和get方法
  5. cd mysql 权限不够_.bash_profile权限不够_cdmysql权限不够
  6. 第十九期:程序员节,女朋友偷偷送了我这个...
  7. 06 iOS 关闭侧滑返回
  8. 在shell中获取当前机器的ip地址
  9. 【计算机网络】1.1 计算机网络的基本概念
  10. linux进程管理概念,Linux教程之进程的概念和进程管理命令的使用
  11. Mac上 安装Drozer 并使用
  12. 数据权属界定面临的问题困境与破解思路
  13. 解决OneNote无法联网
  14. Android实现身份证号码验证
  15. STM32—串口通讯详解
  16. 吴恩达 深度神经网络,吴恩达神经网络课程
  17. linux查找不到kde桌面,观点|KDE Plasma 5 —— 给尚未确定桌面环境的 Linux 用户指明道路...
  18. [附源码]java毕业设计流浪宠物免费领养系统
  19. 【COGS2652】秘术「天文密葬法」(长链剖分,分数规划)
  20. re_mysql_20221210

热门文章

  1. 请把学生名与考试分数录入到Map中,并按分数显示前三名成绩学员的名字
  2. 查询哪些车辆转发到国标
  3. 【Docker应用篇】DockerRegistry镜像私服
  4. 2022年高压电工模拟考试及高压电工作业模拟考试
  5. 系统自带邮件添加163、学生edu邮箱@stu.hebut.edu.cn【Mac】
  6. 中国纳米抛光浆料行业未来产销需求与投资策略建议报告2022版
  7. openwrt udp服务器_VOS 安装服务器软硬件配置需求媒体转发
  8. python报错及解决办法汇总
  9. canal+springboot
  10. 阿里云启动天池医疗AI大赛 挑战早期肺癌诊断