SPSS(十七)SPSS之判别分析进阶(图文+数据集)

为什么会有这些新模型的出现?

  • 树模型结构
  • 神经网络模型

传统模型的局限

  • 任何统计模型都是对现实世界复杂联系的简化
  • 统计理论假设对任何一个随机现象的估计,都可以用下列的通式来表达:
  • Y=f(x, θ)+ε
  • f(x, θ)表示自变量对因变量的影响方式(一般规律),其中θ表示相应的函数中的未知参数(共性特征)
  • ε为对每个个体而言的特殊特征,代表随机变异(个性特征)
  • 统计模型的任务就是尽量精确的估计出f(x, θ)中f()的具体形式,以及θ的相应参数值;根据专业知识和样本信息建立模型假设,然后利用假设检验进行验证,并加以相应的修改;原则:简捷为美
  • 当f()比较简单时,这一分析思路效率较高
  • 但是,当自变量和因变量间的联系为非常复杂的非线性函数,甚至于无法给出显式表达时,这上分析思路就变得非常困难;作为模型的推广,如果自/因变量间的关联为曲线联系,则引入自变量的高次项/交互项加以拟和

我们来看一下实例(饮酒量、年龄对早产的影响)

我么使用传统的Logistic回归模型,得到结果如下

分析结果显示:年龄和饮酒均对新生儿早产有影响,年龄越大、饮酒量越高,早产的可能性越大

模型的总预测正确率为90%以上,但是,这个模型对数据的解释充分吗?
显然是不充分的,没有考虑到交互项的影响

假如我们使用树模型结果会怎么样呢?

由于分别按照自变量取值依次划分样本,如果采用树形图,则可以表示如右:

  • 树图更加直观、方便
  • 结点划分的原则就是使终末结内因变量的分布尽可能一致
  • 所有终末结的样本量之和等于根结样本量

树模型结构

  • 树模型的实质就是根据分析目的,将总研究人群通过某些特征(自变量取值)分成数个相对同质的亚人群。

每个亚人群内部的因变量取值高度一致(同质性高)
而不同亚人群间的因变量取值差异较大(相应的变异尽量落在不同亚人群间)

  • 从方法本质上讲,树模型自然就能处理自/因变量间的复杂联系,适应性更强

树模型常用术语

  • 结(node):一个样本群体在树模型中表示为图中的一个节点,被称为结
  • 根(root):树的起始点(包括所有的观察值)
  • 叶(leaf):树的终止点,也被称为终末节
  • 分杈(split):建立新枝的原则(依据怎样的原则将样本分为不同的亚人群)
  • 种树与剪枝

常见的树模型算法

  • CHAID算法:最为基本和简单,易于理解,但只是能用于分类因变量和自变量间关系的分析
  • 穷举CHAID:SPSS对CHAID算法的一些微改进
  • C&RT:分类树与回归树,是最为常用的树模型算法,可用于任意类型的资料,通常所说的树模型就是指的该算法
  • C 5.0:由C4.5发展而来,更倾向于计算机学
  • QUEST:一种较为复杂的统计模型算法,可提供假设检验的结果,但可实现的软件不多

树模型的优劣势

树模型的优势

  • 树模型会在所有的自变量中按照贡献的大小依次挑出自变量进入分析,因此可以自动处理大量的自变量
  • 许多树模型算法均为非参数方法,因此没有太多的适用条件限制,应用范围更广,也更适合于对对各种复杂的联系进行分析

树模型的劣势

  • 不能对影响因素的作用大小进行精确的定量描述
  • 对于线性关联、无交互作用时的分析效果不如普通统计模型
  • 需要较大的样本量才能保证逐层细分后单元格内仍能有充分的样本数
  • 对于结果的解释和应用过于灵活,没有严格的标准可循

案例:鸢尾花

Fisher在研究有关判别分析方法的时候所使用的资料,包含了刚毛、变色、弗吉尼亚这三种鸢尾花的花萼长、宽和花瓣长、宽,分析目的是希望能够使用这4个变量来对花的种类进行区分。

数据集如下

1.0  1.0 50.0    33.0    14.0    2.0
2.0 3.0 67.0    31.0    56.0    24.0
3.0 3.0 89.0    31.0    51.0    23.0
4.0 1.0 46.0    36.0    10.0    2.0
5.0 3.0 65.0    30.0    52.0    20.0
6.0 3.0 58.0    27.0    51.0    19.0
7.0 2.0 57.0    28.0    45.0    13.0
8.0 2.0 63.0    33.0    47.0    16.0
9.0 3.0 49.0    25.0    45.0    17.0
10.0    2.0 70.0    32.0    47.0    14.0
11.0    1.0 48.0    31.0    16.0    2.0
12.0    3.0 63.0    25.0    50.0    19.0
13.0    1.0 49.0    36.0    14.0    1.0
14.0    1.0 44.0    32.0    13.0    2.0
15.0    2.0 58.0    26.0    40.0    12.0
16.0    3.0 63.0    27.0    49.0    18.0
17.0    2.0 50.0    23.0    33.0    10.0
18.0    1.0 51.0    38.0    16.0    2.0
19.0    1.0 50.0    30.0    16.0    2.0
20.0    3.0 64.0    28.0    56.0    21.0
21.0    1.0 51.0    38.0    19.0    4.0
22.0    1.0 49.0    30.0    14.0    2.0
23.0    2.0 58.0    27.0    41.0    10.0
24.0    2.0 60.0    29.0    45.0    15.0
25.0    1.0 50.0    36.0    14.0    2.0
26.0    3.0 58.0    37.0    51.0    19.0
27.0    3.0 64.0    28.0    56.0    22.0
28.0    3.0 63.0    28.0    51.0    15.0
29.0    2.0 62.0    22.0    45.0    15.0
30.0    2.0 61.0    30.0    46.0    14.0
31.0    2.0 56.0    25.0    39.0    11.0
32.0    3.0 68.0    32.0    59.0    23.0
33.0    3.0 62.0    34.0    54.0    23.0
34.0    3.0 67.0    33.0    57.0    25.0
35.0    1.0 55.0    35.0    13.0    2.0
36.0    2.0 64.0    32.0    45.0    15.0
37.0    3.0 59.0    30.0    51.0    18.0
38.0    3.0 64.0    32.0    53.0    23.0
39.0    2.0 54.0    30.0    45.0    15.0
40.0    3.0 67.0    33.0    57.0    21.0
41.0    1.0 44.0    30.0    13.0    2.0
42.0    1.0 47.0    32.0    16.0    2.0
43.0    3.0 72.0    32.0    60.0    18.0
44.0    3.0 61.0    30.0    49.0    18.0
45.0    1.0 50.0    32.0    12.0    2.0
46.0    1.0 43.0    30.0    11.0    1.0
47.0    2.0 67.0    31.0    44.0    14.0
48.0    1.0 51.0    35.0    14.0    2.0
49.0    1.0 50.0    34.0    16.0    4.0
50.0    2.0 57.0    26.0    35.0    10.0
51.0    3.0 77.0    30.0    61.0    23.0
52.0    2.0 57.0    29.0    42.0    13.0
53.0    2.0 65.0    26.0    46.0    15.0
54.0    1.0 46.0    34.0    14.0    3.0
55.0    2.0 59.0    32.0    48.0    18.0
56.0    2.0 60.0    27.0    51.0    16.0
57.0    3.0 65.0    30.0    55.0    18.0
58.0    1.0 51.0    33.0    17.0    5.0
59.0    3.0 77.0    36.0    67.0    22.0
60.0    3.0 76.0    30.0    66.0    21.0
61.0    3.0 67.0    30.0    52.0    23.0
62.0    2.0 61.0    28.0    40.0    13.0
63.0    2.0 55.0    24.0    38.0    11.0
64.0    1.0 52.0    34.0    14.0    2.0
65.0    3.0 79.0    36.0    64.0    20.0
66.0    1.0 50.0    35.0    16.0    6.0
67.0    3.0 77.0    28.0    67.0    20.0
68.0    2.0 55.0    26.0    44.0    12.0
69.0    1.0 48.0    30.0    14.0    3.0
70.0    1.0 48.0    34.0    19.0    2.0
71.0    3.0 61.0    26.0    56.0    14.0
72.0    1.0 58.0    40.0    12.0    2.0
73.0    3.0 62.0    28.0    48.0    18.0
74.0    2.0 56.0    30.0    45.0    15.0
75.0    1.0 46.0    32.0    14.0    2.0
76.0    1.0 57.0    44.0    15.0    4.0
77.0    3.0 68.0    34.0    58.0    24.0
78.0    3.0 72.0    30.0    58.0    16.0
79.0    1.0 54.0    34.0    15.0    4.0
80.0    3.0 64.0    31.0    55.0    18.0
81.0    2.0 49.0    24.0    33.0    10.0
82.0    1.0 55.0    42.0    14.0    2.0
83.0    3.0 60.0    22.0    50.0    15.0
84.0    2.0 52.0    27.0    39.0    14.0
85.0    1.0 44.0    29.0    14.0    2.0
86.0    2.0 58.0    27.0    39.0    12.0
87.0    3.0 69.0    32.0    57.0    23.0
88.0    2.0 59.0    30.0    42.0    15.0
89.0    3.0 56.0    26.0    49.0    20.0
90.0    3.0 67.0    25.0    58.0    18.0
91.0    2.0 63.0    23.0    44.0    13.0
92.0    2.0 63.0    25.0    49.0    15.0
93.0    2.0 51.0    25.0    30.0    11.0
94.0    3.0 69.0    31.0    54.0    21.0
95.0    3.0 72.0    36.0    61.0    25.0
96.0    2.0 56.0    29.0    36.0    13.0
97.0    3.0 68.0    30.0    55.0    21.0
98.0    1.0 48.0    30.0    14.0    1.0
99.0    1.0 57.0    38.0    17.0    3.0
100.0   2.0 66.0    30.0    44.0    14.0
101.0   1.0 51.0    37.0    15.0    4.0
102.0   2.0 67.0    30.0    50.0    17.0
103.0   1.0 52.0    41.0    15.0    1.0
104.0   3.0 60.0    30.0    48.0    18.0
105.0   2.0 56.0    27.0    42.0    13.0
106.0   1.0 49.0    31.0    15.0    2.0
107.0   1.0 54.0    39.0    17.0    4.0
108.0   2.0 60.0    34.0    45.0    16.0
109.0   2.0 50.0    20.0    35.0    10.0
110.0   1.0 47.0    32.0    13.0    2.0
111.0   2.0 62.0    29.0    43.0    13.0
112.0   1.0 51.0    34.0    15.0    2.0
113.0   2.0 60.0    22.0    40.0    10.0
114.0   1.0 49.0    31.0    15.0    1.0
115.0   1.0 54.0    37.0    15.0    2.0
116.0   2.0 61.0    28.0    47.0    12.0
117.0   2.0 57.0    28.0    41.0    13.0
118.0   1.0 54.0    39.0    13.0    4.0
119.0   3.0 65.0    32.0    51.0    20.0
120.0   2.0 69.0    31.0    49.0    15.0
121.0   2.0 55.0    25.0    40.0    13.0
122.0   1.0 45.0    23.0    13.0    3.0
123.0   1.0 51.0    38.0    15.0    3.0
124.0   2.0 68.0    28.0    48.0    14.0
125.0   1.0 52.0    35.0    15.0    2.0
126.0   3.0 63.0    33.0    60.0    25.0
127.0   3.0 71.0    30.0    59.0    21.0
128.0   3.0 63.0    29.0    58.0    18.0
129.0   2.0 57.0    30.0    42.0    12.0
130.0   3.0 77.0    26.0    69.0    23.0
131.0   2.0 66.0    29.0    46.0    13.0
132.0   1.0 50.0    34.0    15.0    2.0
133.0   2.0 55.0    24.0    37.0    10.0
134.0   1.0 46.0    31.0    15.0    2.0
135.0   3.0 74.0    28.0    61.0    19.0
136.0   1.0 50.0    35.0    13.0    3.0
137.0   3.0 73.0    29.0    63.0    18.0
138.0   2.0 67.0    31.0    47.0    15.0
139.0   2.0 56.0    30.0    41.0    13.0
140.0   2.0 64.0    29.0    43.0    13.0
141.0   3.0 65.0    30.0    58.0    22.0
142.0   1.0 51.0    35.0    14.0    3.0
143.0   2.0 61.0    29.0    47.0    14.0
144.0   3.0 64.0    27.0    53.0    19.0
145.0   1.0 48.0    34.0    16.0    2.0
146.0   3.0 57.0    25.0    50.0    20.0
147.0   2.0 55.0    23.0    40.0    13.0
148.0   1.0 54.0    34.0    17.0    2.0
149.0   3.0 58.0    28.0    51.0    24.0
150.0   1.0 53.0    37.0    15.0    2.0

我们选择C&RT方法,假如是CHAID方法的话,自/因变量都 需要为分类变量,当然我们扔进连续型的自变量也可以,spss会将其变为有序分类变量进行分析

我们还可以看一下自变量对模型的重要性

还可以验证模型的判别效果(交互验证--刀切法)

还可以设置节点最少包含多少个样本

我们也可以根据条件进行剪枝防止过拟合

选项还可以设置误分类成本、利润等

风险:交叉验证模型会存在5.3%的误判可能 ,这个结果没有典型的判别分析好,因为对于线性关联、无交互作用时的分析效果不如普通统计模型

具体分类的情况

假如我们自变量很多的情况下,可以按照这个选变量入模型

重要性:绝对重要性,变量对模型的重要程度

标准化的重要性:相对第一个自变量的重要性,这是相对重要性

神经网络模型

神经网络概述

  • 为了能快速,高效地对变量间的复杂联系进行分析,人们借鉴了神经元间连接的特性,创造了神经网络技术用于解决此问题
  • 是近年来计算机科学、信息科学和医学交互发展形成的一门边缘学科,其实质就是人工智能研究,即利用计算机强大的计算能力来模拟动物的神经网络的信息传递过程
  • 是由大量处理单元(神经元)互相连接组成的大规模、非线性、自适应动力学系统,具有自组织、自适应、自学习的能力

与传统统计学方法的比较

  • 没有任何对变量的假设要求
  • 通过模拟人的智能行为处理一些复杂的、不确定的、非线性的问题,处理非线性问题的能力一般高于传统统计分析方法 ;简而言之,就是自动而又尽量精确的近似给出f(x, θ)的表达式;因其可以精确的逼近各种复杂联系,故预测效果必然会优于更为简单化的logistic回归、判别分析等模型
  • 具有一定的容错性
  • 为处理模糊的、数据不完全的、模拟的、不精确的模式识别提供了一个全新的途径;类似于一个灰箱系统,用户只需给出输入信息,不需要关心内部的具体设置和操作,即可得到相应的输出;
  • 现在应用较多的是BP(BackPropagation network)网络,绝大部分文献也均为BP网络的研究

BP网络的结构和原理

  • 误差反向传播算法( Back Propagation Algorithms ) 为学习方法
  • 学习过程由正向传播(工作信号)和反向传播(误差信号)组成

隐藏层一层够了吗?是不是越多越好?

1957年,Kolmogorov提出了连续函数表示定理:任何一个连续函数都可以用有限个单变量函数的有限次复合精确表达。
大量研究表明,实际工作中的大部分问题,都可以用一个隐含层的BP网络来逼近(只要隐单元数足够)
而一个三层的BP网络已可以完成任意复杂关联的分析问题
当然,所需要的训练时间也是惊人的

用一幅图来形容神经网络是如何工作的,找近似分界面(神经网络找到5条很简单的线来模拟判别,而不是去算出一个表达式)

神经网络的几个严重误解

  • 训练过度问题:操作不当会过拟合
  • 样本量问题:验证集、训练集、训练集
  • 网络层数和参数问题:一般隐藏层层数一层就够了,参数默认即可

推广应用的主要困难总结

  • 神经网络只能给出自变量在预测中的重要程度,却难以刻画出自变量/因变量间的直接关系。虽然理论上使用者可以确切推断出所有神经元间的联系如何,但实际上很难做到,而且这些关系也往往难以解释
  • 训练过度(Over training)问题实质上一直没能得到有效解决
  • 由于是人工智能方法,现有神经网络技术对硬件的要求较高,使得复杂大样本的计算受到限制,无法大量推广;已变成次要矛盾,现在计算机已经很厉害了

多层感知器(BP神经网络):更精确,不过耗时长

径向基函数:时效性高,不过准确性没那么高

可以设置验证集、训练集、测试集比例

也可以自定义隐藏层

输出勾选上自变量的重要性(其实和判别分析结果一致)

这幅图不能观察多太多的信息,主要是证明确实我们做了神经网络模型,而不是忽悠人的

后年这些就和判别分析结果一样了

总结

对于树模型和神经网络模型,假如不涉及自变筛选只做预测,树模型和神经网络可以一试,但是在科研中尽量少用

补充--最近邻元素

最近邻元素既可以做判别分析,也可以做聚类方法

有因变量:判别分析

无因变量:聚类

SPSS(十七)SPSS之判别分析进阶(图文+数据集)相关推荐

  1. SPSS(十六)SPSS之判别分析(图文+数据集)

    SPSS(十六)SPSS之判别分析(图文+数据集) 判别分析又称"分辨法",是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法. 聚类分析 ...

  2. SPSS(六)SPSS之回归分析衍生方法(图文+数据集)

    SPSS(六)SPSS之回归分析衍生方法(图文+数据集) 我们知道线性回归是有适用条件的 因变量的独立性 正态性 方差齐性 无极端值 自变量.因变量要有线性趋势 假如不满足以上的条件,还能做回归分析吗 ...

  3. SPSS(九)Logistic模型族进阶(图文+数据集)

    SPSS(九)Logistic模型族进阶 我么们知道logistic回归针对的是二分类的因变量 当因变量是无序多分类和有序多分类的情况呢?所以这篇博客介绍下面两种方法 无序多分类Logistic回归模 ...

  4. (转载)SPSS之聚类分析(图文+数据集)

    SPSS之聚类分析(图文+数据集) 聚类分析简介 按照个体(记录)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性,而类别之间则具有尽可能高的异质性. 为了得到比较合理的分类,首先要采用适当的 ...

  5. SPSS(十九)SPSS之时间序列模型(图文+数据集)

    SPSS(十九)SPSS之时间序列模型(图文+数据集) 时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列.正如人们常说,人生的出场顺序很重要,时间序列中隐藏着一些过去与未来的关系. ...

  6. SPSS(十一)SPSS信息浓缩技术--主成分分析、因子分析(图文+数据集)

    SPSS(十一)信息浓缩技术--主成分分析.因子分析(图文+数据集) 当我们的自变量存在多重共线性,表现为进行回归时候方程系数估计不正常以及方程检验结果不正常,也许我们可以使用变量挑选的办法(手动挑选 ...

  7. SPSS(十二)SPSS对应分析(图文+数据集)

    SPSS(十二)SPSS对应分析(图文+数据集) 对应分析的介绍 对应分析其实是对分类变量进行信息浓缩的方法,之前的主成分分析/因子分析针对的是连续型的变量 分析分类变量间关系时 卡方检验只能给出总体 ...

  8. SPSS(五)SPSS之相关分析与线性回归模型(图文+数据集)

    SPSS(五)SPSS之相关分析与线性回归模型(图文+数据集) 在讲解线性回归模型之前,先来学习相关分析的知识点,因为相关分析与回归有着密切的联系 相关分析 任意多个变量都可以考虑相关问题,不单单局限 ...

  9. (转载)SPSS之相关分析与线性回归模型(图文+数据集)

    SPSS之相关分析与线性回归模型(图文+数据集) 在讲解线性回归模型之前,先来学习相关分析的知识点,因为相关分析与回归有着密切的联系 相关分析 任意多个变量都可以考虑相关问题,不单单局限于两个变量,一 ...

最新文章

  1. Linux 在 linux 中搭建 FTP 服务
  2. 常见的前端vue面试题
  3. batch spring 重复执行_Spring源码高级笔记之——Spring AOP应用
  4. 集群资源分配_分析下 Node.js 关于集群的那些事
  5. window-memcache技术随笔
  6. 【mongoDB运维篇③】replication set复制集
  7. 在vscode上编写jsp_使用vscode高效编写博客园博客
  8. 【超详细教程】如何使用TypeScript和GraphQL开发应用
  9. Vue父子组件间的通信
  10. Spring整合Redis详解
  11. UNIX/Linux 系统管理技术手册阅读(二)
  12. 深入研究微服务架构——第二部分
  13. 使用Python编写一个聪明的尼姆游戏
  14. zookeeper管理mysql_Mysql系列九:使用zookeeper管理远程Mycat配置文件、Mycat监控、Mycat数据迁移(扩容)...
  15. error LNK2001的一些原因
  16. 无法访问网内计算机错误代码,电脑局域网无法访问共享ox80070035错误代码解决方法...
  17. pppo服务器光信号亮红灯,光纤猫光信号闪红灯不能上网怎么办
  18. PHP后端入门(一):实现前后端交互
  19. 4.9冰箱的温度c语言,话说夏天冰箱温度调到多少度为最佳?
  20. 慈溪视频软件测试,慈溪论坛

热门文章

  1. 夜神模拟器的安装和使用
  2. 荣耀play4t手机怎么样 荣耀play4tpro手机怎么样
  3. centos 配置证书_如何在CentOS 8上设置和配置证书颁发机构(CA)
  4. p39 8.由以下三个集合,集合成员分别是会Python、C、Java的人员。
  5. 【USACO 2007 February Silver】农场派对
  6. php把文字写到图片生成
  7. 情感分类——Attention(前篇续)
  8. Word文档或PDF转图片
  9. 计算机视觉学习6_棋盘格_相机模型与参数标定
  10. android 仿微信聊天气泡显示图片,怎么实现微信聊天时的气泡图(一)