一文学会SPSS软件

语法

变量命名：不能包含空白不能以数字开头不能用$ 最后一个字符不能以.或者__结束、不能以保留字为命名即for等
可以为汉语、英文名、@
测量：
度量：定量变量；
又称定居变量或者刻度变量，一般为有刻度度量的连续变量，它的取值之间可以比较大小，且可以定义距离。例如：“年龄”，“份”等
有序：等级变量；
取值直接有大小分类等级如满意度
1：很满意
2：比较满意
3：不满意

名义：分类变量
它的取值只代表观测对象的不同类别，变量的取值之间没有内在的大小可比性，例如“性别”变量
角色：
一般——输入的角色是系统默认的，输入——代表自变量，因为自变量是需要输入的。
目标角色是自变量，意思是该变量将被作为输出目标。
两者都有的选项是数据具有输出和输入两种属性，“无”是没有角色分配。

1.1选择个案

当数据量较大时，可以用于对于数据的筛选，去除没有用处的数据，也就是不可靠的数据，或者筛选出自己有价值的数据。

不进行筛选，即全部数据都留下来
if语句进行筛选
1. 这里把编号为1的留下，如下
3. 然后继续点击确定完成，即得到如下数据图
5. 可以看到除了编号为1的数据都划上了斜线，即完成了数据的筛选
选择随机
1. 如图所示，随机选择25%的数据，则会随机留下25的数据，其他的被划上斜线
基于时间或个案范围
1. 如下图所示操作
2. 截取操作数据图，留下了编号区间1-5的数据
基于过滤变量的操作

1.2个案加权

加权个案是指对变量，特别是频数变量赋以权重，常用于计数频数表资料，加权以后的变量被说明为频数。在实验数据中处理频数数据时候往往需要用加权。

首先打开数据表，数据图如下：

在没加权的情况下进行描述统计：分析->描述统计->交叉表<img

加权之后进行描述统计：

数据->个案加权

然后再进行分析->描述统计->交叉表得到如下数据图：

可以观察到，加权之后的数据。

1.3计算新变量

类似于if语句，对一定的数据改换新的数据。用的较少不再介绍。

1.4对个案的值进行计数

通常我们在前期整理数据的过程中会遇到需要对满足某一个观测条件的值进行统计：例如在教师满意度评分中需要计算出每个教师得到“满意”等级的分数的个数，或者是统计出在某次成绩中有多少个同学的成绩在90分以上等等情况，在遇到这些情况时我们就需要用到今天要介绍的“对个案中值的计数”怎么操作，请跟我来！！

首先打开数据表，对数据表中身高大于175的人数计数。

圆圈1表述：选出来的数的名称

圆圈2：也就是备注

圆圈3：进行的变量。

点击定义值，将175-200的数据进行操作。

完成操作后的数据表如图所示：

将身高大于175小于200的进行bool类型的变量统计，是为1，否为0.

1.5重新编码

重新编码用的不多，不再介绍。

2.1频数分析

在菜单栏依次点击“分析”、“描述统计”、“频率”进入频率分析界面。
一般情况下频率分析主要用于分类变量的频率分析和连续变量的频率分析。此处我们选择“语文、数学、化学”进行分析，将其点选入右侧选区。
之后点击右侧的“统计”。在弹出的对话框中勾选“众数”。因为我们此处选择的是分类变量，所以四分位数等不需要勾选，如果今后我们遇到连续型变量的话应该勾选四分位数、离散等。
图标里面选择"直方图",同时勾选在直方图中显示正态曲线
得到的数据如下：
还有直方图，没有全部加进来，方便观看
上述便完成了频数的分析，也就是频率的分析。

4.2描述性统计分析

描述性统计，是指运用制表和分类，图形以及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述，主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。①数据的频数分析。在数据的预处理部分，利用频数分析和交叉频数分析可以检验异常值。②数据的集中趋势分析。用来反映数据的一般水平，常用的指标有平均值、中位数和众数等。③数据的离散程度分析。主要是用来反映数据之间的差异程度，常用的指标有方差和标准差。④数据的分布。在统计分析中，通常要假设样本所属总体的分布属于正态分布，因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。⑤绘制统计图。用图形的形式来表达数据，比用文字表达更清晰、更简明。在SPSS软件里，可以很容易地绘制各个变量的统计图形，包括条形图、饼图和折线图等

spss运行步骤：分析->描述分析->描述

案例：下面采取对身高的因素进行上述分析。

选项如下：

通过上述选项，可以选择多种统计分析。在这里我们勾选所有的选项，按照变量列表进行排序显示，得到的数据结果如下：

可以观测到各种统计分析，比手算快的多的多。

4.3探索性分析

探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法，是对传统统计学假设检验手段的补充

分析->描述统计->探索

示例：

现在有一个关于男女薪水的数据表如下：

再进行探索性分析：

因变量列表：进行探索性分析的变量，如本样例中的薪水

因子列表：性别

标注个案：编号

完成操作后点击确定：

会得到具体数据分析，由于较多不再一一列表。

通过此图可以清楚的看到男女薪资水平。

4.4连列表分析

列联表分析是通过分析多个变量在不同取值情况下的数据分布情况，从而进一步分析多个变量之间相互互相关系的一种描述性分析方法。

例如：

通过行为性别，列为工作满意度，观测两者之间的相互关系。

5.1平均值检验

和描述性统计分析相比，均值过程可以按指定条件分组计算均值和标准差等统计量，还可以执行单因素方差分析和相关分析

通过平均值检验得到数据如下：

通过平均值检验可以看到男性的平均值要大于女性的平均存储金额。

5.2单样本的t检验

单样本t检验是用來确定样本均值 (x) 是否与已知或假设的总体均值 (µ) 在统计上有显著的不同。

单样本t检验是一种参数检验。假设单样本T检验的原假设（H 0）和对立假设（H 1）可以表示为： H 0：µ = x （样本均值等于总体均值） H 1：μ≠ x（样本均值不等于总体均值）

检验下面数据的年龄，检验值设置为50

得到下面的数据：

可以看到检验的结果并不是很好，首先是置信区间差距较大。

5.3两独立样本的t检验

两独立样本t检验就是根据样本数据对两个样本来自的两独立总体的均值是否有显著差异进行推断。

进行两独立样本t检验的前提条件：

两样本应该是相互独立的。

样本来自的两个总体应该服从正态分布。

具体的操作如下：

定义组为：1为1，2为2

得到的数据分析如下:

共输出t值和P值，以及还有平均值与标准差值。

从分析角度看P值和平均值更有意义，首先看P值大小，判断两组数据是否有显著性差异，P<0.05代表呈现出显著性差异，反之，则没有。具体差异可对比平均值大小。

6.1卡方检验

在开始做分析之前，我们需要明白两件事情：卡方检验是什么？一般用来干什么？我们只有充分了解分析方法以后才能够正确的使用它。

卡方检验在百科中的解释是：卡方检验是用途非常广的一种假设检验方法，它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。它的原理是：统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。

对次数和筛子点数进行卡方检验：

6.2二项分布检验

现实生活中有很多数据的取值只有两类，如医学中的生与死、患病的有与无、性别中的男性和女性、产品的合格与不合格等。从这种二分类总体中抽取的所有可能结果，要么是对立分类中的这一类，要么是另一类，其频数分布称为二项分布。调用SPSS中的二项分布检验（Binomial）可对样本资料进行二项分布分析。

SPSS将自动计算Z统计量，并给出相应的相伴概率值。如果相伴概率小于或等于用户的显著性水平α，则应拒绝零假设H0，认为样本来自的总体分布形态与指定的二项分布存在显著差异；如果相伴概率值大于显著性水平，则不能拒绝零假设H0，认为样本来自的总体分布形态与指定的二项分布不存在显著差异。

SPSS二项分布检验的数据是实际收集到的样本数据，而非频数数据。

实例：（来自博客园）

某地某一时期内出生35名婴儿，其中女性19名（定Sex=0），男性16名（定Sex=1）。问这个地方出生婴儿的性别比例与通常的男女性比例（总体概率约为0.5）是否不同？数据如表10-2所示。

35名婴儿的性别

检验结果：

6.3SPSS进行两独立样本的非参数检验

Mann-Whitney U 检验是用得最广泛的两独立样本秩和检验方法。简单的说，该检验是与独立样本t检验相对应的方法，当正态分布、方差齐性等不能达到t检验的要求时，可以使用该检验。其假设基础是：若两个样本有差异，则他们的中心位置将不同

问题：为了研究某项犯罪的季节性差异，警察记录了10年来春季和夏季的犯罪数量，请问该项犯罪在春季和夏季有无差异。

得到假设检验汇总，其中其P=0.009<0.05，故拒绝原假设，认为报警数量在季节上有统计学差异。

6.3多独立样本的分参数检验

6.4两配对与多配对

7.2单因素方差分析

区域土壤含水量

1 19.92
1 21.39
1 17.69
2 16.72
2 14.87
2 14.55
3 17.33
3 19.41
3 21.47
4 23.04
4 21.91
4 20.92

进行单因素方差分析：

方差齐性检验
土壤含水量
莱文统计自由度 1 自由度 2 显著性
.443 3 8 .728

可以看到显著性为0.728>0.0.5说明方差是齐次的可以使用方差分析。

ANOVA
土壤含水量
平方和自由度均方 F 显著性
组间（组合） 67.236 3 22.412 8.744 .007
线性项对比 17.800 1 17.800 6.944 .030
偏差 49.436 2 24.718 9.643 .007
组内 20.506 8 2.563
总计 87.742 11

可以看到显著性都小于0.05,即不同土壤对含水量存在影响存在影响。

可以看到显著性标红的都存在显著性的差异，即公园A区与B区存在显著性差异。。。。。。。

7.3多因素方差分析

多种因素对同一变量的影响分析

数据和多因素分析的选项：

得到的数据中：可以看到肥料的显著性为0.00，土壤种类的为0.939，所以说苗高是和肥料是明显相关的。

7.4协方差分析

推荐观看

8.1两变量相关性分析

推荐观看

8.2距离分析

推荐观看

距离分析简单来说就是对几种数据的图像的走势分析，是不是基本吻合

9.1回归分析

推荐观看

我们现在需要通过回归分析来了解商品上架种类和商品销售量之间是否有关系，如果有的话又是怎么样的一种关系，并且是否可以通过目前的数据来预测一下12月份的商品销售量情况。

9.2曲线估计

推荐观看

然线性回归能够满足大部分的数据分析的要求，但是，线性回归并不是对所有的问题都适用，因为有时候自变量和因变量是通过一个已知或未知的非线性函数关系相联系的，如果通过函数转换，将关系转换成线性关系，可能会造成数据失真或更为复杂的计算，导致结果出现偏差

9.3非线性回归

推荐观看

：原数据中自变量为时间（1900~2018），因变量为金额。下面我们就来研究，金额随着时间增加而呈现的趋势变化。

9.4二元Logistic回归案例分析

推荐观看

二元Logistic，从字面上其实就可以理解大概是什么意思，Logistic中文意思为“逻辑”但是这里，并不是逻辑的意思，而是通过logit变换来命名的，二元一般指“两种可能性”就好比逻辑中的“是”或者“否”一样，

9.5多元Logistic

推荐观看

存在因变量是多项的情况

9.6有序回归

推荐观看

等级回归分析对应的英文为“ordinal regression”，也称有序回归，以等级变量做因变量建立模型来预测危险发生的概率，因变量中各个类别要按不同程度的顺序取值。第一步：调用界面：分析—回归—有序选择变量做因变量、因子、协变量。通过频数描述知，等级越高，概率即数目越多，所以选则“补充对数-对数”即complementary log-

9.7概率单位回归

推荐观看

如何理解probit概率单位回归分析呢，用一句特典型的话就可以说清楚了：研究患者给药剂量与治愈百分比之间的关系。如果我们把这句话推广到销售业务，可以是这样：研究消费者对价格与购买数量之间的关系。

9.8加权回归

推荐观看

例如在研究通货膨胀和失业率对股票价格的影响时，考虑到高市值的股票较低市值的具有更高的变异性(价格波动大)，使用OLS法便不能很好地反应制定因素对变异性较大的股票的影响，这个时候就需要使用WLS方法来解决这个问题。

10.1快速聚类

推荐观看

它能够将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。这里所说的类就是一个具有相似性的个体的集合，不同类之间具有明显的区别。

10.2系统聚类

推荐观看

系统聚类又叫做层次聚类或分层聚类，是聚类分析的常用方法之一

10.3两步聚类

推荐观看

汽车生产厂商需要有效的方法评价当前市场情况，了解市场需要，找到受市场欢迎的，有市场竞争力的车型配置。

10.4聚类分析的不同

推荐观看

11.1一般判别分析

推荐观看

判别分析又称“分辨法”，是在分类确定的条件下，根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

当得到一个新的样品数据，要确定该样品属于已知类型中哪一类，这类问题属于判别分析问题。

12.1因子分析

推荐观看

因子分析模型中，假定每个原始变量由两部分组成：共同因子和唯一因子。共同因子是各个原始变量所共有的因子，解释变量之间的相关关系。唯一因子顾名思义是每个原始变量所特有的因子，表示该变量不能被共同因子解释的部分。

12.2主成分分析

属于判别分析问题。**

12.1因子分析

推荐观看

因子分析模型中，假定每个原始变量由两部分组成：共同因子和唯一因子。共同因子是各个原始变量所共有的因子，解释变量之间的相关关系。唯一因子顾名思义是每个原始变量所特有的因子，表示该变量不能被共同因子解释的部分。

12.2主成分分析

推荐观看