datagrid出现相同两组数据_数据分析之统计学

统计学知识

思维导图

第一节统计学基本原理

数据分析相关概念

一、描述统计

测量尺度

1.定类（nominal）

功能：分类的作用，比如性别

2.定序(ordinal)

功能：分类、排序的作用，比如最想去的国家

3.定距(scale)

功能：分类、排序、加减，比如温度

4.定比(scale)

功能：分类、排序、加减、乘除，比如年龄

定类与定序合并成分类变量，定距与定比合并成连续变量。

分类变量的描述统计方法只能用频次统计，对于连续变量既可以用频次统计也可以用均值和标准差。

均值

1.算数平均

2.几何平均

3.调和平均

可能用在数据中较多数值集中在最小值附近，原因可能是因为调和平均相对于算数、几何平均最小。

4.调整平均

去掉上限值或者下限值，比例一般为5%

中位数和众数

1.中位数：

当一组序列数据之间差异较大时，导致平均值代表性较弱，可通过中位数来表示数据的集中趋势。

平均值、中位数通常应用在连续变量中，即数值型变量；

众数既可以应用在连续变量也可以应用在分类变量。

极差和方差、标准差

衡量离散趋势，数据离散趋势代表了数据中包含的信息量。

1.标准差

标准差计算公式中，有的除以n，有的除以n-1；

当计算总体数据标准差时，除以n，

通过样本数据计算总体标准差时，除以n-1；

原因是人为增大标准差以提高代表性。

2.离散趋势

如果希望比较两组数据的离散趋势，不能直接比较两组数据的标准差，因为两组数据的样本量和均值不同。通常选用离散系数来进行比较，离散系数=标准差/平均值

二、总体推断/假设检验

1.Z值转换公式

Z=(xi-x)/s

用来将t分布转换为（0，1）z分布，又称为标准化，或者叫Z值标准化；用于判断哪些数值为异常值，|Z值|>3为异常值，|Z值|>5为极端值。

2.置信度

T=1.65 对应90%的置信度

T=1.98 对应95%的置信度

T=2.58 对应99%的置信度

3.假设检验

步骤：

定义H0和H1，H0通常定义两个变量之间么有显著差异
选择合适的检验方法，计算统计量（t值、F值、Z值、卡方值）
根据统计量计算概率P值
P值与显著性水平5%对比；

P<5%，则拒绝原假设H0，接受研究假设H1；

P>5%，则接受原假设H0，拒绝研究假设H1。

三、抽样方法

1、分层抽样

如何让选择分层变量

选择那些与研究主题高度相关的变量；比如研究收入问题时，考虑学历、年龄、性别等影响收入的基本属性。
成本：分层因素考虑越多，选取的样本量则会越多；学历（分为高中低3类）、收入（分为高中低3类）、性别（男女2类），总共18类，每类样本量至少保证30人以上，18*30=540人；与研究主题不太相关的主题可以不考虑，或者将因素的分类减少。

四、卡方检验

假设检验的结论：

p>0.05，则原假设成立，研究假设不成立；

P<0.05，则原假设不成立，研究假设成立。

1.卡方检验的重要性

适用于不知道总体参数的检验,是最常用的一种非参数检验。

当不适用于参数检验法的时候，第一个想到的就是卡方检验。

2.卡方检验的应用场景

比例分布检验

检验一个变量中取值的比例分布是否相等，或者是否符合设定的比例分布

原假设：变量的取值分布与均匀分布（研究者设定的分布）没有显著差异

研究假设：变量的取值分布与均匀分布（研究者设定的分布）有显著差异

SPSS操作：分析-非参数检验-旧对话框-卡方

二项式检验

检验一个变量取二分类两个值的概率是否符合设定的概率

原假设：变量的第一个取值比例与设定比例没有显著差异。

研究假设：变量的第一个取值与设定比例有显著差异。

SPSS操作：分析-非参数检验-旧对话框-二项

分割点：是将一个连续变量，选择一个值作为分割点

K-S检验

检验样本来自的总体中，一个变量的分布是否服从正态分布、均匀分布、泊松分布、指数分布

原假设：变量来自总体的分布与正态分布（均匀分布等）没有显著差异，即变量在总体中呈现正态分布（或均匀分布等）。

研究假设：变量来自总体的分布与正态分布（均匀分布等）有显著差异，即变量在总体中不呈现正态分布（或均匀分布等）。

SPSS操作：分析-非参数检验-旧对话框-单样本K-S

游程检验

检验一个变量的两个取值的出现顺序是否随机。两个值出现比例各占50%。

检验场景：通常是检验随着时间变化而产生的两个数值，出现顺序是否随机。

原假设：变量的两个值的出现顺序和随机出现没有显著差异。

研究假设：变量的两个值的出现顺序不是随机的。

SPSS操作：分析-非参数检验-旧对话框-游程检验

独立样本非参数检验

独立样本：两组不重叠的样本，检验不同人群在特定变量在取值上是否有差异；

比如男性和女性在收入分布上是否有差异。

原假设：两组来自总体的变量数据在分布上没有显著差异，即两组数据在该变量的取值上没有显著差异。

研究假设：两组来自总体的变量数据在分布上有显著差异，即两组数据在该变量的取值上有显著差异。

注意：分组变量是分类变量，比较变量是连续变量

SPSS操作：分析-非参数检验-旧对话框-2个独立样本

配对样本非参数检验

配对样本：同一组人群不同时间采集的两组或多组数据，或者同一组人群不同身体部位所采集的两组或多组数据。

检验同一组人群在不同时间、不用部位采集的数据是否有差异。

原假设：来自总体的同一组人群的两组数据在分布上没有显著差异，即两组数据在该变量的取值上没有显著差异。

研究假设：来自总体的同一组人群的两组数据在分布上有显著差异，即两组数据在该变量的取值上有显著差异。

注意：t1、t2，比较的变量必须是连续变量

SPSS操作：分析-非参数检验-旧对话框-2个相关样本

交叉分析（列联表分析）

检验两个分类变量（定类和定序）是否有相关性。

如果场景中需要对连续变量进行卡方检验，首先需要将连续变量转换为分类变量；如年龄分成70后、80后、90后、00后。

SPSS操作：分析-描述统计-交叉表

连续变量转换成分类变量的操作：转换-重新编码为不同变量，收入分为0-50，51-400，401及以上
如果两个变量都是定类变量，相关系数可通过卡方检验中“名义”里的4个相关系数；如果两个变量都是定序变量，则选择“有序”里的4个相关系数。
问：如果两个变量中，一个为定类变量，一个为定序变量，相关系数应该选哪个？

答；应该选“名义”中的4个相关系数。原因是定序变量可以降级为定类变量，而定类变量不可以升级为定序变量。

卡方检验结果解读：

第一步：看卡方统计结果，根据P值判断两个变量是否存在相关性；如p<0.05，则说明两者存在显著相关性。

第二步：看相关系数，判断两者之间相关性到底有多大。

0-0.2，较弱相关；
0.2-0.4，弱相关；
0.4-0.6，相关性一般；
0.6-0.8，弱强相关；
0.8-1，极强相关。

第三步：看频次分布，具体分析两者存在什么样的相关。

五、t检验、方差检验

1.t检验

单样本t检验

用来检验样本中某个连续变量的均值与给定的总体均值是否存在差异。

用到的变量：一个连续变量。

原假设：样本所来自总体的均值与给定的均值之间没有显著差异。

研究假设：样本所来自总体的均值与给定的均值之间有显著差异。

SPSS操作：分析-比较平均值-单样本T检验

独立样本t检验

用来检验两组独立样本在某个连续变量的均值是否有显著差异。

用到的变量：一个连续变量和一个分类变量（也可以将连续变量进行分组得到一个分类变量）。

原假设：样本所来自总体的均值与给定的均值之间没有显著差异。

研究假设：样本所来自总体的均值与给定的均值之间有显著差异。

SPSS操作：分析-比较平均值-独立样本T检验

方差齐性检验

原假设：两组总体中的方差是相等的（没有差异的）。

研究假设：两组总体中的方差是不相等的（有差异的）。

当p>0.05时，原假设成立；即两组总体中的方差是相等的，需要看第一行的t值检验结果。反之则看第二行的t值检验结果。

配对样本t检验

用来检验同一样本不同时间/部位/处理条件测量得到的两组数据均值是否存在差异。

原假设：样本所来自总体的均值与给定的均值之间没有显著差异。

研究假设：样本所来自总体的均值与给定的均值之间有显著差异。

变量：两个人连续变量（其实是针对同一组人群不同时间/处理部位/条件测量的两组数据）

SPSS操作：分析-比较平均值-成对样本t检验

2.方差检验

变量：变量既可以是分类也可以是连续变量，因变量必须是连续变量

单因素方差检验

检验3组人群及以上在某个连续变量均值上是否存在差异，或某个分类变量对连续变量是否存在显著相关。

变量：自变量为一个，是分类变量；因变量是一个，且为连续变量。

原假设：不同人群之间在该连续变量的均值没有显著差异（自变量与因变量之间不存在显著相关）

研究假设：不同人群之间在该连续变量的均值有显著差异（自变量与因变量之间存在显著相关）

SPSS操作：分析-比较平均值-单因素ANOVA检验

两两比较中根据方差齐性检验结果，来选择方差相等的比较结果或方差不等的检验结果。
方差齐性检验：“选项”中-勾选“方差齐性检验”。当方差不齐时，则通过非参数检验中的K个独立样本检验法进行检验。

多因素方差检验

检验多个变量在某个连续变量均值上是否存在差异，或多个变量对连续变量是否存在显著相关。

变量：自变量为多个，既可以是分类变量也可以是连续变量；因变量是一个，且为连续变量。

原假设：多个自变量与因变量之间不存在显著相关

研究假设：多个自变量与因变量之间存在显著相关

SPSS操作：分析-一般线性模型-单变量

全因子模型：既考虑所有自变量对于因变量的直接效应，又考虑所有分类变量的交互作用对因变量的影响。
构建项（定制模型）：可根据研究者自身需求，定制需要考虑的对因变量的影响因素。比如只考虑自变量的直接效应，或部分自变量的交互作用。
当自变量特别多时，尤其是分类自变量特别多时，且样本量不多时，应该使用定制模型。

重复方差检验

一个因变量，在多个时刻重复测量多次，自变量可以有也可以没有

F检验常用术语

因素（Factor）

因素是可能对因变量有影响的变量，一般来说，因素会不止一个水平，而分析的目的就是考察或比较各个水平对一变量的影响是否相同。

水平（Level）

因素的不同取值等级称作水平，例如八性别有男、女两个水平。

单元（Cell）

单元亦称实验水平（Experimental Unit），指各因素水平之间的每种组合。指各因素各水平的组合，例如在研究性别（二水平）、血型（四水平）对成年人身高的影响时，该设计最多可以有2*4=8个单元。注意在一些特殊的实验设计中，可能有的单元在样本中并不会出现，如正交设计。

元素（Element）
指用于测量因变量值的观察单位，比如研究职业与收入之间的关系，月收入是从每一位受访者处得到，则每位受访者就是实验的因素。
一个单元格内可以有多个元素，也可以只有一个，甚至于没有元素。
注意：元素不一定等同于受访者个体！
重复测量数据
以家庭为单位收集资料
均衡（Balance）

如果在一个实验设计中任一因素各水平在所有单元格中出现的次数相同，且每个单元格内的元素数均相同，则该试验是均衡的；否则，就被称为不均衡。不均衡的实验设计在分析时较为复杂，需要对方差分析模型作特别设置才能得到正确的分析结果。

协变量（Covariates）

指对因变量可能有影响，需要在分析时对其作用加以控制的连续变量，实际上，可以简单的把因素和协变量分别理解为分类自变量和连续自变量。当模型中存在协变量时，一般是通过找出它与因变量的回归关系来控制其影响。

交互作用（Interaction）
如果一个因素的效应大小在另一个因素不同水平下明显相同，则称为两因素间存在交互作用。当存在交互作用时，单纯研究某个因素的作用是没有意义的，必须分另一个因素的不同水平研究该因素的作用大小。
如果所有单元格内都至多只有一个元素，则交互作用无法进行分析，只能不予考虑。
固定因素（Fixed Factor）
指的是该因素在样本中所有可能的水平都出现了。从样本的分析结果中就可以得到所有水平的状况，无需进行外推。绝大多数情况下，研究者所真正关心的因素都是固定因素。
性别：只有两种
疗法：只有三种
随机因素（Random Factor）
该因素所有的可能取值在样本中没有出现，目前在样本中的这些水平是从总体中随机抽样而来，如果我们重复该研究，则可能得到的因素水平会和现在完全不同！
这时，研究者显然希望得到的是一个能够“泛化”，即对所有可能出现的水平均适用的结果。这不可避免的存在误差，需要估计误差的大小，因此被称为随机因素。

第二节多指标统计分析

多变量分析方法的选择

分析的目的	有无目标变量（因变量、外部推测）	目标变量的数据类型	解释变量	具有代表的多变量分析的例子
有监督分析需要用多个因素来预测、解释、判断某个项目（想要用数学方法描述由多个原因引起的结果）	有	定量数据（量的数据）	定量数据	多元回归分析方差分析
定性数据	有虚拟变量的回归分析联合分析(conjoint analysis)方差分析
定性数据（质的数据）	定量数据	判别分析(discriminate analysis）Logistic/probit analysis
定性数据	对数线性回归
无监督分析1想要归并相似者2想要用图表解释变量之间的线性关系3想要概括变量之间的关系4想要知道解释项目之间的相关关系的潜在结构	没有	——	定量数据	因子分析(factor analysis)聚类分析(cluster analysis)
定性数据	对应分析(correspondence analysis)多维尺度法(militiamen signal scaling)
（其他的分析）	加入潜在变量的因果关系分析模型	结构方程模型（协方差结构分析（covariance tructure analysis; strucural equation model-SEM））路径模型
基于多个候补方案的一对一比较分析模型	层次分析法（analytic hierarchy process-AHP）因子分析

分析的目的有无目标变量（因变量、外部推测）目标变量的数据类型解释变量具有代表的多变量分析的例子有监督分析需要用多个因素来预测、解释、判断某个项目（想要用数学方法描述由多个原因引起的结果）有定量数据（量的数据）定量数据多元回归分析方差分析定性数据有虚拟变量的回归分析联合分析(conjoint analysis)方差分析定性数据（质的数据）定量数据判别分析(discriminate analysis）Logistic/probit analysis定性数据对数线性回归无监督分析1想要归并相似者2想要用图表解释变量之间的线性关系3想要概括变量之间的关系4想要知道解释项目之间的相关关系的潜在结构没有——定量数据因子分析(factor analysis)聚类分析(cluster analysis)定性数据对应分析(correspondence analysis)多维尺度法(militiamen signal scaling)（其他的分析）加入潜在变量的因果关系分析模型结构方程模型（协方差结构分析（covariance tructure analysis; strucural equation model-SEM））路径模型基于多个候补方案的一对一比较分析模型层次分析法（analytic hierarchy process-AHP）因子分析

分析的目的	有无目标变量（因变量、外部推测）	目标变量的数据类型	解释变量	具有代表的多变量分析的例子
有监督分析需要用多个因素来预测、解释、判断某个项目（想要用数学方法描述由多个原因引起的结果）	有	定量数据（量的数据）	定量数据	多元回归分析方差分析
定性数据	有虚拟变量的回归分析联合分析(conjoint analysis)方差分析
定性数据（质的数据）	定量数据	判别分析(discriminate analysis）Logistic/probit analysis
定性数据	对数线性回归
无监督分析1想要归并相似者2想要用图表解释变量之间的线性关系3想要概括变量之间的关系4想要知道解释项目之间的相关关系的潜在结构	没有	——	定量数据	因子分析(factor analysis)聚类分析(cluster analysis)
定性数据	对应分析(correspondence analysis)多维尺度法(militiamen signal scaling)
（其他的分析）	加入潜在变量的因果关系分析模型	结构方程模型（协方差结构分析（covariance tructure analysis; strucural equation model-SEM））路径模型
基于多个候补方案的一对一比较分析模型	层次分析法（analytic hierarchy process-AHP）因子分析

<table data-draft-node="block" data-draft-type="table" data-size="normal" data-row-style="normal">分析的目的有无目标变量（因变量、外部推测）目标变量的数据类型解释变量具有代表的多变量分析的例子有监督分析需要用多个因素来预测、解释、判断某个项目（想要用数学方法描述由多个原因引起的结果）有定量数据（量的数据）定量数据多元回归分析方差分析定性数据有虚拟变量的回归分析联合分析(conjoint analysis)方差分析定性数据（质的数据）定量数据判别分析(discriminate analysis）Logistic/probit analysis定性数据对数线性回归无监督分析1想要归并相似者2想要用图表解释变量之间的线性关系3想要概括变量之间的关系4想要知道解释项目之间的相关关系的潜在结构没有——定量数据因子分析(factor analysis)聚类分析(cluster analysis)定性数据对应分析(correspondence analysis)多维尺度法(militiamen signal scaling)（其他的分析）加入潜在变量的因果关系分析模型结构方程模型（协方差结构分析（covariance tructure analysis; strucural equation model-SEM））路径模型基于多个候补方案的一对一比较分析模型层次分析法（analytic hierarchy process-AHP）因子分析分析的目的有无目标变量（因变量、外部推测）目标变量的数据类型解释变量具有代表的多变量分析的例子有监督分析需要用多个因素来预测、解释、判断某个项目（想要用数学方法描述由多个原因引起的结果）有定量数据（量的数据）定量数据多元回归分析方差分析定性数据有虚拟变量的回归分析联合分析(conjoint analysis)方差分析定性数据（质的数据）定量数据判别分析(discriminate analysis）Logistic/probit analysis定性数据对数线性回归无监督分析1想要归并相似者2想要用图表解释变量之间的线性关系3想要概括变量之间的关系4想要知道解释项目之间的相关关系的潜在结构没有——定量数据因子分析(factor analysis)聚类分析(cluster analysis)定性数据对应分析(correspondence analysis)多维尺度法(militiamen signal scaling)（其他的分析）加入潜在变量的因果关系分析模型结构方程模型（协方差结构分析（covariance tructure analysis; strucural equation model-SEM））路径模型基于多个候补方案的一对一比较分析模型层次分析法（analytic hierarchy process-AHP）因子分析分析的目的有无目标变量（因变量、外部推测）目标变量的数据类型解释变量具有代表的多变量分析的例子有监督分析需要用多个因素来预测、解释、判断某个项目（想要用数学方法描述由多个原因引起的结果）有定量数据（量的数据）定量数据多元回归分析方差分析定性数据有虚拟变量的回归分析联合分析(conjoint analysis)方差分析定性数据（质的数据）定量数据判别分析(discriminate analysis）Logistic/probit analysis定性数据对数线性回归无监督分析1想要归并相似者2想要用图表解释变量之间的线性关系3想要概括变量之间的关系4想要知道解释项目之间的相关关系的潜在结构没有——定量数据因子分析(factor analysis)聚类分析(cluster analysis)定性数据对应分析(correspondence analysis)多维尺度法(militiamen signal scaling)（其他的分析）加入潜在变量的因果关系分析模型结构方程模型（协方差结构分析（covariance tructure analysis; strucural equation model-SEM））路径模型基于多个候补方案的一对一比较分析模型层次分析法（analytic hierarchy process-AHP）因子分析分析的目的有无目标变量（因变量、外部推测）目标变量的数据类型解释变量具有代表的多变量分析的例子有监督分析需要用多个因素来预测、解释、判断某个项目（想要用数学方法描述由多个原因引起的结果）有定量数据（量的数据）定量数据多元回归分析方差分析定性数据有虚拟变量的回归分析联合分析(conjoint analysis)方差分析定性数据（质的数据）定量数据判别分析(discriminate analysis）Logistic/probit analysis定性数据对数线性回归无监督分析1想要归并相似者2想要用图表解释变量之间的线性关系3想要概括变量之间的关系4想要知道解释项目之间的相关关系的潜在结构没有——定量数据因子分析(factor analysis)聚类分析(cluster analysis)定性数据对应分析(correspondence analysis)多维尺度法(militiamen signal scaling)（其他的分析）加入潜在变量的因果关系分析模型结构方程模型（协方差结构分析（covariance tructure analysis; strucural equation model-SEM））路径模型基于多个候补方案的一对一比较分析模型层次分析法（analytic hierarchy process-AHP）因子分析

分析的目的有无目标变量（因变量、外部推测）目标变量的数据类型解释变量具有代表的多变量分析的例子有监督分析需要用多个因素来预测、解释、判断某个项目（想要用数学方法描述由多个原因引起的结果）有定量数据（量的数据）定量数据多元回归分析方差分析定性数据有虚拟变量的回归分析联合分析(conjoint analysis)方差分析定性数据（质的数据）定量数据判别分析(discriminate analysis）Logistic/probit analysis定性数据对数线性回归无监督分析1想要归并相似者2想要用图表解释变量之间的线性关系3想要概括变量之间的关系4想要知道解释项目之间的相关关系的潜在结构没有——定量数据因子分析(factor analysis)聚类分析(cluster analysis)定性数据对应分析(correspondence analysis)多维尺度法(militiamen signal scaling)（其他的分析）加入潜在变量的因果关系分析模型结构方程模型（协方差结构分析（covariance tructure analysis; strucural equation model-SEM））路径模型基于多个候补方案的一对一比较分析模型层次分析法（analytic hierarchy process-AHP）因子分析

分析的目的	有无目标变量（因变量、外部推测）	目标变量的数据类型	解释变量	具有代表的多变量分析的例子
有监督分析需要用多个因素来预测、解释、判断某个项目（想要用数学方法描述由多个原因引起的结果）	有	定量数据（量的数据）	定量数据	多元回归分析方差分析
定性数据	有虚拟变量的回归分析联合分析(conjoint analysis)方差分析
定性数据（质的数据）	定量数据	判别分析(discriminate analysis）Logistic/probit analysis
定性数据	对数线性回归
无监督分析1想要归并相似者2想要用图表解释变量之间的线性关系3想要概括变量之间的关系4想要知道解释项目之间的相关关系的潜在结构	没有	——	定量数据	因子分析(factor analysis)聚类分析(cluster analysis)
定性数据	对应分析(correspondence analysis)多维尺度法(militiamen signal scaling)
（其他的分析）	加入潜在变量的因果关系分析模型	结构方程模型（协方差结构分析（covariance tructure analysis; strucural equation model-SEM））路径模型
基于多个候补方案的一对一比较分析模型	层次分析法（analytic hierarchy process-AHP）因子分析

分析的目的有无目标变量（因变量、外部推测）目标变量的数据类型解释变量具有代表的多变量分析的例子有监督分析需要用多个因素来预测、解释、判断某个项目（想要用数学方法描述由多个原因引起的结果）有定量数据（量的数据）定量数据多元回归分析方差分析定性数据有虚拟变量的回归分析联合分析(conjoint analysis)方差分析定性数据（质的数据）定量数据判别分析(discriminate analysis）Logistic/probit analysis定性数据对数线性回归无监督分析1想要归并相似者2想要用图表解释变量之间的线性关系3想要概括变量之间的关系4想要知道解释项目之间的相关关系的潜在结构没有——定量数据因子分析(factor analysis)聚类分析(cluster analysis)定性数据对应分析(correspondence analysis)多维尺度法(militiamen signal scaling)（其他的分析）加入潜在变量的因果关系分析模型结构方程模型（协方差结构分析（covariance tructure analysis; strucural equation model-SEM））路径模型基于多个候补方案的一对一比较分析模型层次分析法（analytic hierarchy process-AHP）因子分析分析的目的有无目标变量（因变量、外部推测）目标变量的数据类型解释变量具有代表的多变量分析的例子有监督分析需要用多个因素来预测、解释、判断某个项目（想要用数学方法描述由多个原因引起的结果）有定量数据（量的数据）定量数据多元回归分析方差分析定性数据有虚拟变量的回归分析联合分析(conjoint analysis)方差分析定性数据（质的数据）定量数据判别分析(discriminate analysis）Logistic/probit analysis定性数据对数线性回归无监督分析1想要归并相似者2想要用图表解释变量之间的线性关系3想要概括变量之间的关系4想要知道解释项目之间的相关关系的潜在结构没有——定量数据因子分析(factor analysis)聚类分析(cluster analysis)定性数据对应分析(correspondence analysis)多维尺度法(militiamen signal scaling)（其他的分析）加入潜在变量的因果关系分析模型结构方程模型（协方差结构分析（covariance tructure analysis; strucural equation model-SEM））路径模型基于多个候补方案的一对一比较分析模型层次分析法（analytic hierarchy process-AHP）因子分析分析的目的有无目标变量（因变量、外部推测）目标变量的数据类型解释变量具有代表的多变量分析的例子有监督分析需要用多个因素来预测、解释、判断某个项目（想要用数学方法描述由多个原因引起的结果）有定量数据（量的数据）定量数据多元回归分析方差分析定性数据有虚拟变量的回归分析联合分析(conjoint analysis)方差分析定性数据（质的数据）定量数据判别分析(discriminate analysis）Logistic/probit analysis定性数据对数线性回归无监督分析1想要归并相似者2想要用图表解释变量之间的线性关系3想要概括变量之间的关系4想要知道解释项目之间的相关关系的潜在结构没有——定量数据因子分析(factor analysis)聚类分析(cluster analysis)定性数据对应分析(correspondence analysis)多维尺度法(militiamen signal scaling)（其他的分析）加入潜在变量的因果关系分析模型结构方程模型（协方差结构分析（covariance tructure analysis; strucural equation model-SEM））路径模型基于多个候补方案的一对一比较分析模型层次分析法（analytic hierarchy process-AHP）因子分析分析的目的有无目标变量（因变量、外部推测）目标变量的数据类型解释变量具有代表的多变量分析的例子有监督分析需要用多个因素来预测、解释、判断某个项目（想要用数学方法描述由多个原因引起的结果）有定量数据（量的数据）定量数据多元回归分析方差分析定性数据有虚拟变量的回归分析联合分析(conjoint analysis)方差分析定性数据（质的数据）定量数据判别分析(discriminate analysis）Logistic/probit analysis定性数据对数线性回归无监督分析1想要归并相似者2想要用图表解释变量之间的线性关系3想要概括变量之间的关系4想要知道解释项目之间的相关关系的潜在结构没有——定量数据因子分析(factor analysis)聚类分析(cluster analysis)定性数据对应分析(correspondence analysis)多维尺度法(militiamen signal scaling)（其他的分析）加入潜在变量的因果关系分析模型结构方程模型（协方差结构分析（covariance tructure analysis; strucural equation model-SEM））路径模型基于多个候补方案的一对一比较分析模型层次分析法（analytic hierarchy process-AHP）因子分析分析的目的有无目标变量（因变量、外部推测）目标变量的数据类型解释变量具有代表的多变量分析的例子有监督分析需要用多个因素来预测、解释、判断某个项目（想要用数学方法描述由多个原因引起的结果）有定量数据（量的数据）定量数据多元回归分析方差分析定性数据有虚拟变量的回归分析联合分析(conjoint analysis)方差分析定性数据（质的数据）定量数据判别分析(discriminate analysis）Logistic/probit analysis定性数据对数线性回归无监督分析1想要归并相似者2想要用图表解释变量之间的线性关系3想要概括变量之间的关系4想要知道解释项目之间的相关关系的潜在结构没有——定量数据因子分析(factor analysis)聚类分析(cluster analysis)定性数据对应分析(correspondence analysis)多维尺度法(militiamen signal scaling)（其他的分析）加入潜在变量的因果关系分析模型结构方程模型（协方差结构分析（covariance tructure analysis; strucural equation model-SEM））路径模型基于多个候补方案的一对一比较分析模型层次分析法（analytic hierarchy process-AHP）因子分析分析的目的有无目标变量（因变量、外部推测）目标变量的数据类型解释变量具有代表的多变量分析的例子有监督分析需要用多个因素来预测、解释、判断某个项目（想要用数学方法描述由多个原因引起的结果）有定量数据（量的数据）定量数据多元回归分析方差分析定性数据有虚拟变量的回归分析联合分析(conjoint analysis)方差分析定性数据（质的数据）定量数据判别分析(discriminate analysis）Logistic/probit analysis定性数据对数线性回归无监督分析1想要归并相似者2想要用图表解释变量之间的线性关系3想要概括变量之间的关系4想要知道解释项目之间的相关关系的潜在结构没有——定量数据因子分析(factor analysis)聚类分析(cluster analysis)定性数据对应分析(correspondence analysis)多维尺度法(militiamen signal scaling)（其他的分析）加入潜在变量的因果关系分析模型结构方程模型（协方差结构分析（covariance tructure analysis; strucural equation model-SEM））路径模型基于多个候补方案的一对一比较分析模型层次分析法（analytic hierarchy process-AHP）因子分析分析的目的有无目标变量（因变量、外部推测）目标变量的数据类型解释变量具有代表的多变量分析的例子有监督分析需要用多个因素来预测、解释、判断某个项目（想要用数学方法描述由多个原因引起的结果）有定量数据（量的数据）定量数据多元回归分析方差分析定性数据有虚拟变量的回归分析联合分析(conjoint analysis)方差分析定性数据（质的数据）定量数据判别分析(discriminate analysis）Logistic/probit analysis定性数据对数线性回归无监督分析1想要归并相似者2想要用图表解释变量之间的线性关系3想要概括变量之间的关系4想要知道解释项目之间的相关关系的潜在结构没有——定量数据因子分析(factor analysis)聚类分析(cluster analysis)定性数据对应分析(correspondence analysis)多维尺度法(militiamen signal scaling)（其他的分析）加入潜在变量的因果关系分析模型结构方程模型（协方差结构分析（covariance tructure analysis; strucural equation model-SEM））路径模型基于多个候补方案的一对一比较分析模型层次分析法（analytic hierarchy process-AHP）因子分析

1、有因变量，则建立监督模型

有监督模型具有两大通用目的：

1）分析哪些自变量对因变量存在显著影响作用；

2）通过选择对因变量存在显著影响的自变量，建立预测因变量取值的预测模型。

1）

a)因变量为连续变量（建立的模型称为回归预测模型），自变量为连续变量时，可选择回归分析、方差分析；

b)自变量为分类变量或分类+连续变量时，可选择带虚拟变量的回归分析、联合分析、方差分析。

2)因变量为分类变量（建立的模型称为分类预测模型）

a)当自变量为分类变量（或连续+分类变量）时，可选用判别分析、Logistic、probit回归等；

b)当自变量全部为分类变量时，可选用对数线性回归。

2、无因变量，则建立监督模型

目的：

（1）对人进行分类；（2）对变量/指标进行分类；（3）分析变量与变量之间的测量关系。

1）自变量为连续变量时，选择因子分析（对变量/指标进行分类）、聚类分析（对人分类、对变量/指标进行分类）

2）自变量为分类变量时，选择对应分析（对人进行分类）、多维尺度分析（对人进行分析）

3、其他分析

1）当模型中需要加入潜在变量（通过多个客观指标测量的抽象概念，例如幸福感）、或需要考虑多个变量之间的因果关系时，可选择结构方程模型、路径模型等。

2）综合评价：通过多个指标对多个评价对象进行排名，可选用层次分析法、因子分析等。

第一节相关分析

不同变量类型的相关系数

1）两个变量都为连续变量，则可用pearson相关系数；

2）两个变量都为定序变量，则可用GMMA等相关系数；

3）两个变量都为定类变量，则可用LAMMDA相关系数；

4）一个变量为定类变量，一个变量为连续变量，则可通过ETA系数来测量相关性。

相关系数是衡量两个变量之间变化趋势的相似性。
相关系数的目的：计算两个变量在样本系数中的相关性强弱。
相关分析的假设检验

原假设：两个变量来自的总体中不存在显著相关性；

研究假设：两个变量来自的总体中存在显著相关性。

显著性检验的目的：用来判断两个变量在总体中是否存在相关性。

1、双变量相关分析

1）皮尔逊(pearson)相关系数：参数检验，针对两个都是连续变量的数据进行相关性判断。

2）斯皮尔曼(spearman)相关系数，非参数检验，针对两个都是定序变量。

3）肯德尔tau-b(Kendall's tau-b)相关系数，非参数检验，针对两个都是定序变量

SPSS操作：分析-相关-双变量

2、偏相关系数

在很多现实情况，单纯两个变量之间的相关性，还会受到其他变量的干扰，因此考察两个变量的相关性时往往需要剔除干扰变量的影响，再来计算相关性。比如，商品需求量和价格、消费者收入之间的关系，需求量与价格之间的相关关系还包含了消费者收入对商品需求量的影响。同时，收入对价格也会产生影响，并通过价格变动传递到对商品需求量的影响中。

注意：计算相关性的变量为连续变量，加入控制的变量同样也是连续变量。

3.典型相关分析（又称为规则相关分析）

用来分析两组变量整体的相关性，而不是变量个体之间的相关性，两组变量的个数可以不同。测量的仍然是变量之间的线性相关性。要求每组内的变量也呈现线性关系，另外组内变量间不能存在高度的复共线性。原始数据标准化之后再计算，则得到标准化的相关系数。

SPSS操作：分析-相关-典型相关性

第二节回归分析

1、当需要用一个数学表达式（模型）表示多个因素（原因）与另外一个因素（原因）之间的关系时，可选用回归分析法。

回归分析的目的：

1）分析哪些自变量对因变量存在显著影响作用，R方值可以要求不大于0.8；

2）通过选择对因变量存在显著影响的自变量，建立预测因变量取值的预测模型；模型R方值必须要求大于等于0.8。

但是，在人文社科领域，很多回归模型的R方值达不到0.8，也可以用来做预测。

2、回归分析的建立步骤

1）选择变量

因变量：根据研究需求或问题推到出来

自变量：1）前人的研究成果

2）个人经验

2）确定自变量与因变量之间的关系

首先，挨个将自变量与因变量画散点图，判断每个自变量与因变量之间是线性关系还是非线性关系。

其次，通过卡方检验，T检验、F检验或相关分析法，挨个分析每个备选的自变量与因变量之间是否存在显著的相关性。将与因变量没有显著相关性的自变量剔除掉，不加入到后期的模型中。

3）选择对应的线性方程或非线性方程，进行各项参数的计算

4）对模型进行全方位检验

多重共线性检验

检验多个自变量之间是否存在相关性较高的变量，如有，则保留与因变量相关性最高的一个自变量。

模型拟合度检验
- 方差检验：检验把自变量与因变量是否存在显著影响关系；
- 判定系数（R方）：0-1之间，越接近1表示自变量对因变量的解释能力越高，模型越好；
- 残差检验：常用的方法包括残差正态性检验、DW检验、异方差检验；
- 自变量参数检验：（参数估计方法：普通最小二乘法(OLS: Ordinary Least Square)和极大似然估计(MLE: Maximum Likelihood Estimate) ）

3、回归分析的软件操作

解决问题：分析影响人们家庭收入的因素有哪些，建立预测回收的预测模型。

因变量：家庭收入

自变量：性别，年龄，学历，工作年限

SPSS操作：分析-回归-线性-

统计：共线性诊断&德宾-沃森(DW)-图-标准化残差图：直方图&正态概率图

4、虚拟变量

使用虚拟变量的原因：分类变量无法参与到回归模型中加减乘除运算

SPSS操作：将原先的分类编码统一转换为0，1数值

转换-重新编码为不同变量-旧值和新值-定义旧值与新值的转换关系

Ed=1 2 3 4 5

	1	2	3(对照人群)	4	5
Ed1	1	0	0	0	0
Ed2	0	1	0	0	0
Ed3	0	0	0	1	0
Ed4	0	0	0	0	1

5、回归分析的结果解读

1）拟合优度检验

R方值

F值，F值对应的概率P值<0.05，研究假设成立，即至少有一个自变量对因变量存在显著影响。

2）参数显著性检验

根据每个自变量的t值对应的概率p值是否<0.05，如<0.05，则研究假设成立，即该自变量对因变量存在显著影响。

根据下表得出：

工作年限和学历对收入存在显著影响，而年龄和性别没有。通过标准化系数来判断两者的影响程度大小，可知工作年限的影响明显大于学历。

工作年限对收入影响程度：在其他变量不变的情况下，工作年限每增加一个单位（1年），则因变量家庭收入平均增加6.279个单位。

学历对收入的影响程度：ed1=-51.042表示ed1代表的学历（高中以下）比对照的学历人群（大专）在因变量家庭收入上平均低51.042个单位。

3）共线性检验

通常根据VIF>10，自变量之间存在共线性。

4）残差检验

DW=2，表示残差不存在自相关性。

5）回归方程

先通过逐步回归法，将对因变量没有显著影响的自变量从模型中删除，得到干净的模型。

方程：y=34.601+6.021*工作年限-62.647*ed1-36.379*ed2。

6、非线性回归

求解方式：

第一种是线性转换，原因是非线性方程拟合方法和参数初始值设置均会导致求出的结果并非全局最优解。
第二种是直接建立非线性方程，求解非线性模型。

SPSS操作：先通过散点图判断是否存在非线性关系

自变量：Ininc

因变量：Income

Income=e^ Ininc

第三节因子分析

目的：对多个具有相似度的目标/变量进行降维，前提是这些变量/指标之间必须存在一定的相关性/相似性

1、应用场景：

1）降维后做综合评价

2）效度检验：对抽样概念的测量工具进行有效性检验，判断哪些指标需要保留或删除，并对保留的指标进行围堵划分。

3）降维后做其他分析：由于变量之间存在较高相关性，不适合做回归分析、聚类等其他分析，需要用因子分析消除变量较高的共线性。

2、因子旋转的目的

1）使得因子可以更好的代表原来的变量

2）降低或消除提取因子之间的相关性

SPSS操作：分析-降维-因子-描述：KMO-提取：碎石图-旋转：最大方差法-得分：保存为变量&显示因子得分系数矩阵-选项：按大小排序&排除小系数

3、因子分析的结果解读

1）KMO>0.7，适合做因子分析

2）累计方差贡献率需要达到多少才合适？

如果通过因子分析降维后做综合评价，那么累计方差贡献率需要>80%；

效度检验或其他分析，60%以上。

3）因子划分：根据每个变量在每个因子中的取值是否>0.5。

4）效度检验：

第一判断标准：每个变量有且只有一个因在载荷值>0.5，如果所有因子载荷值均<0.5，则说明该变量不具有收敛效度，需删除；

第二判断标准：变量在两个或以上因子中的载荷值同时>0.5，则说明该变量不具有区分效度，需删除；

第三个判断标准：某变量单独成为一个因子，则说明该变量也不存在收敛效度，需删除。

5）因子得分计算：F1=x1*a1+x2*a2+…

第四节 Logistic回归

应用场景：做分类预测模型，且为非参数检验方法。可以用于二分类、无序多分类、有序多分类。

1、二元Logistic回归

1）结果解读：1）根据检验中的p<0.05，得到自变量对因变量存在显著影响。

2）根据瓦尔德值的大小，判断自变量对因变量的影响程度排名。

3）优势比（OR）值>1，表示该自变量会增加因变量取1的概率的发生；反之会降低因变量取1的概率。

4）连续变量对因变量的影响程度：在其他变量不变的情况下，当年龄增加一个单位，优势比增加1.385倍（年龄越大，退休概率越高）。

5）分类自变量对因变量的影响程度：在其他变量不变的情况下，大专学历的优势比是研究生学历优势比的0.120倍（大专学历的退休概率高于研究生学历的退休概率）。

2）Logistic公式：ln(p/（1-p）)=20.305-0.782*ed1-0.561*ed2-2.121*ed3+…

SPSS操作：分析-回归-二元Logistic-分类：分类协变量-保存：概率&组成员-选项：Exp的置信区间

2、多元Logistic回归

SPSS操作：分析-回归-多元Logistic-保存：预测类别&预测类别概率

3、有序Logistic回归

首先需要进行平行性检验，检验当因变量划分不停取值时建立的多个二元Logistic回归

，自变量对因变量的影响程度是相同的；如果该检验不成立，则不能选择有序多分类模型，改用无序多分类模型。

当P>0.05时，说明原假设成立，则平行性检验成立，可以建立有序多分类模型。

解读：

1）模型公式

ln(p1/(1-p1))=-2.494-0.032*age+0.003*income (p1表示学历取1的概率)
ln(p2/(1-p2))=-1.110-0.032*age+0.003*income (p2表示学历取1的概率)
ln(p3/(1-p3))=-0.192-0.032*age+0.003*income (p3表示学历取1的概率)
ln(p4/(1-p4))=1.649-0.032*age+0.003*income (p4表示学历取1的概率)

SPSS操作：分析-回归-有序-输出：平行线检验&估算响应概率&预测类别&预测类别概率

第四节时间序列回归

1、格兰杰因果检验

因果关系成立的三个条件：

1）AB两个事件必须存在相关性

2）原因A必须发生在结果B之前

3）排除其他干扰因素

2、平稳序列

ARIMA模型建立的前提是时间序列数据必须为平稳序列，可通过单位根检验（ADF）来判断一个序列是否平稳；如果不平稳，可通过差分进行转换。

3、周期性计算

1）通过自相关系数（ACF）图的拐点，乘以4得到周期。

SPSS操作：

定义时间：数据-定义日期和时间
分析-时间序列预测

2）谱分析

通过频率取值最高的点对应的频率乘以数据量，得到周期。

SPSS操作：分析-时间序列预测-谱分析

4、解读：

1）时间序列假设检验

通过Ljung-Box Q检验，原假设是：模型可以很好的拟合原始数据,p>0.05，表示模型可以接受，p值越大模型越好。

2）模型

Yt=8.579+0.999*Yt-1+0.633*Yt-12

3）时间序列因果模型

Y1t=a1*Y1t-1+a2*Y1t-12+a3*Y4t-2+a4*Y2t-12+a0