一文教你掌握广义估计方程

广义估计方程是一种研究纵向数据（比如重复测量数据，面板数据）的方法。

同一测量对象的多次测量数据结果之间很可能有着相关关系，如果不考虑数据之间的相关性会造成信息损失。常见的研究模型（比如线性回归）都要求数据之间独立，此时可使用广义估计方程进行研究。

重复测量方差要求数据完整不能有缺失，但在实际研究中，有缺失数据较为普遍，此时也可以使用广义估计方程进行研究。不同的是，重复测量方差是从差异关系角度分析，但广义估计方程是从影响关系角度分析。

除此之外，重复测量方差要求因变量Y为定量连续数据，自变量X是定类数据；但是广义估计方程时，因变量Y为定量数据或者二分类数据，也或者泊松分布，负二项分布数据均可，对自变量的数据类型也无特别要求，如果是定类数据直接做虚拟变量设置即可。

一、案例背景

为研究青少年牙齿发育情况与年龄，性别的关系，现收集27名儿童，他们分别在8，10，12，14岁共4个年龄时的牙齿长度指标（distance，垂体至翼上颌裂长度）。现在想研究不同性别儿童牙齿长度指标是否有着明显的差异性。

明显的，本研究数据为纵向数据即重复测量，同一对象测量了4个年龄段（还有一种纵向数据是比如同一对象测量不同的几个部位），本份数据由于没有缺失数据，因变量为定量数据，因而也可使用重复测量方差进行研究（年龄为组内项）。本案例使用GEE进行研究分析。

研究数据结构如下图：

subjectID：标识具体是哪个研究对象，本次共有27名儿童，编号分别从1~27；

性别：标识研究对象的性别，“1”表示男性，“0”表示女性；

年龄：标识研究对象的测量时间点，分别为8，10，12和14岁这4个时间点进行测量，该项为组内项；

distance：牙齿长度指标“垂体至翼上颌裂长度”，该数据为定量连续数据，因此需要使用回归模型。

二、理论

广义估计方程涉及两部分内容，一是模型的选择，二是矩阵结构。

（1）模型的选择

使用广义估计方程首先要根据因变量Y的数据分布特征，选择适合的模型。

如果因变量是定量连续数据，通常使用线性回归模型；
如果因变量的二分类数据，只有数字0或1，那么使用二元Logit或二元Probit回归均可，一般情况下优先使用二元Logit回归，计量研究中使用二元Probit相对较多。
如果因变量服从泊松分布，可使用泊松回归。如果因变量Y的数据特征有点类似泊松分布，但是均值与方差差异较大，则使选择负二项回归模型。

（2）矩阵结构

广义估计方程GEE用于解决数据独立性问题，矩阵结构正是解决此问题的具体方式。

等相关exchangeable：数据之间有着相关性，而且相关性相等，此种情况使用较多。
自相关autoregressive：数据之间有着相关性，而且相邻时间点相关性越大，时间间隔越大相关性越小。
独立independence：数据之间完全独立，同一对象的不同测量数据之间没有关系，此种情况相关于数据完全独立，即数据确实是重复测量，但并没有违反独立性原则。使用较少，但可作为一种探索对比进行分析。

那么上述三种矩阵结构如何选择呢？

通常的选择办法是分别进行此三种结构时的模型，并且记录下QIC值，QIC值越小，此时就使用对应的矩阵结构模型。在广义估计方程中，事实上还有其它的矩阵结构，比如M-dependent，Unstructured等，使用相对较少。

三、操作

登录SPSSAU，选择【实验/医学研究】--【广义估计方程】。

本例子使用广义估计矩阵模型，由于因变量Y为定量连续数据，因此选择回归模型，并且暂使用默认的等相关exchangeable矩阵结构，操作如下图：

由于性别使用数字1表示男性，数字0表示女性，已经是哑变量数据，并不需要进行处理；

年龄作为组内项可放入对应框中。

四、SPSSAU输出结果

SPSSAU共输出三个表格，分别是模型基本信息，模型回归系数汇总和边际效应分析结果。

（1）模型基本信息

上表格展示模型基本信息，包括每个研究对象subject的测量数量，本案例全部都是4，即都测量了4次；比如本次研究对象为27个，每个对象都有完整的4次重复测量数据，因此测量最小，最大或平均个数均为4。

同时展示链接函数（模型结构）为Linear即线性回归模型，作业相关矩阵（矩阵结构）为等相关。QIC值为113.8。

（2）模型回归系数

模型回归系数：展示模型的回归值等，结果中的OR值及OR 95%CI值，仅在二元logit，二元probit，泊松回归或负二项回归模型时才有意义；

从上表可知：性别的回归系数值为2.321（z=3.096, p=0.002 <0.01），呈现出0.01水平的显著性，意味着性别会对distance产生正向影响，即相对于女性而言，男性群体的distance牙齿长度明显发育更长。

（3）边际效应分析结果

边际效应分析结果：此表格在计量研究中使用较多，通常可忽略

边际效应指X变化一单位时,Y带来的幅度变化，该指标通常在计量经济研究中使用较多；边际效应结果在计量研究时，而且是使用线性回归时会有一些用处。比如上表格中边际效应dy/dx值为2.321，其代表性别增加一个单位（即从女性变化到男性时），因变量distance牙齿长度增加幅度为2.321。

「更多内容登录SPSSAU官网了解」