第3章-线性概率模型(1)-logistics/probit模型

简介

数据的属性有两大类：数值型的和分类型的。分类的属性又分为标称的以及序数的，数值的属性会分为区间的和比率的。参考下图所示：

之前讨论的线性回归模型自变量x与因变量y均是数值型的情况。
模型并没有出现下面的情况：

名义类别的变量(二分类或多分类)
有序的变量
计数的变量

这些变量既可以出现在自变量x中，也可以出现在因变量y中。当出现在自变量x中时，往往进行虚拟化即可。

Y=a0+a1D1+β1X1+β2(D2+1)X2+μY = a_0 + a_1D_1+β_1X1+β_2(D_2+1)X2+μY=a0+a1D1+β1X1+β2(D2+1)X2+μ
其中DiD_iDi是虚拟化后的变量，第一章的数据预处理有讲到：一般虚拟变量如果有m个类别，且模型有截距项的时候，只需引入m-1个虚拟变量。

如上述例子所示，虚拟变量既可以单独作为解释变量，也可以与回归系数产生影响。

虚拟化变量之后，安装正常的线性回归模型的步骤进行处理即可。

同理，因变量也会出现y不是数值型的情况，通常研究分类模型都是从假定yyy为二值变量时开始。不过当因变量为多分类时，也可以拆分成n-1个二分类模型进行集成，或者直接构建多分类模型(假定yyy是服从多项式分布)。因变量还可能为有序分类等其他情况。本节仅讨论当因变量y为二值变量时的情况为基础，后续会逐步展开讨论。

正文

1，回顾线性回归模型

我们知道简单的多元线性回归模型可以写成下面的形式：
y=y^+μ=β0+β1x1+...++βnxn+μy=\hat y+μ=\beta_0+\beta_1x_1+...++\beta_nx_n+μy=y^+μ=β0+β1x1+...++βnxn+μ

那么当yyy为二值时(即只取0或1时)，我们用样本回归函数估计出的yyy值又有什么含义呢？

在给定x下，y的期望值为如下方程：

E(y∣x)=β0+β1x1+...++βnxnE(y|x)=\beta_0+\beta_1x_1+...++\beta_nx_nE(y∣x)=β0+β1x1+...++βnxn

(注：我们总是假定残差u与x是独立的且具有零均值，同方差的性质。所以E(u|x)=E(u)=0)

根据上面的公式可知，当y是一个取值0和1的二值变量时

y的期望值等价于"y=1"的条件概率

即，E(y∣x)E(y|x)E(y∣x)=1*P(y=1|x)+0*P(y=0|x)=P(y=1|x)，

2，线性概率模型

于是我们得到了一个重要的方程：

P(y=1∣x)P(y=1|x)P(y=1∣x)=β\betaβ₀+β\betaβ₁xxx₁+β\betaβ₂xxx₂+…+β\betaβ_nxxx_n

该方程说明了概率p(x)=P(y=1|x)是xxx_i的一个线性函数。而P(y=1|x)也被称为响应概率(response probability)。由于概率和必须等于1，所以P(y=0|x)=1-P(y=1|x)也是xxx_i的一个线性函数。

因为这个响应概率是参数β\betaβ_i的线性函数，所以这种二值因变量的多元线性模型又称为线性概率模型(Linear Probability Model,LPM)。

3，线性概率模型的局限

(1) 由线性概率模型的公式可知，当xxx_i的取值变化时，无法保证概率的取值范围在0~1之内。

(2) LPM违背了一个高斯-马尔可夫定理(Gauss–Markov theory)假定。当y是一个二值变量时，其以xxx为条件的方差为
Var(y|x)=p(x)[1-p(x)]
其中，p(x)=β\betaβ₀+β\betaβ₁xxx₁+β\betaβ₂xxx₂+…+β\betaβ_nxxx_n，这意味着，除非概率与任一xxx均不相关，否则一定存在异方差问题，即方差的非齐性。

4，线性概率模型的改进

虽然LPM很简单实用，但是因为有上述2点的不足，拟合出来的概率也可能会超过0~1的范围。为此，我们需要使用更为复杂的二值响应模型来克服这些缺点。

在一个响应模型中，我们关注的是响应概率
P(y=1|x)=P(y=1|xxx₁,xxx₂,…,xxx_n)

在LPM中，我们假定了响应概率是一系列参数β\betaβ_i的线性方程。为了避免LPM的局限，我们可以扩展方程的类型，考虑如下方程：

P(y=1∣x)P(y=1|x)P(y=1∣x)=G(β\betaβ₀+β\betaβ₁xxx₁+β\betaβ₂xxx₂+…+β\betaβ_nxxx_n)=G(β\betaβ₀+xβ\betaβ)=G(xβ\betaβ)
（令原x={xxx₁, … ,xxx_n},扩展为x={xxx₀=1，xxx₁, … ,xxx_n}，模型表达即简化为G(xβ\betaβ)）

其中，G()是一个取值范围严格介于0~1之间的单调函数，这就确保了响应概率也严格的介于0~1之间。G()的形式与选择有很多种，当G()为线性的，就是上面提到的LPM，除此之外，比较广泛使用的非线性的形式有logit及probit。

当G()是一个标准的Logistic随机变量的累计分布函数时，有:
logit：G(x)=exp(x)1+exp(x)\frac{exp(x)}{1+exp(x)}1+exp(x)exp(x)

当G()是一个标准的正态随机变量的累计分布函数时，有：
probit：G(x)=∫\int∫12π\frac{1}{\sqrt{2\pi}}2π1exp(-x22\frac{x^2}{2}2x2)dx

备注：
(1) G()函数除了取上述形式，还有其他指数型，以及log型，双曲正弦型等其他类型。

(2) 根据AngrewNg的机器学习课程中的讲解，得知当P(x|y=1)服从指数分布族，则P(y=1|x)的后验分布就服从Logistics分布。

5，改进的模型的推导

logit和probit模型都可以从一个满足经典线性模型假定的潜变量模型(latent variable model)推导出来。

令yyy为一个由下式决定的观测不到的潜变量。
yyy=xβ\betaβ+u
y=1，when yyy>0
y=0，when yyy<=0

假定：残差u独立于x，并且服从标准的整体分布或标准的Logistics分布。

P(y=1|x)=P(yyy*>0|x)=P(xβ+u>0|x)=P(u>-xβ|x)=1-G(-xβ) =G(xβ)
(因为假定模型的残差u与x无关，且不论是Logistics还是probit，残差的分布都是对称的)

所以，改进的二值响应概率模型，实际上取决于对残差u的假设，当u服从正态分布，则模型为probit，当u服从logistic分布则模型为logistic。

probit模型中，残差项u的方差为1；Logistics模型中，残差项u的方差为π\piπ²/3；

6，模型的参数估计-极大似然估计

极大似然估计与OLS估计的统计性质几乎相同。具有一致性、渐进有效性、渐进正态性。与OLS估计不同之处是，只有在样本较大时，似然估计的性质才能够保持。极大似然估计的样本量在100以上时，风险会小很多(Aldrich and Nelson,1984).

接下来我们看看，一般情况下是如何推导似然估计的：

已知，P(y=1|x)=G(xβ) ，P(y=0|x)=1-G(xβ)
假设自变量x的个数为n个，加上常数项x₀=1的扩展，x向量的长度为n+1，同时假定样本量为m个。

我们定义y_i在给定x_i下的概率密度：
f(y_i|x_i,β)=G(x_iβ)^y_i[1-G(x_iβ)]^1-y_i

则，其对数概率密度函数lll_i(β),为
lll_i(β)=y_ilogG(x_iβ)+(1-y_i)log[1-G(x_iβ)]

最终得到对数似然函数为
L(β)=Σlll_i(β)，(i=1,2,…,m)
根据KKT条件,对L(β)求极值，即求得参数β_i
(上述中，x与β均代表向量，且向量长度为n+1)

这里说的只是对参数的点估计，还有(置信)区间估计省略了.

备注：Logistics回归模型估计的假设条件

数据来源于随机样本；
对多元共线性敏感；
因变量只能取0或1；
不需要假定同分布和方差齐性(OLS估计中需要该假定)；
不需要假定变量之间存在多元正态分布，如果存在会增加模型的功效及求解的稳定性(Tabachnick & Fidell 1996).(OLS估计中需要假定变量服从多元正态分布)

7，模型的假设检验与筛选：

假设检验与模型筛选的思路与流程与第二章讲的内容思想基本一致，略有不同是的针对不同的模型，其具体指标会有变化。

7.1 显著性检验

一般线性模型中，我们有t检验，F检验，用来判断模型参数的显著性。模型参数的显著性，即用来确定自变量(可能是单个自变量也可能是联合的自变量)是否对因变量有显著性影响的过程。

F检验原假设 β1=β2=...=βn=0\beta_1=\beta_2=...=\beta_n=0β1=β2=...=βn=0，用来判断我们的因变量是否显著性的依赖于至少一个xix_ixi.

t检验原假设 βi=0\beta_i=0βi=0，当通过F检验时，还需对每一个自变量进行检验，判断是否哪个自变量对因变量没有显著性的影响关系。

然而在logistic回归中，对单个系数的检验通常用到Wald检验或似然比检验。而对一组系数的检验通常用到似然比检验。

单个自变量系数绝对值很大时，对wald检验会有影响，因此应用用似然比检验查看。

(1) Wald检验

(2) 似然比/偏差(Deviance)检验
观测值与预测值的比较还可以用似然比检验(LRT)。

假设检验的核心问题是构造合理的统计量，而统计量的构造是非常困难的。为了解决此问题，尼曼和皮尔逊于1982年提出了"似然比"方法，利用此法可以解决构造统计量的困难。

但是LRT只对层级嵌套的模型之间的比较才有效，举个例子，一个模型M1自变量是X1,X2,X3，另一个模型M2自变量是X2,X3，那么我们就说M2嵌套在M1中。

LRT的统计量公式：D(deviance) = 2(lnLf−lnLs)(lnL_f-lnL_s)(lnLf−lnLs)=−2ln(LsLf)-2ln(\frac{L_s}{L_f})−2ln(LfLs)
其中LfL_fLf为复杂模型的最大似然值，通常以饱和模型(full or saturated model)为准；LsL_sLs为设定的简单模型的最大似然值。D统计量被称为偏差，近似的符合卡方分布。

首先，在层级嵌套的模型下，拥有更多自变量的复杂模型的对数似然值LfL_fLf一定大于相对简单的模型的对数似然值LsL_sLs。

当lnLflnL_flnLf 值显著大于 lnLslnL_slnLs 值时，LsLf\frac{L_s}{L_f}LfLs即为小于1的分数，取对数后为负数，再乘以-2后，D值就会变成比较大的正值，表示两模型间相差的自变量对该样本数据有更好的解释性；

相反，lnLslnL_slnLs 值近似于 lnLflnL_flnLf 值时，D值就会很小接近于零，表示所设定的模型拟合很好；

为了检验两个模型似然值的差异是否显著，我们必须要考虑自由度。LRT检验中，自由度等于在复杂模型中增加的模型参数的数目。这样根据卡方分布临界值表，我们就可以判断模型差异是否显著。

备注：多元线性模型中，通常用F检验来检验出常数项外所有系数均为0的原假设。Logistics回归中，似然比检验服务于同一目的。

(3) Hosmer-Lemeshow拟合优度检验(HL)
当自变量数据增加时，尤其是大量数值型的自变量，则每种自变量组合生成的不同条件下的观察案例会变得非常稀疏。使得D与pearson卡方检验不再适用于估计Logistics模型的拟合优度。为了克服该缺点，HL会根据预测概率值将数据分成大致的相同规模的10个组。将观测概率按其预测概率做升序排列，第一组包括预测概率最小的那些观测案例，而最后一组包括预测概率最大的那些观测案例。

HL符号G-2的自由度的卡方分布，卡方检验不显著表示模型拟合数据好，相反表示拟合的不好。

7.2 拟合优度—模型筛选/变量选择

虽然通过显著性检验，但一定有些自变量对因变量的影响大，有些影响小。再我们不断尝试变更变量选择的时候就会产生多个模型—如，采取逐步回归时。那么如何从众多模型中选择一个最优的呢？下面提供了几种参考方法。

(1) pearson 卡方拟合优度检验
模型估计完成以后，需要评价模型的预测值与实际值之间的匹配程度，以此来说明模型拟合优度的好坏。
pearson 卡方检验： X2=∑1mOj−EjEjX^2=\sum_1^m \frac{O_j-E_j}{E_j}X2=∑1mEjOj−Ej

卡方统计量很小意味着预测值与观测值没有显著差异，表示这一模型很好的拟合了数据。

(2) 信息测量指标

AIC/BIC/SC等，具体参见第2章-回归模型(3)-模型筛选

(3) 类R2R^2R2指标
线性回归中，R2R^2R2的值有着十分诱人的解释特性，它描述了因变量的变动中由模型的自变量所"解释"的百分比。但是Logistics模型中，却没有相应的统计指标。不过，可以在似然值对数的基础上，构造类似于R2R^2R2的指标。如，似然比指数（LRI, Green 1900; Hosmer and Lemeshow 1989）.

将−2LL0-2LL_0−2LL0(零模型的最大似然值对数)类比于线下回归模型中的总平方和TSS，将 −2LLs-2LL_s−2LLs(所设模型最大似然值对数)类比于误差平方和ESS。于是，
LRI=(−2LL0−(−2LLs)−2LL0\frac{-2LL_0-(-2LL_s)}{-2LL_0}−2LL0−2LL0−(−2LLs))

8，模型诊断—样本数据不满足模型假设时

完成建模后还需对模型进行一些诊断，通用的诊断要检验模型有无共线性、异方差的问题。对于logistic模型，也有其自身的一些问题。大都是数据结构的问题，因变量数据结构问题可能导致过离散、特异值；自变量数据结构问题可能导致空单元、完全分离、共线性等。

(1) 空单元(zero cell count)
这个问题相对比较简单，即根据因变量构建的交互表中，对应的观测频数为0。空单元问题主要发生在分类变量，可以通过合并类型来消灭空单元问题。

空单元通常会导致无法收敛，或模型有很大的估计系数和特别大的系数估计标准误。

(2) 完全分离

(3) 共线性
同线性回归一样，logistic回归也对自变量中存在多元共线性很敏感。
共线性将导致系数估计的标准误差增加。同样，可以通过自变量的相关阵进行诊断。或者用通用的VIF来进行诊断。

(4) 过离散
如果发生反应变量的测量方程超过名义上的方差njpj(1−pj)n_j p_j(1-p_j)njpj(1−pj)，就称这种现象为过二项变异(extra binomial variation)或过离散。

实际数据中常有过离散现象，如果反应概率pjp_jpj并不是随机变化，那么pjp_jpj的变动将会造成yjy_jyj的方差大于其本来应有的方差。

通常采用卡方或Deviance统计量来估计离散统计量。离散参数估计为卡方或Deviance统计量除以相应的自由度。

(5) 特异值和杠杆点
在logistic回归中，如果一个案例的实际结果是一种类型而其预测值却在另一类型上有很高的概率，便认为是特异值。

通常通过杠杆度、Cook距离等筛选出对参数估计以及预测值有很大影响的案例。

下一节：第3章-从线性概率模型到广义线性模型(2)

参考：
1，计量经济学导论-J.M伍德里茨，第七章与第十七章
2，统计学习-李航，第六章
3，机器学习公开课-Andrew Ng
4，https://en.wikipedia.org/wiki/Gradient_descent
5，http://www.zhihu.com/question/19723347
6，http://blog.csdn.net/acdreamers/article/details/44658249
7，http://baike.baidu.com/link?url=vygc1zboVevA_qUXoRBEOpfVgz4PnbCKik8E2V0aP8i42DnSnAKs4GtGJA3ppH4shPUrsiB_7UOUZoolOee6la
8，http://ww2.coastal.edu/kingw/statistics/R-tutorials/logistic.html
9，http://scott.fortmann-roe.com/docs/BiasVariance.html
10，http://nlp.stanford.edu/~manning/courses/ling289/logistic.pdf
11，http://stackoverflow.com/questions/9258708/plot-two-curves-in-logistic-regression-in-r
12，http://cos.name/2015/08/some-basic-ideas-and-methods-of-model-selection/
13，Logistics回归模型-方法与应用-王济川，郭志刚

第3章-线性概率模型(1)-logistics/probit模型相关推荐

【控制】《最优控制理论与系统》-胡寿松老师-第5章-线性最优状态调节器
第4章回到目录第6章 <最优控制理论与系统>-胡寿松老师-第5章-线性最优状态调节器第5章线性最优状态调节器 5.1 线性二次型问题 5.2 状态调节器 5.2.1 有限时间状态调 ...
【控制】《现代控制理论》谢克明老师-第3章-线性控制系统的能控性和能观测性
第2章回到目录第4章第3章-线性控制系统的能控性和能观测性 3.1 系统的能控性 3.2 系统的能观测性 3.3 能控性和能观测性的对偶关系 3.4 单输入单输出系统的能控标准型和能观测标准型 ...
【控制】《现代控制理论》谢克明老师-第2章-线性控制系统状态空间表达式的求解
第1章回到目录第3章第2章-线性控制系统状态空间表达式的求解 2.1 线性定常连续系统齐次状态方程的解 2.2 线性定常连续系统的状态转移矩阵 2.3 线性定常连续系统非齐次状态方程的求解 2. ...
【控制】《自动控制原理》胡寿松老师-第7章-线性离散系统的分析与校正
第6章回到目录第8章第7章-线性离散系统的分析与校正 7.1 离散系统的基本概念 7.2 信号的采样与保持 7.3 Z 变换理论 7.4 离散系统的数学模型 7.5 离散系统的稳定性与稳态误差 ...
c语言创造线性表储存复数,《c语言数结构》第02章线性表.ppt
<c语言数结构>第02章线性表第1章回顾数据结构课程-- 数据结构+算法＝程序,涉及数学.计算机硬件和软件. 数据结构定义--指互相有关联的数据元素的集合,可用data_Struct ...
数据结构与算法——慕课作业——第一章概论 + 第二章线性表
重点题: 第一章:小测-2.4.7 第二章:小测-3 & 编程-2.3 第一章概论 part 1: 小测验答案: 1.C你选对了解析: A.向量:直接访问型线性结构 B.散列表:目录 ...
大话数据结构读书笔记艾提拉总结查找算法和排序算法比较好第1章数据结构绪论 1 第2章算法 17 第3章线性表 41 第4章栈与队列 87 第5章串 123 第6章树 149 第7章图 21
大话数据结构读书笔记艾提拉总结查找算法和排序算法比较好第1章数据结构绪论 1 第2章算法 17 第3章线性表 41 第4章栈与队列 87 第5章串 123 第6章树 149 第7章图 211 第 ...
数据结构严蔚敏第二章线性表
数据结构严蔚敏第二章线性表线性表:由n个(n>=0)数据特征相同的元素构成的有限序列. 线性表的类型定义表示和实现顺序表存储单元地址连续随机存取若每个元素占用 m 个存储单元,以 ...
高一凡-数据结构第2章-线性表
高一凡-数据结构第2章-线性表 2.2.1线性表的顺序表示和实现 1.初始化 2.销毁与清空 3.判空与长度 4.获取元素值与位置 2.2.2换一种写法 2.2.3归并 2.3.1线性表的链式表示和实 ...
数据结构第二章-线性表（详细知识点总结）
目录第二章线性表 2.1 线性表的定义和操作 2.1.1 线性表的定义 2.1.2 线性表的基本操作 2.2线性表的顺序表示 2.2.1 顺序表的定义 2.2.2 顺序表上基本操作的实现 2.3 ...

第3章-线性概率模型(1)-logistics/probit模型

简介

正文

y的期望值等价于"y=1"的条件概率

第3章-线性概率模型(1)-logistics/probit模型相关推荐

最新文章

热门文章