基础模型

假设一个二元分类问题特征为X∈X⊂RdX \in \mathcal{X} \subset \mathbb{R}^dX∈X⊂Rd，类别为Y∈{0,1}Y \in \{0,1\}Y∈{0,1}，二元分类的目标是训练一个模型：f:X→0,1f: \mathcal{X} \to {0,1}f:X→0,1完成分类任务。因为输出是0和1，所以通常用示性函数表示fff
f=I(b(X)>0)f = I(b(X)>0) f=I(b(X)>0)
称b(X)=0b(X)=0b(X)=0为这两个类别的边界。二元分类问题与二值回归有哲学上的不同，二值回归认为特征XXX不具有随机性，响应YYY的随机性来源于随机误差，而二元分类问题中特征XXX与响应YYY均是随机变量。

Bayes分类器

假设YYY的先验为Ber(π1)Ber(\pi_1)Ber(π1)，特征的条件密度为X∣Y=1∼g1(x)X|Y=1 \sim g_1(x)X∣Y=1∼g1(x)，X∣Y=0∼g0(x)X|Y=0 \sim g_0(x)X∣Y=0∼g0(x)，记π0=1−π1\pi_0=1-\pi_1π0=1−π1。根据Bayes公式，YYY的后验概率为
P(Y=1∣X)=P(Y=1,X)P(X)=π1g1(x)π0g0(x)+π1g1(x)P(Y=0∣X)=P(Y=0,X)P(X)=π0g0(x)π0g0(x)+π1g1(x)P(Y=1|X) = \frac{P(Y=1,X)}{P(X)} = \frac{\pi_1g_1(x)}{\pi_0g_0(x)+\pi_1g_1(x)} \\ P(Y=0|X) = \frac{P(Y=0,X)}{P(X)} = \frac{\pi_0g_0(x)}{\pi_0g_0(x)+\pi_1g_1(x)} P(Y=1∣X)=P(X)P(Y=1,X)=π0g0(x)+π1g1(x)π1g1(x)P(Y=0∣X)=P(X)P(Y=0,X)=π0g0(x)+π1g1(x)π0g0(x)
分类问题一般使用0-1损失函数，所以
L(Y,f(X))=I(Y≠f(X))L(Y,f(X)) = I(Y \ne f(X)) L(Y,f(X))=I(Y=f(X))
这个问题的EPE为
R(f)=EX,YL(Y,f(X))=EXEY∣X=xI(Y≠f(X))R(f) = E_{X,Y} L(Y,f(X)) = E_XE_{Y|X=x} I(Y \ne f(X)) R(f)=EX,YL(Y,f(X))=EXEY∣X=xI(Y=f(X))
寻找fff最小化这个函数就可以得到分类规则了。

均等成本

上一篇博文提到过，给定X=xX=xX=x时，最小化内层的条件期望即可
EY∣X=xI(Y≠f(X))=EY∣X=x{I(Y=1,f(X)=0)+I(Y=0,f(X)=1)}=P(Y=1,f(X)=0∣X=x)+P(Y=0,f(X)=1∣X=x)=P(Y=1∣X=x)I(f(x)=0)+P(Y=0∣X=x)I(f(x)=1)≥min{P(Y=1∣X=x),P(Y=0∣X=x)}E_{Y|X=x} I(Y \ne f(X)) = E_{Y|X=x} \{I(Y=1,f(X)=0)+I(Y=0,f(X)=1)\} \\ = P(Y=1,f(X)=0 | X=x) + P(Y=0,f(X)=1|X=x) \\ = P(Y=1|X=x)I(f(x)=0) + P(Y=0|X=x)I(f(x)=1) \\ \ge min\{P(Y=1|X=x), P(Y=0|X=x)\} EY∣X=xI(Y=f(X))=EY∣X=x{I(Y=1,f(X)=0)+I(Y=0,f(X)=1)}=P(Y=1,f(X)=0∣X=x)+P(Y=0,f(X)=1∣X=x)=P(Y=1∣X=x)I(f(x)=0)+P(Y=0∣X=x)I(f(x)=1)≥min{P(Y=1∣X=x),P(Y=0∣X=x)}
注意到第三行等号这个表达式其实是个凸组合，所以有那个最小值，并且当且仅当f(x)=I(P(Y=1∣X=x)>P(Y=0∣X=x))f(x)=I(P(Y=1|X=x)>P(Y=0|X=x))f(x)=I(P(Y=1∣X=x)>P(Y=0∣X=x))取等。这个结果就给出了我们需要的分类规则，称其为Bayes分类器，它的边界为
b(x)=P(Y=1∣X=x)−P(Y=0∣X=x)=0b(x)=P(Y=1|X=x)-P(Y=0|X=x)=0 b(x)=P(Y=1∣X=x)−P(Y=0∣X=x)=0
分类规则P(Y=1∣X=x)>P(Y=0∣X=x)P(Y=1|X=x)>P(Y=0|X=x)P(Y=1∣X=x)>P(Y=0∣X=x)还有其他几种等价形式。第一种等价形式：
P(Y=1∣X=x)>P(Y=0∣X=x)⟺π1g1(x)π0g0(x)+π1g1(x)>π0g0(x)π0g0(x)+π1g1(x)⟺g1(x)g0(x)>π0π1P(Y=1|X=x)>P(Y=0|X=x) \\ \Longleftrightarrow \frac{\pi_1g_1(x)}{\pi_0g_0(x)+\pi_1g_1(x)} > \frac{\pi_0g_0(x)}{\pi_0g_0(x)+\pi_1g_1(x)} \Longleftrightarrow \frac{g_1(x)}{g_0(x)} > \frac{\pi_0}{\pi_1} P(Y=1∣X=x)>P(Y=0∣X=x)⟺π0g0(x)+π1g1(x)π1g1(x)>π0g0(x)+π1g1(x)π0g0(x)⟺g0(x)g1(x)>π1π0
第二种等价形式
P(Y=1∣X=x)>P(Y=0∣X=x)⟺P(Y=1∣X=x)>1−P(Y=1∣X=x)⟺P(Y=1∣X=x)>0.5P(Y=1|X=x)>P(Y=0|X=x) \\ \Longleftrightarrow P(Y=1|X=x)>1-P(Y=1|X=x) \\ \Longleftrightarrow P(Y=1|X=x)>0.5 P(Y=1∣X=x)>P(Y=0∣X=x)⟺P(Y=1∣X=x)>1−P(Y=1∣X=x)⟺P(Y=1∣X=x)>0.5

不等成本

在推导EY∣X=xI(Y≠f(X))E_{Y|X=x} I(Y \ne f(X))EY∣X=xI(Y=f(X))的时候，我们把I(Y≠f(X))I(Y \ne f(X))I(Y=f(X))展开成了两项，I(Y=1,f(X)=0)I(Y=1,f(X)=0)I(Y=1,f(X)=0)和I(Y=0,f(X)=1)I(Y=0,f(X)=1)I(Y=0,f(X)=1)。这两项的含义是不同的，第一项的含义是把类别1错误地分到了类别0，第二项的含义是把类别0错误地分到了类别1，均等成本时这两项对损失的贡献是均等的，若考虑不等成本，可以假设这两项对损失的贡献分别为C(1,0)C(1,0)C(1,0)和C(0,1)C(0,1)C(0,1)。这两个系数可以理解成错误分类的成本，举一个非常直观的例子，如果要预测的1、0两个类别分别是股价上涨或者下跌，那么C(1,0)C(1,0)C(1,0)就代表错误地认为股价会下降造成的投资损失，C(0,1)C(0,1)C(0,1)就代表错误地认为股价会上升造成的投资损失。不等成本下的损失函数可以写成
L(Y,f(X))=C(1,0)I(Y=1,f(X)=0)+C(0,1)I(Y=0,f(X)=1)L(Y,f(X)) = C(1,0)I(Y=1,f(X)=0)+C(0,1)I(Y=0,f(X)=1) L(Y,f(X))=C(1,0)I(Y=1,f(X)=0)+C(0,1)I(Y=0,f(X)=1)
最优化的目标也就变成了
EY∣X=xI(Y≠f(X))=EY∣X=x{C(1,0)I(Y=1,f(X)=0)+C(0,1)I(Y=0,f(X)=1)}=C(1,0)P(Y=1,f(X)=0∣X=x)+C(0,1)P(Y=0,f(X)=1∣X=x)=C(1,0)P(Y=1∣X=x)I(f(x)=0)+C(0,1)P(Y=0∣X=x)I(f(x)=1)≥min{C(1,0)P(Y=1∣X=x),C(0,1)P(Y=0∣X=x)}E_{Y|X=x} I(Y \ne f(X)) = E_{Y|X=x} \{C(1,0)I(Y=1,f(X)=0)+C(0,1)I(Y=0,f(X)=1)\} \\ = C(1,0)P(Y=1,f(X)=0 | X=x) + C(0,1)P(Y=0,f(X)=1|X=x) \\ = C(1,0)P(Y=1|X=x)I(f(x)=0) + C(0,1)P(Y=0|X=x)I(f(x)=1) \\ \ge min\{C(1,0)P(Y=1|X=x), C(0,1)P(Y=0|X=x)\} EY∣X=xI(Y=f(X))=EY∣X=x{C(1,0)I(Y=1,f(X)=0)+C(0,1)I(Y=0,f(X)=1)}=C(1,0)P(Y=1,f(X)=0∣X=x)+C(0,1)P(Y=0,f(X)=1∣X=x)=C(1,0)P(Y=1∣X=x)I(f(x)=0)+C(0,1)P(Y=0∣X=x)I(f(x)=1)≥min{C(1,0)P(Y=1∣X=x),C(0,1)P(Y=0∣X=x)}
这个推导与上面的相比只是多了一个系数而已。由此可以得到不等成本下的Bayes分类器为
f(x)=I(C(1,0)P(Y=1∣X=x)>C(0,1)P(Y=0∣X=x))f(x)=I(C(1,0)P(Y=1|X=x)>C(0,1)P(Y=0|X=x)) f(x)=I(C(1,0)P(Y=1∣X=x)>C(0,1)P(Y=0∣X=x))
对应的第一种等价的分类规则为
g1(x)g0(x)>π0C(0,1)π1C(1,0)\frac{g_1(x)}{g_0(x)} > \frac{\pi_0C(0,1)}{\pi_1C(1,0)} g0(x)g1(x)>π1C(1,0)π0C(0,1)
对应的第二种等价的分类规则
P(Y=1∣X=x)>C(0,1)C(0,1)+C(1,0)P(Y=1|X=x)>\frac{C(0,1)}{C(0,1)+C(1,0)} P(Y=1∣X=x)>C(0,1)+C(1,0)C(0,1)
这两个的推导太平凡了，就不展示了。从这个推导可以看出，要计算Bayes分类器是需要知道不同类别的特征的条件分布的，然而在实际问题中这个是未知的，所以Bayes分类器只能提供一个理论上的参考，如果分类模型在样本数足够大时泛化能力趋近于Bayes分类器，就认为这个模型是非常不错的（学名叫Fisher Consistency）。由于特征的条件分布未知，所以二分类模型都是在试图添加假设以避免使用特征的条件分布来构造分类规则。

线性概率模型

这是一个最简单，效果也很差的分类模型。在回归那个系列的博文里提到过线性概率模型，直接搬到这里来用
E(Y∣X=x)=P(Y=1∣X=x)=xTβE(Y|X=x) =P(Y=1|X=x)= x^T \beta E(Y∣X=x)=P(Y=1∣X=x)=xTβ
根据Bayes分类规则，P(Y=1∣X=x)=xTβ>0.5P(Y=1|X=x)= x^T \beta>0.5P(Y=1∣X=x)=xTβ>0.5就是类别1，所以线性分类器可以表示成
f(x)=I(xTβ>0.5)f(x) = I(x^T \beta>0.5) f(x)=I(xTβ>0.5)
边界为xTβ=0.5x^T \beta=0.5xTβ=0.5。与所有的线性回归模型一样，线性分类器对变量取值特别敏感。

线性分类器

线性分类器指的是分类边界是线性方程的那种分类器，常见的线性分类器包括线性概率模型、线性对数输赢比模型（LDA和Logistics回归）、分离超平面模型（感知器模型和SVM）。这里介绍线性对数输赢比模型，它的含义是输赢比的对数关于特征是一个线性函数：
ln⁡P(Y=1∣X=x)P(Y=0∣X=x)=xTβ\ln{\frac{P(Y=1|X=x)}{P(Y=0|X=x)}} = x^T \beta lnP(Y=0∣X=x)P(Y=1∣X=x)=xTβ
简单解释一下为什么满足这个条件的模型是线性分类器。根据线性对数输赢比假设可以解得
P(Y=1∣X=x)=exp⁡(xTβ)1+exp⁡(xTβ)P(Y=0∣X=x)=exp⁡11+exp⁡(xTβ)P(Y=1|X=x) = \frac{\exp{(x^T \beta)}}{1 + \exp{(x^T \beta)}} \\ P(Y=0|X=x) = \frac{\exp{1}}{1 + \exp{(x^T \beta)}} P(Y=1∣X=x)=1+exp(xTβ)exp(xTβ)P(Y=0∣X=x)=1+exp(xTβ)exp1
根据Bayes分类规则，某个点被分到类别1的条件为
P(Y=1∣X=x)=exp⁡(xTβ)1+exp⁡(xTβ)>0.5⟺xTβ>0P(Y=1|X=x) = \frac{\exp{(x^T \beta)}}{1 + \exp{(x^T \beta)}} >0.5 \\ \Longleftrightarrow x^T \beta >0 P(Y=1∣X=x)=1+exp(xTβ)exp(xTβ)>0.5⟺xTβ>0
因此分类边界为xTβ=0x^T \beta = 0xTβ=0，即关于特征的线性函数。LDA通过其他假设得到线性对数输赢比的，Logistics回归直接用它作为假设。因为我回归那个系列的博文Logistics回归总结得比较详细，这里就不再重复了。

线性判别分析（LDA）

这个模型其实也是从多元统计分析那里拿过来的。假设X∣Yj∼N(μj,Σj)，j=0,1X|Y_j \sim N(\mu_j,\Sigma_j)，j=0,1X∣Yj∼N(μj,Σj)，j=0,1，并且Σ0=Σ1=Σ\Sigma_0=\Sigma_1=\SigmaΣ0=Σ1=Σ。这个是一个非常强的假设，它的含义也是非常直观的，考虑二元正态分布，XXX平面上的等概率曲线的形状是椭圆，长半轴长和短半轴长是协方差矩阵的特征值，长轴和短轴的方向则由协方差的特征向量决定，因此相同协方差矩阵假设其实是说这两个类别的数据点分布在两个平移相等的等概率椭圆中，基于这个假设的LDA其实就是在判断一个新的数据点落在哪个椭圆的概率更大。关于YYY的先验的假设不变，多元正态概率密度可以写成
f(x∣Yj)=(2π)−d/2∣Σ∣−1/2exp⁡{−12(x−μj)TΣ−1(x−μj)}f(x|Y_j) = (2\pi)^{-d/2} |\Sigma|^{-1/2}\exp{\{-\frac{1}{2}(x-\mu_j)^T\Sigma^{-1}(x-\mu_j)\}} f(x∣Yj)=(2π)−d/2∣Σ∣−1/2exp{−21(x−μj)TΣ−1(x−μj)}
因此Yj∣X=xY_j|X=xYj∣X=x的后验核为
πjexp⁡{−12(x−μj)TΣ−1(x−μj)}\pi_j \exp{\{-\frac{1}{2}(x-\mu_j)^T\Sigma^{-1}(x-\mu_j)\}} πjexp{−21(x−μj)TΣ−1(x−μj)}
对数输赢比为
ln⁡P(Y=1∣X=x)P(Y=0∣X=x)=ln⁡π1exp⁡{−12(x−μ1)TΣ−1(x−μ1)}π0exp⁡{−12(x−μ0)TΣ−1(x−μ0)}=ln⁡π1π0−12(μ0+μ1)TΣ−1(μ1−μ0)+xTΣ−1(μ1−μ0)\ln{\frac{P(Y=1|X=x)}{P(Y=0|X=x)}} = \ln{\frac{\pi_1 \exp{\{-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)\}}} {\pi_0 \exp{\{-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0)\}}}} \\ = \ln \frac{\pi_1}{\pi_0} - \frac{1}{2}(\mu_0+\mu_1)^T \Sigma^{-1} (\mu_1-\mu_0) + x^T \Sigma^{-1} (\mu_1-\mu_0) lnP(Y=0∣X=x)P(Y=1∣X=x)=lnπ0exp{−21(x−μ0)TΣ−1(x−μ0)}π1exp{−21(x−μ1)TΣ−1(x−μ1)}=lnπ0π1−21(μ0+μ1)TΣ−1(μ1−μ0)+xTΣ−1(μ1−μ0)
定义
β0=ln⁡π1π0−12(μ0+μ1)TΣ−1(μ1−μ0)β1=Σ−1(μ1−μ0)β=[β0,β1]T\beta_0 = \ln \frac{\pi_1}{\pi_0} - \frac{1}{2}(\mu_0+\mu_1)^T \Sigma^{-1} (\mu_1-\mu_0) \\ \beta_1 = \Sigma^{-1} (\mu_1-\mu_0) \\ \beta = [\beta_0,\ \beta_1]^T β0=lnπ0π1−21(μ0+μ1)TΣ−1(μ1−μ0)β1=Σ−1(μ1−μ0)β=[β0, β1]T
假设xxx包含了常数项，对数输赢比就可以写成xTβx^T\betaxTβ。在具体操作的时候要估计参数π0,π1,μ0,μ1,Σ\pi_0,\pi_1,\mu_0,\mu_1,\Sigmaπ0,π1,μ0,μ1,Σ，可以用MLE来估计。考虑X,YX,YX,Y的联合概率密度为
f(x,y)=π0(2π)−d/2∣Σ∣−1/2exp⁡{−12(x−μ0)TΣ−1(x−μ0)}+π1(2π)−d/2∣Σ∣−1/2exp⁡{−12(x−μ1)TΣ−1(x−μ1)}f(x,y) = \pi_0 (2\pi)^{-d/2} |\Sigma|^{-1/2}\exp{\{-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0)\}} \\ + \pi_1 (2\pi)^{-d/2} |\Sigma|^{-1/2}\exp{\{-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)\}} f(x,y)=π0(2π)−d/2∣Σ∣−1/2exp{−21(x−μ0)TΣ−1(x−μ0)}+π1(2π)−d/2∣Σ∣−1/2exp{−21(x−μ1)TΣ−1(x−μ1)}
根据这个来做MLE可以得到
π0^=n0n,π1^=n1n\hat{\pi_0} = \frac{n_0}{n}, \hat{\pi_1} = \frac{n_1}{n} π0^=nn0,π1^=nn1
其中n0,n1n_0,n_1n0,n1为两个类别的样本数，n=n0+n1n=n_0+n_1n=n0+n1，
μ^0=∑Yi=0xin0,μ^1=∑Yi=1xin1S^02=1n0−1∑Yi=0(xi−μ^0)(xi−μ^0)TS^12=1n1−1∑Yi=1(xi−μ^1)(xi−μ^1)TΣ^=(n0−1)S^02+(n1−1)S^12n−2\hat{\mu}_0 = \frac{\sum_{Y_i=0} x_i}{n_0}, \hat{\mu}_1 = \frac{\sum_{Y_i=1} x_i}{n_1} \\ \hat{S}^2_0 = \frac{1}{n_0-1} \sum_{Y_i=0} (x_i-\hat{\mu}_0)(x_i-\hat{\mu}_0)^T \\ \hat{S}^2_1 = \frac{1}{n_1-1} \sum_{Y_i=1} (x_i-\hat{\mu}_1)(x_i-\hat{\mu}_1)^T \\ \hat{\Sigma} = \frac{(n_0-1)\hat{S}^2_0 + (n_1-1)\hat{S}^2_1}{n-2} μ^0=n0∑Yi=0xi,μ^1=n1∑Yi=1xiS^02=n0−11Yi=0∑(xi−μ^0)(xi−μ^0)TS^12=n1−11Yi=1∑(xi−μ^1)(xi−μ^1)TΣ^=n−2(n0−1)S^02+(n1−1)S^12
这些估计量均是无偏估计，关于这种多元分布参数估计和假设检验的问题可以关注一下我还没开始挖坑的多元统计分析。LDA是严格依赖正态和同协方差矩阵的假设的，如果假设不成立，LDA的表现就会很一般。

Logistics回归

直接假设线性对数输赢比，那么分类器的形式就有了，接下来操心参数怎么估计就好。事实上Y∣X=x∼Ber(exp⁡(xTβ)1+exp⁡(xTβ))Y|X=x \sim Ber(\frac{\exp{(x^T \beta)}}{1 + \exp{(x^T \beta)}})Y∣X=x∼Ber(1+exp(xTβ)exp(xTβ))，它的似然函数是
L(β)=∏i=1n(exp⁡(xiTβ)1+exp⁡(xiTβ))yi(11+exp⁡(xiTβ))1−yil(β)=∑i=1n{yiln⁡(exp⁡(xiTβ)1+exp⁡(xiTβ))+(1−yi)ln⁡(11+exp⁡(xiTβ))}=∑i=1n{yi(xiTβ)−ln⁡(1+exp⁡(xiTβ))}L(\beta) = \prod_{i=1}^n (\frac{\exp{(x_i^T \beta)}}{1 + \exp{(x^T_i \beta)}})^{y_i} ( \frac{1}{1 + \exp{(x^T_i \beta)}})^{1-y_i} \\ l(\beta) = \sum_{i=1}^n \{y_i \ln{(\frac{\exp{(x_i^T \beta)}}{1 + \exp{(x^T_i \beta)}})} + (1-y_i)\ln{(\frac{1}{1 + \exp{(x^T_i \beta)}})} \} \\ = \sum_{i=1}^n \{y_i (x_i^T \beta)-\ln{(1 + \exp{(x^T_i \beta)})} \} L(β)=i=1∏n(1+exp(xiTβ)exp(xiTβ))yi(1+exp(xiTβ)1)1−yil(β)=i=1∑n{yiln(1+exp(xiTβ)exp(xiTβ))+(1−yi)ln(1+exp(xiTβ)1)}=i=1∑n{yi(xiTβ)−ln(1+exp(xiTβ))}
据此求最大似然估计
∂l(β)∂β=∑i=1nxi(yi−exp⁡(xiTβ)1+exp⁡(xiTβ))=0\frac{\partial l(\beta)}{\partial \beta} = \sum_{i=1}^n x_i(y_i -\frac{\exp{(x_i^T \beta)}}{1 + \exp{(x^T_i \beta)}} ) = 0 ∂β∂l(β)=i=1∑nxi(yi−1+exp(xiTβ)exp(xiTβ))=0
这个超越方程显然是没有解的，只能用数值方法找一个近似解，常规操作是Newton-Raphson算法求这个一阶条件的近似解，用Newton-Raphson算法解优化的一阶条件的方法又叫pure Newton，可以参考我还在施工中的数值分析系列。为了用这个算法还要求Hessian，
∂2l(β)∂β2=−∑i=1nxixiTexp⁡(xiTβ)(1+exp⁡(xiTβ))2\frac{\partial^2 l(\beta)}{\partial \beta^2} = - \sum_{i=1}^n \frac{x_ix_i^T\exp{(x^T_i \beta)}}{(1 + \exp{(x^T_i \beta)})^2} ∂β2∂2l(β)=−i=1∑n(1+exp(xiTβ))2xixiTexp(xiTβ)
所以pure Newton的递推方程为
βnew=β+{∑i=1nxixiTexp⁡(xiTβ)(1+exp⁡(xiTβ))2}−1∑i=1nxi(yi−exp⁡(xiTβ)1+exp⁡(xiTβ))\beta^{new} = \beta+ \{\sum_{i=1}^n \frac{x_ix_i^T\exp{(x^T_i \beta)}}{(1 + \exp{(x^T_i \beta)})^2}\}^{-1} \sum_{i=1}^n x_i(y_i -\frac{\exp{(x_i^T \beta)}}{1 + \exp{(x^T_i \beta)}} ) βnew=β+{i=1∑n(1+exp(xiTβ))2xixiTexp(xiTβ)}−1i=1∑nxi(yi−1+exp(xiTβ)exp(xiTβ))
定义几个符号，
pi=exp⁡(xiTβ)1+exp⁡(xiTβ)y=[y1,⋯,yn]T,p=[p1,⋯,pn]T,W=diag(pi(1−pi))X=[x1T;⋯;xnT]∈Rn×(d+1)p_i = \frac{\exp{(x_i^T \beta)}}{1 + \exp{(x^T_i \beta)}} \\ y = [y_1, \cdots,y_n]^T ,\ p = [p_1,\cdots,p_n]^T,\ W = diag(p_i(1-p_i)) \\ X = [x_1^T;\cdots;x_n^T] \in \mathbb{R}^{n \times (d+1)} pi=1+exp(xiTβ)exp(xiTβ)y=[y1,⋯,yn]T, p=[p1,⋯,pn]T, W=diag(pi(1−pi))X=[x1T;⋯;xnT]∈Rn×(d+1)
从而
∑i=1nxixiTexp⁡(xiTβ)(1+exp⁡(xiTβ))2=∑i=1nxixiTpi(1−pi)=XTWX∑i=1nxi(yi−exp⁡(xiTβ)1+exp⁡(xiTβ))=XT(y−p)\sum_{i=1}^n \frac{x_ix_i^T\exp{(x^T_i \beta)}}{(1 + \exp{(x^T_i \beta)})^2}=\sum_{i=1}^n x_i x_i^T p_i(1-p_i) = X^TWX \\ \sum_{i=1}^n x_i(y_i -\frac{\exp{(x_i^T \beta)}}{1 + \exp{(x^T_i \beta)}}) = X^T(y-p) i=1∑n(1+exp(xiTβ))2xixiTexp(xiTβ)=i=1∑nxixiTpi(1−pi)=XTWXi=1∑nxi(yi−1+exp(xiTβ)exp(xiTβ))=XT(y−p)
递推方程可以用矩阵表示出来
βnew=β+{XTWX}−1XT(y−p)={XTWX}−1(XTWX)β+{XTWX}−1XTWW−1(y−p)={XTWX}−1XTW{Xβ+W−1(y−p)}={XTWX}−1XTWz\beta^{new} = \beta+ \{X^TWX\}^{-1} X^T(y-p) \\ = \{X^TWX\}^{-1}(X^TWX) \beta + \{X^TWX\}^{-1}X^TWW^{-1} (y-p) \\ = \{X^TWX\}^{-1}X^TW \{X\beta + W^{-1}(y-p)\} =\{X^TWX\}^{-1}X^TWz βnew=β+{XTWX}−1XT(y−p)={XTWX}−1(XTWX)β+{XTWX}−1XTWW−1(y−p)={XTWX}−1XTW{Xβ+W−1(y−p)}={XTWX}−1XTWz
其中z=Xβ+W−1(y−p)z=X\beta + W^{-1}(y-p)z=Xβ+W−1(y−p)，βnew\beta^{new}βnew可以看成是把zzz当成响应的WLS，
βnew=arg min⁡β(z−Xβ)TW(z−Xβ)\beta^{new} = \argmin_{\beta} (z-X\beta)^T W(z-X\beta) βnew=βargmin(z−Xβ)TW(z−Xβ)
迭代使用WLS直到与上一次迭代的β\betaβ差异足够小时停止，这种方法叫IRLS（iterated reweighted least square），可以参考我还在施工中的回归那个系列的博文讲广义线性模型那一篇。相比LDA，Logistics回归需要的假设更弱，所以适用性比LDA要强。

UA MATH574M 统计学习II 二元分类相关推荐

UA MATH574M 统计学习II 二元分类例子与高维问题
UA MATH574M 统计学习II 二元分类例子与高维问题数值例子高维数据的二分类问题 Independence Rule 数值例子用模拟数值做一个二分类的例子. library(MASS)# ...
UA MATH574M 统计学习II 高维数据的二元分类
UA MATH574M 统计学习II 高维数据的二元分类 LDA的直观解释 NSC 上一讲提到了高维数据相比低维数据的特殊性,并介绍了处理高维数据二元分类最简单的一个模型independent rul ...
UA MATH574M 统计学习 Variable Selection：Cross Validation
UA MATH574M 统计学习 Variable Selection:Cross Validation LOOCV LOOCV score的计算 K-fold CV Generalized CV 故 ...
UA MATH574M 统计学习I 监督学习理论
UA MATH574M 统计学习I 监督学习理论统计决策理论损失函数与风险函数偏差-方差的权衡最优估计量贝叶斯规则监督学习理论的基本概念 Optimal Learner 经验损失函数与ER ...
UA MATH574M 统计学习I 监督学习理论下
UA MATH574M 统计学习I 监督学习理论下 Hoeffding's inequality 证明这一讲讨论上一讲结束时提到的监督学习的一致性的概念.假设风险函数 R(f)R(f)R(f)有界, ...
UA MATH574M 统计学习V Variable Selection: LASSO
UA MATH574M 统计学习V Variable Selection: LASSO 基本概念 Oracle Property Penalized Regularization Framework ...
UA MATH574M 统计学习V Variable Selection简介
UA MATH574M 统计学习V Variable Selection简介两个基础方法 Ranking Variables Best Subset Algorithm 对基础方法的改进 Gener ...
统计学习II.7 广义线性模型1 指数分布族
统计学习II.7 广义线性模型1 指数分布族指数分布族的定义指数分布族的例子 Bernoulli分布 Multinoulli分布指数分布族的性质指数分布族的MLE 指数分布族的贝叶斯方法这一 ...
《统计学习方法》(李航)第1章主要内容介绍(统计学习概述、分类、三要素)
PS:所写内容为本人读书笔记,如需看更详细内容请购买正版书籍. 第1章:统计学习及监督学习概论 1.1 统计学习概述统计学习:是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的学 ...

UA MATH574M 统计学习II 二元分类

UA MATH574M 统计学习II 二元分类基础