机器学习笔记（十一）—

一、引言

虽然说是逻辑回归，其实既可以用它做回归，也可以用它做分类。一般我们从最简单的二分类问题开始了解他，当然也可以做多分类。

二、Logistic Regression 的一般步骤

找一个合适的假设
构造损失函数
让损失函数最小，求出对应的参数值

三、二分类问题下Logistic Regression的过程

3.1 Logistic Function

在机器学习笔记（十）——Logistic Function AND Softmax Function中我们已经讨论过了Logistic 函数，因此，建议不熟悉的读者参考上述文章。

3.2 找一个合适的假设

假设样本是各个贷款人的信息，标签是他是否违约。目标是建立一个模型，用来预测一个贷款人违约的可能性，而银行根据这个信息决定是否放款给当前的贷款人。那么，很明显，这是一个分类问题，根据贷款人的一些信息和已知的标签，我们建立模型，去预测新来的贷款人违约的可能性。这里将贷款人的各个信息，如学历、年收入、信用卡违约次数等作为x\boldsymbol{x},将他是否违约记为yy,其中y=1y=1表示违约，y=0y=0表示不违约。那么，一个贷款人违约的可能性为：

hθ(x)=g(θTx)=11+e−θTx

h_{\boldsymbol{\theta}}(\boldsymbol{x})=g(\boldsymbol{\theta}^T\boldsymbol{x}) = \frac{1}{1+e^{-\boldsymbol{\theta}^T\boldsymbol{x}}}
其中， θ\boldsymbol{\theta}是参数向量。通过上式，可以将借款人的各个信息映射到（0,1）之间,表示他是否违约的可能性。

P(y=1|x;θ)=hθ(x)P(y=0|x;θ)=1−hθ(x)

P(y=1|\boldsymbol{x}; \boldsymbol{\theta}) = h_{\boldsymbol{\theta}}(\boldsymbol{x})\\ P(y=0|\boldsymbol{x}; \boldsymbol{\theta}) = 1 - h_{\boldsymbol{\theta}}(\boldsymbol{x})
将上式表示成一个式子：

P(y|x;θ)=hθ(x)y(1−hθ(x))1−y

P(y|\boldsymbol{x}; \theta) = h_{\theta}(\boldsymbol{x})^y(1-h_{\theta}(\boldsymbol{x}))^{1-y}
至此，得到了一个给定贷款人信息时，他违约概率的表达式。

3.3 构造损失函数

在整个样本集中，mm个独立样本出现的似然函数是：

L(θ)=∏i=1mP(yi|xi;θ)

L(\boldsymbol{\theta}) = \prod_{i=1}^{m}P(y_i|\boldsymbol{x_i}; \boldsymbol{\theta})
利用最大似然求θ\theta,取对数最大似然：

l(θ)=logL(θ)=∑i=1mlogP(yi|xi;θ)

l(\boldsymbol{\theta}) = \log L(\boldsymbol{\theta}) = \sum_{i=1}^{m}\log P(y_i|\boldsymbol{x_i}; \boldsymbol{\theta})
定义下式为损失函数：

J(θ)=−1ml(θ)=−1m∑i=1mlog[hθ(xi)yi(1−hθ(xi))1−yi]=−1m∑i=1m{yiloghθ(xi)+(1−yi)log[1−hθ(xi)]}

J(\boldsymbol{\theta}) = -\frac{1}{m}l(\boldsymbol{\theta}) = -\frac{1}{m}\sum_{i=1}^{m}\log [h_{\boldsymbol{\theta}}(\boldsymbol{x_i})^{y_i}(1-h_{\boldsymbol{\theta}}(\boldsymbol{x_i}))^{1-y_i}] \\ =-\frac{1}{m}\sum_{i=1}^{m}\{y_i \log h_{\boldsymbol{\theta}}(\boldsymbol{x_i})+(1-y_i)\log [1-h_{\boldsymbol{\theta}}(\boldsymbol{x_i})]\}
最大化 l(θ)l(\theta) 相当于最小化 J(θ)J(\theta).

3.4 让损失函数最小，求出对应的参数值

优化的目标函数如下：

minJ(θ)

\min J(\boldsymbol{\theta})
由于上式中的 θ\boldsymbol{\theta}是一个参数向量，因此，没办法用函数导数等于0直接求出，它是没有解析解的，因此，我们可以采用梯度下降的方法求得极小值。梯度下降方法请参照最优化学习笔记（三）——梯度下降法。

∂J(θ)∂θ=−1m∑i=1m{∂T(θ)∂θ}(1)

\frac{\partial J(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} = -\frac{1}{m}\sum_{i=1}^{m}\{\frac{\partial T(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}}\} (1)
其中：

T(θ)=yloghθ(x)+(1−y)log[1−hθ(x)]

T(\boldsymbol{\theta}) = y \log h_{\boldsymbol{\theta}}(\boldsymbol{x})+(1-y)\log [1-h_{\boldsymbol{\theta}}(\boldsymbol{x})]

∂T(θ)∂θ=y1hθ(x)∂hθ(x)∂θ+(1−y)11−hθ(x)(−∂hθ(x)∂θ)=∂hθ(x)∂θ(yhθ(x)+(y−1)1−hθ(x))=∂hθ(x)∂θ(y−hθ(x)hθ(x)(1−hθ(x)))

\frac{\partial T(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} = y\frac{1}{h_{\boldsymbol{\theta}}(\boldsymbol{x})}\frac{\partial h_{\boldsymbol{\theta}}(\boldsymbol{x})}{\partial \boldsymbol{\theta}}+(1-y)\frac{1}{1-h_{\boldsymbol{\theta}}(\boldsymbol{x})}(-\frac{\partial h_{\boldsymbol{\theta}}(\boldsymbol{x})}{\partial \boldsymbol{\theta}})\\ =\frac{\partial h_{\boldsymbol{\theta}}(\boldsymbol{x})}{\partial \boldsymbol{\theta}}(\frac{y}{h_{\boldsymbol{\theta}}(\boldsymbol{x})}+\frac{(y-1)}{1-h_{\boldsymbol{\theta}}(\boldsymbol{x})})\\ =\frac{\partial h_{\boldsymbol{\theta}}(\boldsymbol{x})}{\partial \boldsymbol{\theta}}(\frac{y-{h_{\boldsymbol{\theta}}(\boldsymbol{x})}}{{h_{\boldsymbol{\theta}}(\boldsymbol{x})}(1-{h_{\boldsymbol{\theta}}(\boldsymbol{x})})})
因为：

∂hθ(x)∂θ=hθ(x)(1−hθ(x))x

\frac{\partial h_{\boldsymbol{\theta}}(\boldsymbol{x})}{\partial \boldsymbol{\theta}} = {h_{\boldsymbol{\theta}}(\boldsymbol{x})}(1-{h_{\boldsymbol{\theta}}(\boldsymbol{x})})\boldsymbol{x}
则：

T(θ)=(y−hθ(x))x

T(\boldsymbol{\theta}) = (y-{h_{\boldsymbol{\theta}}(\boldsymbol{x})})\boldsymbol{x}
由于取的是样本集中的第 ii 个样本，所以将上式代入(1)

∂J(θ)∂θ=−1m∑i=1m(yi−hθ(xi))xi=1m∑i=1m(hθ(xi)−yi)xi

\frac{\partial J(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} = -\frac{1}{m}\sum_{i=1}^{m} (y_i-{h_{\boldsymbol{\theta}}(\boldsymbol{x_i})})\boldsymbol{x_i}\\ =\frac{1}{m}\sum_{i=1}^{m} ({h_{\boldsymbol{\theta}}(\boldsymbol{x_i})}-y_i)\boldsymbol{x_i}
这样，就可以得到 θ\boldsymbol{\theta}的迭代公式：

θ=θ+α∂J(θ)∂θ=θ+α1m∑i=1m(hθ(xi)−yi)xi（2）

\boldsymbol{\theta} = \boldsymbol{\theta} + \alpha\frac{\partial J(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} \\ =\boldsymbol{\theta} + \alpha\frac{1}{m}\sum_{i=1}^{m} ({h_{\boldsymbol{\theta}}(\boldsymbol{x_i})}-y_i)\boldsymbol{x_i}（2）
需要说明的是，我们可以从2式中看出，每次计算一次 θ\boldsymbol{\theta} ，都要进行全部样本数据的计算，直到 θ\boldsymbol{\theta} 收敛，还有一种可以采用随机梯度法进行计算，这样只需要遍历一遍数据集即可，下次讨论。