小白也能懂--逻辑回归中损失函数的难点理解

写下此文是因自己在学习的过程中对逻辑回归的损失函数定义有所疑惑，查了诸多资料才得以理解，因此在此记录下来，一是为来日忘却时能够回来查阅，二是希望为有同样困惑的伙伴提供一点帮助。

1. 逻辑回归(Logistic Regression)简介

虽然名字里面含”回归“，但逻辑回归一般用于解决分类问题，原生的逻辑回归用于二分类问题，也就是0-1分类。逻辑回归由于其英文名为Logistic Regression，也常简称为LR。

简单来说，LR就是将回归方程代入到Sigmod函数中。

先来看一个简单的回归方程：

z=f(X)=w0+w1x1+w2x2+⋯+wmxmz=f(X)=w_0+w_1x_1+w_2x_2+⋯+w_mx_mz=f(X)=w0+w1x1+w2x2+⋯+wmxm

其中xk(1<=k<=m)x_k (1<=k<=m)xk(1<=k<=m) 代表样本的某一维特征， mmm为特征的维度。

在线性回归中，我们已知xkx_kxk和zzz，通过列出回归方程组，求解权重wkw_kwk.

而在逻辑回归中，我们将回归方程代入到sigmod函数中。

sigmod函数

公式：ϕ(z)=11+e−z\phi(z)=\frac{1}{1+e^{-z}}ϕ(z)=1+e−z1

Q1. 为什么要使用sigmod函数

对于上文的回归方程来说，其值域为R\mathbb{R}R(整个实数集)，而加了一层sigmod函数之后，函数最后的值域为[0,1]之间，这也与事件发生的概率等同。

那么，问题又来了，这个概率代表什么？

答：概率表示条件概率p(Y=1∣x)p(Y=1|x)p(Y=1∣x), 即对于特定的x, 样本属于正例的概率。即：
p(Y=1∣x)=11+e−zp(Y=1|x)=\frac{1}{1+e^{-z}}p(Y=1∣x)=1+e−z1

2. 逻辑回归的损失函数

先来看一下损失函数的最终形式：

现在来解释为什么逻辑回归的损失函数时这样的形式。

首先，我们先回到损失函数本身的定义：

损失函数：又称为代价函数，是用来评价一个模型的好坏的。

概括来说，任何能够衡量模型的预测值y^\hat{y}y^与真实值yyy之间差异的函数都可以称为代价函数。

再回到回归模型，看一下我们回归里面所使用的代价函数：

J=1m∑i=0m(yi^−yi)2J=\frac{1}{m}\displaystyle \sum^{m} _{i=0}{( \hat{y_i} - y_i )^2}J=m1i=0∑m(yi^−yi)2

即：预测值与真实值的差值的平方和，再除以样本个数。

怎么理解这个代价函数？
例如，我们使用线性回归来预测房价，那么我们当然希望预测的房价与真实房价越接近越好。那么，上述损失函数恰好能表示整体的预测值与真实值的差异，我们的目标是让损失函数的值越小越好。上式也就是人们常说的最小二乘法。

那么，逻辑回归是不是也能使用最小二乘法定义损失函数呢？

答案：不能

如果使用最小二乘法定义损失函数，那么损失函数形式为：

J=1m∑i=0m(yi^−11+e−z)2J=\frac{1}{m}\displaystyle \sum^{m} _{i=0}{( \hat{y_i} - \frac{1}{1+e^{-z}} )^2}J=m1i=0∑m(yi^−1+e−z1)2

该函数为非凸函数(函数图像如下图所示)，求解不易，容易陷入局部，从而得到局部最优解。

现在，我们来推导逻辑回归损失函数最终形式的由来。
首先，来看一下在逻辑回归中，对于单个样本来说，衡量预测值和真实值差异的损失函数：
L(y^−y)=−ylog(y^)−(1−y)log(1−y^)L(\hat{y} - y) = -ylog(\hat{y}) - (1 - y) log(1 - \hat{y})L(y^−y)=−ylog(y^)−(1−y)log(1−y^)

在理解上述损失函数之前，我们再回顾下损失函数的目标：使误差尽可能地减小。

对于上述损失损失函数：

当真实值类别y=1y = 1y=1时，损失函数的形式为L=−ylog(y^)L = -ylog(\hat{y})L=−ylog(y^) ，如果想让损失函数L尽可能减小，那么y^\hat{y}y^就要尽可能增大，由于sigmod函数的值域为[0,1][0,1][0,1], 所以y^\hat{y}y^ 就要无限接近1，也就是朝着样本真实值的方向靠近。

当真实是的类别y=0y=0y=0时，损失函数的形式为L=−log(1−y^)L = -log(1 - \hat{y})L=−log(1−y^), 如果想让损失函数L尽可能减小，那么y^\hat{y}y^就要尽可能减小，由于sigmod函数的值域为[0,1][0,1][0,1], 所以y^\hat{y}y^ 就要无限接近0，同样是朝着样本真实值的方向靠近。
因此，采用上述损失函数对于逻辑回归来说是合理的。

现在，我们从单个样本推广到全部样本，为了衡量算法在全部训练样本上的表现，我们需要定义针对所有样本的损失函数，该损失函数即为单个样本的损失函数之和然后除以样本的个数，即得到逻辑回归的损失函数最终形式：

该损失函数的函数图像如下，能够求到全局最优解。

3.损失函数的求解方法

常用的求解方法有梯度下降和牛顿法。
求解方法在本文中就不详细讲解了，感兴趣的伙伴可以直戳知乎文章：【机器学习】逻辑回归（非常详细）述

参考文章：
逻辑回归的损失函数怎么理解
逻辑回归（logistic regression）原理详解