理解逻辑回归中的后验概率和损失函数

一、理解后验概率

在LR中，后验概率 $p\left ( y=1|\textbf{x} \right )=\sigma \left ( \textbf{w}^T\textbf{x}+b \right )$ 。很多人不禁会问，为什么要这么计算？这里通过对后验概率的推导，并结合sigmod，来谈谈自己的看法。

首先，由贝叶斯公式得

$p\left ( y=1|\textbf{x} \right )=\frac{p\left ( \textbf{x}|y=1 \right )p\left ( y=1 \right )}{p\left ( \textbf{x} \right )}$ (1)

由全概率公式得

$p\left ( y=1|\textbf{x} \right )=\frac{p\left ( \textbf{x}|y=1 \right )p\left ( y=1 \right )}{p\left ( \textbf{x}|y=1 \right )p\left ( y=1 \right )+p\left ( \textbf{x}|y=0 \right )p\left ( y=0 \right )}$ (2)

化简 (2) 式得

$p\left ( y=1|\textbf{x} \right )=\frac{1}{1+{\color{Blue} \frac{p\left ( y=0|\textbf{x} \right )}{p\left ( y=1|\textbf{x} \right )}}}$ (3)

(3) 式在LR中的表示为

$p\left ( y=1|\textbf{x} \right )=\frac{1}{1+{\color{Blue} exp^{-\left ( \textbf{w}^{T}\textbf{x}+b \right )}}}$ (4)

(3) 式分母第二项表达的意思是 $\textbf{x}$ 分到两个类的概率之比，那究竟是分到1的类别大还是分到0的概率大？简单来说便是该如何量化的问题。因此，(4) 式分母中的第二项就给出了一种合理的量化分法，可以分三种情况讨论一下这个问题。

1、 $\textbf{x}$ 刚好落在 $\textbf{w}^{T}\textbf{x}+b$ 决定的分类边界上。此时 (4) 中分母的第二子项的值为 1，分到两个类别的概率是相同的，(3) 中分母第二子项的值也应该为 1。

2、 $\textbf{x}$ 落在 $\textbf{w}^{T}\textbf{x}+b$ 决定的分类边界的上方。此时 (4) 中分母的第二子项的值会小于1，sigmod值大于 0.5，因此我们认为 $\textbf{x}$ 属于 1 分类的概率更大一些，对应到 (3) 式分母的第二个子项，应该是分母应该比分子要大。

3、 $\textbf{x}$ 落在 $\textbf{w}^{T}\textbf{x}+b$ 决定的分类边界的下方。此时 (4) 中分母的第二子项的值大于1，sigmod值小于 0.5，因此我们认为 $\textbf{x}$ 属于0 分类的概率会更大一些。对应到 (3) 式分母的第二个子项，应该是分母应该比分子要小。此时将样本 $\textbf{x}$ 分错了，后面会介绍对此的惩罚。

所以，由上述三种情况的分析来看，逻辑回归中的后验概率表示和实际的后验概率表达的意图是相同的，只不过我们借助sigmod 和 $\textbf{w}^{T}\textbf{x}+b$ 完成了对后验概率的量化，以此便可以通过最大似然定义损失函数并进行训练。

一、理解损失函数

在大多数的参考资料中，LR中的损失函数定义为下式

$Loss=-\sum_{n=1}^{N}\left \{ t_n\mathrm{ln}y_n+\left ( 1-t_n \right )\mathrm{ln}\left ( 1-y_n \right ) \right \}$

如何去理解它那？其实很简单，我们来简单讨论一下。

如果一个实际为 1 分类的样本被划分到了分类边界以下，说明模型把它分错了，对应到上式，它的惩罚是 $-ln(y_n)$ ，即在分类边界以下且距离分类边界越远， $-ln(y_n)$ 越大，给的惩罚越大，因为分类也分的太离谱了！如果离边界不远， $-ln(y_n)$ 接近于 0，相当于给予一点点的惩罚。

同样的，如果一个实际为 -1 分类的样本被划分到了分类边界以上，对应到上式，它的惩罚是 $-ln(1-y_n)$ 。即在分类边界以上且距离分类边界越远， $-ln(1-y_n)$ 越大，给的惩罚越大，因为同样分类分的太离谱了！如果离边界不远， $-ln(1-y_n)$ 接近于 0，相当于给予一点点的惩罚。

和人一样，犯的错误较大，惩罚要大一些；犯的错误小一点，惩罚也小一点。

那既然模型犯了错误，它如何改正错误那？ 通过对损失函数求导得

$\bigtriangledown Loss=\sum_{n=1}^{N}\left ( y_n-t_n \right )\textbf{x}$

这就是模型改错的具体行动，如果不犯错，上式为 0。