Logistic 损失函数

1.Logistic函数 & Logistic回归

Logistic函数的定义：

P(x)=11+exp(−x)(1)

P(x)=\frac{1}{1+\exp(-x)} \tag{1}
其中 x∈ℝx \in \mathbb{R}， P(x)∈ℝP(x) \in \mathbb{R}。Logistic函数的一个重要的特点：

P(−x)=1−P(x)(2)

P(-x)=1-P(x) \tag{2}

Logistic函数常用语Logistic回归：

P(y=1∣βx)=exp(βTx)1+exp(βTx)

P(y=1\mid\boldsymbol{\beta}\boldsymbol{x})=\frac{\exp(\boldsymbol{\beta}^T\boldsymbol{x})}{1+\exp(\boldsymbol{\beta}^T\boldsymbol{x})}

P(y=0∣β,x)=11+exp(βTx)(3)

P(y=0\mid\boldsymbol{\beta},\boldsymbol{x})=\frac{1}{1+\exp(\boldsymbol{\beta}^T\boldsymbol{x})} \tag{3}

其中xx是特征向量β\beta是系数向量。根据公式(2)，可以得到：

P(y=1∣βx)=1−P(y=0∣β,x)(4)

P(y=1\mid\boldsymbol{\beta}\boldsymbol{x})=1-P(y=0\mid\boldsymbol{\beta},\boldsymbol{x}) \tag{4}

在Logistics回归中，标签y∈{0,1}y\in\{0,1\}。式子(3)用两个表达式来建模，也能够用一个表达式来建模：

P(g=±1∣β,x)=11+exp(−gβTx)(5)

P(g=\pm1\mid\boldsymbol{\beta},\boldsymbol{x})=\frac{1}{1+\exp(-g\boldsymbol{\beta}^T\boldsymbol{x})}\tag{5}
其中 g∈±1g\in{\pm1}是样本点 xx的标签。很容易证明P(g=1∣β,x)=1−P(g=−1∣β,x)P(g=1\mid\boldsymbol{\beta},\boldsymbol{x})=1-P(g=-1\mid\boldsymbol{\beta},\boldsymbol{x})

2. 两种Logistic回归形式的等价性

上述式(3)和(5)描述了Logistics回归的两种形式，这一节证明两中形式是等价的：

P(y=1∣β,x)=exp(βTx)1+exp(βTx)=11exp(βTx)+1=1exp(−βTx)+1=P(g=1∣β,x)

\begin{align} P(y=1\mid\boldsymbol{\beta},\boldsymbol{x}) &=\frac{\exp(\boldsymbol{\beta}^T\boldsymbol{x})}{1+\exp(\boldsymbol{\beta}^T\boldsymbol{x})} \\ &=\frac{1}{\frac{1}{\exp(\boldsymbol{\beta}^T\boldsymbol{x})}+1} \\ &=\frac{1}{\exp(-\boldsymbol{\beta}^T\boldsymbol{x})+1} \\ &=P(g=1\mid\boldsymbol{\beta},\boldsymbol{x}) \end{align}
从分类机制证明(3)，类标签为1的概率大于类标签为0的概率：

exp(βTx)1+exp(βTx)11+exp(βTx)exp(βTx)βTx>1→y=1>1>0

\begin{align} \dfrac{\frac{\exp(\boldsymbol{\beta}^T\boldsymbol{x})}{1+\exp(\boldsymbol{\beta}^T\boldsymbol{x})}}{\frac{1}{1+\exp(\boldsymbol{\beta}^T\boldsymbol{x})}}&>1 \to y=1 \\ \exp(\boldsymbol{\beta}^T\boldsymbol{x})&>1 \\ \boldsymbol{\beta}^T\boldsymbol{x} &>0 \end{align}
从分类机制证明(5)，类标签为1的概率大于类标签为-1的概率：

11+exp(−βTx)11+exp(βTx)1+exp(βTx)1+exp(−βTx)exp(βTx)βTx>1→g=1>1>1>0

\begin{align} \dfrac{\frac{1}{1+\exp(-\boldsymbol{\beta}^T\boldsymbol{x})}}{\frac{1}{1+\exp(\boldsymbol{\beta}^T\boldsymbol{x})}} &>1\to g=1 \\ \dfrac{1+\exp(\boldsymbol{\beta}^T\boldsymbol{x})}{1+\exp(-\boldsymbol{\beta}^T\boldsymbol{x})}&>1\\ \exp(\boldsymbol{\beta}^T\boldsymbol{x})&>1\\ \boldsymbol{\beta}^T\boldsymbol{x}&>0 \end{align}

3. Logistic损失

描述Logistics回归的优化形式：

argmin∑iL(yi,f(xi))

\arg\min\sum_{i}L(y_i,f(\boldsymbol{x}_i))
其中 ff是一个假想函数（hypothesis function），LL是损失函数。对于Logistic回归：

f(x)L(y,f(x))=βTx=log(1+exp(−yf(x)))

\begin{align} f(\boldsymbol{x})&=\boldsymbol{\beta}^T\boldsymbol{x} \\ L(y,f(\boldsymbol{x}))&=\log(1+\exp(-yf(\boldsymbol{x}))) \end{align}
其中 y∈{±1}y\in\{\pm1\}。