PRML 1.5 决策论

1.5.1 最小化错误分类率（Minimizing the misclassification rate）

对监督学习中的分类问题来讲，我们需要一个“规则”，把每一个xxx分到合适的类别中去。这个“规则”会把输入空间分成不同的区域，这种区域叫做决策区域(decision region)，而决策区域的边界叫做决策边界或者叫决策面。如上图所示，如果我们将属于C1C_1C1类的值分到了C2C_2C2类中，那么我们就犯了一个错误。这种发生的概率如下：
p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dxp(mistake) = p(x\in R_1, C_2)+p(x\in R_2, C_1)=\int_{R_1}p(x,C_2)\mathrm{d} x+\int_{R_2}p(x,C_1)\mathrm{d} x p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx
我们当然希望将错误降到最小，即最小化p(mistake)p(mistake)p(mistake)。根据乘积规则，

p(x,Ck)=p(Ck∣x)p(x)p(x, C_k)=p(C_k|x)p(x) p(x,Ck)=p(Ck∣x)p(x)
对最小化p(x,Ck)p(x, C_k)p(x,Ck)，那么需要最小化p(Ck∣x)p(C_k|x)p(Ck∣x)。

对于更⼀般的K类的情形，最大化正确率会稍微简单⼀些，即最大化下式
p(correct)=∑k=1Kp(x∈Rk,Ck)=∑k=1K∫Rkp(x,Ck)dxp ( \text{correct} ) =\sum_{k=1}^Kp ( \text{x}\in\mathcal{R}_k,\mathcal{C}_k ) =\sum_{k=1}^K\int_{\mathcal{R}_k} p ( \text{x},\mathcal{C}_k ) \text{dx} p(correct)=k=1∑Kp(x∈Rk,Ck)=k=1∑K∫Rkp(x,Ck)dx

1.5.2 最小化期望损失(Minimizing the expected loss)

书中举了一个对癌症病人分类的例子，我这里简单阐述一下。分类问题我们都会出现两种错误。一，给没有患癌症的病人错误地诊断为癌症，二、给患了癌症的病人诊断为健康。我们给出如下混淆矩阵：

接着，我们引出损失矩阵(loss matrix)，例如癌症这个例子，作者自己定义了一个损失矩阵，如下所示

如上图所示，我们将正常人诊断为癌症的错误损失记为1，而将癌症诊断为正常的错误损失记为1000。常见的损失函数如下所示

(1) 0-1损失函数
L(Y,f(X))={1,Y≠f(X)0,Y=f(X)L(Y,f(X))=\left\{ \begin{array}{c}1, Y\neq f(X) \\0, Y= f(X)\end{array}\right. L(Y,f(X))={1,Y=f(X)0,Y=f(X)
(2) 平方损失函数
L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Y−f(X))2

(3) 绝对损失函数
L(Y,f(X))=∣Y−f(X)∣L(Y,f(X))=|Y-f(X)| L(Y,f(X))=∣Y−f(X)∣

(4)对数损失函数
L(Y,P(Y∣X))=−logP(Y∣X)L(Y,P(Y|X))=-logP(Y|X) L(Y,P(Y∣X))=−logP(Y∣X)

1.5.3 拒绝选项(The reject option)

例如，在我们假想的医疗例⼦中，⼀种合适的做法是，使⽤⾃动化的系统来对那些⼏乎没有疑问的X光片进行分类，然后把不容易分类的X光片留给医学专家。为了达到这个目的，我们引入一个阈值θ\thetaθ拒绝后验概率p(Ck∣x)p(C_k|x)p(Ck∣x)的最大值小于等于θ\thetaθ的那些样本。

1.5.4 推断和决策

接着下面讲了生成式模型(generative models)、判别式模型(discriminative models)、异常检测(novelty detection)

(a) 生成式模型(generative models)

常见的生成式模型有：

朴素贝叶斯
隐马尔科夫模型

比如对训练集来讲，我们通过训练得到此数据集的分布，在根据决策论来确定新数据的类别。生成式模型就是生成数据分布的模型。也就是说我们需要对输入和输出进行“建模”。

(b) 判别式模型(discriminative models)

常见的判别式模型如下：

kNN
决策树
逻辑回归
SVM

判别式模型我们需要确定p(Ck∣x)p(C_k|x)p(Ck∣x),接着用决策论来对新的输入xxx进行分类。

1.5.5 回归问题中的损失函数

在回归问题中，损失函数的一个通常的选择是平方损失，

L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Y−f(X))2

那么期望损失函数可以写成
E[L]=∬{y(x)−t}2p(x,t)dxdtE[L]=\iint\left \{y(x)-t \right \}^2p(x,t)dxdt E[L]=∬{y(x)−t}2p(x,t)dxdt
一般我们的目标是寻找一个y(x)y(x)y(x)来最小化我们的E[L]E[L]E[L]函数，所以我们用变分法，求解 y(x)y ( \text{x} )y(x) 的最优解
那么有
∂E[L]∂y(x)=2∫{y(x)−t}p(x,t)dt=0\frac{\partial E[L]}{\partial y(x)}=2\int\left \{y(x)-t \right\}p(x,t)dt=0 ∂y(x)∂E[L]=2∫{y(x)−t}p(x,t)dt=0

利用加和规则和乘积规则，求解 y(x)y ( \text{x} )y(x) 的最优解
y(x)=∫tp(x,t)dtp(x)=∫tp(t∣x)dt=Et[t∣x]y(x)=\frac{\int tp(x,t)dt}{p(x)}=\int tp(t|x)dt=E_t[t|x] y(x)=p(x)∫tp(x,t)dt=∫tp(t∣x)dt=Et[t∣x]

那么最优解是条件均值y(x)=Et[t∣x]y(x)=E_t[t|x]y(x)=Et[t∣x]

除此之外，还有一种推导
E[L]=∫∫{y(x)−t}2p(x,t)dx dt=∫∫{y(x)−Et[t∣x]+Et[t∣x]−t}2p(x,t)dx dt=∫∫[{y(x)−Et[t∣x]}2+2{y(x)−Et[t∣x]}{Et[t∣x]−t}+{Et[t∣x]−t}2]p(x,t)dx dt=∫{y(x)−Et[t∣x]}2p(x)dx+∫var[t∣x]p(x)dx\begin{aligned} \mathbb{E}[L] & =\int\int\{y ( \text{x} ) -t\}^2 p ( \text{x},t ) \text{dx d} t\\ & =\int\int \{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}] + \mathbb{E}_t [t|\text{x}] -t\}^2 p ( \text{x},t ) \text{dx d}t\\ & = \int\int [\{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]\}^2 + 2\{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]\}\{\mathbb{E}_t [t|\text{x}] -t\} + \{\mathbb{E}_t [t|\text{x}] -t\}^2] p ( \text{x},t ) \text{dx d}t\\ & = \int \{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]\}^2 p ( \text{x} ) \text{dx}+ \int\text{var}[t|\text{x}] p ( \text{x} ) \text{dx} \end{aligned} E[L]=∫∫{y(x)−t}2p(x,t)dx dt=∫∫{y(x)−Et[t∣x]+Et[t∣x]−t}2p(x,t)dx dt=∫∫[{y(x)−Et[t∣x]}2+2{y(x)−Et[t∣x]}{Et[t∣x]−t}+{Et[t∣x]−t}2]p(x,t)dx dt=∫{y(x)−Et[t∣x]}2p(x)dx+∫var[t∣x]p(x)dx
我们寻找的函数y(x)y(x)y(x)只出现在第⼀项中。当y(x)y(x)y(x)等于E[t∣x]E[t | x]E[t∣x]时第⼀项取得最小值，这时第⼀项会被消去，这正是我们前面推导的结果，表明最优的最小平方预测由条件均值给出。第二项是t的分布的方差，在x上取了平均。它表示目标数据内在的变化性，可以被看成噪声。由于它与y(x)y(x)y(x)无关，因此它表示损失函数的不可减小的最小值。

闵可夫斯基 ( Minkowski ) 损失函数 ( 平方损失函数的一种推广 )
Lq(t,y(x))=∣y(x)−t∣qE[Lq]=∫∫∣y(x)−t∣qp(x,t)dx dt\begin{aligned} L_q ( t,y ( \text{x} )) &=|y ( \text{x} ) -t|^q\\ \mathbb{E}[L_q] &=\int\int|y ( \text{x} ) -t|^q p ( \text{x},t ) \text{dx d} t \end{aligned} Lq(t,y(x))E[Lq]=∣y(x)−t∣q=∫∫∣y(x)−t∣qp(x,t)dx dt

当q=2q=2q=2时，他就变成平方损失函数的期望，下图给出了不同q值情况下函数∣y−t∣q|y-t|^q∣y−t∣q关于y−ty-ty−t的图像。当q=2q=2q=2时，E[Lp]E[L_p]E[Lp]的最小值是条件均值。当q=1q=1q=1时，E[Lp]E[L_p]E[Lp]的最小值是条件中位数。当q→0q\rightarrow0q→0，E[Lp]E[L_p]E[Lp]的最小值是条件众数。