PRML 1.5 决策论


1.5.1 最小化错误分类率(Minimizing the misclassification rate)

对监督学习中的分类问题来讲,我们需要一个“规则”,把每一个xxx分到合适的类别中去。这个“规则”会把输入空间分成不同的区域,这种区域叫做决策区域(decision region),而决策区域的边界叫做决策边界或者叫决策面。如上图所示,如果我们将属于C1C_1C1​类的值分到了C2C_2C2​类中,那么我们就犯了一个错误。这种发生的概率如下:
p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dxp(mistake) = p(x\in R_1, C_2)+p(x\in R_2, C_1)=\int_{R_1}p(x,C_2)\mathrm{d} x+\int_{R_2}p(x,C_1)\mathrm{d} x p(mistake)=p(x∈R1​,C2​)+p(x∈R2​,C1​)=∫R1​​p(x,C2​)dx+∫R2​​p(x,C1​)dx
我们当然希望将错误降到最小,即最小化p(mistake)p(mistake)p(mistake)。根据乘积规则,

p(x,Ck)=p(Ck∣x)p(x)p(x, C_k)=p(C_k|x)p(x) p(x,Ck​)=p(Ck​∣x)p(x)
对最小化p(x,Ck)p(x, C_k)p(x,Ck​),那么需要最小化p(Ck∣x)p(C_k|x)p(Ck​∣x)。

对于更⼀般的K类的情形,最大化正确率会稍微简单⼀些,即最大化下式
p(correct)=∑k=1Kp(x∈Rk,Ck)=∑k=1K∫Rkp(x,Ck)dxp ( \text{correct} ) =\sum_{k=1}^Kp ( \text{x}\in\mathcal{R}_k,\mathcal{C}_k ) =\sum_{k=1}^K\int_{\mathcal{R}_k} p ( \text{x},\mathcal{C}_k ) \text{dx} p(correct)=k=1∑K​p(x∈Rk​,Ck​)=k=1∑K​∫Rk​​p(x,Ck​)dx

1.5.2 最小化期望损失(Minimizing the expected loss)

书中举了一个对癌症病人分类的例子,我这里简单阐述一下。分类问题我们都会出现两种错误。一,给没有患癌症的病人错误地诊断为癌症,二、给患了癌症的病人诊断为健康。我们给出如下混淆矩阵:

接着,我们引出损失矩阵(loss matrix),例如癌症这个例子,作者自己定义了一个损失矩阵,如下所示

如上图所示,我们将正常人诊断为癌症的错误损失记为1,而将癌症诊断为正常的错误损失记为1000。常见的损失函数如下所示

(1) 0-1损失函数
L(Y,f(X))={1,Y≠f(X)0,Y=f(X)L(Y,f(X))=\left\{ \begin{array}{c}1, Y\neq f(X) \\0, Y= f(X)\end{array}\right. L(Y,f(X))={1,Y​=f(X)0,Y=f(X)​
(2) 平方损失函数
L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Y−f(X))2

(3) 绝对损失函数
L(Y,f(X))=∣Y−f(X)∣L(Y,f(X))=|Y-f(X)| L(Y,f(X))=∣Y−f(X)∣

(4)对数损失函数
L(Y,P(Y∣X))=−logP(Y∣X)L(Y,P(Y|X))=-logP(Y|X) L(Y,P(Y∣X))=−logP(Y∣X)

1.5.3 拒绝选项(The reject option)

例如,在我们假想的医疗例⼦中,⼀种合适的做法是,使⽤⾃动化的系统来对那些⼏乎没有疑问的X光片进行分类,然后把不容易分类的X光片留给医学专家。为了达到这个目的,我们引入一个阈值θ\thetaθ拒绝后验概率p(Ck∣x)p(C_k|x)p(Ck​∣x)的最大值小于等于θ\thetaθ的那些样本。

1.5.4 推断和决策

接着下面讲了生成式模型(generative models)判别式模型(discriminative models)异常检测(novelty detection)

(a) 生成式模型(generative models)

常见的生成式模型有:

  • 朴素贝叶斯
  • 隐马尔科夫模型

比如对训练集来讲,我们通过训练得到此数据集的分布,在根据决策论来确定新数据的类别。生成式模型就是生成数据分布的模型。也就是说我们需要对输入和输出进行“建模”。

(b) 判别式模型(discriminative models)

常见的判别式模型如下:

  • kNN
  • 决策树
  • 逻辑回归
  • SVM

判别式模型我们需要确定p(Ck∣x)p(C_k|x)p(Ck​∣x),接着用决策论来对新的输入xxx进行分类。

1.5.5 回归问题中的损失函数

在回归问题中, 损失函数的一个通常的选择是平方损失,

L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Y−f(X))2

那么期望损失函数可以写成
E[L]=∬{y(x)−t}2p(x,t)dxdtE[L]=\iint\left \{y(x)-t \right \}^2p(x,t)dxdt E[L]=∬{y(x)−t}2p(x,t)dxdt
一般我们的目标是寻找一个y(x)y(x)y(x)来最小化我们的E[L]E[L]E[L]函数,所以我们用变分法,求解 y(x)y ( \text{x} )y(x) 的最优解
那么有
∂E[L]∂y(x)=2∫{y(x)−t}p(x,t)dt=0\frac{\partial E[L]}{\partial y(x)}=2\int\left \{y(x)-t \right\}p(x,t)dt=0 ∂y(x)∂E[L]​=2∫{y(x)−t}p(x,t)dt=0

利用加和规则和乘积规则,求解 y(x)y ( \text{x} )y(x) 的最优解
y(x)=∫tp(x,t)dtp(x)=∫tp(t∣x)dt=Et[t∣x]y(x)=\frac{\int tp(x,t)dt}{p(x)}=\int tp(t|x)dt=E_t[t|x] y(x)=p(x)∫tp(x,t)dt​=∫tp(t∣x)dt=Et​[t∣x]

那么最优解是条件均值y(x)=Et[t∣x]y(x)=E_t[t|x]y(x)=Et​[t∣x]

除此之外,还有一种推导
E[L]=∫∫{y(x)−t}2p(x,t)dx dt=∫∫{y(x)−Et[t∣x]+Et[t∣x]−t}2p(x,t)dx dt=∫∫[{y(x)−Et[t∣x]}2+2{y(x)−Et[t∣x]}{Et[t∣x]−t}+{Et[t∣x]−t}2]p(x,t)dx dt=∫{y(x)−Et[t∣x]}2p(x)dx+∫var[t∣x]p(x)dx\begin{aligned} \mathbb{E}[L] & =\int\int\{y ( \text{x} ) -t\}^2 p ( \text{x},t ) \text{dx d} t\\ & =\int\int \{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}] + \mathbb{E}_t [t|\text{x}] -t\}^2 p ( \text{x},t ) \text{dx d}t\\ & = \int\int [\{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]\}^2 + 2\{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]\}\{\mathbb{E}_t [t|\text{x}] -t\} + \{\mathbb{E}_t [t|\text{x}] -t\}^2] p ( \text{x},t ) \text{dx d}t\\ & = \int \{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]\}^2 p ( \text{x} ) \text{dx}+ \int\text{var}[t|\text{x}] p ( \text{x} ) \text{dx} \end{aligned} E[L]​=∫∫{y(x)−t}2p(x,t)dx dt=∫∫{y(x)−Et​[t∣x]+Et​[t∣x]−t}2p(x,t)dx dt=∫∫[{y(x)−Et​[t∣x]}2+2{y(x)−Et​[t∣x]}{Et​[t∣x]−t}+{Et​[t∣x]−t}2]p(x,t)dx dt=∫{y(x)−Et​[t∣x]}2p(x)dx+∫var[t∣x]p(x)dx​
我们寻找的函数y(x)y(x)y(x)只出现在第⼀项中。当y(x)y(x)y(x)等于E[t∣x]E[t | x]E[t∣x]时第⼀项取得最小值,这时第⼀项会被消去,这正是我们前面推导的结果,表明最优的最小平方预测由条件均值给出。第二项是t的分布的方差,在x上取了平均。它表示目标数据内在的变化性,可以被看成噪声。由于它与y(x)y(x)y(x)无关,因此它表示损失函数的不可减小的最小值。

闵可夫斯基 ( Minkowski ) 损失函数 ( 平方损失函数的一种推广 )
Lq(t,y(x))=∣y(x)−t∣qE[Lq]=∫∫∣y(x)−t∣qp(x,t)dx dt\begin{aligned} L_q ( t,y ( \text{x} )) &=|y ( \text{x} ) -t|^q\\ \mathbb{E}[L_q] &=\int\int|y ( \text{x} ) -t|^q p ( \text{x},t ) \text{dx d} t \end{aligned} Lq​(t,y(x))E[Lq​]​=∣y(x)−t∣q=∫∫∣y(x)−t∣qp(x,t)dx dt​

当q=2q=2q=2时,他就变成平方损失函数的期望,下图给出了不同q值情况下函数∣y−t∣q|y-t|^q∣y−t∣q关于y−ty-ty−t的图像。当q=2q=2q=2时,E[Lp]E[L_p]E[Lp​]的最小值是条件均值。当q=1q=1q=1时,E[Lp]E[L_p]E[Lp​]的最小值是条件中位数。当q→0q\rightarrow0q→0,E[Lp]E[L_p]E[Lp​]的最小值是条件众数。

PRML 1.5 决策论相关推荐

  1. PRML(2)--绪论(下)模型选择、纬度灾难、决策论、信息论

    PRML绪论 1.3 模型选择 1.4 纬度灾难 1.5 决策论 1.5.1最小错误分率 1.5.2最小化期望损失 1.5.3拒绝选项 1.5.4推断和决策 1.5.5 回归问题的损失函数 1.6 信 ...

  2. PRML(1)--绪论(上)多项式曲线拟合、概率论

    PRML绪论 1.1 多项式曲线拟合 1.1.1 问题描述 1.1.2 最小化平方和误差 1.1.3 多项式阶数确定 1.1.4 有趣问题--高阶模型为什么效果不好 1.1.4 数据集规模对模型的影响 ...

  3. 【机器学习百科全书目录】PRML ESL MLAPP 西瓜书 花书 RLAI 统计学习方法 蒲公英书

    文章目录 机器学习百科全书目录 Pattern Recognition and Machine Learning The Elements of Statistical Learning (Secon ...

  4. PRML系列:1.5 Decision Theory

    PRML系列:1.5 Decision Theory 前言 本打算该系列均用自己的视角重新阐述一遍,但由于时间精力有限,最终还是决定以摘抄中文版PRML的方式,一来可以还原PRML中最本色的内容,二来 ...

  5. PRML笔记:1-介绍

    打算去读PRML这本书,用两遍来读完,第一遍弄懂基本思想,以便看其他任何相关文献能够明白他们在说什么:第二遍细看,重点要做书后面的习题,弄清每个知识点的细节部分.第二遍可能不会连续,甚至会挑选部分章节 ...

  6. 附下载|Python带你实践机器学习圣经PRML

    新智元报道   来源:Github.知乎  编辑:白峰 将 Bishop 大神的 PRML 称为机器学习圣经一点也不为过,该书系统地介绍了模式识别和机器学习领域内详细的概念与基础.书中有对概率论基础知 ...

  7. 撒花!机器学习圣经 PRML 出 Python 复现代码了!

    编辑 | 红色石头 整理 | AI有道 <Pattern Recognition and Machine Learning>,中文译名<模式识别与机器学习>,简称 PRML.出 ...

  8. 【干货】机器学习经典书PRML 最新 Python 3 代码实现,附最全 PRML 笔记视频学习资料...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 将 Bishop 大神的 PRML 称为机器学习圣经一点也不为过,该书系统地介绍了 ...

  9. Bayesian Neural Network for regression (PRML)

    Bayesian Neural Network : PRML  5.7章节 参考代码:https://nbviewer.jupyter.org/github/ctgk/PRML/blob/master ...

  10. Boosting for PRML

    Boosting方法: Boosting这其实思想相当的简单,大概是,对一份数据,建立M个模型(比如分类),一般这种模型比较简单,称为弱分类器(weak learner)每次分类都将上一次分错的数据权 ...

最新文章

  1. 关于流水帐表序列号生成时的并发操作问题
  2. 十个网志流量统计工具一览
  3. linux 自动登录
  4. 毕设题目:Matlab元胞自动机交通流
  5. vivado.2019.1 安装教程
  6. 【报告分享】连锁经营行业全面费用管理数字化白皮书-亿欧汇联易(附下载)
  7. C++自定义列表实现贪吃蛇
  8. 免费开源Blazor在线Ico转换工具
  9. 表扩展字段2种实施方案研究
  10. dva介绍和官网案例
  11. 浏览器未连接到互联网
  12. 自相关(ACF)与偏自相关(PACF)(4)
  13. Multisim 实验 2.0.1 逻辑门电路 PPT
  14. WSUS服务器不能下载补丁的最终解决办法
  15. shadertoy上手指南
  16. 转载--期指迎来首个交割日
  17. queue和deque的区别
  18. Received 802.1Q BPDU on non trunk 的解决办法
  19. 20070926日下午工作流与ITILQQ群 事件管理 讨论聊天记录
  20. ESP32通过SPI读取多个SPI Slave--6个MAX31865 RTD芯片

热门文章

  1. 可发弹幕php,JavaScript直播评论发弹幕切图功能点集合效果代码
  2. 计算机考研数据结构用哪本书,计算机考研数据结构该用哪本参考书?
  3. FlyMcu 串口无法打开 串口被占用
  4. 通达信期货接口有必要开通五档行情?
  5. 18个黑科技网站,你想要的软件都能找到,请收藏!!!
  6. easyui 全部图标
  7. Mysql JSON对象和JSON数组查询
  8. AD封装库的下载与导入
  9. 空间权重矩阵构建(Stata代码)
  10. Ctrix-XenApp中误删应用服务器,如何重新添加