PRML绪论

  • 1.3 模型选择
  • 1.4 纬度灾难
  • 1.5 决策论
    • 1.5.1最小错误分率
    • 1.5.2最小化期望损失
    • 1.5.3拒绝选项
    • 1.5.4推断和决策
    • 1.5.5 回归问题的损失函数
  • 1.6 信息论

1.3 模型选择

模型过复杂会造成过拟合问题,需要通过一些技术来降低模型的复杂度。
就最大似然而言,可以增加一个惩罚项来补偿过于复杂的模型造成的过拟合问题。

赤池信息准则,使式1.73最大,M是模型中可调节参数的数量:
lnp(D∣wML)−Mlnp(\mathcal{D}|\bm{w}_ML)-Mlnp(D∣wM​L)−M

1.73式?是一个变体,被称作贝叶斯信息准则,但是没有考虑模型参数的不确定性。

1.4 纬度灾难

一个三分类问题画格子分类。随着输入维度的增加会造成的问题:

  1. 单元格的数量会随输入空间维度的增加而增加
  2. 为了保证单元格不空,训练数据的量需要增加

高维空间中的直觉错误:
3. 高维空间中,一个球的体积大部分会聚集在表面附近薄球上
4. 在高纬空间中,高斯分布的概率质量会集中在某一半径的薄球上

1.5 决策论

决策论和概率论结合:能够在涉及不确定性的条件下作出最优决策。

例如:依据病人X光片,判断病人是否得了癌症,并依据判断给出是否需要治疗的决定。

概率论如何在决策时起作用

1.5.1最小错误分率

需要一个规则将不同的x分到合适的类别中,按照规则会把输入空间分成不同的决策区域Rk\mathcal{R}_kRk​。在Rk\mathcal{R}_kRk​中的点将被分为Ck\mathcal{C}_kCk​类。

考虑一维数轴上的两分类问题,错分概率为:
p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx(1.78)p(mistake)=p(x\in\mathcal{R}_1,\mathcal{C}_2)+p(x\in\mathcal{R}_2,\mathcal{C}_1)=\int_{\mathcal{R}_1}p(x,\mathcal{C}_2)dx + \int_{\mathcal{R}_2}p(x,\mathcal{C}_1)dx\tag{1.78} p(mistake)=p(x∈R1​,C2​)+p(x∈R2​,C1​)=∫R1​​p(x,C2​)dx+∫R2​​p(x,C1​)dx(1.78)

为了使(1.78)式最小,那么可以得到一个决策规则:如果p(x,C1)>p(x,C2)p(x,\mathcal{C}_1)>p(x, \mathcal{C}_2)p(x,C1​)>p(x,C2​)就将x划分为类别1。也等价于将x 分入到具有最大后验概率的类别中。

1.5.2最小化期望损失

实际引用中,目标远比最小化错误分类率更加复杂。

就癌症判断例子中每种错误分类所带来的决策损失是不同的:健康误判为有病–多了复查,有病误判为健康–错过最佳治疗时间。

损失函数(loss function) 也被称为代价函数(cost function):对所有可能的决策或者动作 可能产生的损失的一种整体度量。目标是:最小化期望损失。

期望损失的计算:x属于Ck\mathcal{C}_kCk​类,我们将其划分为Cj\mathcal{C}_jCj​类,造成的损失为Lkj\mathcal{L}_{kj}Lkj​
E[L]=∑k∑j∫RjLkjp(x,Ck)dx\mathbb{E}[L]=\sum_k\sum_j\int_{\mathcal{R}_j}L_{kj}p(x,\mathcal{C}_k)dxE[L]=k∑​j∑​∫Rj​​Lkj​p(x,Ck​)dx

得出的结论还是需要:后验概率

1.5.3拒绝选项

在类别归属相对不确定的时候,避免作出决策是更合适的选择。这样会使模型的分类错误率降低,这被称为拒绝选项(reject option)。

癌症的例子:使用自动化系统来对几乎没有怀疑的X光片进行分类,把不易分类的留给人类专家。

一种简单的拒绝实现方式:引入一个阈值θ\thetaθ,拒绝后验概率p(Ck∣x)p(\mathcal{C}_k|x)p(Ck​∣x)的最大值小于等θ\thetaθ的那些输入x。

1.5.4推断和决策

解决决策问题的三种方法:

  1. 推断类条件密度p(x∣Ck)p(x|\mathcal{C}_k)p(x∣Ck​),推断类先验概率密度p(Ck)p(\mathcal{C}_k)p(Ck​),计算后验概率->决策(生成式模型)。
  2. 直接推断后验概率p(Ck∣x)p(\mathcal{C}_k|x)p(Ck​∣x)->决策(判别式模型)。
  3. 找到一个判别函数f(x)f(x)f(x),直接把输入x映射到类别标签中。

三种方法各有优缺点。

1.5.5 回归问题的损失函数

回到曲线拟合问题:对于每一个输入x,对应目标值t的估计值为y(x), 造成的损失是L(t,y(x)),那么期望损失为:
E[L]=∫∫L(t,y(x))p(x,t)dxdt\mathbb{E}[L]=\int\int L(t,y(x))p(x,t)dxdtE[L]=∫∫L(t,y(x))p(x,t)dxdt

L(t,y(x))常用平方损失函数–L(t,y(x))=[y(x)−t]2L(t,y(x))=[y(x)-t]^2L(t,y(x))=[y(x)−t]2。我们的目标是选择合适的y(x)来使E[L]\mathbb{E}[L]E[L]最小化。形式变分法求解y(x)(不会求):
δE[L]δy(x)=2∫{y(x)−t}p(x,t)dt=0\frac{\delta\mathbb{E}[L]}{\delta y(x)}=2\int\{y(x)-t\}p(x,t)dt = 0δy(x)δE[L]​=2∫{y(x)−t}p(x,t)dt=0

使用概率的加和规则和乘积规则有(对上式子进行移项和相除操作得到):
y(x)=∫tp(x,t)dtp(x)=∫tp(t∣x)dt=Et[t∣x](1.89)y(x)=\frac{\int tp(x,t)dt}{p(x)}=\int tp(t|x)dt=\mathbb{E}_t[t|x]\tag{1.89}y(x)=p(x)∫tp(x,t)dt​=∫tp(t∣x)dt=Et​[t∣x](1.89)

Et[t∣x]\mathbb{E}_t[t|x]Et​[t∣x]符号迷惑,理解成 t 在给定x条件下的期望会更容易理解。Ep(t∣x)[t]\mathbb{E}_{p(t|x)}[t]Ep(t∣x)​[t]

所以y(x)最优解就是t的条件期望。

同样有三种方法来解决回归问题:

  1. 确定p(x,t),计算p(t|x),依据1.89式进行积分
  2. 推断p(t|x),依据1.89式进行积分
  3. 直接通过数据找到回归函数模型y(x)

闵可夫斯基损失函数–平方损失函数的推广
E[L]q=∫∫∣y(x)−t∣qp(x,t)dxdt\mathbb{E}[L]_q=\int\int|y(x)-t|^qp(x,t)dxdtE[L]q​=∫∫∣y(x)−t∣qp(x,t)dxdt

1.6 信息论

信息量的概念:观察到一个离散型随机变量时,我们能获得多少信息?直觉上,低概率事件具有高信息量。寻找一个表达信息量的函数h(⋅)h(\cdot)h(⋅)是p(x)的递减函数。且如果有两个不相关的事件x,y,观察到两个事件同时发生的信息量应该等于两件事各自发生时的概率,即h(x,y)=h(x)+h(y)h(x,y)=h(x)+h(y)h(x,y)=h(x)+h(y),两件不相关的事是统计独立的,因此有p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)。容易得出h(x)与p(x)是对数关系。因此有(单个随机变量的信息量):
h(x)=−log⁡2p(x)h(x)=-\log_2p(x)h(x)=−log2​p(x)

熵:传输随机变量x的平均信息量为:
H[x]=−∑xp(x)log2p(x)H[x]=-\sum_xp(x)log_2p(x)H[x]=−x∑​p(x)log2​p(x)

非均匀分布的熵比均匀分布的熵要小。

无噪声编码定理:熵是传输一个随机变量状态值所需比特位的下界。

熵起源于物理学:N个物体放到若干个箱子中,所有的方案数构成乘数。乘数通过合适参数缩放对数乘数,且当N−>∞N->\inftyN−>∞时,就可以得到自然对数熵的定义。

离散型随机变量的熵特性:
熵是非负数;熵的最小值为0;利用概率归一化约束,使用拉格朗日乘子法找到熵的最大值为所有的值都相等,且等于1M\frac{1}{M}M1​时,熵值最大。M为xix_ixi​的状态总数。

熵的概念从离散型随机变量扩展到连续型随机变量:将连续型随机变量离散化,然后让Δ−>0\Delta->0Δ−>0,得到微分熵的概念:
−∫p(x)ln⁡p(x)dx-\int p(x)\ln p(x) dx−∫p(x)lnp(x)dx
熵的离散形式和连续形式相差一个ln⁡Δ\ln \DeltalnΔ在Δ−>0\Delta->0Δ−>0的情况下是发散的。反映一个重要的事实:具体化一个连续型随机变量需要大量的比特位。

连续型随机变量的熵特性:
最大化微分熵的分布是高斯分布,最大的熵值还由分布的方差决定。随着方差的增大而增大(越平越大的趋势还是在的)
H[x]=12{1+ln⁡(2πσ2)}H[x]=\frac{1}{2}\{1+\ln(2\pi\sigma ^2)\}H[x]=21​{1+ln(2πσ2)}
微分熵可以为负数。

条件熵:

**KL散度:**目标分布p(x)p(x)p(x),近似分布q(x∣θ)q(x|\theta)q(x∣θ)–平均附加信息量,比原来的信息量多出来的信息量。KL散度不是一个对称量。
KL(p∣∣q)=−∫p(x)ln⁡{q(x)p(x)}dxKL(p||q)=-\int p(x)\ln\left\{\frac{q(x)}{p(x)}\right\}dxKL(p∣∣q)=−∫p(x)ln{p(x)q(x)​}dx

**凸函数:**弦在函数图像上,对应的函数的二阶导数为正。
f(λa+(1−λ)b)<=λf(a)+(1−λ)f(b)f(\lambda a + (1-\lambda)b) <= \lambda f(a) + (1-\lambda)f(b)f(λa+(1−λ)b)<=λf(a)+(1−λ)f(b)

**凹函数:**弦在函数图像的下方,对应的二阶导数为负数
f(x)=−f(x)f(x)=-f(x)f(x)=−f(x)

利用Jensen 不等式+−ln⁡x-\ln x−lnx函数是凸函数 证明了KL散度非负数。因此可以将KL散度看作两分布之间不相似程度的度量。(解释性说明)

最大似然等价与最小化**目标分布p(x)p(x)p(x),近似分布q(x∣θ)q(x|\theta)q(x∣θ)之间的KL散度。

**互信息:**获知一个随机变量的值后另一个随机变量不确定度减少的量。
I(x,y)=H(x)−H(x∣y)=H(y)−H(y∣x)I(x,y) = H(x)-H(x|y)=H(y)-H(y|x)I(x,y)=H(x)−H(x∣y)=H(y)−H(y∣x)


关键概念:
误差函数(error function)
泛化能力(generalization)
特征抽取(feature extract)
预处理(pre-processed)
模型选择(model selection)
模型对比(model comparison)
正则化(regularization)
权值衰减(weight decay)
收缩(shrinkage)
加和规则(sum rule)
乘积规则(product relu)

PRML(2)--绪论(下)模型选择、纬度灾难、决策论、信息论相关推荐

  1. PRML读书会第一章 Introduction(机器学习基本概念、学习理论、模型选择、维灾等)...

    主讲人 常象宇 大家好,我是likrain,本来我和网神说的是我可以作为机动,大家不想讲哪里我可以试试,结果大家不想讲第一章.估计都是大神觉得第一章比较简单,所以就由我来吧.我的背景是统计与数学,稍懂 ...

  2. PRML(1)--绪论(上)多项式曲线拟合、概率论

    PRML绪论 1.1 多项式曲线拟合 1.1.1 问题描述 1.1.2 最小化平方和误差 1.1.3 多项式阶数确定 1.1.4 有趣问题--高阶模型为什么效果不好 1.1.4 数据集规模对模型的影响 ...

  3. Java机器学习库ML之十模型选择准则AIC和BIC

    学习任务所建立的模型多数是参数估计并采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价的,同时也带来一个机器学习中非常普遍的问题--过拟合.模型选择问题是在 ...

  4. 一文帮你理解模型选择方法:AIC、BIC和交叉验证!

    一文帮你理解[模型选择方法]:AIC.BIC 和交叉验证! 本文先讲透模型选择的基本思想,再逐一叙述几种比较典型和常用的模型选择方法,希望可以帮助你理解. 一.模型选择的基本思想 模型选择的核心思想就 ...

  5. 模型选择准则之AIC和BIC

    参考文章http://blog.csdn.net/lynnucas/article/details/47947943 转自:http://blog.csdn.net/jteng/article/det ...

  6. 【图解例说机器学习】模型选择:偏差与方差 (Bias vs. Variance)

    目录 一个例子:多项式回归中的阶数选择 防止过拟合 增加训练数据 正则化 偏差与方差 理论推导 偏差与方差的折中关系 附录 机器学习的过程大致分为三步:1)模型假设,比如我们假设模型是线性回归,还是多 ...

  7. PRML 01 绪论:引言与引例

    1引言 2引例 Polynomial Curve Fitting 1泛化性能评价 2减小过拟合 21增大数据集 22beyas 23归则化 regularization 作者Christopher M ...

  8. 机器学习中的模型评价、模型选择及算法选择

    链客,专为开发者而生,有问必答! 此文章来自区块链技术社区,未经允许拒绝转载. 正确使用模型评估.模型选择和算法选择技术无论是对机器学习学术研究还是工业场景应用都至关重要.本文将对这三个任务的相关技术 ...

  9. 第六课.模型评估与模型选择

    目录 导语 模型评估 回归任务的评估指标 分类任务的评估指标 过拟合现象 过拟合的原因 过拟合解决办法 模型选择与调整超参数 正则化 留出法 交叉验证 网格搜索 实验:线性回归预测股票走势 实验说明 ...

最新文章

  1. 插入,冒泡,选择,快速排序,二分查找
  2. 柴油发电机组的基本结构及工作特性
  3. SQL Server 2005查询处理结构-用户模式计划(UMS)
  4. 第四范式上榜《麻省理工科技评论》“50家聪明公司”榜单
  5. 前端学习(2943):vue结合bs搭建首页
  6. LeetCode 1790. 仅执行一次字符串交换能否使两个字符串相等
  7. Python爬虫:该如何学习数据爬虫
  8. 以太坊开发入门,如何搭建一个区块链DApp投票系统
  9. 铁路系统的在线检测系统讲座
  10. editor.md实现拖拽剪切复制粘贴上传图片,文件插件
  11. 短信接口——阿里云短信接口
  12. iOS13苹果登录的后台验证token(JAVA)
  13. 电影天堂React Native 客户端V2.0发布
  14. 搭建Mantis 缺陷管理系统
  15. 复选框checkbox实现批量删除
  16. PHP到期自动提醒邮件,用Excel实现 “到期”自动提醒,非常实用
  17. 英语和数学不行能学计算机编程吗,英语数学不好可以学编程吗?编程对他们的要求高吗?...
  18. hdc mfc 画扇形图_国画松树,最典型的三种画法你还记得吗?会了这三种画松树全搞定...
  19. 【Day4】语音识别(音频转文字)
  20. python竖式计算_Python 模拟竖式大数乘法

热门文章

  1. warning no newline at the end of file
  2. wifi 小米pro 驱动 黑苹果_搞定小米黑苹果自带WIF,又可省一个USB接口了
  3. python输入序列语句_Python基础教程(一) - 序列:字符串、列表和元组
  4. python中如何标识语句块_如何用python在一个块中编写多个try语句?
  5. 平板电脑应用_什么是机房巡检AI机器人?工业平板电脑的应用如何体现
  6. python3发布时间_Python3优雅操作-时间处理与定时任务
  7. excel办公常用的宏_让领导看傻!精美168套办公常用excel模板免费领
  8. 【转】ABP源码分析二十:ApplicationService
  9. SharePoint 2007 and 2010 的服务器场的端口
  10. 浅谈Mysql 表设计规范