PRML绪论

1.3 模型选择
1.4 纬度灾难
1.5 决策论
- 1.5.1最小错误分率
- 1.5.2最小化期望损失
- 1.5.3拒绝选项
- 1.5.4推断和决策
- 1.5.5 回归问题的损失函数
1.6 信息论

1.3 模型选择

模型过复杂会造成过拟合问题，需要通过一些技术来降低模型的复杂度。
就最大似然而言，可以增加一个惩罚项来补偿过于复杂的模型造成的过拟合问题。

赤池信息准则，使式1.73最大,M是模型中可调节参数的数量：
lnp(D∣wML)−Mlnp(\mathcal{D}|\bm{w}_ML)-Mlnp(D∣wML)−M

1.73式？是一个变体，被称作贝叶斯信息准则，但是没有考虑模型参数的不确定性。

1.4 纬度灾难

一个三分类问题画格子分类。随着输入维度的增加会造成的问题：

单元格的数量会随输入空间维度的增加而增加
为了保证单元格不空，训练数据的量需要增加

高维空间中的直觉错误：
3. 高维空间中，一个球的体积大部分会聚集在表面附近薄球上
4. 在高纬空间中，高斯分布的概率质量会集中在某一半径的薄球上

1.5 决策论

决策论和概率论结合：能够在涉及不确定性的条件下作出最优决策。

例如：依据病人X光片，判断病人是否得了癌症，并依据判断给出是否需要治疗的决定。

概率论如何在决策时起作用

1.5.1最小错误分率

需要一个规则将不同的x分到合适的类别中，按照规则会把输入空间分成不同的决策区域Rk\mathcal{R}_kRk。在Rk\mathcal{R}_kRk中的点将被分为Ck\mathcal{C}_kCk类。

考虑一维数轴上的两分类问题，错分概率为：
p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx(1.78)p(mistake)=p(x\in\mathcal{R}_1,\mathcal{C}_2)+p(x\in\mathcal{R}_2,\mathcal{C}_1)=\int_{\mathcal{R}_1}p(x,\mathcal{C}_2)dx + \int_{\mathcal{R}_2}p(x,\mathcal{C}_1)dx\tag{1.78} p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx(1.78)

为了使(1.78)式最小，那么可以得到一个决策规则：如果p(x,C1)>p(x,C2)p(x,\mathcal{C}_1)>p(x, \mathcal{C}_2)p(x,C1)>p(x,C2)就将x划分为类别1。也等价于将x 分入到具有最大后验概率的类别中。

1.5.2最小化期望损失

实际引用中，目标远比最小化错误分类率更加复杂。

就癌症判断例子中每种错误分类所带来的决策损失是不同的：健康误判为有病–多了复查，有病误判为健康–错过最佳治疗时间。

损失函数(loss function) 也被称为代价函数(cost function):对所有可能的决策或者动作可能产生的损失的一种整体度量。目标是：最小化期望损失。

期望损失的计算：x属于Ck\mathcal{C}_kCk类，我们将其划分为Cj\mathcal{C}_jCj类，造成的损失为Lkj\mathcal{L}_{kj}Lkj
E[L]=∑k∑j∫RjLkjp(x,Ck)dx\mathbb{E}[L]=\sum_k\sum_j\int_{\mathcal{R}_j}L_{kj}p(x,\mathcal{C}_k)dxE[L]=k∑j∑∫RjLkjp(x,Ck)dx

得出的结论还是需要：后验概率

1.5.3拒绝选项

在类别归属相对不确定的时候，避免作出决策是更合适的选择。这样会使模型的分类错误率降低，这被称为拒绝选项（reject option）。

癌症的例子：使用自动化系统来对几乎没有怀疑的X光片进行分类，把不易分类的留给人类专家。

一种简单的拒绝实现方式：引入一个阈值θ\thetaθ，拒绝后验概率p(Ck∣x)p(\mathcal{C}_k|x)p(Ck∣x)的最大值小于等θ\thetaθ的那些输入x。

1.5.4推断和决策

解决决策问题的三种方法：

推断类条件密度p(x∣Ck)p(x|\mathcal{C}_k)p(x∣Ck),推断类先验概率密度p(Ck)p(\mathcal{C}_k)p(Ck),计算后验概率->决策（生成式模型）。
直接推断后验概率p(Ck∣x)p(\mathcal{C}_k|x)p(Ck∣x)->决策(判别式模型)。
找到一个判别函数f(x)f(x)f(x)，直接把输入x映射到类别标签中。

三种方法各有优缺点。

1.5.5 回归问题的损失函数

回到曲线拟合问题：对于每一个输入x，对应目标值t的估计值为y(x), 造成的损失是L(t,y(x))，那么期望损失为：
E[L]=∫∫L(t,y(x))p(x,t)dxdt\mathbb{E}[L]=\int\int L(t,y(x))p(x,t)dxdtE[L]=∫∫L(t,y(x))p(x,t)dxdt

L(t,y(x))常用平方损失函数–L(t,y(x))=[y(x)−t]2L(t,y(x))=[y(x)-t]^2L(t,y(x))=[y(x)−t]2。我们的目标是选择合适的y(x)来使E[L]\mathbb{E}[L]E[L]最小化。形式变分法求解y(x)（不会求）：
δE[L]δy(x)=2∫{y(x)−t}p(x,t)dt=0\frac{\delta\mathbb{E}[L]}{\delta y(x)}=2\int\{y(x)-t\}p(x,t)dt = 0δy(x)δE[L]=2∫{y(x)−t}p(x,t)dt=0

使用概率的加和规则和乘积规则有(对上式子进行移项和相除操作得到)：
y(x)=∫tp(x,t)dtp(x)=∫tp(t∣x)dt=Et[t∣x](1.89)y(x)=\frac{\int tp(x,t)dt}{p(x)}=\int tp(t|x)dt=\mathbb{E}_t[t|x]\tag{1.89}y(x)=p(x)∫tp(x,t)dt=∫tp(t∣x)dt=Et[t∣x](1.89)

Et[t∣x]\mathbb{E}_t[t|x]Et[t∣x]符号迷惑，理解成 t 在给定x条件下的期望会更容易理解。Ep(t∣x)[t]\mathbb{E}_{p(t|x)}[t]Ep(t∣x)[t]

所以y(x)最优解就是t的条件期望。

同样有三种方法来解决回归问题：

确定p(x,t),计算p(t|x)，依据1.89式进行积分
推断p(t|x),依据1.89式进行积分
直接通过数据找到回归函数模型y(x)

闵可夫斯基损失函数–平方损失函数的推广
E[L]q=∫∫∣y(x)−t∣qp(x,t)dxdt\mathbb{E}[L]_q=\int\int|y(x)-t|^qp(x,t)dxdtE[L]q=∫∫∣y(x)−t∣qp(x,t)dxdt

1.6 信息论

信息量的概念：观察到一个离散型随机变量时，我们能获得多少信息？直觉上，低概率事件具有高信息量。寻找一个表达信息量的函数h(⋅)h(\cdot)h(⋅)是p(x)的递减函数。且如果有两个不相关的事件x,y，观察到两个事件同时发生的信息量应该等于两件事各自发生时的概率，即h(x,y)=h(x)+h(y)h(x,y)=h(x)+h(y)h(x,y)=h(x)+h(y),两件不相关的事是统计独立的，因此有p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)。容易得出h(x)与p(x)是对数关系。因此有（单个随机变量的信息量）：
h(x)=−log⁡2p(x)h(x)=-\log_2p(x)h(x)=−log2p(x)

熵：传输随机变量x的平均信息量为：
H[x]=−∑xp(x)log2p(x)H[x]=-\sum_xp(x)log_2p(x)H[x]=−x∑p(x)log2p(x)

非均匀分布的熵比均匀分布的熵要小。

无噪声编码定理：熵是传输一个随机变量状态值所需比特位的下界。

熵起源于物理学：N个物体放到若干个箱子中，所有的方案数构成乘数。乘数通过合适参数缩放对数乘数，且当N−>∞N->\inftyN−>∞时，就可以得到自然对数熵的定义。

离散型随机变量的熵特性：
熵是非负数；熵的最小值为0；利用概率归一化约束，使用拉格朗日乘子法找到熵的最大值为所有的值都相等，且等于1M\frac{1}{M}M1时，熵值最大。M为xix_ixi的状态总数。

熵的概念从离散型随机变量扩展到连续型随机变量：将连续型随机变量离散化，然后让Δ−>0\Delta->0Δ−>0，得到微分熵的概念：
−∫p(x)ln⁡p(x)dx-\int p(x)\ln p(x) dx−∫p(x)lnp(x)dx
熵的离散形式和连续形式相差一个ln⁡Δ\ln \DeltalnΔ在Δ−>0\Delta->0Δ−>0的情况下是发散的。反映一个重要的事实：具体化一个连续型随机变量需要大量的比特位。

连续型随机变量的熵特性：
最大化微分熵的分布是高斯分布，最大的熵值还由分布的方差决定。随着方差的增大而增大（越平越大的趋势还是在的）
H[x]=12{1+ln⁡(2πσ2)}H[x]=\frac{1}{2}\{1+\ln(2\pi\sigma ^2)\}H[x]=21{1+ln(2πσ2)}
微分熵可以为负数。

条件熵：

**KL散度：**目标分布p(x)p(x)p(x)，近似分布q(x∣θ)q(x|\theta)q(x∣θ)–平均附加信息量,比原来的信息量多出来的信息量。KL散度不是一个对称量。
KL(p∣∣q)=−∫p(x)ln⁡{q(x)p(x)}dxKL(p||q)=-\int p(x)\ln\left\{\frac{q(x)}{p(x)}\right\}dxKL(p∣∣q)=−∫p(x)ln{p(x)q(x)}dx

**凸函数：**弦在函数图像上,对应的函数的二阶导数为正。
f(λa+(1−λ)b)<=λf(a)+(1−λ)f(b)f(\lambda a + (1-\lambda)b) <= \lambda f(a) + (1-\lambda)f(b)f(λa+(1−λ)b)<=λf(a)+(1−λ)f(b)

**凹函数：**弦在函数图像的下方，对应的二阶导数为负数
f(x)=−f(x)f(x)=-f(x)f(x)=−f(x)

利用Jensen 不等式+−ln⁡x-\ln x−lnx函数是凸函数证明了KL散度非负数。因此可以将KL散度看作两分布之间不相似程度的度量。（解释性说明）

最大似然等价与最小化**目标分布p(x)p(x)p(x)，近似分布q(x∣θ)q(x|\theta)q(x∣θ)之间的KL散度。

**互信息：**获知一个随机变量的值后另一个随机变量不确定度减少的量。
I(x,y)=H(x)−H(x∣y)=H(y)−H(y∣x)I(x,y) = H(x)-H(x|y)=H(y)-H(y|x)I(x,y)=H(x)−H(x∣y)=H(y)−H(y∣x)

关键概念：
误差函数(error function)
泛化能力(generalization)
特征抽取(feature extract)
预处理(pre-processed)
模型选择(model selection)
模型对比(model comparison)
正则化(regularization)
权值衰减(weight decay)
收缩(shrinkage)
加和规则(sum rule)
乘积规则(product relu)

PRML(2)--绪论(下)模型选择、纬度灾难、决策论、信息论相关推荐

PRML读书会第一章 Introduction(机器学习基本概念、学习理论、模型选择、维灾等)...
主讲人常象宇大家好,我是likrain,本来我和网神说的是我可以作为机动,大家不想讲哪里我可以试试,结果大家不想讲第一章.估计都是大神觉得第一章比较简单,所以就由我来吧.我的背景是统计与数学,稍懂 ...
PRML(1)--绪论(上)多项式曲线拟合、概率论
PRML绪论 1.1 多项式曲线拟合 1.1.1 问题描述 1.1.2 最小化平方和误差 1.1.3 多项式阶数确定 1.1.4 有趣问题--高阶模型为什么效果不好 1.1.4 数据集规模对模型的影响 ...
Java机器学习库ML之十模型选择准则AIC和BIC
学习任务所建立的模型多数是参数估计并采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价的,同时也带来一个机器学习中非常普遍的问题--过拟合.模型选择问题是在 ...
一文帮你理解模型选择方法：AIC、BIC和交叉验证！
一文帮你理解[模型选择方法]:AIC.BIC 和交叉验证! 本文先讲透模型选择的基本思想,再逐一叙述几种比较典型和常用的模型选择方法,希望可以帮助你理解. 一.模型选择的基本思想模型选择的核心思想就 ...
模型选择准则之AIC和BIC
参考文章http://blog.csdn.net/lynnucas/article/details/47947943 转自:http://blog.csdn.net/jteng/article/det ...
【图解例说机器学习】模型选择：偏差与方差 (Bias vs. Variance)
目录一个例子:多项式回归中的阶数选择防止过拟合增加训练数据正则化偏差与方差理论推导偏差与方差的折中关系附录机器学习的过程大致分为三步:1)模型假设,比如我们假设模型是线性回归,还是多 ...
PRML 01 绪论：引言与引例
1引言 2引例 Polynomial Curve Fitting 1泛化性能评价 2减小过拟合 21增大数据集 22beyas 23归则化 regularization 作者Christopher M ...
机器学习中的模型评价、模型选择及算法选择
链客,专为开发者而生,有问必答! 此文章来自区块链技术社区,未经允许拒绝转载. 正确使用模型评估.模型选择和算法选择技术无论是对机器学习学术研究还是工业场景应用都至关重要.本文将对这三个任务的相关技术 ...
第六课.模型评估与模型选择
目录导语模型评估回归任务的评估指标分类任务的评估指标过拟合现象过拟合的原因过拟合解决办法模型选择与调整超参数正则化留出法交叉验证网格搜索实验:线性回归预测股票走势实验说明 ...

PRML(2)--绪论(下)模型选择、纬度灾难、决策论、信息论