2.6 错误率的计算

错误率反映了分类问题固有复杂性的程度

在分类器设计出来后, 通常是以错误率大小来衡量其性能优劣

通常是以错误率大小作为比较方案的标准
P(e)=P(ω1)∫R2P(x∣ω1)dx+P(ω2)∫R1P(x∣ω2)dx=P(ω1)P1(e)+P(ω2)P2(e)(2−96)P(e)=P(\omega_1)\int_{R_2} P(x|\omega_1)dx+P(\omega_2)\int_{R_1} P(x|\omega_2)dx \newline =P(\omega_1)P_1(e)+P(\omega_2)P_2(e) \quad(2-96) P(e)=P(ω1)∫R2P(x∣ω1)dx+P(ω2)∫R1P(x∣ω2)dx=P(ω1)P1(e)+P(ω2)P2(e)(2−96)

实际中，按理论公式计算错误率很困难

由于错误率在模式识别中的重要性及计算上的复杂性，因此在处理实际问题时的三种方法：

按理论公式计算

计算错误率上界

实验估计

2.6.1 正态分布且各类协方差矩阵相等情况下错误率的计算

在最小错误率贝叶斯决策中：
h(x)=−ln⁡l(x)=−ln⁡p(x∣ω1)+ln⁡p(x∣ω2)≶ln⁡P(ω1)P(ω2)，则x∈{ω1ω2h(x)=-\ln l(x)=-\ln p(x|\omega_1)+\ln p(x|\omega_2) \lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)}，则x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases} h(x)=−lnl(x)=−lnp(x∣ω1)+lnp(x∣ω2)≶lnP(ω2)P(ω1)，则x∈{ω1ω2
因此h(x)h(x)h(x)是随机变量，记分布密度函数为p(h∣ω1)p(h|\omega_1)p(h∣ω1)。
(2-96)可表示为：
P1(e)=∫R2p(x∣ω1)dx=∫t+∞p(h∣ω1)dh(2−97)P2(e)=∫R1p(x∣ω2)dx=∫−∞tp(h∣ω2)dh(2−97)P_1(e)=\int_{R_2}p(x|\omega_1)dx = \int_t^{+\infin}p(h|\omega_1)dh \quad(2-97) \newline P_2(e)=\int_{R_1}p(x|\omega_2)dx = \int_{-\infin}^t p(h|\omega_2)dh \quad(2-97) P1(e)=∫R2p(x∣ω1)dx=∫t+∞p(h∣ω1)dh(2−97)P2(e)=∫R1p(x∣ω2)dx=∫−∞tp(h∣ω2)dh(2−97)
其中
t=ln⁡P(ω1)P(ω2)t=\ln \dfrac{P(\omega_1)}{P(\omega_2)} t=lnP(ω2)P(ω1)

这里和 Neyman-Pearson 决策里的似然比密度函数 p(l∣ω2)p(l|\omega_2)p(l∣ω2) 一样，是将变量 xxx 换成了 hhh 因此积分的区域也发生了相应的变化。

考虑在正态分布时的情况，决策规则可以写成：
h(x)=−ln⁡l(x)=−ln⁡p(x∣ω1)+ln⁡p(x∣ω2)=−[−12(x−μ1)TΣ1−1(x−μ1)−d2ln⁡2π−12ln⁡∣Σ1∣]+[−12(x−μ2)TΣ2−1(x−μ2)−d2ln⁡2π−12ln⁡∣Σ2∣]=12(x−μ1)TΣ1−1(x−μ1)−12(x−μ2)TΣ2−1(x−μ2)+12ln⁡∣Σ1∣∣Σ2∣≶ln⁡P(ω1)P(ω2)→x∈{ω1ω2(2−100)h(x)=-\ln l(x)=-\ln p(x|\omega_1)+\ln p(x|\omega_2) \newline =-[-\dfrac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)-\dfrac{d}{2}\ln 2\pi-\dfrac{1}{2}\ln|\Sigma_1|] \newline +[-\dfrac{1}{2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)-\dfrac{d}{2}\ln 2\pi-\dfrac{1}{2}\ln|\Sigma_2|] \newline =\dfrac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)-\dfrac{1}{2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)+\dfrac{1}{2}\ln \dfrac{|\Sigma_1|}{|\Sigma_2|} \newline \lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)} \rarr x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases} \quad(2-100) h(x)=−lnl(x)=−lnp(x∣ω1)+lnp(x∣ω2)=−[−21(x−μ1)TΣ1−1(x−μ1)−2dln2π−21ln∣Σ1∣]+[−21(x−μ2)TΣ2−1(x−μ2)−2dln2π−21ln∣Σ2∣]=21(x−μ1)TΣ1−1(x−μ1)−21(x−μ2)TΣ2−1(x−μ2)+21ln∣Σ2∣∣Σ1∣≶lnP(ω2)P(ω1)→x∈{ω1ω2(2−100)
如果协方差矩阵相等Σ1=Σ2=Σ\Sigma_1=\Sigma_2=\SigmaΣ1=Σ2=Σ时，决策规则可简化为：
h(x)=(μ2−μ1)TΣ−1x+12(μ1TΣ−1μ1−μ2TΣ−1μ2)≶ln⁡P(ω1)P(ω2)→x∈{ω1ω2(2−101)h(x)=(\mu_2-\mu_1)^T\Sigma^{-1}x+\dfrac{1}{2}(\mu_1^T\Sigma^{-1}\mu_1-\mu_2^T\Sigma^{-1}\mu_2)\lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)} \rarr x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases} \quad(2-101) h(x)=(μ2−μ1)TΣ−1x+21(μ1TΣ−1μ1−μ2TΣ−1μ2)≶lnP(ω2)P(ω1)→x∈{ω1ω2(2−101)
因此（2-101）可看成是对 xxx 的各分量作线性组合 αTx\alpha^TxαTx ，再平移，其中 αT=(μ2−μ1)TΣ−1\alpha^T=(\mu_2-\mu_1)^T\Sigma^{-1}αT=(μ2−μ1)TΣ−1 。对于 p(h∣ω1)p(h|\omega_1)p(h∣ω1) ，可以计算出决定一维正态分布的参数均值 η1\eta_1η1 及方差 σ12\sigma_1^2σ12 ：
η1=E[h(x)∣ω1]=(μ2−μ1)TΣ−1μ1+12(μ1TΣ−1μ1−μ2TΣ−1μ2)=−12(μ1−μ2)TΣ−1(μ1−μ2)(2−102)\eta_1=E[h(x)|\omega_1]=(\mu_2-\mu_1)^T\Sigma^{-1}\mu_1+\dfrac{1}{2}(\mu_1^T\Sigma^{-1}\mu_1-\mu_2^T\Sigma^{-1}\mu_2) \newline =-\dfrac{1}{2}(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2) \quad(2-102) η1=E[h(x)∣ω1]=(μ2−μ1)TΣ−1μ1+21(μ1TΣ−1μ1−μ2TΣ−1μ2)=−21(μ1−μ2)TΣ−1(μ1−μ2)(2−102)
令
η=12[(μ1−μ2)TΣ−1(μ1−μ2)]\eta= \dfrac{1}{2}[(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2)] η=21[(μ1−μ2)TΣ−1(μ1−μ2)]
则
η1=−ησ12=E{[h(x)−η]2∣ω1}=(μ1−μ2)TΣ−1(μ1−μ2)=2η(2−103)\eta_1=-\eta \newline \sigma_1^2=E\{ [h(x)-\eta]^2|\omega_1\} =(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2)=2\eta \quad(2-103) η1=−ησ12=E{[h(x)−η]2∣ω1}=(μ1−μ2)TΣ−1(μ1−μ2)=2η(2−103)
同样的可以得出p(h∣ω2)p(h|\omega_2)p(h∣ω2)的参数均值η\etaη及方差σ22\sigma_2^2σ22：
η2=12(μ1−μ2)TΣ−1(μ1−μ2)=η(2−104)σ22=(μ1−μ2)TΣ−1(μ1−μ2)=2η(2−105)\eta_2=\dfrac{1}{2}(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2)=\eta \quad(2-104) \newline \sigma_2^2=(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2) = 2\eta \quad(2-105) η2=21(μ1−μ2)TΣ−1(μ1−μ2)=η(2−104)σ22=(μ1−μ2)TΣ−1(μ1−μ2)=2η(2−105)
因此，可以求出P1(e)P_1(e)P1(e)与P2(e)P_2(e)P2(e)：
P1(e)=∫t+∞p(h∣ω1)dh=∫t+∞1(2π)σexp⁡{−12(h+ησ)2}dh=∫t+∞(2π)−12exp⁡{−12(h+ησ)2}d(h+ησ)=∫t+ησ+∞(2π)−12exp⁡(−12ξ2)dξ(2−106)P2(e)=∫−∞tp(h∣ω2)dh=∫−∞t(2π)−12exp⁡{−12(h−ησ)2}d(h−ησ)=∫−∞t−ησ(2π)−12exp⁡(−12ξ2)dξ(2−107)P_1(e)=\int_t^{+\infin}p(h|\omega_1)dh \newline =\int_t^{+\infin}\dfrac{1}{\sqrt{(2\pi)}\sigma} \exp\{ -\dfrac{1}{2}(\dfrac{h+\eta}{\sigma})^2\}dh \newline =\int_t^{+\infin}(2\pi)^{-\dfrac{1}{2}} \exp \{ -\dfrac{1}{2}(\dfrac{h+\eta}{\sigma})^2\}d(\dfrac{h+\eta}{\sigma}) \newline =\int_{\dfrac{t+\eta}{\sigma}}^{+\infin}(2\pi)^{-\dfrac{1}{2}} \exp (-\dfrac{1}{2}\xi^2)d\xi \quad(2-106) \newline P_2(e)=\int_{-\infin}^t p(h|\omega_2)dh \newline =\int_{-\infin}^t(2\pi)^{-\dfrac{1}{2}} \exp \{ -\dfrac{1}{2}(\dfrac{h-\eta}{\sigma})^2\}d(\dfrac{h-\eta}{\sigma}) \newline =\int_{-\infin}^{\dfrac{t-\eta}{\sigma}}(2\pi)^{-\dfrac{1}{2}} \exp (-\dfrac{1}{2}\xi^2)d\xi \quad(2-107) P1(e)=∫t+∞p(h∣ω1)dh=∫t+∞(2π)σ1exp{−21(σh+η)2}dh=∫t+∞(2π)−21exp{−21(σh+η)2}d(σh+η)=∫σt+η+∞(2π)−21exp(−21ξ2)dξ(2−106)P2(e)=∫−∞tp(h∣ω2)dh=∫−∞t(2π)−21exp{−21(σh−η)2}d(σh−η)=∫−∞σt−η(2π)−21exp(−21ξ2)dξ(2−107)
其中
t=ln⁡P(ω1)P(ω2),σ=2ηt=\ln \dfrac{P(\omega_1)}{P(\omega_2)},\sigma=\sqrt{2\eta} t=lnP(ω2)P(ω1),σ=2η

2.6.2 高维独立随机变量时错误率的估计

当 ddd 维随机向量 xxx 的分量间相互独立时， xxx 的密度函数可表示为
p(x∣ωi)=∏l=1dp(xl∣ωi),i=1,2(2−108)p(x|\omega_i)=\prod\limits_{l=1}^dp(x_l|\omega_i),i=1,2\quad(2-108) p(x∣ωi)=l=1∏dp(xl∣ωi),i=1,2(2−108)
因此负对数似然比 h(x)h(x)h(x) 为
h(x)=∑l=1dh(xl)(2−109)h(x)= \sum\limits_{l=1}^dh(x_l)\quad(2-109) h(x)=l=1∑dh(xl)(2−109)
其中
h(xl)=−ln⁡p(xl∣ω1)p(xl∣ω2)(2−110)h(x_l)=-\ln\dfrac{p(x_l|\omega_1)}{p(x_l |\omega_2)}\quad(2-110) h(xl)=−lnp(xl∣ω2)p(xl∣ω1)(2−110)
根据中心极限定理， h(x)h(x)h(x) 的密度函数总是趋于正态分布。因此， h(x)h(x)h(x) 的均值 ηi\eta_iηi 及方差 σi2\sigma_i^2σi2 。
ηi=E[h(x)∣ωi]=E[∑l=1dh(xl)∣ωi]=∑l=1dηil(2−111)σi2=E{[h(x)−ηi]2∣ωi}=E{∑l=1d[h(xl)−ηil]2+∑l,j=1l=/jd[h(xl)−ηil][h(xj)−ηij]∣ωi}=∑l=1dE{[h(xl)−ηil]2∣ωi}+∑l,j=1l≠jdE{[h(xl)−ηil][h(xj)−ηij]∣ωi}(2−112)\eta_i=E[h(x)|\omega_i]=E[\sum\limits_{l=1}^dh(x_l)|\omega_i]=\sum\limits_{l=1}^d\eta_{il} \quad(2-111) \newline \sigma_i^2=E\{[h(x)-\eta_i]^2|\omega_i\} \newline =E\{\sum\limits_{l=1}^d[h(x_l)-\eta_{il}]^2+\sum_{\substack{l,j=1\\ l{=}\mathllap{/\,}j}}^d[h(x_l)-\eta_{il}][h(x_j)-\eta_{ij}]|\omega_i\} \newline =\sum\limits_{l=1}^dE\{[h(x_l)-\eta_{il}]^2|\omega_i\}+\sum_{\substack{l,j=1\\ l \not=j}}^dE\{[h(x_l)-\eta_{il}][h(x_j)-\eta_{ij}]|\omega_i\} \quad(2-112) ηi=E[h(x)∣ωi]=E[l=1∑dh(xl)∣ωi]=l=1∑dηil(2−111)σi2=E{[h(x)−ηi]2∣ωi}=E{l=1∑d[h(xl)−ηil]2+l,j=1l=/j∑d[h(xl)−ηil][h(xj)−ηij]∣ωi}=l=1∑dE{[h(xl)−ηil]2∣ωi}+l,j=1l=j∑dE{[h(xl)−ηil][h(xj)−ηij]∣ωi}(2−112)
根据独立性假设，第二项必定为零，所以方差可写为
σi2=∑l=1dσil2(2−113)\sigma_i^2= \sum\limits_{l=1}^d \sigma_{il}^2 \quad(2-113) σi2=l=1∑dσil2(2−113)
需要注意的是，这种计算必须在维数 ddd 较大时使用。

2.7 离散概率模型下的统计决策举例

采用基于马尔可夫模型来预测或确定CpG岛。如果第 iii 时刻上的取值依赖于且仅依赖于第 i−1i-1i−1 时刻的取值，状态转移矩阵中行表示前一时刻的取值，列表示当前时刻的取值。
P(xi∣xi−1,xi−2,⋯,x1)=P(xi∣xi−1)(2−114)ast=P(xi=t∣xi−1=s)(2−115)P(x)≜P(x1,x2,⋯,xi)=P(x1)∏i=2Laxi−1axi(2−116)P(x_i|x_{i−1},x_{i−2},⋯,x_1)=P(x_i|x_{i−1}) \quad(2-114) \newline a_{st}=P(x_i=t|x_{i−1}=s) \quad(2-115) \newline P(x)≜P(x_1,x_2,⋯,x_i)=P(x_1)\prod\limits_{i=2}^L a_{x_{i−1}}a_{x_i} \quad(2-116) P(xi∣xi−1,xi−2,⋯,x1)=P(xi∣xi−1)(2−114)ast=P(xi=t∣xi−1=s)(2−115)P(x)≜P(x1,x2,⋯,xi)=P(x1)i=2∏Laxi−1axi(2−116)

状态转移矩阵：
状态转移图：

离散变量情况下思路与连续变量类似。如果知道两类的状态转移矩阵，那么对于一个系列样本，我们就可以用式（2-116）分别计算每一类模型下观察到该特定序列的可能性或似然度 P(x∣ω1)P(x|\omega_1)P(x∣ω1) ，用同样的似然比来进行类别判断。把 CpG 岛的一类记作 “+”，马尔可夫转移概率记作 axi−1xi+a_{x_{i-1}x_i}^+axi−1xi+ ；把非 CpG 岛的一类记作 “-” ，非 CpG 岛情况下的马尔可夫转移概率记作 axi−1xi−a_{x_{i-1}x_i}^-axi−1xi− ，为了方便处理，采用对数似然比进行判别，这一比值通常又被叫做对数几率比。
S(x)=log⁡P(x∣+)P(x∣−)=log⁡∏i=1Laxi−1xi+∏i=1Laxi−1xi−=∑i=1Llog⁡axi−1xi+axi−1xi−(2−117)S(x)=\log\dfrac{P(x|+)}{P(x|-)}=\log\dfrac{\prod\limits_{i=1}^L a_{x_{i-1}x_i}^+}{\prod\limits_{i=1}^L a_{x_{i-1}x_i}^-}=\sum\limits_{i=1}^L \log\dfrac{a_{x_{i-1}x_i}^+}{a_{x_{i-1}x_i}^-} \quad(2-117) S(x)=logP(x∣−)P(x∣+)=logi=1∏Laxi−1xi−i=1∏Laxi−1xi+=i=1∑Llogaxi−1xi−axi−1xi+(2−117)
假设我们已经收集了充分的、有代表性的一些 CpG 岛序列片段和一些非 CpG 岛序列片段，统计在所有位置上出现 A、C、G、T 的次数，再统计在每个 A、C、G、T 后面出现 A、C、G、T 的次数，然后用 ast+=cst+∑t′cst′+a_{st}^+=\dfrac{c_{st}^+}{\sum_{t'}c_{st'}^+}ast+=∑t′cst′+cst+ 和 ast−=cst−∑t′cst′−a_{st}^-=\dfrac{c_{st}^-}{\sum_{t'}c_{st'}^-}ast−=∑t′cst′−cst− 来分别估计两类的状态转移概率，其中， cst+c_{st}^+cst+ 表示 CpG 岛类中从某状态 sss 转移到状态 ttt 的出现次数， ∑t′cst′+\sum_{t'}c_{st'}^+∑t′cst′+表示对 sss 后所有可能出现的状态次数求和； cst−c_{st}^-cst− 表示在非 CpG 岛上同样的量。

CpG 岛与非 CpG 岛状态转移矩阵

即是求图中两个矩阵的相应单元的比值，因此可将式（2-117）变成
S(x)=log⁡P(x∣+)P(x∣−)=∑i=1Llog⁡axi−1xi+axi−1xi−=∑i=1Lβxi−1xi(2−118)S(x)=\log\dfrac{P(x|+)}{P(x|-)}=\sum\limits_{i=1}^L \log\dfrac{a_{x_{i-1}x_i}^+}{a_{x_{i-1}x_i}^-}=\sum\limits_{i=1}^L\beta_{x_{i-1}x_i} \quad(2-118) S(x)=logP(x∣−)P(x∣+)=i=1∑Llogaxi−1xi−axi−1xi+=i=1∑Lβxi−1xi(2−118)
其中， βst\beta_{st}βst 为相应的 ast+a_{st}^+ast+ 与 ast−a_{st}^-ast− 比值的对数（以2为底），计算出对数自然比矩阵。

最后按照适当的阈值进行决策。

2.8 小结

统计决策的基本原理就是根据各类特征的概率模型来估算后验概率，通过比较后验概率进行决策。而通过贝叶斯公式，后验概率的比较可以转化为类条件概率密度的比较，因此下一章将重点讨论类条件概率密度的估计。

参考
张学工. 模式识别. 第三版. 北京：清华大学出版社，2010
张学工，汪小我. 模式识别与机器学习. 第四版. 北京：清华大学出版社，2021
部分图片来源于网络

错误率的计算、离散概率模型下的统计决策举例相关推荐

计算广告小窥[下]要啥自行车！
原作:@面包包包包包包修改:@寒小阳 && @龙心尘鸣谢:百度德川.阿里怀人.阿里口肃.腾讯Fandy王.优酷吕红亮时间:2016年8月出处: http://blog.csdn ...
ML学习分享系列3_计算广告小窥[下]要啥自行车！
原作:@面包包包包包包修改:@寒小阳 && @龙心尘鸣谢:百度德川.阿里怀人.阿里口肃.腾讯Fandy王.优酷吕红亮时间:2016年8月出处:http://blog.csdn. ...
[python skill]利用python计算T分布下的置信区间
上篇博文中的置信区间计算代码在使用过程中并不准确,本人没并没有搞清楚原因 - - 求大神解答: import numpy as np from scipy import statsX1=np.arra ...
ubuntu 使用FFTW快速计算离散傅里叶变换
FFTW ( the Faster Fourier Transform in the West) 是一个快速计算离散傅里叶变换的标准C语言程序集,其由MIT的M.Frigo 和S. Johnson 开 ...
ES分组聚合：计算每个tag下的商品数量且某个filed包含指定关键字，分组，平均，每个tags下的平均价格，排序，指定范围区间
1.第一个分析需求:计算每个tag下的商品数量 GET /ecommerce/product/_search {"aggs": {"group_by_tags" ...
计算沙盒下文件夹内容大小清空沙盒文件目录
1 +(float)fileSizeForDir:(NSString*)path//计算文件夹下文件的总大小 2 3 { 4 5 NSFileManager *fileManager = [[NSFi ...
信息论 | 计算离散信源的信息量和熵的MATLAB实现（函数封装调用）
<信息论基础> 实验报告姓名 XX 班级 XXXXXX 学号 2020XXXXXXXX 实验项目计算离散信源的熵日期 2022.10.21 实验环境联想电脑 MATLAB R201 ...
2C4T与4C4T在计算密集型任务下的效率对比
文章目录 1. 环境 2. 代码 3. 结果 1. 环境机器1:Intel® Core™ i5-4200H CPU @ 2.80GHz,双核四线程,win10 x64,16G内存机器2:Intel ...
用matlab计算信源信息熵,计算离散信源的熵matlab实现
三.实验内容: 1.写出计算自信息量的Matlab 程序 2.写出计算离散信源平均信息量的Matlab 程序. 3.掌握二元离散信源的最大信息量与概率的关系. 4.将程序在计算机上仿真实现,验证程序的 ...

错误率的计算、离散概率模型下的统计决策举例