错误率的计算、离散概率模型下的统计决策举例
2.6 错误率的计算
- 错误率反映了分类问题固有复杂性的程度
- 在分类器设计出来后, 通常是以错误率大小来衡量其性能优劣
- 通常是以错误率大小作为比较方案的标准
P(e)=P(ω1)∫R2P(x∣ω1)dx+P(ω2)∫R1P(x∣ω2)dx=P(ω1)P1(e)+P(ω2)P2(e)(2−96)P(e)=P(\omega_1)\int_{R_2} P(x|\omega_1)dx+P(\omega_2)\int_{R_1} P(x|\omega_2)dx \newline =P(\omega_1)P_1(e)+P(\omega_2)P_2(e) \quad(2-96) P(e)=P(ω1)∫R2P(x∣ω1)dx+P(ω2)∫R1P(x∣ω2)dx=P(ω1)P1(e)+P(ω2)P2(e)(2−96)- 实际中,按理论公式计算错误率很困难
由于错误率在模式识别中的重要性及计算上的复杂性,因此在处理实际问题时的三种方法:
- 按理论公式计算
- 计算错误率上界
- 实验估计
2.6.1 正态分布且各类协方差矩阵相等情况下错误率的计算
在最小错误率贝叶斯决策中:
h(x)=−lnl(x)=−lnp(x∣ω1)+lnp(x∣ω2)≶lnP(ω1)P(ω2),则x∈{ω1ω2h(x)=-\ln l(x)=-\ln p(x|\omega_1)+\ln p(x|\omega_2) \lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)},则x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases} h(x)=−lnl(x)=−lnp(x∣ω1)+lnp(x∣ω2)≶lnP(ω2)P(ω1),则x∈{ω1ω2
因此h(x)h(x)h(x)是随机变量,记分布密度函数为p(h∣ω1)p(h|\omega_1)p(h∣ω1)。
(2-96)可表示为:
P1(e)=∫R2p(x∣ω1)dx=∫t+∞p(h∣ω1)dh(2−97)P2(e)=∫R1p(x∣ω2)dx=∫−∞tp(h∣ω2)dh(2−97)P_1(e)=\int_{R_2}p(x|\omega_1)dx = \int_t^{+\infin}p(h|\omega_1)dh \quad(2-97) \newline P_2(e)=\int_{R_1}p(x|\omega_2)dx = \int_{-\infin}^t p(h|\omega_2)dh \quad(2-97) P1(e)=∫R2p(x∣ω1)dx=∫t+∞p(h∣ω1)dh(2−97)P2(e)=∫R1p(x∣ω2)dx=∫−∞tp(h∣ω2)dh(2−97)
其中
t=lnP(ω1)P(ω2)t=\ln \dfrac{P(\omega_1)}{P(\omega_2)} t=lnP(ω2)P(ω1)
这里和 Neyman-Pearson 决策里的似然比密度函数 p(l∣ω2)p(l|\omega_2)p(l∣ω2) 一样,是将变量 xxx 换成了 hhh 因此积分的区域也发生了相应的变化。
考虑在正态分布时的情况,决策规则可以写成:
h(x)=−lnl(x)=−lnp(x∣ω1)+lnp(x∣ω2)=−[−12(x−μ1)TΣ1−1(x−μ1)−d2ln2π−12ln∣Σ1∣]+[−12(x−μ2)TΣ2−1(x−μ2)−d2ln2π−12ln∣Σ2∣]=12(x−μ1)TΣ1−1(x−μ1)−12(x−μ2)TΣ2−1(x−μ2)+12ln∣Σ1∣∣Σ2∣≶lnP(ω1)P(ω2)→x∈{ω1ω2(2−100)h(x)=-\ln l(x)=-\ln p(x|\omega_1)+\ln p(x|\omega_2) \newline =-[-\dfrac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)-\dfrac{d}{2}\ln 2\pi-\dfrac{1}{2}\ln|\Sigma_1|] \newline +[-\dfrac{1}{2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)-\dfrac{d}{2}\ln 2\pi-\dfrac{1}{2}\ln|\Sigma_2|] \newline =\dfrac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)-\dfrac{1}{2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)+\dfrac{1}{2}\ln \dfrac{|\Sigma_1|}{|\Sigma_2|} \newline \lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)} \rarr x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases} \quad(2-100) h(x)=−lnl(x)=−lnp(x∣ω1)+lnp(x∣ω2)=−[−21(x−μ1)TΣ1−1(x−μ1)−2dln2π−21ln∣Σ1∣]+[−21(x−μ2)TΣ2−1(x−μ2)−2dln2π−21ln∣Σ2∣]=21(x−μ1)TΣ1−1(x−μ1)−21(x−μ2)TΣ2−1(x−μ2)+21ln∣Σ2∣∣Σ1∣≶lnP(ω2)P(ω1)→x∈{ω1ω2(2−100)
如果协方差矩阵相等Σ1=Σ2=Σ\Sigma_1=\Sigma_2=\SigmaΣ1=Σ2=Σ时,决策规则可简化为:
h(x)=(μ2−μ1)TΣ−1x+12(μ1TΣ−1μ1−μ2TΣ−1μ2)≶lnP(ω1)P(ω2)→x∈{ω1ω2(2−101)h(x)=(\mu_2-\mu_1)^T\Sigma^{-1}x+\dfrac{1}{2}(\mu_1^T\Sigma^{-1}\mu_1-\mu_2^T\Sigma^{-1}\mu_2)\lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)} \rarr x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases} \quad(2-101) h(x)=(μ2−μ1)TΣ−1x+21(μ1TΣ−1μ1−μ2TΣ−1μ2)≶lnP(ω2)P(ω1)→x∈{ω1ω2(2−101)
因此(2-101)可看成是对 xxx 的各分量作线性组合 αTx\alpha^TxαTx ,再平移,其中 αT=(μ2−μ1)TΣ−1\alpha^T=(\mu_2-\mu_1)^T\Sigma^{-1}αT=(μ2−μ1)TΣ−1 。对于 p(h∣ω1)p(h|\omega_1)p(h∣ω1) ,可以计算出决定一维正态分布的参数均值 η1\eta_1η1 及方差 σ12\sigma_1^2σ12 :
η1=E[h(x)∣ω1]=(μ2−μ1)TΣ−1μ1+12(μ1TΣ−1μ1−μ2TΣ−1μ2)=−12(μ1−μ2)TΣ−1(μ1−μ2)(2−102)\eta_1=E[h(x)|\omega_1]=(\mu_2-\mu_1)^T\Sigma^{-1}\mu_1+\dfrac{1}{2}(\mu_1^T\Sigma^{-1}\mu_1-\mu_2^T\Sigma^{-1}\mu_2) \newline =-\dfrac{1}{2}(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2) \quad(2-102) η1=E[h(x)∣ω1]=(μ2−μ1)TΣ−1μ1+21(μ1TΣ−1μ1−μ2TΣ−1μ2)=−21(μ1−μ2)TΣ−1(μ1−μ2)(2−102)
令
η=12[(μ1−μ2)TΣ−1(μ1−μ2)]\eta= \dfrac{1}{2}[(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2)] η=21[(μ1−μ2)TΣ−1(μ1−μ2)]
则
η1=−ησ12=E{[h(x)−η]2∣ω1}=(μ1−μ2)TΣ−1(μ1−μ2)=2η(2−103)\eta_1=-\eta \newline \sigma_1^2=E\{ [h(x)-\eta]^2|\omega_1\} =(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2)=2\eta \quad(2-103) η1=−ησ12=E{[h(x)−η]2∣ω1}=(μ1−μ2)TΣ−1(μ1−μ2)=2η(2−103)
同样的可以得出p(h∣ω2)p(h|\omega_2)p(h∣ω2)的参数均值η\etaη及方差σ22\sigma_2^2σ22:
η2=12(μ1−μ2)TΣ−1(μ1−μ2)=η(2−104)σ22=(μ1−μ2)TΣ−1(μ1−μ2)=2η(2−105)\eta_2=\dfrac{1}{2}(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2)=\eta \quad(2-104) \newline \sigma_2^2=(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2) = 2\eta \quad(2-105) η2=21(μ1−μ2)TΣ−1(μ1−μ2)=η(2−104)σ22=(μ1−μ2)TΣ−1(μ1−μ2)=2η(2−105)
因此,可以求出P1(e)P_1(e)P1(e)与P2(e)P_2(e)P2(e):
P1(e)=∫t+∞p(h∣ω1)dh=∫t+∞1(2π)σexp{−12(h+ησ)2}dh=∫t+∞(2π)−12exp{−12(h+ησ)2}d(h+ησ)=∫t+ησ+∞(2π)−12exp(−12ξ2)dξ(2−106)P2(e)=∫−∞tp(h∣ω2)dh=∫−∞t(2π)−12exp{−12(h−ησ)2}d(h−ησ)=∫−∞t−ησ(2π)−12exp(−12ξ2)dξ(2−107)P_1(e)=\int_t^{+\infin}p(h|\omega_1)dh \newline =\int_t^{+\infin}\dfrac{1}{\sqrt{(2\pi)}\sigma} \exp\{ -\dfrac{1}{2}(\dfrac{h+\eta}{\sigma})^2\}dh \newline =\int_t^{+\infin}(2\pi)^{-\dfrac{1}{2}} \exp \{ -\dfrac{1}{2}(\dfrac{h+\eta}{\sigma})^2\}d(\dfrac{h+\eta}{\sigma}) \newline =\int_{\dfrac{t+\eta}{\sigma}}^{+\infin}(2\pi)^{-\dfrac{1}{2}} \exp (-\dfrac{1}{2}\xi^2)d\xi \quad(2-106) \newline P_2(e)=\int_{-\infin}^t p(h|\omega_2)dh \newline =\int_{-\infin}^t(2\pi)^{-\dfrac{1}{2}} \exp \{ -\dfrac{1}{2}(\dfrac{h-\eta}{\sigma})^2\}d(\dfrac{h-\eta}{\sigma}) \newline =\int_{-\infin}^{\dfrac{t-\eta}{\sigma}}(2\pi)^{-\dfrac{1}{2}} \exp (-\dfrac{1}{2}\xi^2)d\xi \quad(2-107) P1(e)=∫t+∞p(h∣ω1)dh=∫t+∞(2π)σ1exp{−21(σh+η)2}dh=∫t+∞(2π)−21exp{−21(σh+η)2}d(σh+η)=∫σt+η+∞(2π)−21exp(−21ξ2)dξ(2−106)P2(e)=∫−∞tp(h∣ω2)dh=∫−∞t(2π)−21exp{−21(σh−η)2}d(σh−η)=∫−∞σt−η(2π)−21exp(−21ξ2)dξ(2−107)
其中
t=lnP(ω1)P(ω2),σ=2ηt=\ln \dfrac{P(\omega_1)}{P(\omega_2)},\sigma=\sqrt{2\eta} t=lnP(ω2)P(ω1),σ=2η
2.6.2 高维独立随机变量时错误率的估计
当 ddd 维随机向量 xxx 的分量间相互独立时, xxx 的密度函数可表示为
p(x∣ωi)=∏l=1dp(xl∣ωi),i=1,2(2−108)p(x|\omega_i)=\prod\limits_{l=1}^dp(x_l|\omega_i),i=1,2\quad(2-108) p(x∣ωi)=l=1∏dp(xl∣ωi),i=1,2(2−108)
因此负对数似然比 h(x)h(x)h(x) 为
h(x)=∑l=1dh(xl)(2−109)h(x)= \sum\limits_{l=1}^dh(x_l)\quad(2-109) h(x)=l=1∑dh(xl)(2−109)
其中
h(xl)=−lnp(xl∣ω1)p(xl∣ω2)(2−110)h(x_l)=-\ln\dfrac{p(x_l|\omega_1)}{p(x_l |\omega_2)}\quad(2-110) h(xl)=−lnp(xl∣ω2)p(xl∣ω1)(2−110)
根据中心极限定理, h(x)h(x)h(x) 的密度函数总是趋于正态分布。因此, h(x)h(x)h(x) 的均值 ηi\eta_iηi 及方差 σi2\sigma_i^2σi2 。
ηi=E[h(x)∣ωi]=E[∑l=1dh(xl)∣ωi]=∑l=1dηil(2−111)σi2=E{[h(x)−ηi]2∣ωi}=E{∑l=1d[h(xl)−ηil]2+∑l,j=1l=/jd[h(xl)−ηil][h(xj)−ηij]∣ωi}=∑l=1dE{[h(xl)−ηil]2∣ωi}+∑l,j=1l≠jdE{[h(xl)−ηil][h(xj)−ηij]∣ωi}(2−112)\eta_i=E[h(x)|\omega_i]=E[\sum\limits_{l=1}^dh(x_l)|\omega_i]=\sum\limits_{l=1}^d\eta_{il} \quad(2-111) \newline \sigma_i^2=E\{[h(x)-\eta_i]^2|\omega_i\} \newline =E\{\sum\limits_{l=1}^d[h(x_l)-\eta_{il}]^2+\sum_{\substack{l,j=1\\ l{=}\mathllap{/\,}j}}^d[h(x_l)-\eta_{il}][h(x_j)-\eta_{ij}]|\omega_i\} \newline =\sum\limits_{l=1}^dE\{[h(x_l)-\eta_{il}]^2|\omega_i\}+\sum_{\substack{l,j=1\\ l \not=j}}^dE\{[h(x_l)-\eta_{il}][h(x_j)-\eta_{ij}]|\omega_i\} \quad(2-112) ηi=E[h(x)∣ωi]=E[l=1∑dh(xl)∣ωi]=l=1∑dηil(2−111)σi2=E{[h(x)−ηi]2∣ωi}=E{l=1∑d[h(xl)−ηil]2+l,j=1l=/j∑d[h(xl)−ηil][h(xj)−ηij]∣ωi}=l=1∑dE{[h(xl)−ηil]2∣ωi}+l,j=1l=j∑dE{[h(xl)−ηil][h(xj)−ηij]∣ωi}(2−112)
根据独立性假设,第二项必定为零,所以方差可写为
σi2=∑l=1dσil2(2−113)\sigma_i^2= \sum\limits_{l=1}^d \sigma_{il}^2 \quad(2-113) σi2=l=1∑dσil2(2−113)
需要注意的是,这种计算必须在维数 ddd 较大时使用。
2.7 离散概率模型下的统计决策举例
采用基于马尔可夫模型来预测或确定CpG岛。如果第 iii 时刻上的取值依赖于且仅依赖于第 i−1i-1i−1 时刻的取值,状态转移矩阵中行表示前一时刻的取值,列表示当前时刻的取值。
P(xi∣xi−1,xi−2,⋯,x1)=P(xi∣xi−1)(2−114)ast=P(xi=t∣xi−1=s)(2−115)P(x)≜P(x1,x2,⋯,xi)=P(x1)∏i=2Laxi−1axi(2−116)P(x_i|x_{i−1},x_{i−2},⋯,x_1)=P(x_i|x_{i−1}) \quad(2-114) \newline a_{st}=P(x_i=t|x_{i−1}=s) \quad(2-115) \newline P(x)≜P(x_1,x_2,⋯,x_i)=P(x_1)\prod\limits_{i=2}^L a_{x_{i−1}}a_{x_i} \quad(2-116) P(xi∣xi−1,xi−2,⋯,x1)=P(xi∣xi−1)(2−114)ast=P(xi=t∣xi−1=s)(2−115)P(x)≜P(x1,x2,⋯,xi)=P(x1)i=2∏Laxi−1axi(2−116)
状态转移矩阵:
状态转移图:
离散变量情况下思路与连续变量类似。如果知道两类的状态转移矩阵,那么对于一个系列样本,我们就可以用式(2-116)分别计算每一类模型下观察到该特定序列的可能性或似然度 P(x∣ω1)P(x|\omega_1)P(x∣ω1) ,用同样的似然比来进行类别判断。把 CpG 岛的一类记作 “+”,马尔可夫转移概率记作 axi−1xi+a_{x_{i-1}x_i}^+axi−1xi+ ;把非 CpG 岛的一类记作 “-” ,非 CpG 岛情况下的马尔可夫转移概率记作 axi−1xi−a_{x_{i-1}x_i}^-axi−1xi− ,为了方便处理,采用对数似然比进行判别,这一比值通常又被叫做对数几率比。
S(x)=logP(x∣+)P(x∣−)=log∏i=1Laxi−1xi+∏i=1Laxi−1xi−=∑i=1Llogaxi−1xi+axi−1xi−(2−117)S(x)=\log\dfrac{P(x|+)}{P(x|-)}=\log\dfrac{\prod\limits_{i=1}^L a_{x_{i-1}x_i}^+}{\prod\limits_{i=1}^L a_{x_{i-1}x_i}^-}=\sum\limits_{i=1}^L \log\dfrac{a_{x_{i-1}x_i}^+}{a_{x_{i-1}x_i}^-} \quad(2-117) S(x)=logP(x∣−)P(x∣+)=logi=1∏Laxi−1xi−i=1∏Laxi−1xi+=i=1∑Llogaxi−1xi−axi−1xi+(2−117)
假设我们已经收集了充分的、有代表性的一些 CpG 岛序列片段和一些非 CpG 岛序列片段,统计在所有位置上出现 A、C、G、T 的次数,再统计在每个 A、C、G、T 后面出现 A、C、G、T 的次数,然后用 ast+=cst+∑t′cst′+a_{st}^+=\dfrac{c_{st}^+}{\sum_{t'}c_{st'}^+}ast+=∑t′cst′+cst+ 和 ast−=cst−∑t′cst′−a_{st}^-=\dfrac{c_{st}^-}{\sum_{t'}c_{st'}^-}ast−=∑t′cst′−cst− 来分别估计两类的状态转移概率,其中, cst+c_{st}^+cst+ 表示 CpG 岛类中从某状态 sss 转移到状态 ttt 的出现次数, ∑t′cst′+\sum_{t'}c_{st'}^+∑t′cst′+表示对 sss 后所有可能出现的状态次数求和; cst−c_{st}^-cst− 表示在非 CpG 岛上同样的量。
CpG 岛与非 CpG 岛状态转移矩阵
即是求图中两个矩阵的相应单元的比值,因此可将式(2-117)变成
S(x)=logP(x∣+)P(x∣−)=∑i=1Llogaxi−1xi+axi−1xi−=∑i=1Lβxi−1xi(2−118)S(x)=\log\dfrac{P(x|+)}{P(x|-)}=\sum\limits_{i=1}^L \log\dfrac{a_{x_{i-1}x_i}^+}{a_{x_{i-1}x_i}^-}=\sum\limits_{i=1}^L\beta_{x_{i-1}x_i} \quad(2-118) S(x)=logP(x∣−)P(x∣+)=i=1∑Llogaxi−1xi−axi−1xi+=i=1∑Lβxi−1xi(2−118)
其中, βst\beta_{st}βst 为相应的 ast+a_{st}^+ast+ 与 ast−a_{st}^-ast− 比值的对数(以2为底),计算出对数自然比矩阵。
最后按照适当的阈值进行决策。
2.8 小结
统计决策的基本原理就是根据各类特征的概率模型来估算后验概率,通过比较后验概率进行决策。而通过贝叶斯公式,后验概率的比较可以转化为类条件概率密度的比较,因此下一章将重点讨论类条件概率密度的估计。
参考
张学工. 模式识别. 第三版. 北京:清华大学出版社,2010
张学工,汪小我. 模式识别与机器学习. 第四版. 北京:清华大学出版社,2021
部分图片来源于网络
错误率的计算、离散概率模型下的统计决策举例相关推荐
- 计算广告小窥[下]要啥自行车!
原作:@面包包包包包包 修改:@寒小阳 && @龙心尘 鸣谢:百度德川.阿里怀人.阿里口肃.腾讯Fandy王.优酷吕红亮 时间:2016年8月 出处: http://blog.csdn ...
- ML学习分享系列3_计算广告小窥[下]要啥自行车!
原作:@面包包包包包包 修改:@寒小阳 && @龙心尘 鸣谢:百度德川.阿里怀人.阿里口肃.腾讯Fandy王.优酷吕红亮 时间:2016年8月 出处:http://blog.csdn. ...
- [python skill]利用python计算T分布下的置信区间
上篇博文中的置信区间计算代码在使用过程中并不准确,本人没并没有搞清楚原因 - - 求大神解答: import numpy as np from scipy import statsX1=np.arra ...
- ubuntu 使用FFTW快速计算离散傅里叶变换
FFTW ( the Faster Fourier Transform in the West) 是一个快速计算离散傅里叶变换的标准C语言程序集,其由MIT的M.Frigo 和S. Johnson 开 ...
- ES分组聚合:计算每个tag下的商品数量且某个filed包含指定关键字,分组,平均,每个tags下的平均价格,排序,指定范围区间
1.第一个分析需求:计算每个tag下的商品数量 GET /ecommerce/product/_search {"aggs": {"group_by_tags" ...
- 计算沙盒下文件夹内容大小 清空沙盒 文件 目录
1 +(float)fileSizeForDir:(NSString*)path//计算文件夹下文件的总大小 2 3 { 4 5 NSFileManager *fileManager = [[NSFi ...
- 信息论 | 计算离散信源的信息量和熵的MATLAB实现(函数封装调用)
<信息论基础> 实验报告 姓名 XX 班级 XXXXXX 学号 2020XXXXXXXX 实验项目 计算离散信源的熵 日期 2022.10.21 实验环境 联想电脑 MATLAB R201 ...
- 2C4T与4C4T在计算密集型任务下的效率对比
文章目录 1. 环境 2. 代码 3. 结果 1. 环境 机器1:Intel® Core™ i5-4200H CPU @ 2.80GHz,双核四线程,win10 x64,16G内存 机器2:Intel ...
- 用matlab计算信源信息熵,计算离散信源的熵matlab实现
三.实验内容: 1.写出计算自信息量的Matlab 程序 2.写出计算离散信源平均信息量的Matlab 程序. 3.掌握二元离散信源的最大信息量与概率的关系. 4.将程序在计算机上仿真实现,验证程序的 ...
最新文章
- 2022-2028年中国超高清视频产业投资分析及前景预测报告
- 图片上加动图怎么弄_用PS把千张图片拼成心爱的人的样子,只需三步!
- 领度CEO廖睿:企业社交最大的阻力来自老板
- 马斯克终结美国载人航天的“寄俄篱下”,SpaceX首次正式商业载人任务圆满成功...
- 彻底理解DFT定义(第三章离散傅里叶变换(3.1)学习笔记)
- ABaseApdater
- 漫画兔善搞2007-等待爱玛马士基号的垃圾
- Ubuntu无法ping通外网可以ping通内网
- 垃圾回收机制,是不是这样理解?
- ORB-SLAM2双目开源框架 (3) LocalMapping解析
- N70常用软件大集合
- omnet++tictoc3案例解析
- Python set 计算集合的并集,交集,差集以及对称集(补集)
- 注册表终极修改ie主页的方法
- 用 BCDEdit 命令修改 Windows 多系统启动菜单的名称及显示顺序
- 为什么穷人不敢创业?
- [WINDOWS]多个文本文件内容合并到一个文本文件中
- php携程 线程,php 如何获取这个携程页面的数据
- 海康威视牌照摄像机牌照识别后中文显示乱码的问题
- [蓝桥杯]圆周率(Python)