机器学习笔记（六）——朴素贝叶斯法的参数估计

一、极大似然估计

在上一笔记中，经过推导，得到了朴素贝叶斯分类器的表示形式：

y=argmaxckP(Y=ck)∏jP(X(j)=x(j)|Y=ck)(1)

y = arg \max_{c_k} P(Y=c_k)\prod_jP(X^{(j)} = x^{(j)}| Y=c_k) (1)

也就是说，朴素贝叶斯方法的学习是对概率P(Y=ck)P(Y=c_k)和P(X(j)=x(j)|Y=ck)P(X^{(j)} = x^{(j)}| Y=c_k) 的估计。故可以用极大似然估计法估计上述先验概率和条件概率。

先验概率P(Y=ck)P(Y=c_k)的极大似然估计为：

P(Y=ck)=∑Ni=1I(yi=ck)N,k=1,2,…,K

P(Y=c_k) = \frac{\sum_{i=1}^{N}I(y_i=c_k)}{N}, k=1,2, \dots, K

条件概率P(X(j)=ajl|Y=ck)P(X^{(j)} = a_{jl}| Y=c_k) 的极大似然估计是：

P(X(j)=ajl|Y=ck)=∑Ni=1I(x(j)i=ajl,yi=ck)∑Ni=1I(yi=ck)

P(X^{(j)} = a_{jl}| Y=c_k) = \frac{\sum_{i=1}^{N}I(x_i^{(j)} = a_{jl},y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)}
其中， x(j)ix_i^{(j)}是第i个样本的第j个属性； ajla_{jl}是第j个属性可能取l的值； II是指示函数。

将上述两个极大似然估计的值求出后，根据（1）式确定输入实例的分类。

二、贝叶斯估计

由（1）式可以得知，用极大似然估计可能导致估计出来的概率为0的情况，这会影响后验概率的计算结果，使得后验概率为0，解决这一问题的方法是采用贝叶斯估计。

先验概率Pλ(Y=ck)P_{\lambda}(Y=c_k)的贝叶斯估计是：

P(Y=ck)=∑Ni=1I(yi=ck)+λN+Kλ

P(Y=c_k) = \frac{\sum_{i=1}^{N}I(y_i=c_k)+\lambda}{N+K\lambda}

条件概率Pλ(X(j)=ajl|Y=ck)P_{\lambda}(X^{(j)} = a_{jl}| Y=c_k) 的极大似然估计是：

Pλ(X(j)=ajl|Y=ck)=∑Ni=1I(x(j)i=ajl,yi=ck)+λ∑Ni=1I(yi=ck)+Sjλ

P_{\lambda}(X^{(j)} = a_{jl}| Y=c_k) = \frac{\sum_{i=1}^{N}I(x_i^{(j)} = a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^{N}I(y_i=c_k)+S_j\lambda}

上式中，λ≥0\lambda \ge 0，等价于在随机变量各个取值的频数上加上一个正数λ>0\lambda > 0。当λ=0\lambda = 0时就是极大似然估计。取λ=1\lambda = 1称为拉普拉斯平滑（Laplace smoothing）。

显然对于任何l=1,2,…,Sj;k=1,2,…,Kl =1,2, \dots,S_j; k=1,2 ,\dots,K有：

Pλ(X(j)=ajl|Y=ck)>0

P_{\lambda}(X^{(j)} = a_{jl}| Y=c_k) >0

∑l=1SjP(X(j)=ajl|Y=ck)=1

\sum_{l=1}^{S_j}P(X^{(j)} = a_{jl}| Y=c_k) =1

总结

朴素贝叶斯方法的原理和重点内容到目前用了三节内容就重点学习完了，接下来会进一步学习跟贝叶斯相关的贝叶斯网络的内容。