读书笔记---Naive Bayes

读书笔记—Naive Bayes

依然是《统计学习方法》的读书笔记。
朴素贝叶斯是一种基于贝叶斯定理和特征之间条件独立（这是一个较强的条件）假设的分类模型。与KNN不同，它仅用于特征为标称型数据的分类（如果硬是要把连续型数据转换成离散作为特征。。也可以吧），是一个基于统计的概率模型。

1.模型描述

朴素贝叶斯有一个特征之间条件独立的假设，虽然这是一个较强的条件，但是在许多情况下都还是适用的。朴素贝叶斯的cost function用的是数据类别的后验概率，这个后验概率我们可以通过贝叶斯定理得到：

P(Y|X⃗ )=P(X⃗ |Y)P(Y)P(X⃗ )

P(Y|\vec{X}) = \frac{P(\vec{X}|Y)P(Y)}{P(\vec{X})}
由于加了特征条件独立的假设， P(X⃗ |Y)P(\vec{X}| Y)就可以简单地拆成 P(X⃗ |Y)=P(x1|Y)P(x2|Y)...P(xn|Y)P(\vec{X}| Y) = P(x_1| Y)P(x_2| Y)...P(x_n| Y)。而后面这一串连乘可以从训练数据中统计得到（平率估计概率）。而在这个后验概率公式中，其分母是一个归一化项而已，因此我们仅需要考虑分子即可。
这个模型一定程度上可以说是模型数据生成的过程（不过通过特征条件独立假设大大简化了生成的过程），因此被称之为生成模型（generative model）。
为了应用这个模型，我们要从训练集中得到的信息（即训练过程）是 P(X⃗ |Y)P(\vec{X}| Y)、 P(Y)P(Y)，换句话说就是学到 X⃗ \vec{X}和 YY的联合概率分布P(X⃗ ,Y)P(\vec{X}, Y)。我们得到这些信息的做法就是通过统计训练集中出现每个特征 xix_i和 yy的出现频率，在模型实现时，要统计并维护一个S×KS \times K的似然值矩阵（每个特征s在类别k中出现的频率）和一个 K×1K \times 1的先验值向量（每个类别k出现的频率）。

因此，得到了cost function，也就是后验概率分布后（这是一个离散分布），我们从直觉的角度想就是要最大化这个后验概率分布，即：

f(Y)=argmaxYP(Y|X⃗ )∼argmaxYP(X⃗ |Y)P(Y)

f(Y) = argmax_Y P(Y| \vec{X}) \sim argmax_Y P(\vec{X}|Y)P(Y)
这样我们就估计出了特征为 X⃗ \vec{X}的测试数据最可能属于的类别了。
从形式上看直接从似然函数 P(X⃗ |Y)P(\vec{X}| Y)估计 YY也是可以的，即统计出每个Y生成各个特征的概率（会形成一个矩阵），那么生成这个目标数据的似然函数即为P(X⃗ |Y)=∏Ki=1P(xi|Y)P(\vec{X}| Y) = \prod_{i=1}^{K} P(x_i| Y)，然后 YY的取值范围里选的能使P(X⃗ |Y)P({\vec{X}| Y})最大那个 YY即可，但可以看出，这样的做法丢失了P(Y)P(Y)的信息，相比后验概率更不靠谱。

2.模型优化

（1）计算优化

在实际应用中，我们统计得到概率P(X⃗ |Y)P(\vec{X}| Y)和P(Y)P(Y)后，不是直接将其相乘得到后验分布，而是计算

logP(Y|X⃗ )=logP(X⃗ |Y)+logP(Y)=∑i=1KlogP(xi|Y)+logP(Y)

logP(Y| \vec{X}) = logP(\vec{X}| Y) + logP(Y) = \sum_{i=1}^{K} logP(x_i| Y) + logP(Y)
使用log值有一下两个优点：

1) log是单调增函数，不会改变原函数的单调性。当概率过小的时候，使用log值可以防止由于小数太小造成的计算机数据下溢问题（太接近0，被截断）。
2) 使用log将乘法转换成加法，可以提高计算机运行效率。

（2）数据平滑

当我们用极大似然估计得到概率值时，若出现了0概率，不论计算log还是直接计算后验概率，都会出现问题。比如log(0)log(0)就不能求；而后验计算时，若其中一项是0，那么由于后验是将所有概率相乘，也就变成0了，而事实是该似然值只是出现概率很低。所以需要对0概率进行平滑。
平滑的本质是在数据中加入一些伪计数（pseudo count），使统计时那些为0的项变成一个相对较小的非0项，但又保证整体概率分布基本不变。最常见的是在每个统计项上加入一个常数值，比如对于似然值：

Pλ(Xi=ail|Y=Ck)=∑Nj=1I(X(j)i=ail,Y(j)=Ck)+λ∑Nj=1I(Y(j)=Ck)+Siλ

P_{\lambda}(X_{i} = a_{il}| Y=C_k) = \frac{\sum_{j=1}^{N} I(X_i^{(j)}=a_{il}, Y^{(j)} = C_k) + \lambda}{\sum_{j=1}^{N} I(Y^{(j)} = C_k) + S_i\lambda}
其中 λ\lambda是平滑系数； k=1,2,...,Kk=1,2,...,K代表类别； j=1,2,...,Nj=1,2,...,N代表训练集中的数据点； l=1,2,...,Sil=1,2,...,S_i代表特征i的可能取值； Xi=ailX_i = a_{il}表示测试集数据中的特征i取值为l； ∑Ni=1I(X(j)i=ajl|Yi=Ck)\sum_{i=1}^{N} I(X_i^{(j)}=a_{jl}| Y_i = C_k)是统计训练集中类别 Y=CkY=C_k，特征 XX为aila_{il}的数据的出现次数； SiS_i是测试数据中特征j取值的个数。上式用 l=1,2,...,Sil=1,2,...,S_i遍历所有特征，得到这个特征 XiX_i关于取值的分布，因此对于每个特征都有这样的一个分布，而我们此时要做的是在所有特征值上的平滑，当 λ=1\lambda=1时，被称之为拉普拉斯平滑。
另外，对于先验 P(Y)P(Y)，也有类似的平滑：

Pλ(Y=Ck)=∑Nj=1I(Y(j)=Ck)+λN+Kλ

P_\lambda(Y=C_k) = \frac {\sum_{j=1}^{N} I(Y^{(j)}=C_k) + \lambda}{N+K\lambda}