吴恩达教授机器学习课程笔记【四】- 生成学习算法（2）朴素贝叶斯与拉普拉斯平滑

本节为吴恩达教授机器学习课程第四部分，生成学习算法（2），包括：朴素贝叶斯算法，拉普拉斯平滑，并在结尾附上一个中文文本分类系统的实现代码链接。

2. 朴素贝叶斯

GDA中特征向量时连续的实值向量，朴素贝叶斯则对应于离散型的特征向量。
同样是文本分类中垃圾邮件分类器的问题，我们用一个长度等于字典长度的特征向量来表示一封邮件，比如下面的特征向量，包含单词a和单词buy：

这个特征向量又称为词向量，之后我们来建立判别模型对p(x∣y)p(x|y)p(x∣y)建模，假设字典有50000个单词，，则x∈{0,1}50000x \in \{0,1\}^{50000}x∈{0,1}50000，是一个50000维的01矩阵，如果我们用多项式分布对xxx建模，就会有2500002^{50000}250000个可能输出，也就是参数向量的维度维达到250000−12^{50000}-1250000−1维。
为了更好地对px∣yp{x|y}px∣y进行建模，做一个很强的条件独立假设，即给定yyy时xxx的各个分量互相独立（朴素贝叶斯假设），得到的算法称为朴素贝叶斯分类器。也就是说假如y=1y=1y=1表示一封垃圾邮件，那么x2087x_{2087}x2087值的01与否不影响x39831x_{39831}x39831，有：

模型的参数由一下三个给出：

同样给定一个训练集{(x(i),y(i));i=1,2,...,m}\{(x^{(i)},y^{(i)});i=1,2,...,m\}{(x(i),y(i));i=1,2,...,m}，我们可以写出数据的联合似然函数：

最大化这个似然函数得到参数的极大似然估计：

上式中，符号"Λ\LambdaΛ“表示"并”，得到上述参数后，我们可以对新的输入进行预测，计算：

然后选择后验概率更高的类别输出即可。
上面我们假设特征向量是二值的，我们可以将其推广即特征向量可以从{1,2,...,ki}\{1,2,...,k_i\}{1,2,...,ki}中选取，此时将p(xi∣y)p(x_i|y)p(xi∣y)建模维多项式而非伯努利。我们甚至可以将连续行特征向量进行离散化，比如：

也就是说，当原始的连续性变量用多元正态分布建模效果不好时，我们可以将特征离散化然后使用朴素贝叶斯而非GDA，可能会得到更好的分类效果。

2.1 拉普拉斯平滑

上面介绍的朴素贝叶斯算法对于许多问题效果显著，但是一个简单的变化可以让他变的更好，同样假设我们在做垃圾邮件分类，当一个从未出现在训练集的单词（在字典中，假设时第35000个），此时我们的朴素贝叶斯分类器会得到参数的极大似然估计：

因为已有的数据集中并没有出现过该单词，那么分类器就会认为在两种邮件中存在该单词的概率为0，这样计算类别后验概率时就会得到

这样显然无法计算，统计学上将从未出现过的事件出现的概率视为0是不合理的。以特征向量从{1,...,k}\{1,...,k\}{1,...,k}取值为例，我们可以对参数：

进行极大似然估计得到：

这里得到的值也可能为0，为了避免这个问题，我们引入拉普拉斯平滑，使用下面的式子：

回到之前的垃圾分类，我们可以得到参数的如下估计：

附上一个小型的中文文本分类系统的实现与代码，这里调用sklearn的多项式贝叶斯，核心代码也就一句而已，但是涉及中文文本分类的大概流程，涉及到的内容比如中文分词，文本信息对象化，词向量空间，权重策略TF-IDF方法等等。实际上核心代码也就下面这一部分而已，这里的例子是英文单词：

class Words2Vec(object):def fit(self, X):vob = sorted(set(w for ws in X for w in ws))self.vec_length = len(vob)self.vob_dict = dict(zip(vob, range(self.vec_length)))def words2vec(self, n_words):"""文本词列表转换为词向量"""if not hasattr(self, 'vob_dict'):raise ValueError('Instance must be fitted.')n_samples = len(n_words)vectors = np.zeros((n_samples, self.vec_length), dtype=int)for i, words in enumerate(n_words):vec = vectors[i]for w in words:index = self.vob_dict.get(w, None)if index is not None:vec[index] += 1return vectorsX = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],['stop', 'posting', 'stupid', 'worthless', 'garbage'],['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
y = ['0', '1', '0', '1', '0', '1']wv = Words2Vec()
wv.fit(X)
X = wv.words2vec(X)clf = MultinomialNB()
clf.fit(X, y)
print(clf.predict(X))X = wv.words2vec([['dog', 'dog', 'ate']])
print(clf.predict(X))

欢迎扫描二维码关注微信公众号深度学习与数学 [每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读，算法和其他互联网技能的学习，概率论、线性代数等高等数学知识的回顾]