朴素贝叶斯以及它的三个模型

一.先验概率和后验概率理解：

先验：统计层次上的经验而知当下发生的概率；

后验：当下由因及果的概率；

举例：

1）先验——根据若干年的统计（经验）或者气候（常识），某地方下雨的概率；

2）似然——下雨（果）的时候有乌云（因）的概率，即已经有了果，对证据发生的可能性描述；

3）后验——根据天上有乌云（原因），下雨（结果）的概率；

后验 ~ 先验*似然：存在下雨的可能（先验），下雨之前会有乌云（似然）~ 通过现在有乌云推断下雨概率（后验）；

先验分布：根据一般的经验认为随机变量应该满足的分布
后验分布：通过当前训练数据修正的随机变量的分布，比先验分布更符合当前数据
似然估计：已知训练数据，给定了模型，通过让似然性极大化估计模型参数的一种方法

后验分布往往是基于先验分布和极大似然估计计算出来的。

二.朴素贝叶斯方法：

1. 朴素贝叶斯方法要求各特征之间是独立的；朴素贝叶斯是有监督学习算法；朴素贝叶斯要求y的取值是离散的。

2.根据贝叶斯公式可以得到

在X=x条件下，求得每一个y取值的概率（后验概率），然后取其中最大的一个的值，作为X的预测值；

模型公式为

三.朴素贝叶斯原理：

假设模型损失函数选择0-1损失函数

期望风险函数如下

推导如下：

即选择后验概率最大的预测值，使得损失函数最小；

三.算法流程：

1.计算先验概率和条件概率：

这个应该是构建模型是完成

条件概率，应该是构造这样的一个数组：

	x0	x1	x2
y0	dict	dict
y1

每个dict为{ value0:0.2, value1:0.8 }这样，同一列字典key一致；

2.给定实例X，计算

、

3.确定实例的类别：

四.三种常见的模型及编程实现

1 多项式模型

当特征是离散的时候，使用多项式模型。多项式模型在计算先验概率P(yk)P(yk)和条件概率P(xi|yk)P(xi|yk)时，会做一些平滑处理，具体公式为：

P(yk)=Nyk+αN+kα

N是总的样本个数，k是总的类别个数，NykNyk是类别为ykyk的样本个数，αα是平滑值。

P(xi|yk)=Nyk,xi+αNyk+nα

NykNyk是类别为yk的样本个数，n是特征的维数，Nyk,xi是类别为ykyk的样本中，第i维特征的值是xi的样本个数，α是平滑值。

当α=1时，称作Laplace平滑，当0<α<1时，称作Lidstone平滑，α=0时不做平滑。

如果不做平滑，当某一维特征的值xixi没在训练样本中出现过时，会导致P(xi|yk)=0P(xi|yk)=0，从而导致后验概率为0。加上平滑就可以克服这个问题。

python代码实现

import numpy as np
import pandas as pdclass MultinomialNB(object):def __init__(self,alpha=1.0,fit_prior=True,class_prior=None):self.alpha = alphaself.fit_prior = fit_prior       self.class_prior = class_prior  #先验self.classes = None            #y值self.conditional_prob = None   #条件概率def fit(self,X,y):self.classes = np.unique(y)       if self.class_prior == None:class_num = len(self.classes)if not self.fit_prior:self.class_prior = [1.0/class_num for _ in range(class_num)]  #uniform priorelse:self.class_prior = []sample_num = float(len(y))for c in self.classes:c_num = np.sum(np.equal(y,c))self.class_prior.append((c_num+self.alpha)/(sample_num+class_num*self.alpha))features = range(len(X.loc[0]))#calculate Conditional Probability: P( xj | y=ck )self.conditional_prob = pd.DataFrame(index=self.classes,columns=features)  for i in features:  #for each featurevalues = np.unique(X[i])  #特征的几个取值for c in self.classes: # for each classconditional_list = X[np.equal(y,c)][i]  #当前x|y的listdict0 = {}for v in values: dict0[v] = ((np.sum(np.equal(conditional_list,v))+self.alpha)/(len(conditional_list)+len(values)*self.alpha))         self.conditional_prob.loc[c][i] = dict0return self#predict a single sample based on (class_prior,conditional_prob)def _predict_single_sample(self,x):label = -1max_posterior_prob = 0#for each category, calculate its posterior probability: class_prior * conditional_probfor c_index in range(len(self.classes)):current_class_prior = self.class_prior[self.classes[c_index]]current_conditional_prob = 1.0for feature_i in range(len(self.conditional_prob.loc[0])):dict0 = self.conditional_prob.loc[c_index][feature_i]current_conditional_prob *= dict0[x[feature_i]]#compare posterior probability and update max_posterior_prob, labelif current_class_prior * current_conditional_prob > max_posterior_prob:max_posterior_prob = current_class_prior * current_conditional_problabel = self.classes[c_index]return label#predict samples (also single sample)           def predict(self,X):#TODO1:check and raise NoFitError #ToDO2:check Xif len(X[0]) == 1:return self._predict_single_sample(X)else:#classify each sample   labels = []for i in range(X.shape[0]):label = self._predict_single_sample(X.loc[i])labels.append(label)return labelsdef score(self,X,Y):y_predict = self.predict(X)sum0 = 0for i in range(len(Y)):if Y[i] == y_predict[i]:sum0 += 1return sum0/len(Y)

2 高斯模型

高斯模型假设每一维特征都服从高斯分布，且xi|yk也是服从高斯分布的；

现实生活中大部分连续性数据，都是服从高斯分布的；

计算方式：

P(xi|yk)=12πσ2yk,i√e−(xi−μyk,i)22σ2yk,iP(xi|yk)=12πσyk,i2e−(xi−μyk,i)22σyk,i2

μyk,i表示类别为yk的样本中，第i维特征的均值。
σ2yk,i表示类别为yk的样本中，第i维特征的方差。

分别计算xi|yk的均值和方差，保存到上面的条件概率dataFrame中，即可

代码和多项式差不多，故省略；

提问：x服从高斯分布，为什么x|y也是服从高斯分布呢？

3 伯努利模型

与多项式模型一样，伯努利模型适用于离散特征的情况，所不同的是，伯努利模型中每个特征的取值只能是1和0

条件概率P(xi|yk)P(xi|yk)的计算方式是：

当特征值xi为1时，P(xi|yk)=P(xi=1|yk)；

当特征值xi为0时，P(xi|yk)=1−P(xi=1|yk)；

BernoulliNB需要定义一个二值化的方法，该方法会接受一个阈值并将输入的特征二值化（1，0）

参考：

https://blog.csdn.net/fjssharpsword/article/details/72356277

<统计学习方法> 李航

http://blog.csdn.net/u012162613/article/details/48323777