文章目录

  • I . 判别模型 与 概率模型
  • II . 贝叶斯分类
  • III . 拉普拉斯修正
  • IV . 使用 朴素贝叶斯分类器 + 拉普拉斯修正 为样本分类 ( 完整分类流程 )
  • V . 朴素贝叶斯分类器使用
  • VI . 朴素贝叶斯分类的优缺点

I . 判别模型 与 概率模型


计算 P(C∣X)P(C|X)P(C∣X) 当属性值取 XXX 时 , 类别属于 CCC 的概率 ;

使用 判别模型 和 概率模型 计算上述 P(C∣X)P(C|X)P(C∣X) 概率对比 ;

① 判别模型 : 直接正面对 P(C∣X)P(C|X)P(C∣X) 进行建模 ; 如 决策树 , 神经网络 , 支持向量机 ;

② 概率模型 : 对 P(C∣X)P(C|X)P(C∣X) 的逆向概率 P(X∣C)P(X|C)P(X∣C) 进行建模 , 再计算 P(C∣X)P(C|X)P(C∣X) ; 如 贝叶斯分类器 ;

II . 贝叶斯分类


贝叶斯分类中 , 计算 P(C∣X)P(C|X)P(C∣X) 当属性值取 XXX 时 , 类别属于 CCC 的概率 ;

P(C∣X)P(C|X)P(C∣X) 很难直接获得 , 使用贝叶斯公式可以通过其逆概率计算该值 :

P(C∣X)=P(X∣C)P(C)P(X)P(C|X) = \frac{P(X|C) P(C)}{P(X)}P(C∣X)=P(X)P(X∣C)P(C)​

  • 先验概率 : P(C)P(C)P(C) 是先验概率 , 数据集中类别为 CCC 的样本数出现的概率 , 数据集越大越准确 ;

  • 证据因子 : P(X)P(X)P(X) 是属性取值 XXX 的概率 , 该值也是从数据集中统计样本属性为 XXX 的概率 , 数据集越大越准确 , 该值与类别判定无关 ;

  • 类条件概率 ( 似然 ) : P(X∣C)P(X|C)P(X∣C) 样本是 CCC 类别时 , 属性值是 XXX 的概率 , 可以通过机器学习获得 ;

P(X∣C)P(X|C)P(X∣C) 是通过机器学习基于有限样本估算概率 , P(X)P(X)P(X) 和 P(C)P(C)P(C) 可以根据当前样本统计获得 ;

III . 拉普拉斯修正


1 . 分类属性 P(Xk∣Ci)P( X_k | C_i )P(Xk​∣Ci​) 计算方式 : 如果第 kkk 个属性的取值是离散的 , 即分类属性 , 那么通过以下公式计算 :

P(Xk∣Ci)=SikSiP( X_k | C_i ) = \frac{S_{ik}}{S_i}P(Xk​∣Ci​)=Si​Sik​​

SiS_iSi​ 是分类为 CiC_iCi​ 类型的数据集样本个数 ;

SikS_{ik}Sik​ 是被分类成 CiC_iCi​ 类型的样本中 , 并且第 kkk 个值是 XkX_kXk​ 的样本个数 ;

2 . 属性屏蔽的情况 :

给出一个样本 , 预测其分类 ;

如果该样本的某个属性值 , 在某一个预测的分类 CiC_iCi​ 中没有出现过 , 即 SikS_{ik}Sik​ 是 000 , 那么计算出来的分类属性 P(Xk∣Ci)=SikSiP( X_k | C_i ) = \dfrac{S_{ik}}{S_i}P(Xk​∣Ci​)=Si​Sik​​ 就是 000 ;

进而 P(X∣Ci)=∏k=1nP(Xk∣Ci)P(X|C_i) = \prod_{k=1}^n P( X_k | C_i )P(X∣Ci​)=∏k=1n​P(Xk​∣Ci​) 多属性分类的联合概率也就成为 000 ;

那么计算其分类为 CiC_iCi​ 的概率肯定是 000 , 整体的联合概率是通过乘法法则计算的 , 这样会抹去其它属性的信息 , 即使其它属性的权重很大 , 整体概率也会成为 000 ;

其它属性的概率权重被屏蔽了 , 结果肯定不准确 ; 这种情况就要 引入 拉普拉斯修正 ;

3 . 拉普拉斯修正 :

① 计算 先验概率 时 进行 拉普拉斯修正 :

P(C)=∣Dc∣+1∣D∣+NP(C) = \frac{| D_c | + 1}{ | D | + N }P(C)=∣D∣+N∣Dc​∣+1​

  • DcD_cDc​ 表示训练集中 , 分类为 CCC 的样本个数 ;
  • DDD 表示训练集中样本中个数 ;
  • NNN 表示按照某属性分类的类别数 , 如 , 是否购买商品 , 是 或 否 两种可取值类别 , 这里 N=2N=2N=2 ;

② 计算 类条件概率 ( 似然 ) 时 进行 拉普拉斯修正 :

P(Xk∣Ci)=Sik+1Si+NiP( X_k | C_i ) = \frac{S_{ik} + 1}{S_i + N_i}P(Xk​∣Ci​)=Si​+Ni​Sik​+1​

  • SiS_iSi​ 是分类为 CiC_iCi​ 类型的数据集样本个数 ;

  • SikS_{ik}Sik​ 是被分类成 CiC_iCi​ 类型的样本中 , 并且第 kkk 个值是 XkX_kXk​ 的样本个数 ;

  • NiN_iNi​ 表示该属性的可取值个数 , 如 , 是否购买商品 , 是 或 否 两种可取值类别 , 这里 Ni=2N_i=2Ni​=2 ;

IV . 使用 朴素贝叶斯分类器 + 拉普拉斯修正 为样本分类 ( 完整分类流程 )


1 . 需求 : 根据 年龄 , 收入水平 , 是否是学生 , 信用等级 , 预测该用户是否会购买商品 ;

年龄 收入水平 是否是学生 信用等级 是否购买商品
小于 30 岁 高收入 不是 一般 不会
小于 30 岁 高收入 不是 很好 不会
31 ~ 39 岁 高收入 不是 一般
40 岁以上 中等收入 不是 一般
40 岁以上 低收入 一般
40 岁以上 低收入 很好 不会
31 ~ 40 岁 低收入 不是 很好
小于 30 岁 中等收入 不是 一般 不会
小于 30 岁 低收入 一般
40 岁以上 中等收入 一般
小于 30 岁 中等收入 很好
31 ~ 39 岁 中等收入 不是 很好
31 ~ 39 岁 高收入 一般
40 岁以上 中等收入 不是 很好 不会

2 . 为某未知类型样本进行分类 ;

① 未知样本的 444 个属性值为 : 年龄 小于 30 岁 , 收入 中等 , 是否是学生 是 , 信用等级 一般 , 四个值组成向量 XXX ;

② 分类类型 : 是否购买商品 , 是 或者 否 ; 购买商品为 时间 YYY , 不购买商品为事件 NNN ;

③ 样本 444 个属性取值 XXX , 并且类型为 YYY 的概率 : P(Y∣X)P(Y | X)P(Y∣X) ;

④ 样本 444 个属性取值 XXX , 并且类型为 NNN 的概率 : P(N∣X)P(N | X)P(N∣X) ;

3 . 计算取值 XXX 向量时 , 某分类的概率 P(Y∣X)P(Y | X)P(Y∣X) :

① 以 P(Y∣X)P(Y | X)P(Y∣X) 计算为例 : 样本 444 个属性取值 XXX , 并且类型为 YYY 的概率 , 直接求该概率是无法计算的 ;

② 引入贝叶斯公式 : 使用其逆概率 P(X∣Y)P(X|Y)P(X∣Y) , 当类型是 YYY 是 , 取值为 XXX 的概率 ;

P(Y∣X)=P(X∣Y)P(Y)P(X)P(Y | X) = \frac{P(X|Y) P(Y)}{P(X)}P(Y∣X)=P(X)P(X∣Y)P(Y)​

③ 逆概率 P(X∣Y)P(X|Y)P(X∣Y) : 当类型是 YYY 是 , 取值为 XXX 的概率 ; 即 当购买商品时 , 前 444 个属性取值为 XXX 向量的概率 ;

4 . 计算取值 XXX 向量时 , 某分类的概率 P(N∣X)P(N | X)P(N∣X) :

① 以 P(N∣X)P(N | X)P(N∣X) 计算为例 : 样本 444 个属性取值 XXX , 并且类型为 NNN 的概率 , 直接求该概率是无法计算的 ;

② 引入贝叶斯公式 : 使用其逆概率 P(X∣N)P(X|N)P(X∣N) , 当类型是 NNN 是 , 取值为 XXX 的概率 ;

P(N∣X)=P(X∣N)P(N)P(X)P(N | X) = \frac{P(X|N) P(N)}{P(X)}P(N∣X)=P(X)P(X∣N)P(N)​

③ 逆概率 P(X∣N)P(X|N)P(X∣N) : 当类型是 NNN 是 , 取值为 XXX 的概率 ; 即 当购买商品时 , 前 444 个属性取值为 XXX 向量的概率 ;

5 . 比较取值 YYY 和 取值 NNN 的两个概率 :

① 原始概率 : 将 P(N∣X)P(N | X)P(N∣X) 和 P(Y∣X)P(Y | X)P(Y∣X) 两个概率进行比较 ;

即 P(X∣Y)P(Y)P(X)\frac{P(X|Y) P(Y)}{P(X)}P(X)P(X∣Y)P(Y)​ 和 P(X∣N)P(N)P(X)\frac{P(X|N) P(N)}{P(X)}P(X)P(X∣N)P(N)​ 两个概率进行比较 ;

② 省略分母比较分子 : 分母都是 P(X)P(X)P(X) , 可以只比较分子 , P(X∣Y)P(Y)P(X|Y) P(Y)P(X∣Y)P(Y) 和 P(X∣N)P(N)P(X|N) P(N)P(X∣N)P(N) 进行比较 ;

6 . 计算 222 个先验概率 : ( 引入拉普拉斯修正 )

这里使用引入 拉普拉斯修正 的公式进行计算 :

P(C)=∣Dc∣+1∣D∣+NP(C) = \frac{| D_c | + 1}{ | D | + N }P(C)=∣D∣+N∣Dc​∣+1​

  • DcD_cDc​ 表示训练集中 , 分类为 CCC 的样本个数 ;
  • DDD 表示训练集中样本中个数 ;
  • NNN 表示按照某属性分类的类别数 , 如 , 是否购买商品 , 是 或 否 两种可取值类别 , 这里 N=2N=2N=2 ;

P(Y)P(Y)P(Y) 表示购买商品的概率 , 即上面 141414 个训练集样本中 , 购买商品的概率 , 是 9+114+2\frac{9 + 1}{14 + 2}14+29+1​ ;

P(N)P(N)P(N) 表示不买商品的概率 , 即上面 141414 个训练集样本中 , 不买商品的概率 , 是 5+114+2\frac{5 + 1}{14 + 2}14+25+1​ ;

7 . 计算 P(X∣Y)P(X|Y)P(X∣Y) 概率 : 样本用户购买商品时 , 前 444 个属性取值 XXX 向量的概率 ; ( 引入拉普拉斯修正 )

这里使用引入拉普拉斯修正的 分类概率 计算公式 :

P(Xk∣Ci)=Sik+1Si+NiP( X_k | C_i ) = \frac{S_{ik} + 1}{S_i + N_i}P(Xk​∣Ci​)=Si​+Ni​Sik​+1​

  • SiS_iSi​ 是分类为 CiC_iCi​ 类型的数据集样本个数 ;

  • SikS_{ik}Sik​ 是被分类成 CiC_iCi​ 类型的样本中 , 并且第 kkk 个值是 XkX_kXk​ 的样本个数 ;

  • NiN_iNi​ 表示该属性的可取值个数 , 如 , 是否购买商品 , 是 或 否 两种可取值类别 , 这里 Ni=2N_i=2Ni​=2 ;

① 属性独立 : 朴素贝叶斯分类中认为属性间都是独立的 , 互不干扰 , 可以将 “前 444 个属性取值 XXX 向量的概率” 变成概率乘积 ;

② 未知样本的 444 个属性值为 : 年龄 小于 30 岁 , 收入 中等 , 是否是学生 是 , 信用等级 一般 , 四个值组成向量 XXX ;

P(X∣Y)P(X|Y)P(X∣Y) 计算 : 买商品的用户样本中 , 取值为 XXX 向量的概率 , 如下 :

P(X∣Y)=P(年龄小于30∣Y)×P(收入中等∣Y)×P(是学生∣Y)×P(信用等级一般∣Y)P(X|Y) = P( 年龄小于 30 | Y) \times P( 收入中等 | Y) \times P( 是学生 | Y) \times P( 信用等级一般 | Y)P(X∣Y)=P(年龄小于30∣Y)×P(收入中等∣Y)×P(是学生∣Y)×P(信用等级一般∣Y)

其中 :

P(年龄小于30∣Y)P( 年龄小于 30 | Y)P(年龄小于30∣Y) 买商品的用户中 , 年龄 小于 30 岁的概率 ;

P(收入中等∣Y)P( 收入中等 | Y)P(收入中等∣Y) 买商品的用户中 , 收入中等的概率 ;

P(是学生∣Y)P( 是学生 | Y)P(是学生∣Y) 买商品的用户中 , 是学生的概率 ;

P(信用等级一般∣Y)P( 信用等级一般 | Y)P(信用等级一般∣Y) 买商品的用户中 , 信用等级一般的概率 ;

③ P(年龄小于30∣Y)P( 年龄小于 30 | Y)P(年龄小于30∣Y) 计算 : 999 个人买商品 , 其中有 222 个小于 30 岁 ;

拉普拉斯修正 : 年龄有 333 种取值 , 分别是 小于 30 , 30 ~ 40 , 40 以上 , 拉普拉斯修正的 Ni=3N_i = 3Ni​=3 ;

P(年龄小于30∣Y)=2+19+3P( 年龄小于 30 | Y) = \frac{2 + 1}{9 + 3}P(年龄小于30∣Y)=9+32+1​

④ P(收入中等∣Y)P( 收入中等 | Y)P(收入中等∣Y) 计算 : 999 个人买商品 , 其中有 444 个 中等收入者 ;

拉普拉斯修正 : 收入水平有 333 种取值 , 分别是 高 , 中 , 低 , 拉普拉斯修正的 Ni=3N_i = 3Ni​=3 ;

P(收入中等∣Y)=4+19+3P( 收入中等 | Y) = \frac{4 + 1}{9 + 3}P(收入中等∣Y)=9+34+1​

⑤ P(是学生∣Y)P( 是学生 | Y)P(是学生∣Y) 计算 : 999 个人买商品 , 其中有 666 个 是学生 ;

拉普拉斯修正 : 是否是学生有 222 种取值 , 分别是 是 , 否 , 拉普拉斯修正的 Ni=2N_i = 2Ni​=2 ;

P(是学生∣Y)=6+19+2P( 是学生 | Y) = \frac{6 + 1}{9 + 2}P(是学生∣Y)=9+26+1​

⑥ P(信用等级一般∣Y)P( 信用等级一般 | Y)P(信用等级一般∣Y) 计算 : 999 个人买商品 , 其中有 666 个人信用等级一般 ;

拉普拉斯修正 : 信用等级 有 222 种取值 , 分别是 好 , 一般 , 拉普拉斯修正的 Ni=2N_i = 2Ni​=2 ;

P(信用等级一般∣Y)=6+19+2P( 信用等级一般 | Y) = \frac{6 + 1}{9 + 2}P(信用等级一般∣Y)=9+26+1​

⑦ P(X∣Y)P(X|Y)P(X∣Y) 计算结果 :

P(X∣Y)=P(年龄小于30∣Y)×P(收入中等∣Y)×P(是学生∣Y)×P(信用等级一般∣Y)=2+19+3×4+19+3×6+19+2×6+19+2\begin{array}{lcl} P(X|Y) &=& P( 年龄小于 30 | Y) \times P( 收入中等 | Y) \times P( 是学生 | Y) \times P( 信用等级一般 | Y) \\\\ &=& \frac{2 + 1}{9 + 3} \times \frac{4 + 1}{9 + 3} \times \frac{6 + 1}{9 + 2} \times \frac{6 + 1}{9 + 2} \\\\ \end{array}P(X∣Y)​==​P(年龄小于30∣Y)×P(收入中等∣Y)×P(是学生∣Y)×P(信用等级一般∣Y)9+32+1​×9+34+1​×9+26+1​×9+26+1​​

8 . 计算 P(X∣Y)P(Y)P(X|Y) P(Y)P(X∣Y)P(Y) 值 :

P(X∣Y)=2+19+3×4+19+3×6+19+2×6+19+2P(X|Y) =\frac{2 + 1}{9 + 3} \times \frac{4 + 1}{9 + 3} \times \frac{6 + 1}{9 + 2} \times \frac{6 + 1}{9 + 2} P(X∣Y)=9+32+1​×9+34+1​×9+26+1​×9+26+1​

P(Y)=9+114+2P(Y) = \frac{9 + 1}{14 + 2}P(Y)=14+29+1​

P(X∣Y)P(Y)=2+19+3×4+19+3×6+19+2×6+19+2×9+114+2≈0.0263644972451791‬P(X|Y) P(Y) = \frac{2 + 1}{9 + 3} \times \frac{4 + 1}{9 + 3} \times \frac{6 + 1}{9 + 2} \times \frac{6 + 1}{9 + 2} \times \frac{9 + 1}{14 + 2} \approx 0.0263644972451791‬P(X∣Y)P(Y)=9+32+1​×9+34+1​×9+26+1​×9+26+1​×14+29+1​≈0.0263644972451791‬

9 . 计算 P(X∣N)P(X|N)P(X∣N) 概率 : 样本用户没有购买商品时 , 前 444 个属性取值 XXX 向量的概率 ;

这里使用引入拉普拉斯修正的 分类概率 计算公式 :

P(Xk∣Ci)=Sik+1Si+NiP( X_k | C_i ) = \frac{S_{ik} + 1}{S_i + N_i}P(Xk​∣Ci​)=Si​+Ni​Sik​+1​

  • SiS_iSi​ 是分类为 CiC_iCi​ 类型的数据集样本个数 ;

  • SikS_{ik}Sik​ 是被分类成 CiC_iCi​ 类型的样本中 , 并且第 kkk 个值是 XkX_kXk​ 的样本个数 ;

  • NiN_iNi​ 表示该属性的可取值个数 , 如 , 是否购买商品 , 是 或 否 两种可取值类别 , 这里 Ni=2N_i=2Ni​=2 ;

① 属性独立 : 朴素贝叶斯分类中认为属性间都是独立的 , 互不干扰 , 可以将 “前 444 个属性取值 XXX 向量的概率” 变成概率乘积 ;

② 未知样本的 444 个属性值为 : 年龄 小于 30 岁 , 收入 中等 , 是否是学生 是 , 信用等级 一般 , 四个值组成向量 XXX ;

P(X∣N)P(X|N)P(X∣N) 计算 : 不买商品的用户样本中 , 取值为 XXX 向量的概率 , 如下 :

P(X∣N)=P(年龄小于30∣N)×P(收入中等∣N)×P(是学生∣N)×P(信用等级一般∣N)P(X|N) = P( 年龄小于 30 | N) \times P( 收入中等 | N) \times P( 是学生 | N) \times P( 信用等级一般 | N)P(X∣N)=P(年龄小于30∣N)×P(收入中等∣N)×P(是学生∣N)×P(信用等级一般∣N)

其中 :

P(年龄小于30∣N)P( 年龄小于 30 | N)P(年龄小于30∣N) 不买商品的用户中 , 年龄 小于 30 岁的概率 ;

P(收入中等∣N)P( 收入中等 | N)P(收入中等∣N) 不买商品的用户中 , 收入中等的概率 ;

P(是学生∣N)P( 是学生 | N)P(是学生∣N) 不买商品的用户中 , 是学生的概率 ;

P(信用等级一般∣N)P( 信用等级一般 | N)P(信用等级一般∣N) 不买商品的用户中 , 信用等级一般的概率 ;

③ P(年龄小于30∣N)P( 年龄小于 30 | N)P(年龄小于30∣N) 计算 : 555 个人不买商品 , 其中有 333 个小于 30 岁 ;

拉普拉斯修正 : 年龄有 333 种取值 , 分别是 小于 30 , 30 ~ 40 , 40 以上 , 拉普拉斯修正的 Ni=3N_i = 3Ni​=3 ;

P(年龄小于30∣N)=3+15+3P( 年龄小于 30 | N) = \frac{3 + 1}{5 + 3}P(年龄小于30∣N)=5+33+1​

④ P(收入中等∣N)P( 收入中等 | N)P(收入中等∣N) 计算 : 555 个人不买商品 , 其中有 222 个 中等收入者 ;

拉普拉斯修正 : 收入水平有 333 种取值 , 分别是 高 , 中 , 低 , 拉普拉斯修正的 Ni=3N_i = 3Ni​=3 ;

P(收入中等∣N)=2+15+3P( 收入中等 | N) = \frac{2 + 1}{5 + 3}P(收入中等∣N)=5+32+1​

⑤ P(是学生∣N)P( 是学生 | N)P(是学生∣N) 计算 : 555 个人不买商品 , 其中有 111 个 是学生 ;

拉普拉斯修正 : 是否是学生有 222 种取值 , 分别是 是 , 否 , 拉普拉斯修正的 Ni=2N_i = 2Ni​=2 ;

P(是学生∣N)=1+15+2P( 是学生 | N) = \frac{1 + 1}{5 + 2}P(是学生∣N)=5+21+1​

⑥ P(信用等级一般∣N)P( 信用等级一般 | N)P(信用等级一般∣N) 计算 : 555 个人不买商品 , 其中有 $2 个人信用等级一般 ;

拉普拉斯修正 : 信用等级 有 222 种取值 , 分别是 好 , 一般 , 拉普拉斯修正的 Ni=2N_i = 2Ni​=2 ;

P(信用等级一般∣N)=2+15+2P( 信用等级一般 | N) = \frac{2 + 1}{5 + 2}P(信用等级一般∣N)=5+22+1​

⑦ P(X∣N)P(X|N)P(X∣N) 计算结果 :

P(X∣N)=P(年龄小于30∣N)×P(收入中等∣N)×P(是学生∣N)×P(信用等级一般∣N)=3+15+3×2+15+3×1+15+2×2+15+2\begin{array}{lcl} P(X|N) &=& P( 年龄小于 30 | N) \times P( 收入中等 | N) \times P( 是学生 | N) \times P( 信用等级一般 | N) \\\\ &=& \frac{3 + 1}{5 + 3} \times \frac{2 + 1}{5 + 3} \times \frac{1 + 1}{5 + 2} \times \frac{2 + 1}{5 + 2} \\\\ \end{array}P(X∣N)​==​P(年龄小于30∣N)×P(收入中等∣N)×P(是学生∣N)×P(信用等级一般∣N)5+33+1​×5+32+1​×5+21+1​×5+22+1​​

10 . 计算 P(X∣N)P(N)P(X|N) P(N)P(X∣N)P(N) 值 :

P(X∣N)=3+15+3×2+15+3×1+15+2×2+15+2P(X|N) = \frac{3 + 1}{5 + 3} \times \frac{2 + 1}{5 + 3} \times \frac{1 + 1}{5 + 2} \times \frac{2 + 1}{5 + 2}P(X∣N)=5+33+1​×5+32+1​×5+21+1​×5+22+1​

P(N)=5+114+2P(N) = \frac{5 + 1}{14 + 2}P(N)=14+25+1​

P(X∣N)P(N)=3+15+3×2+15+3×1+15+2×2+15+2×5+114+2≈0.00421875P(X|N) P(N) = \frac{3 + 1}{5 + 3} \times \frac{2 + 1}{5 + 3} \times \frac{1 + 1}{5 + 2} \times \frac{2 + 1}{5 + 2} \times \frac{5 + 1}{14 + 2} \approx 0.00421875P(X∣N)P(N)=5+33+1​×5+32+1​×5+21+1​×5+22+1​×14+25+1​≈0.00421875

11 . 比较 P(X∣Y)P(Y)P(X|Y) P(Y)P(X∣Y)P(Y) 和 P(X∣N)P(N)P(X|N) P(N)P(X∣N)P(N) 两个值 :

P(X∣Y)P(Y)=2+19+3×4+19+3×6+19+2×6+19+2×9+114+2≈0.0263644972451791‬P(X|Y) P(Y) = \frac{2 + 1}{9 + 3} \times \frac{4 + 1}{9 + 3} \times \frac{6 + 1}{9 + 2} \times \frac{6 + 1}{9 + 2} \times \frac{9 + 1}{14 + 2} \approx 0.0263644972451791‬P(X∣Y)P(Y)=9+32+1​×9+34+1​×9+26+1​×9+26+1​×14+29+1​≈0.0263644972451791‬

P(X∣N)P(N)=3+15+3×2+15+3×1+15+2×2+15+2×5+114+2≈0.00421875P(X|N) P(N) = \frac{3 + 1}{5 + 3} \times \frac{2 + 1}{5 + 3} \times \frac{1 + 1}{5 + 2} \times \frac{2 + 1}{5 + 2} \times \frac{5 + 1}{14 + 2} \approx 0.00421875P(X∣N)P(N)=5+33+1​×5+32+1​×5+21+1​×5+22+1​×14+25+1​≈0.00421875

由上面进行对比得出 , 使用朴素贝叶斯分类 , 该样本用户会购买商品 ;

V . 朴素贝叶斯分类器使用


1 . 要求分类速度快 : 此时先计算出所有数据的概率估值 , 分类时 , 直接查表计算 ;

2 . 数据集频繁变化 : 使用懒惰学习的策略 , 收到 分类请求时 , 再进行训练 , 然后预测 , 分类速度肯定变慢 , 但是预测准确 ;

3 . 数据不断增加 : 使用增量学习策略 , 原来的估值不变 , 对新样本进行训练 , 然后基于新样本的估值修正原来的估值 ;

VI . 朴素贝叶斯分类的优缺点


朴素贝叶斯分类 :

  • 优点 : 只用几个公式实现 , 代码简单 , 结果大多数情况下比较准确 ;

  • 缺点 : 假设的属性独立实际上不存在 , 属性间是存在关联的 , 这会导致部分分类结果不准确 ;

针对属性间存在依赖的情况 , 使用 贝叶斯信念网络 方法进行分类 ;

【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )相关推荐

  1. 【数据挖掘】数据挖掘建模 ( 预测建模 | 描述建模 | 预测模型 | 描述模型 | 判别模型 | 概率模型 | 基于回归的预测模型 )

    文章目录 I . 预测建模 与 描述建模 II . 预测模型 与 函数映射 III . 预测模型的分类 ( 分类 | 回归 ) IV . 预测建模 测试集 V . 预测建模 拟合过程 VI . 预测模 ...

  2. 朴素贝叶斯(Naive Bayes)原理+编程实现拉普拉斯修正的朴素贝叶斯分类器

    贝叶斯方法与朴素贝叶斯 1.生成模型与判别模型 2.贝叶斯 2.1贝叶斯公式 2.2贝叶斯方法 3朴素贝叶斯 3.1条件独立性假设 3.2朴素贝叶斯Naive在何处? 3.3朴素贝叶斯的三种模型 3. ...

  3. 判别模型和生成模型的区别

    20210703 https://www.zhihu.com/question/20446337 机器学习"判定模型"和"生成模型"有什么区别? 重点 http ...

  4. 生成模型和判别模型对比

    从概率分布的角度考虑,对于一堆样本数据,每个均有特征Xi对应分类标记yi.生成模型:学习得到联合概率分布P(x,y),即特征x和标记y共同出现的概率,然后求条件概率分布.能够学习到数据生成的机制.判别 ...

  5. 生成模型 VS 判别模型 (含义、区别、对应经典算法)

    从概率分布的角度考虑,对于一堆样本数据,每个均有特征Xi对应分类标记yi. 生成模型:学习得到联合概率分布P(x,y),即特征x和标记y共同出现的概率,然后求条件概率分布.能够学习到数据生成的机制. ...

  6. 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )

    文章目录 I . 贝叶斯分类器 II . 贝叶斯推断 ( 逆向概率 ) III . 贝叶斯推断 应用场景 ( 垃圾邮件过滤 ) IV . 贝叶斯方法 由来 V . 贝叶斯方法 VI . 贝叶斯公式 V ...

  7. 《机器学习西瓜书》学习笔记——第七章_贝叶斯分类器_朴素贝叶斯分类器

    朴素:特征条件独立:贝叶斯:基于贝叶斯定理. 朴素贝叶斯是经典的机器学习算法之一,也基于概率论的分类算法,属于监督学习的生成模型.朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤. ...

  8. 【机器学习原理】朴素贝叶斯分类算法

    文章目录 一.朴素贝叶斯公式 1. 从统计角度看分类问题 2. 贝叶斯公式的基本思想 贝叶斯的基本逻辑 3. 用贝叶斯公式进行选择 贝叶斯版的预测未来 二.朴素贝叶斯分类的算法原理 1. 朴素贝叶斯分 ...

  9. 朴素贝叶斯分类器实现正面负面文本分类

    朴素贝叶斯分类器,完成正面.负面文本分类任务 文章目录 朴素贝叶斯分类器,完成正面.负面文本分类任务 一.环境准备 二.朴素贝叶斯必备基础知识 (一).什么是朴素贝叶斯 (二). 概率论基础 基础贝叶 ...

最新文章

  1. Linux系统安全工具tcpdump用法
  2. opencv 叠加两张图_「干货」教你如何用OpenCV快速寻找图像差异处
  3. dubbo源码分析(3)
  4. Codeforces Round #717 (Div. 2) D(倍增dp)
  5. 前端图片有时候能显示有时候不显示_web前端基础教程:两种数据存储思路
  6. java并发编程LockSupport讲解
  7. 【译】三层架构代码生成器(NetTierGenerator)
  8. 算法笔记_面试题_5.验证二叉搜索树
  9. mysql配置数据库的不同权限用户
  10. 用USRP-LW N210搭建软件雷达系统
  11. 超级APP势不可挡--20190706
  12. KEIL5 C51软件安装详细图文教程
  13. Access2016学习1
  14. UML工具大全(上)
  15. C语言中printf格式输出
  16. openGL实现太阳系行星系统
  17. 赛博僵尸道长 v1.2
  18. 10. Java8新特性-新日期和时间API
  19. laravel Eloquent小技巧
  20. requests发送get请求,参数含字典时请求有误

热门文章

  1. ADO.NET实用经验(转自代码中国)
  2. 科学记数法数字转换/保留数值小数点位数(数字格式化)
  3. Pycharm同步git代码提示:Merge failed
  4. bootstrap easyUI 的选型
  5. vue 页面跳转的两种方式
  6. tar压缩解压命令详解
  7. 表单input中disabled提交后得不到值的解决办法
  8. Abiword对话框资源
  9. titanium开发教程-04-11其他属性和方法
  10. std::ostringstream::str()返回临时对象