【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )
文章目录
- I . 判别模型 与 概率模型
- II . 贝叶斯分类
- III . 拉普拉斯修正
- IV . 使用 朴素贝叶斯分类器 + 拉普拉斯修正 为样本分类 ( 完整分类流程 )
- V . 朴素贝叶斯分类器使用
- VI . 朴素贝叶斯分类的优缺点
I . 判别模型 与 概率模型
计算 P(C∣X)P(C|X)P(C∣X) 当属性值取 XXX 时 , 类别属于 CCC 的概率 ;
使用 判别模型 和 概率模型 计算上述 P(C∣X)P(C|X)P(C∣X) 概率对比 ;
① 判别模型 : 直接正面对 P(C∣X)P(C|X)P(C∣X) 进行建模 ; 如 决策树 , 神经网络 , 支持向量机 ;
② 概率模型 : 对 P(C∣X)P(C|X)P(C∣X) 的逆向概率 P(X∣C)P(X|C)P(X∣C) 进行建模 , 再计算 P(C∣X)P(C|X)P(C∣X) ; 如 贝叶斯分类器 ;
II . 贝叶斯分类
贝叶斯分类中 , 计算 P(C∣X)P(C|X)P(C∣X) 当属性值取 XXX 时 , 类别属于 CCC 的概率 ;
P(C∣X)P(C|X)P(C∣X) 很难直接获得 , 使用贝叶斯公式可以通过其逆概率计算该值 :
P(C∣X)=P(X∣C)P(C)P(X)P(C|X) = \frac{P(X|C) P(C)}{P(X)}P(C∣X)=P(X)P(X∣C)P(C)
先验概率 : P(C)P(C)P(C) 是先验概率 , 数据集中类别为 CCC 的样本数出现的概率 , 数据集越大越准确 ;
证据因子 : P(X)P(X)P(X) 是属性取值 XXX 的概率 , 该值也是从数据集中统计样本属性为 XXX 的概率 , 数据集越大越准确 , 该值与类别判定无关 ;
类条件概率 ( 似然 ) : P(X∣C)P(X|C)P(X∣C) 样本是 CCC 类别时 , 属性值是 XXX 的概率 , 可以通过机器学习获得 ;
P(X∣C)P(X|C)P(X∣C) 是通过机器学习基于有限样本估算概率 , P(X)P(X)P(X) 和 P(C)P(C)P(C) 可以根据当前样本统计获得 ;
III . 拉普拉斯修正
1 . 分类属性 P(Xk∣Ci)P( X_k | C_i )P(Xk∣Ci) 计算方式 : 如果第 kkk 个属性的取值是离散的 , 即分类属性 , 那么通过以下公式计算 :
P(Xk∣Ci)=SikSiP( X_k | C_i ) = \frac{S_{ik}}{S_i}P(Xk∣Ci)=SiSik
SiS_iSi 是分类为 CiC_iCi 类型的数据集样本个数 ;
SikS_{ik}Sik 是被分类成 CiC_iCi 类型的样本中 , 并且第 kkk 个值是 XkX_kXk 的样本个数 ;
2 . 属性屏蔽的情况 :
给出一个样本 , 预测其分类 ;
如果该样本的某个属性值 , 在某一个预测的分类 CiC_iCi 中没有出现过 , 即 SikS_{ik}Sik 是 000 , 那么计算出来的分类属性 P(Xk∣Ci)=SikSiP( X_k | C_i ) = \dfrac{S_{ik}}{S_i}P(Xk∣Ci)=SiSik 就是 000 ;
进而 P(X∣Ci)=∏k=1nP(Xk∣Ci)P(X|C_i) = \prod_{k=1}^n P( X_k | C_i )P(X∣Ci)=∏k=1nP(Xk∣Ci) 多属性分类的联合概率也就成为 000 ;
那么计算其分类为 CiC_iCi 的概率肯定是 000 , 整体的联合概率是通过乘法法则计算的 , 这样会抹去其它属性的信息 , 即使其它属性的权重很大 , 整体概率也会成为 000 ;
其它属性的概率权重被屏蔽了 , 结果肯定不准确 ; 这种情况就要 引入 拉普拉斯修正 ;
3 . 拉普拉斯修正 :
① 计算 先验概率 时 进行 拉普拉斯修正 :
P(C)=∣Dc∣+1∣D∣+NP(C) = \frac{| D_c | + 1}{ | D | + N }P(C)=∣D∣+N∣Dc∣+1
- DcD_cDc 表示训练集中 , 分类为 CCC 的样本个数 ;
- DDD 表示训练集中样本中个数 ;
- NNN 表示按照某属性分类的类别数 , 如 , 是否购买商品 , 是 或 否 两种可取值类别 , 这里 N=2N=2N=2 ;
② 计算 类条件概率 ( 似然 ) 时 进行 拉普拉斯修正 :
P(Xk∣Ci)=Sik+1Si+NiP( X_k | C_i ) = \frac{S_{ik} + 1}{S_i + N_i}P(Xk∣Ci)=Si+NiSik+1
SiS_iSi 是分类为 CiC_iCi 类型的数据集样本个数 ;
SikS_{ik}Sik 是被分类成 CiC_iCi 类型的样本中 , 并且第 kkk 个值是 XkX_kXk 的样本个数 ;
NiN_iNi 表示该属性的可取值个数 , 如 , 是否购买商品 , 是 或 否 两种可取值类别 , 这里 Ni=2N_i=2Ni=2 ;
IV . 使用 朴素贝叶斯分类器 + 拉普拉斯修正 为样本分类 ( 完整分类流程 )
1 . 需求 : 根据 年龄 , 收入水平 , 是否是学生 , 信用等级 , 预测该用户是否会购买商品 ;
年龄 | 收入水平 | 是否是学生 | 信用等级 | 是否购买商品 |
---|---|---|---|---|
小于 30 岁 | 高收入 | 不是 | 一般 | 不会 |
小于 30 岁 | 高收入 | 不是 | 很好 | 不会 |
31 ~ 39 岁 | 高收入 | 不是 | 一般 | 会 |
40 岁以上 | 中等收入 | 不是 | 一般 | 会 |
40 岁以上 | 低收入 | 是 | 一般 | 会 |
40 岁以上 | 低收入 | 是 | 很好 | 不会 |
31 ~ 40 岁 | 低收入 | 不是 | 很好 | 会 |
小于 30 岁 | 中等收入 | 不是 | 一般 | 不会 |
小于 30 岁 | 低收入 | 是 | 一般 | 会 |
40 岁以上 | 中等收入 | 是 | 一般 | 会 |
小于 30 岁 | 中等收入 | 是 | 很好 | 会 |
31 ~ 39 岁 | 中等收入 | 不是 | 很好 | 会 |
31 ~ 39 岁 | 高收入 | 是 | 一般 | 会 |
40 岁以上 | 中等收入 | 不是 | 很好 | 不会 |
2 . 为某未知类型样本进行分类 ;
① 未知样本的 444 个属性值为 : 年龄 小于 30 岁 , 收入 中等 , 是否是学生 是 , 信用等级 一般 , 四个值组成向量 XXX ;
② 分类类型 : 是否购买商品 , 是 或者 否 ; 购买商品为 时间 YYY , 不购买商品为事件 NNN ;
③ 样本 444 个属性取值 XXX , 并且类型为 YYY 的概率 : P(Y∣X)P(Y | X)P(Y∣X) ;
④ 样本 444 个属性取值 XXX , 并且类型为 NNN 的概率 : P(N∣X)P(N | X)P(N∣X) ;
3 . 计算取值 XXX 向量时 , 某分类的概率 P(Y∣X)P(Y | X)P(Y∣X) :
① 以 P(Y∣X)P(Y | X)P(Y∣X) 计算为例 : 样本 444 个属性取值 XXX , 并且类型为 YYY 的概率 , 直接求该概率是无法计算的 ;
② 引入贝叶斯公式 : 使用其逆概率 P(X∣Y)P(X|Y)P(X∣Y) , 当类型是 YYY 是 , 取值为 XXX 的概率 ;
P(Y∣X)=P(X∣Y)P(Y)P(X)P(Y | X) = \frac{P(X|Y) P(Y)}{P(X)}P(Y∣X)=P(X)P(X∣Y)P(Y)
③ 逆概率 P(X∣Y)P(X|Y)P(X∣Y) : 当类型是 YYY 是 , 取值为 XXX 的概率 ; 即 当购买商品时 , 前 444 个属性取值为 XXX 向量的概率 ;
4 . 计算取值 XXX 向量时 , 某分类的概率 P(N∣X)P(N | X)P(N∣X) :
① 以 P(N∣X)P(N | X)P(N∣X) 计算为例 : 样本 444 个属性取值 XXX , 并且类型为 NNN 的概率 , 直接求该概率是无法计算的 ;
② 引入贝叶斯公式 : 使用其逆概率 P(X∣N)P(X|N)P(X∣N) , 当类型是 NNN 是 , 取值为 XXX 的概率 ;
P(N∣X)=P(X∣N)P(N)P(X)P(N | X) = \frac{P(X|N) P(N)}{P(X)}P(N∣X)=P(X)P(X∣N)P(N)
③ 逆概率 P(X∣N)P(X|N)P(X∣N) : 当类型是 NNN 是 , 取值为 XXX 的概率 ; 即 当购买商品时 , 前 444 个属性取值为 XXX 向量的概率 ;
5 . 比较取值 YYY 和 取值 NNN 的两个概率 :
① 原始概率 : 将 P(N∣X)P(N | X)P(N∣X) 和 P(Y∣X)P(Y | X)P(Y∣X) 两个概率进行比较 ;
即 P(X∣Y)P(Y)P(X)\frac{P(X|Y) P(Y)}{P(X)}P(X)P(X∣Y)P(Y) 和 P(X∣N)P(N)P(X)\frac{P(X|N) P(N)}{P(X)}P(X)P(X∣N)P(N) 两个概率进行比较 ;
② 省略分母比较分子 : 分母都是 P(X)P(X)P(X) , 可以只比较分子 , P(X∣Y)P(Y)P(X|Y) P(Y)P(X∣Y)P(Y) 和 P(X∣N)P(N)P(X|N) P(N)P(X∣N)P(N) 进行比较 ;
6 . 计算 222 个先验概率 : ( 引入拉普拉斯修正 )
这里使用引入 拉普拉斯修正 的公式进行计算 :
P(C)=∣Dc∣+1∣D∣+NP(C) = \frac{| D_c | + 1}{ | D | + N }P(C)=∣D∣+N∣Dc∣+1
- DcD_cDc 表示训练集中 , 分类为 CCC 的样本个数 ;
- DDD 表示训练集中样本中个数 ;
- NNN 表示按照某属性分类的类别数 , 如 , 是否购买商品 , 是 或 否 两种可取值类别 , 这里 N=2N=2N=2 ;
P(Y)P(Y)P(Y) 表示购买商品的概率 , 即上面 141414 个训练集样本中 , 购买商品的概率 , 是 9+114+2\frac{9 + 1}{14 + 2}14+29+1 ;
P(N)P(N)P(N) 表示不买商品的概率 , 即上面 141414 个训练集样本中 , 不买商品的概率 , 是 5+114+2\frac{5 + 1}{14 + 2}14+25+1 ;
7 . 计算 P(X∣Y)P(X|Y)P(X∣Y) 概率 : 样本用户购买商品时 , 前 444 个属性取值 XXX 向量的概率 ; ( 引入拉普拉斯修正 )
这里使用引入拉普拉斯修正的 分类概率 计算公式 :
P(Xk∣Ci)=Sik+1Si+NiP( X_k | C_i ) = \frac{S_{ik} + 1}{S_i + N_i}P(Xk∣Ci)=Si+NiSik+1
SiS_iSi 是分类为 CiC_iCi 类型的数据集样本个数 ;
SikS_{ik}Sik 是被分类成 CiC_iCi 类型的样本中 , 并且第 kkk 个值是 XkX_kXk 的样本个数 ;
NiN_iNi 表示该属性的可取值个数 , 如 , 是否购买商品 , 是 或 否 两种可取值类别 , 这里 Ni=2N_i=2Ni=2 ;
① 属性独立 : 朴素贝叶斯分类中认为属性间都是独立的 , 互不干扰 , 可以将 “前 444 个属性取值 XXX 向量的概率” 变成概率乘积 ;
② 未知样本的 444 个属性值为 : 年龄 小于 30 岁 , 收入 中等 , 是否是学生 是 , 信用等级 一般 , 四个值组成向量 XXX ;
P(X∣Y)P(X|Y)P(X∣Y) 计算 : 买商品的用户样本中 , 取值为 XXX 向量的概率 , 如下 :
P(X∣Y)=P(年龄小于30∣Y)×P(收入中等∣Y)×P(是学生∣Y)×P(信用等级一般∣Y)P(X|Y) = P( 年龄小于 30 | Y) \times P( 收入中等 | Y) \times P( 是学生 | Y) \times P( 信用等级一般 | Y)P(X∣Y)=P(年龄小于30∣Y)×P(收入中等∣Y)×P(是学生∣Y)×P(信用等级一般∣Y)
其中 :
P(年龄小于30∣Y)P( 年龄小于 30 | Y)P(年龄小于30∣Y) 买商品的用户中 , 年龄 小于 30 岁的概率 ;
P(收入中等∣Y)P( 收入中等 | Y)P(收入中等∣Y) 买商品的用户中 , 收入中等的概率 ;
P(是学生∣Y)P( 是学生 | Y)P(是学生∣Y) 买商品的用户中 , 是学生的概率 ;
P(信用等级一般∣Y)P( 信用等级一般 | Y)P(信用等级一般∣Y) 买商品的用户中 , 信用等级一般的概率 ;
③ P(年龄小于30∣Y)P( 年龄小于 30 | Y)P(年龄小于30∣Y) 计算 : 999 个人买商品 , 其中有 222 个小于 30 岁 ;
拉普拉斯修正 : 年龄有 333 种取值 , 分别是 小于 30 , 30 ~ 40 , 40 以上 , 拉普拉斯修正的 Ni=3N_i = 3Ni=3 ;
P(年龄小于30∣Y)=2+19+3P( 年龄小于 30 | Y) = \frac{2 + 1}{9 + 3}P(年龄小于30∣Y)=9+32+1
④ P(收入中等∣Y)P( 收入中等 | Y)P(收入中等∣Y) 计算 : 999 个人买商品 , 其中有 444 个 中等收入者 ;
拉普拉斯修正 : 收入水平有 333 种取值 , 分别是 高 , 中 , 低 , 拉普拉斯修正的 Ni=3N_i = 3Ni=3 ;
P(收入中等∣Y)=4+19+3P( 收入中等 | Y) = \frac{4 + 1}{9 + 3}P(收入中等∣Y)=9+34+1
⑤ P(是学生∣Y)P( 是学生 | Y)P(是学生∣Y) 计算 : 999 个人买商品 , 其中有 666 个 是学生 ;
拉普拉斯修正 : 是否是学生有 222 种取值 , 分别是 是 , 否 , 拉普拉斯修正的 Ni=2N_i = 2Ni=2 ;
P(是学生∣Y)=6+19+2P( 是学生 | Y) = \frac{6 + 1}{9 + 2}P(是学生∣Y)=9+26+1
⑥ P(信用等级一般∣Y)P( 信用等级一般 | Y)P(信用等级一般∣Y) 计算 : 999 个人买商品 , 其中有 666 个人信用等级一般 ;
拉普拉斯修正 : 信用等级 有 222 种取值 , 分别是 好 , 一般 , 拉普拉斯修正的 Ni=2N_i = 2Ni=2 ;
P(信用等级一般∣Y)=6+19+2P( 信用等级一般 | Y) = \frac{6 + 1}{9 + 2}P(信用等级一般∣Y)=9+26+1
⑦ P(X∣Y)P(X|Y)P(X∣Y) 计算结果 :
P(X∣Y)=P(年龄小于30∣Y)×P(收入中等∣Y)×P(是学生∣Y)×P(信用等级一般∣Y)=2+19+3×4+19+3×6+19+2×6+19+2\begin{array}{lcl} P(X|Y) &=& P( 年龄小于 30 | Y) \times P( 收入中等 | Y) \times P( 是学生 | Y) \times P( 信用等级一般 | Y) \\\\ &=& \frac{2 + 1}{9 + 3} \times \frac{4 + 1}{9 + 3} \times \frac{6 + 1}{9 + 2} \times \frac{6 + 1}{9 + 2} \\\\ \end{array}P(X∣Y)==P(年龄小于30∣Y)×P(收入中等∣Y)×P(是学生∣Y)×P(信用等级一般∣Y)9+32+1×9+34+1×9+26+1×9+26+1
8 . 计算 P(X∣Y)P(Y)P(X|Y) P(Y)P(X∣Y)P(Y) 值 :
P(X∣Y)=2+19+3×4+19+3×6+19+2×6+19+2P(X|Y) =\frac{2 + 1}{9 + 3} \times \frac{4 + 1}{9 + 3} \times \frac{6 + 1}{9 + 2} \times \frac{6 + 1}{9 + 2} P(X∣Y)=9+32+1×9+34+1×9+26+1×9+26+1
P(Y)=9+114+2P(Y) = \frac{9 + 1}{14 + 2}P(Y)=14+29+1
P(X∣Y)P(Y)=2+19+3×4+19+3×6+19+2×6+19+2×9+114+2≈0.0263644972451791P(X|Y) P(Y) = \frac{2 + 1}{9 + 3} \times \frac{4 + 1}{9 + 3} \times \frac{6 + 1}{9 + 2} \times \frac{6 + 1}{9 + 2} \times \frac{9 + 1}{14 + 2} \approx 0.0263644972451791P(X∣Y)P(Y)=9+32+1×9+34+1×9+26+1×9+26+1×14+29+1≈0.0263644972451791
9 . 计算 P(X∣N)P(X|N)P(X∣N) 概率 : 样本用户没有购买商品时 , 前 444 个属性取值 XXX 向量的概率 ;
这里使用引入拉普拉斯修正的 分类概率 计算公式 :
P(Xk∣Ci)=Sik+1Si+NiP( X_k | C_i ) = \frac{S_{ik} + 1}{S_i + N_i}P(Xk∣Ci)=Si+NiSik+1
SiS_iSi 是分类为 CiC_iCi 类型的数据集样本个数 ;
SikS_{ik}Sik 是被分类成 CiC_iCi 类型的样本中 , 并且第 kkk 个值是 XkX_kXk 的样本个数 ;
NiN_iNi 表示该属性的可取值个数 , 如 , 是否购买商品 , 是 或 否 两种可取值类别 , 这里 Ni=2N_i=2Ni=2 ;
① 属性独立 : 朴素贝叶斯分类中认为属性间都是独立的 , 互不干扰 , 可以将 “前 444 个属性取值 XXX 向量的概率” 变成概率乘积 ;
② 未知样本的 444 个属性值为 : 年龄 小于 30 岁 , 收入 中等 , 是否是学生 是 , 信用等级 一般 , 四个值组成向量 XXX ;
P(X∣N)P(X|N)P(X∣N) 计算 : 不买商品的用户样本中 , 取值为 XXX 向量的概率 , 如下 :
P(X∣N)=P(年龄小于30∣N)×P(收入中等∣N)×P(是学生∣N)×P(信用等级一般∣N)P(X|N) = P( 年龄小于 30 | N) \times P( 收入中等 | N) \times P( 是学生 | N) \times P( 信用等级一般 | N)P(X∣N)=P(年龄小于30∣N)×P(收入中等∣N)×P(是学生∣N)×P(信用等级一般∣N)
其中 :
P(年龄小于30∣N)P( 年龄小于 30 | N)P(年龄小于30∣N) 不买商品的用户中 , 年龄 小于 30 岁的概率 ;
P(收入中等∣N)P( 收入中等 | N)P(收入中等∣N) 不买商品的用户中 , 收入中等的概率 ;
P(是学生∣N)P( 是学生 | N)P(是学生∣N) 不买商品的用户中 , 是学生的概率 ;
P(信用等级一般∣N)P( 信用等级一般 | N)P(信用等级一般∣N) 不买商品的用户中 , 信用等级一般的概率 ;
③ P(年龄小于30∣N)P( 年龄小于 30 | N)P(年龄小于30∣N) 计算 : 555 个人不买商品 , 其中有 333 个小于 30 岁 ;
拉普拉斯修正 : 年龄有 333 种取值 , 分别是 小于 30 , 30 ~ 40 , 40 以上 , 拉普拉斯修正的 Ni=3N_i = 3Ni=3 ;
P(年龄小于30∣N)=3+15+3P( 年龄小于 30 | N) = \frac{3 + 1}{5 + 3}P(年龄小于30∣N)=5+33+1
④ P(收入中等∣N)P( 收入中等 | N)P(收入中等∣N) 计算 : 555 个人不买商品 , 其中有 222 个 中等收入者 ;
拉普拉斯修正 : 收入水平有 333 种取值 , 分别是 高 , 中 , 低 , 拉普拉斯修正的 Ni=3N_i = 3Ni=3 ;
P(收入中等∣N)=2+15+3P( 收入中等 | N) = \frac{2 + 1}{5 + 3}P(收入中等∣N)=5+32+1
⑤ P(是学生∣N)P( 是学生 | N)P(是学生∣N) 计算 : 555 个人不买商品 , 其中有 111 个 是学生 ;
拉普拉斯修正 : 是否是学生有 222 种取值 , 分别是 是 , 否 , 拉普拉斯修正的 Ni=2N_i = 2Ni=2 ;
P(是学生∣N)=1+15+2P( 是学生 | N) = \frac{1 + 1}{5 + 2}P(是学生∣N)=5+21+1
⑥ P(信用等级一般∣N)P( 信用等级一般 | N)P(信用等级一般∣N) 计算 : 555 个人不买商品 , 其中有 $2 个人信用等级一般 ;
拉普拉斯修正 : 信用等级 有 222 种取值 , 分别是 好 , 一般 , 拉普拉斯修正的 Ni=2N_i = 2Ni=2 ;
P(信用等级一般∣N)=2+15+2P( 信用等级一般 | N) = \frac{2 + 1}{5 + 2}P(信用等级一般∣N)=5+22+1
⑦ P(X∣N)P(X|N)P(X∣N) 计算结果 :
P(X∣N)=P(年龄小于30∣N)×P(收入中等∣N)×P(是学生∣N)×P(信用等级一般∣N)=3+15+3×2+15+3×1+15+2×2+15+2\begin{array}{lcl} P(X|N) &=& P( 年龄小于 30 | N) \times P( 收入中等 | N) \times P( 是学生 | N) \times P( 信用等级一般 | N) \\\\ &=& \frac{3 + 1}{5 + 3} \times \frac{2 + 1}{5 + 3} \times \frac{1 + 1}{5 + 2} \times \frac{2 + 1}{5 + 2} \\\\ \end{array}P(X∣N)==P(年龄小于30∣N)×P(收入中等∣N)×P(是学生∣N)×P(信用等级一般∣N)5+33+1×5+32+1×5+21+1×5+22+1
10 . 计算 P(X∣N)P(N)P(X|N) P(N)P(X∣N)P(N) 值 :
P(X∣N)=3+15+3×2+15+3×1+15+2×2+15+2P(X|N) = \frac{3 + 1}{5 + 3} \times \frac{2 + 1}{5 + 3} \times \frac{1 + 1}{5 + 2} \times \frac{2 + 1}{5 + 2}P(X∣N)=5+33+1×5+32+1×5+21+1×5+22+1
P(N)=5+114+2P(N) = \frac{5 + 1}{14 + 2}P(N)=14+25+1
P(X∣N)P(N)=3+15+3×2+15+3×1+15+2×2+15+2×5+114+2≈0.00421875P(X|N) P(N) = \frac{3 + 1}{5 + 3} \times \frac{2 + 1}{5 + 3} \times \frac{1 + 1}{5 + 2} \times \frac{2 + 1}{5 + 2} \times \frac{5 + 1}{14 + 2} \approx 0.00421875P(X∣N)P(N)=5+33+1×5+32+1×5+21+1×5+22+1×14+25+1≈0.00421875
11 . 比较 P(X∣Y)P(Y)P(X|Y) P(Y)P(X∣Y)P(Y) 和 P(X∣N)P(N)P(X|N) P(N)P(X∣N)P(N) 两个值 :
P(X∣Y)P(Y)=2+19+3×4+19+3×6+19+2×6+19+2×9+114+2≈0.0263644972451791P(X|Y) P(Y) = \frac{2 + 1}{9 + 3} \times \frac{4 + 1}{9 + 3} \times \frac{6 + 1}{9 + 2} \times \frac{6 + 1}{9 + 2} \times \frac{9 + 1}{14 + 2} \approx 0.0263644972451791P(X∣Y)P(Y)=9+32+1×9+34+1×9+26+1×9+26+1×14+29+1≈0.0263644972451791
P(X∣N)P(N)=3+15+3×2+15+3×1+15+2×2+15+2×5+114+2≈0.00421875P(X|N) P(N) = \frac{3 + 1}{5 + 3} \times \frac{2 + 1}{5 + 3} \times \frac{1 + 1}{5 + 2} \times \frac{2 + 1}{5 + 2} \times \frac{5 + 1}{14 + 2} \approx 0.00421875P(X∣N)P(N)=5+33+1×5+32+1×5+21+1×5+22+1×14+25+1≈0.00421875
由上面进行对比得出 , 使用朴素贝叶斯分类 , 该样本用户会购买商品 ;
V . 朴素贝叶斯分类器使用
1 . 要求分类速度快 : 此时先计算出所有数据的概率估值 , 分类时 , 直接查表计算 ;
2 . 数据集频繁变化 : 使用懒惰学习的策略 , 收到 分类请求时 , 再进行训练 , 然后预测 , 分类速度肯定变慢 , 但是预测准确 ;
3 . 数据不断增加 : 使用增量学习策略 , 原来的估值不变 , 对新样本进行训练 , 然后基于新样本的估值修正原来的估值 ;
VI . 朴素贝叶斯分类的优缺点
朴素贝叶斯分类 :
优点 : 只用几个公式实现 , 代码简单 , 结果大多数情况下比较准确 ;
缺点 : 假设的属性独立实际上不存在 , 属性间是存在关联的 , 这会导致部分分类结果不准确 ;
针对属性间存在依赖的情况 , 使用 贝叶斯信念网络 方法进行分类 ;
【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )相关推荐
- 【数据挖掘】数据挖掘建模 ( 预测建模 | 描述建模 | 预测模型 | 描述模型 | 判别模型 | 概率模型 | 基于回归的预测模型 )
文章目录 I . 预测建模 与 描述建模 II . 预测模型 与 函数映射 III . 预测模型的分类 ( 分类 | 回归 ) IV . 预测建模 测试集 V . 预测建模 拟合过程 VI . 预测模 ...
- 朴素贝叶斯(Naive Bayes)原理+编程实现拉普拉斯修正的朴素贝叶斯分类器
贝叶斯方法与朴素贝叶斯 1.生成模型与判别模型 2.贝叶斯 2.1贝叶斯公式 2.2贝叶斯方法 3朴素贝叶斯 3.1条件独立性假设 3.2朴素贝叶斯Naive在何处? 3.3朴素贝叶斯的三种模型 3. ...
- 判别模型和生成模型的区别
20210703 https://www.zhihu.com/question/20446337 机器学习"判定模型"和"生成模型"有什么区别? 重点 http ...
- 生成模型和判别模型对比
从概率分布的角度考虑,对于一堆样本数据,每个均有特征Xi对应分类标记yi.生成模型:学习得到联合概率分布P(x,y),即特征x和标记y共同出现的概率,然后求条件概率分布.能够学习到数据生成的机制.判别 ...
- 生成模型 VS 判别模型 (含义、区别、对应经典算法)
从概率分布的角度考虑,对于一堆样本数据,每个均有特征Xi对应分类标记yi. 生成模型:学习得到联合概率分布P(x,y),即特征x和标记y共同出现的概率,然后求条件概率分布.能够学习到数据生成的机制. ...
- 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )
文章目录 I . 贝叶斯分类器 II . 贝叶斯推断 ( 逆向概率 ) III . 贝叶斯推断 应用场景 ( 垃圾邮件过滤 ) IV . 贝叶斯方法 由来 V . 贝叶斯方法 VI . 贝叶斯公式 V ...
- 《机器学习西瓜书》学习笔记——第七章_贝叶斯分类器_朴素贝叶斯分类器
朴素:特征条件独立:贝叶斯:基于贝叶斯定理. 朴素贝叶斯是经典的机器学习算法之一,也基于概率论的分类算法,属于监督学习的生成模型.朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤. ...
- 【机器学习原理】朴素贝叶斯分类算法
文章目录 一.朴素贝叶斯公式 1. 从统计角度看分类问题 2. 贝叶斯公式的基本思想 贝叶斯的基本逻辑 3. 用贝叶斯公式进行选择 贝叶斯版的预测未来 二.朴素贝叶斯分类的算法原理 1. 朴素贝叶斯分 ...
- 朴素贝叶斯分类器实现正面负面文本分类
朴素贝叶斯分类器,完成正面.负面文本分类任务 文章目录 朴素贝叶斯分类器,完成正面.负面文本分类任务 一.环境准备 二.朴素贝叶斯必备基础知识 (一).什么是朴素贝叶斯 (二). 概率论基础 基础贝叶 ...
最新文章
- Linux系统安全工具tcpdump用法
- opencv 叠加两张图_「干货」教你如何用OpenCV快速寻找图像差异处
- dubbo源码分析(3)
- Codeforces Round #717 (Div. 2) D(倍增dp)
- 前端图片有时候能显示有时候不显示_web前端基础教程:两种数据存储思路
- java并发编程LockSupport讲解
- 【译】三层架构代码生成器(NetTierGenerator)
- 算法笔记_面试题_5.验证二叉搜索树
- mysql配置数据库的不同权限用户
- 用USRP-LW N210搭建软件雷达系统
- 超级APP势不可挡--20190706
- KEIL5 C51软件安装详细图文教程
- Access2016学习1
- UML工具大全(上)
- C语言中printf格式输出
- openGL实现太阳系行星系统
- 赛博僵尸道长 v1.2
- 10. Java8新特性-新日期和时间API
- laravel Eloquent小技巧
- requests发送get请求,参数含字典时请求有误