NLP-基础知识-007(机器学习-朴素贝叶斯)
举个例子: 邮件是否是垃圾邮件
垃圾邮件里经常出现“广告”,“购买”,“产品”这些单词。 也就是 p(“广告”| 垃圾) > p(“广告”| 正常),P(“购买”| 垃圾) > p(“购买”| 正常) …. 这些概率怎么计算?
假设: 每个邮件包含10个单词
正常邮件24个 => 单词: 240个 购买出现过3次
垃圾邮件12个 => 单词: 120个 购买出现7次
p("购买|正常") = 3/240
p("购买|垃圾") = 1/120
贝叶斯定理:p(x,y) = p(x|y)p(y) = p(y|x)p(x) ==> p(x|y) = p(y|x)p(x)/p(y)
条件独立:
p(x,y|z) = p(x|z)p(y|z) x和y是条件独立于变量z
来了一个新邮件"购买物品,不是广告"p(正常|内容) >? p(垃圾|内容)= p(内容|正常)p(正常)/p(内容) >? p(内容|垃圾)p(垃圾)/p(内容)= p(内容|正常)p(正常) >? p(内容|垃圾)p(垃圾)p(正常)、p(垃圾)是先验2/3,1/3p(内容|正常) = p(购买,物品、不是、广告|正常) = p(购买|正常)p(物品|正常)p(不是|正常)p(广告|正常)
p(购买|正常)、p(物品|正常)、p(不是|正常)、p(广告|正常)都是通过先验知识计算
通过下面例子即可了解模型过程
背景:判断新邮件是否异常数据如下:垃圾邮件:点击 获得 更多 信息购买 最新 产品 获得 优惠优惠 信息 点击 链接正常邮件:明天 一起 开会开会 信息 详见 邮件最新 竞品 信息新邮件:最新 产品 实惠 点击 链接解决方法:v = {点击、获得、更多、信息、购买、最新、产品、优惠、链接、明天、一起、开会、详见、邮件、竞品} |v| = 15训练模型:p(垃圾) = 1/2 p(正常)=1/2p(点击|垃圾) = 3/28p(获得|垃圾) = 3/28p(最新|垃圾) = 1/14p(产品|垃圾) = 1/14p(实惠|垃圾) = 3/28p(链接|垃圾) = 1/14p(点击|正常) = 1/24p(获得|正常) = 2/25p(最新|正常) = 2/25p(产品|正常) = 1/25p(实惠|正常) = 1/25p(链接|正常) = 1/25预测 p(垃圾|邮件) >? p(正常|邮件)p(邮件|垃圾)p(垃圾) >? p(邮件|正常)p(正常)3/28*3/28*1/14*1/14*3/28*1/14 >? 1/24*2/25*2/25*1/25*1/25*1/25underflow:采取log形式
overflow:采取平滑
NLP-基础知识-007(机器学习-朴素贝叶斯)相关推荐
- 机器学习 | 朴素贝叶斯法知识总结
机器学习 | 朴素贝叶斯法理论知识 贝叶斯决策论是概率框架下实施决策的基本方法.对分类任务来说,在所有相关概率都已知的理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记.朴素贝 ...
- 机器学习朴素贝叶斯_机器学习基础朴素贝叶斯分类
机器学习朴素贝叶斯 In the previous stories, I had given an explanation of the program for implementation of v ...
- 秒懂机器学习---朴素贝叶斯
秒懂机器学习---朴素贝叶斯 一.总结 一句话总结: 尽管朴素贝叶斯的条件独立性假设存在一定的问题,但是朴素贝叶斯算法仍然能取得比较理想的分类预测结果. 1.朴素贝叶斯分类算法 和 KNN分类算法和决 ...
- NLP系列(5)_从朴素贝叶斯到N-gram语言模型
作者: 龙心尘 && 寒小阳 时间:2016年2月. 出处:http://blog.csdn.net/longxinchen_ml/article/details/50646528 h ...
- 机器学习朴素贝叶斯算法+tkinter库界面实现好瓜坏西瓜分类
机器学习朴素贝叶斯算法+tkinter库界面实现好瓜坏西瓜分类 一.界面实现 from tkinter import * from tkinter import ttk import NBdef ma ...
- 机器学习朴素贝叶斯算法_机器学习中的朴素贝叶斯算法
机器学习朴素贝叶斯算法 朴素贝叶斯算法 (Naive Bayes Algorithm) Naive Bayes is basically used for text learning. Using t ...
- python机器学习-朴素贝叶斯(Naive Bayes)模型建立及评估(完整代码+实现效果)
实现功能: python机器学习-朴素贝叶斯(Naive Bayes)模型建立及评估. 实现代码: # 导入需要的库 from warnings import simplefilter simplef ...
- 机器学习---朴素贝叶斯模型
机器学习-朴素贝叶斯模型 1.通俗解释: 朴素贝叶斯模型的基本思路就是利用贝叶斯的后验概率公式来推算当前属性下的数据样本属于哪一个类别.直白一点说,就是在特征属性为当前取值的条件下,该样本归属于那个类 ...
- 机器学习-朴素贝叶斯(基础讲解+代码实现+图像展示)
朴素贝叶斯 定理: 某晚,C准备收拾东西接女朋友,那么小C要不要带伞呢. 已知:天气预报说今日降水概率为50%–P(A) 晚高峰堵车的概率为80%–P(B) 如果下雨,晚高峰堵车的概率是95%–P(B ...
最新文章
- linux培训描述,【linux培训班】关于linux系统记录和描述进程的分析
- ARM Cortex-M学习简介
- JS性能分析(测试代码运行时间)
- javadoc - Java API 文档生成器(Windows版本)
- mysql 密码长度约束_MySQL简单操作【1、在cmd下MySQL的运行及简单增删改查】
- 一维数组去重处理法二(C语言)
- activity任意节点跳转
- BZOJ4602: [Sdoi2016]齿轮(并查集 启发式合并)
- VS2013密钥(所有版本)
- 限行查询API_路帮网
- python3.5安装scipy_Python3上的Scipy安装
- CentOS 7安装/卸载Redis,配置service服务管理
- 网站建设中百度快照劫持是什么?劫持百度快照是怎么回事?
- 听说你在做斗鱼APP?
- [转]centos安装oracle
- 实现内容自动撑开盒子
- 黄健翔激情解说--修改版
- 算法可以申请专利么_国内提供计算机视觉(CV)算法岗位的公司名单
- RIP实验步骤(RNA Immunoprecipitation)
- python 小说人物分析_Python文章相关性分析---金庸武侠小说分析