目录

应用

1. 胃疼胃癌

2. 过滤垃圾邮件

朴素贝叶斯分类器

概念介绍

朴素贝叶斯分类器原理

贝叶斯分类器的应用


公式

求得是后验概率,等式右侧为先验概率

贝叶斯定理本质:通过 先验概率 求 后验概率

应用

1. 胃疼胃癌

假设:H代表胃癌事件,X代表胃疼事件。则P(H | X)表示的是:当一个人胃疼时,是胃癌的概率有多少?  P(H | X)称为后验概率,我们利用贝叶斯公式的目的就是求得这个后验概率是多少。

先验概率获取途径:

①统计抽样,

②询问专家

P ( X | H)表示的是:胃癌发生时,胃疼的概率,假设是:85%。P ( X | H)称为先验概率,先验概率一般是由大量过去的经验总结得到,或者也可以通过抽样得到。

比如说:电商的28定律(20%的热门商品集中了80%的访问流量)就是一个总结得到的先验概率,当然我们也可以通过抽样,通过实验数据来得到这个结论,根据大数定律,当实验样本越大,越接近于正确结论。

P(H )表示的是:总人群患胃癌的概率:0.1%

P ( X)表示的是:总人群患胃疼的概率:40%

有了以上数据后,问:当一个人胃疼时,他患胃癌的概率 P(X | H )是多少?

结果是:0.85*0.001%0.4=0.002125=0.021

即当一个人胃疼时,是胃癌的概率是2.1%。这个概率是很小的。

2. 过滤垃圾邮件

比如我们要判断某一封邮件是否是垃圾邮件,

假设:H代表此邮件是垃圾邮件,X代表此邮件里出现了"美女"词汇。

P(H | X )表示的是:当一封邮件里出现"美女"词汇时,它是垃圾邮件的概率。

为了求得这个后验概率,我们需要知道P( X | H ) 、P ( H )、P(X )的概率

P(X | H)表示一封垃圾邮件里,出现"美女"词汇的概率。关键这个先验概率怎么求得,因为这个问题并不像胃癌案例那样受到广泛关注,所以并没有现成的先验概率供使用,所以这个概率需要我们通过实验样本来获取。

实现步骤:

1.从已有的垃圾邮件箱里随机收取100封垃圾邮件,然后统计每封垃圾邮件里,出现"美女"的次数,假设最后的结果:100封垃圾邮件里,有20封出现了"美女"。

则:P(X | H)=20%

当然,这个先验概率如果为了更准确,可以扩大样本数据或增加实验次数。

2.接下来求P( H )和P(X)

P(H )表示的是一封邮件是垃圾邮件的概率,

P ( X )表示的是一封邮件里出现"美女"的概率,

这两个也没有现成的先验概率,所以需要通过实验获取。

我们可以从邮件箱里(包含正常邮件和垃圾邮件),随机抽取500封邮件,然后统计有多少封是垃圾邮件,以及统计每逢邮件里出现 "美女"的次数。

假设:500封邮件里,出现了60封垃圾邮件。

500封邮件里,出现了200次"美女”

则: P(H)=60/500 %    P( X)=200/500 %

所以综上,我们可以利用贝叶斯来对邮件过滤,当收到一封邮件时,这封邮件包含了"美女"词汇,请问它是正常邮件还是垃圾邮件?

经计算可得:P(H | X)=0.2*(60/500)/ (200/500)=0.06=6%

总结:本例中,根据概率的阈值,来判定一封邮件是否是垃圾邮件。比如算得的概率是80%,则可以认定此邮件是垃圾邮件

即这封邮件是垃圾邮件的概率是6%,一般地,垃圾邮件设定的阈值在60%~100%。而6%<60%,所以这封邮件是一封正常邮件。

针对本例,如果换个条件,比如:P(X )表示的是一封邮件里出现"发票"的概率,

P(X | H)=0.9   一封垃圾邮件里出现"发票"的概率是90%

P(H)=0.2    一封邮件是垃圾邮件的概率是20%

P(X)=0.25  "发票"在邮件中出现的概率25%

最后算得:

当一封邮件含有 "发票"时,它是垃圾邮件的概率是 0.9*0.2/0.25=75%

它是垃圾邮件

贝叶斯公式实际可以做如下变形:

P(X | H)·  P(H)/P(X)=P(H | X)

先验概率   ·  似然比    = 后验概率

贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:

1、已知类条件概率密度参数表达式和先验概率。

2、利用贝叶斯公式转换成后验概率。

3、根据后验概率大小进行决策分类。

朴素贝叶斯分类器

概念介绍

朴素贝叶斯分类器是基于贝叶斯条件概率论为基础的,总体思想是:给定一个样本点,判断它属于第一类还是第二类的概率高。

朴素贝叶斯分类器原理

利用贝叶斯原理实现的分类器,过滤垃圾邮件,当某一封邮件里同时出现 "贷款","发票”,"理财"词汇时,请问它是垃圾邮件吗?

朴素贝叶斯的理论是认为每个变量 X1X2……之间是相互独立的,即"发票"词汇的出现和"贷款"词汇的出现没有必然联系。朴素贝叶斯就是基于这种场景下来求解的,因为这种求解方式简单,不考虑相关复杂性(如果考虑相关性,P(X | H)的计算开销将会非常大,需要计算2^n -1次,n为变量个数),所以叫朴素贝叶斯。

贝叶斯分类器的应用

1.流失用户的预警

贝叶斯分类广泛应用在现实生活中,比如流失用户的预警。

我们可以先根据以往的数据建立学习集,得出流失用户的特征,比如上线频率低,充值次数、充值金额低等。我们可以利用贝叶斯分类器判断出当前哪些用户是将流失用户,然后可以推送一些优惠或是提高抽卡、装备爆率等措施挽留。

2.用户画像

比如为用户建立其用户画像,分析其具备哪些特点爱好,然后做定向推送。也可以用贝叶斯来实现,比如系统里一共有10个标签(分类),然后结合用户数据,根据贝叶斯公式算出此用户属于每个标签(分类)的概率,这里我们可以设定一个阈值,比如35%。当用户属于此标签的概率>=35%时,就把此标签贴给这个用户。以后,可以定期向用户推荐符合其爱好的信息。

3.人脑中的贝叶斯,此外,每个人的人脑也是一个贝叶斯分类器。

早好上,各位学同们!欢迎学来习数据挖掘。 ——研究表明,字符的顺序不一定能影响阅读

这是因为我们已经有丰富的阅读学习集,当我们看到 "早”,"好”,"上”时,组成的含义“早上好”并不是由实际顺序决定,而是由贝叶斯原理从大脑中已有的学习中得到的。所以说,贝叶斯无处不在。


如果您看到这了,请点个赞为自己的努力加油!!!

贝叶斯算法 — 朴素贝叶斯分类器— 过滤垃圾邮件 — 流失用户 — 用户画像相关推荐

  1. java 朴素贝叶斯_朴素贝叶斯分类器和一般的贝叶斯分类器有什么区别?

    我根据自己理解,给出朴素贝叶斯分类算法的核心,在里面会有通俗详细的解释,希望对你有帮助~ 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类.而朴素朴素贝叶斯分类是贝叶斯 ...

  2. [实战] 朴素贝叶斯分类器进行垃圾邮件过滤

    我们已经讲解过朴素贝叶斯分类器的基本原理和实现:动手实现朴素贝叶斯分类器进行文档分类 在此基础上,我们实现垃圾邮件的过滤,数据为50封txt邮件 (1)将text文本文件,分成单词列表 使用正则表达式 ...

  3. python垃圾邮件识别_Python 手写朴素贝叶斯分类器检测垃圾邮件/短信

    自己从头手写一下这些经典的算法,不调用 sklearn 等 API,调一调参数,蛮有收获和启发. 数据集 概要:5572 条短信,13% 的 spam. 选择这个数据集的原因:短信的文本预处理要比 e ...

  4. 贝叶斯算法c语言,01 贝叶斯算法 - 朴素贝叶斯

    引子: 1.孩子的性别问题 已知一对夫妻生了2个孩子,其中一个是女孩,那么另一个也是女孩的概率的多少? 普遍大家会觉得生男生女都一样,所以另一个也是女孩的概率是1/2.而另一部分稍微聪明一点的人认为: ...

  5. 基于sklearn的朴素贝叶斯_朴素贝叶斯分类实战:对文档进行分类

    朴素贝叶斯分类最适合的场景就是文本分类.情感分析和垃圾邮件识别.其中情感分析和垃圾邮件识别都是通过文本来进行判断.所以朴素贝叶斯也常用于自然语言处理 NLP 的工具. sklearn 机器学习包 sk ...

  6. 朴素贝叶斯分类实验(垃圾邮件分类以及垃圾短信过滤数据集)

    文章目录 贝叶斯公式 先验概率 后验概率 贝叶斯定理 朴素贝叶斯分类器 拉普拉斯修正 防溢出策略 实现垃圾邮件分类 实现垃圾短信过滤(SMS数据集) 实验总结 贝叶斯公式 先验概率 P(cj)P(c_ ...

  7. 详解:贝叶斯算法(bayesian)在GCMail反垃圾邮件系统中的应用

    贝叶斯在在反垃圾邮件的产品中应用很多,也是当前最好的反垃圾邮件算法,著名的卡巴斯基病毒库代码就是采用贝叶斯过滤算法,在目前的邮件系统中采用贝叶斯过滤算法的唯有GCMAil邮件服务器.下面我就对贝叶斯反 ...

  8. matlab朴素贝叶斯工具箱,朴素贝叶斯分类matlab实现.doc

    朴素贝叶斯分类matlab实现 实验二 朴素贝叶斯分类 一.实验目的 通过实验,加深对统计判决与概率密度估计基本思想.方法的认识,了解影响Bayes分类器性能的因素,掌握基于Bayes决策理论的随机模 ...

  9. 人工智能知识全面讲解:垃圾邮件克星——朴素贝叶斯算法

    6.1 什么是朴素贝叶斯 6.1.1 一个流量预测的场景 某广告平台接到小明和小李两家服装店的需求,准备在A.B两个线上渠道 投放广告.因为小明和小李两家店都卖女装,属于同一行业相同品类的广告, 所以 ...

最新文章

  1. 前端如何获取后台通过map封装的值_如何舒服的写api接口?
  2. Python中的__name__和__main__含义详解
  3. Servlet实现的三种方法
  4. 中等职业学校计算机教学方法,浅析中等职业学校“计算机基础课”教学方法.doc...
  5. 先进制造技术论文_干货分享:新能源汽车先进制造技术
  6. ORACLE初始化参数文件详细文档
  7. 论文学习17-Global Normalization of Convolutional Neural Networks(联合实体关系抽取CNN+CRF)2017
  8. 给定数字的b+树创建_在C ++中找到给定数字中的两个的下一个和上一个幂
  9. 过河卒(信息学奥赛一本通-T1314)
  10. 如何用ssh工具连接自己的“小米手机”——雷总看了直呼内行!!!
  11. 20160828小结
  12. 無題(後改為總有那麼一句話)
  13. [Python-turtle]正弦定理能擦出多漂亮的火花?【1】
  14. 计算机科学与技术张萌,牢记使命,扬帆起航——记计算机科学学院两委第一次例会圆满召开...
  15. 景区大数据可预警客流量
  16. 2022年电工(初级)操作证考试题库及模拟考试
  17. 【Vscode - Bug】-- 过程试图写入的管道不存在
  18. IP协议详解之头部结构
  19. 使用java将多种类型的文件如Word、PDF、JPG汇总到一个文档中(Word或者PDF)
  20. 帆软内置数据集实现决策报表联动

热门文章

  1. 安卓使用MediaPlayer播放视频
  2. 游戏进化之路,Metaverse 的特征及难题
  3. 增加对IE11的兼容
  4. 3月18日 稠密光流FB,Deepflow,DIS,光流场的可视化
  5. RouterOS的DNS设置说明
  6. 【JavaSE】Java9Java10Java11新特性(687~717)
  7. Gooxi国产化服务器专题介绍之海光服务器
  8. Springboot---Model,ModelMap,ModelAndView
  9. 使用Huginn批量订阅微信公众号
  10. python名称由来_python的词源_python的由来_同根词_同源词_趣词词源字典