标签(空格分隔): 数据分析


朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断。从这里你能看出来,这三个场景本质上都是文本分类,这也是朴素贝叶斯最擅长的地方。所以朴素贝叶斯也常用于自然语言处理 NLP 的工具。
sklearn 的全称叫 Scikit-learn,它给我们提供了 3 个朴素贝叶斯分类算法,分别是高斯朴素贝叶斯(GaussianNB)、多项式朴素贝叶斯(MultinomialNB)和伯努利朴素贝叶斯(BernoulliNB)。

这三种算法适合应用在不同的场景下,我们应该根据特征变量的不同选择不同的算法:

  • 高斯朴素贝叶斯:特征变量是连续变量,符合高斯分布,比如说人的身高,物体的长度。
  • 多项式朴素贝叶斯:特征变量是离散变量,符合多项分布,在文档分类中特征变量体现在一个单词出现的次数,或者是单词的 TF-IDF 值等。
  • 伯努利朴素贝叶斯:特征变量是布尔变量,符合 0/1 分布,在文档分类中特征是单词是否出现。

伯努利朴素贝叶斯是以文件为粒度,如果该单词在某文件中出现了即为 1,否则为 0。而多项式朴素贝叶斯是以单词为粒度,会计算在某个文件中的具体次数。而高斯朴素贝叶斯适合处理特征变量是连续变量,且符合正态分布(高斯分布)的情况。比如身高、体重这种自然界的现象就比较适合用高斯朴素贝叶斯来处理。而文本分类是使用多项式朴素贝叶斯或者伯努利朴素贝叶斯。

数据分析04-朴素贝叶斯相关推荐

  1. 《机器学习实战》-04 朴素贝叶斯

    说明: 作业的所有代码都要基于Python3 学习大纲:https://blog.csdn.net/qq_34243930/article/details/84669684 (所有计划均在学习大纲里) ...

  2. 04 朴素贝叶斯法——读书笔记

    一.相关概念: 先验概率: 是指事件发生前的预判概念,也可以说是"因"发生的概率,即表示为 P(X). 条件概率: 是指事件发生后求得反向条件概率,也可以说是在"因&qu ...

  3. 机器学习实战 - 读书笔记(04) - 朴素贝叶斯

    核心公式 - 贝叶斯准则 \[p(c|x) = \frac{p(x|c)p(c)}{p(x)}\] p(c|x) 是在x发生的情况下,c发生的概率. p(x|c) 是在c发生的情况下,x发生的概率. ...

  4. 数据分析基于朴素贝叶斯的书籍评价信息分类

    #-*-coding:utf-8-*- import pandas as pd import jieba from sklearn.feature_extraction.text import Cou ...

  5. (视频+图文)机器学习入门系列-第4章 朴素贝叶斯

    机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

  6. 贝叶斯数据分析_Python数据分析 · 朴素贝叶斯详解

    文章来源:公众号-俊红的数据分析之路 一.统计知识 01|随机事件: 1.概念 随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件).随机事件通 ...

  7. 04机器学习实战之朴素贝叶斯

    朴素贝叶斯 概述 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类.本章首先介绍贝叶斯分类算法的基础--贝叶斯定理.最后,我们通过实例来讨论贝叶斯分类的中最简单的一种: ...

  8. 16、数据分析--朴素贝叶斯

    贝叶斯公式 概率可以理解为某一件事情发生的可能性,记为 P(A) 我们可以使用文氏图的方式进行表示为: ​ 其中为必然事件 ​ 通过这个情况,我们其实可以将P(A)修改为P(A| Ω)= pA/pΠ ...

  9. 《数据分析实战》总结二之分类算法:决策树,朴素贝叶斯,SVM,KNN,Adaboost

    1 决策树 1.1 工作原理 把以前的经验总结出来,最后得到结果 比如打篮球,一般会根据"天气"."温度"."湿度"."刮风&qu ...

  10. 数据分享|Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户...

    原文链接:http://tecdat.cn/?p=23518 项目背景:银行的主要盈利业务靠的是贷款,这些客户中的大多数是存款大小不等的责任客户(存款人).银行拥有不断增长的客户(点击文末" ...

最新文章

  1. angular.isUndefined()
  2. python数据可视化库 动态的_Python数据可视化:Pandas库,只要一行代码就能实现...
  3. NowCoder小定律
  4. DLL+ ActiveX控件+WEB页面调用例子
  5. servlrt程序的入口点是_小程序深度报告:全网数量约550万,日活跃超4.4亿
  6. 索佳电子水准数据传输软件_183家软件服务行业上市公司完整名单及分析
  7. 跨路由器 网段访问rtsp_实验演示:三层交换机与路由器对接
  8. @interface自定义注解
  9. Layout 和 Menu【转】
  10. 项目管理指标_企业工程项目管理部门绩效考核KPI关键指标,共4个维度113项指标...
  11. 手把手教你用WPE“修改”各种魔兽SF
  12. centos7 安装java8
  13. City2vec:一种学习人口迁徙网络知识的新方法
  14. 领峰:普通人如何炒白银技巧和方法有哪些
  15. 【手把手】JavaWeb 入门级项目实战 -- 文章发布系统 (作者:剽悍一小兔)第七、八、九节学习随笔
  16. 『杭电1726』God’s cutter
  17. 【达摩院OpenVI】视频目标渐进式Transformer跟踪器ProContEXT
  18. 心流状态---人们做事时内心的一种状态
  19. Lidar 激光雷达与自动驾驶
  20. MySQL的各种安装方式都给你

热门文章

  1. 主设备号与次设备号代码分析---MAJOR、MINOR
  2. 前端js获取系统更新刷新页面
  3. 从六一宝宝节“共情消费”看苏宁易购“专注好服务”理念
  4. ADC 转换:神舟IV实验
  5. 计算机中心机房必须安装空调吗,机房精密空调安装方式和注意事项
  6. 八个超赞的两轮平衡小车设计,小白最爱
  7. 一招教你修复Win7更新KB3146706后的蓝屏死机
  8. 15.三层交换与二层交换、策略路由与路由策略
  9. 2015-2:新手入门之菜鸟也要用kali
  10. OriginLab OriginPro 2017/2018 b9.5 中文多语言 视频教程