sklearn朴素贝叶斯分类器_机器学习06——朴素贝叶斯
- 一、概率公式:
- 条件概率公式:
- 事件A发生的条件下,事件B发生的概率=事件A和事件B同时发生的概率/事件A发生的概率
- P(AB)=P(A)*P(B|A)
- 事件A和事件B同时发生的概率=事件A发生的概率*事件A发生的条件下,事件B发生的概率
- 全概率公式:
- 如果事件A1 A2 A3构成了必然事件Ω,且3个A事件相互独立,并且A1 A2 A3都是有可能发生的。那么对于该必然事件Ω中的事件B如图:
- 事件B发生的概率 =求和: 事件A发生的概率*事件A发生的条件下事件B发生的概率(如图:椭圆B等于它被事件A划开的3部分的和)
- 全概率公式可以理解为拼接部分求整体,而贝叶斯公式理解为拆分整体求某一部分。如下:
- 贝叶斯公式:(逆全概率公式)
- 以A1为例,P(A1|B)表示事件B发生条件下A1发生的概率,那么需要知道事件B发生的概率作为分母(因为事件B不发生,他们就不会有同时发生),事件A1和B同时发生的概率作为分子。
- P(B)带入全概率公式
- P(A1B)带入条件概率公式的变形
- 以A1为例,P(A1|B)表示事件B发生条件下A1发生的概率,那么需要知道事件B发生的概率作为分母(因为事件B不发生,他们就不会有同时发生),事件A1和B同时发生的概率作为分子。
- 得到贝叶斯公式
- 二、朴素贝叶斯
- 定义:
- 在机器学习中,朴素贝叶斯分类器是一系列以假设特征之间强独立(朴素)下运用贝叶斯定理为基 础的简单概率分类器。
- 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法 。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)
- 高度可扩展的,求解过程只需花费线性时间
- 定义:
- 应用:朴素贝叶斯在文本分类(text classification)的领域的应用多,无论是sklearn还是 Spark Mllib中,都只定制化地实现了在文本分类领域的算法。
- 案例理解:根据肤色(黑,黄),头发(卷,直)预测人是属于亚洲还是非洲地区。
- 朴素:假设特征间是独立的(忽略肤色和发型的联系)。从而变成了“低配版的贝叶斯模型”,称 为“朴素贝叶斯”。
- 优点是可以减少需要估计的参数的个数;缺点是会牺牲一定的分类准确率。 2*2*2
- 贝叶斯模型的参数数量是指数型的;而朴素贝叶斯的参数数量是线性的。2*(2+2)
- 朴素贝叶斯计算公式:
- 应用:朴素贝叶斯在文本分类(text classification)的领域的应用多,无论是sklearn还是 Spark Mllib中,都只定制化地实现了在文本分类领域的算法。
- 拉普拉斯平滑:
- 由于朴素贝叶斯公式中有一个缺陷:当某一个参数的概率值为0时,整个计算结果会为0,从而影响到预测结果。
- 拉普拉斯平滑:
- 以上图为例:在分子上加一个 λ,分母用标签数乘以 λ,这是为了保证‘亚洲’概率+‘非洲’概率的计算结果是1
- 在随机变量各个取值的频数上赋予一个正数,当值 ,称为拉普拉斯平滑。
- 三、特征工程—词频统计
- (一)TF (Term Frequency 词频)
- TF 词频,表示一个单词在文本中出现的频率,一般认为出现频率越高,该单词越重要。
- TF一般会归一化处理用以防止它偏向更长的文件:TF= 词频 / 文本总的单词数
- (一)TF (Term Frequency 词频)
- (二)TF- IDF (Inverse Document Frequency 逆向词频)
sklearn朴素贝叶斯分类器_机器学习06——朴素贝叶斯相关推荐
- sklearn朴素贝叶斯分类器_手撕朴素贝叶斯分类器源码(Naive Bayesian)
鋌~(最近压力略大,好久没有更新,xixixi),今天的主题是朴素贝叶斯分类器,NB这个缩写真是绝了,确实值得这个缩写,哈哈哈.今天跟大家聊一聊朴素贝叶斯分类器的基本原理和代码编写.贝叶斯分类器的基本 ...
- 多项式朴素贝叶斯分类器_多项式朴素贝叶斯分类器的主题预测
多项式朴素贝叶斯分类器 In Analytics Vidhya, Hackathon, there was a problem statement for text prediction of top ...
- 实现贝叶斯分类器_机器学习实战项目-朴素贝叶斯
朴素贝叶斯 概述 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类.本章首先介绍贝叶斯分类算法的基础--贝叶斯定理.最后,我们通过实例来讨论贝叶斯分类的中最简单的一种: ...
- sklearn朴素贝叶斯分类器_python机器学习:方法链和朴素贝叶斯分类器
今天我们在学习朴素贝叶斯分类器之前,我们先来总结下前面经常用到的内容,方法链:在scikit-learn中所有模型的fit方法返回的都是self.我们用一行代码初始化模型并拟合,对应代码如下:logr ...
- 机器学习实战_朴素贝叶斯分类器_预测疾病
import numpy as np""" 函数说明:创建实验样本 Parameters:无 Returns:postingList - 实验样本切分的词条classLi ...
- 朴素贝叶斯分类器_基于环境光补偿二进制图像对架空复合绝缘子进行疏水性判断的朴素贝叶斯分类器...
关注高电压技术,关注学科发展 内容整理自<High Voltage>2019年第4卷第4期 由Rajamohan Jayabal :Vijayarekha Karuppiyan ; Rak ...
- sklearn朴素贝叶斯分类器_朴素贝叶斯原理
贝叶斯分类算法是统计学是一种概率分类方法,朴素贝叶斯分类时贝叶斯分类中最简单的一种.利用贝叶斯公式根据某特征的先验概率计算出其后延概率,然后选择具有最大后延概率的类作为该特征所属的类.朴素贝叶斯,称之 ...
- 基于朴素贝叶斯分类器的西瓜数据集 2.0 预测分类_机器学习之朴素贝叶斯
1.贝叶斯原理 朴素贝叶斯分类(Naive Bayesian,NB)源于贝叶斯理论,是一类基于概率的分类器,其基本思想:假设样本属性之间相互独立,对于给定的待分类项,求解在此项出现的情况下其他各个类别 ...
- 基于朴素贝叶斯分类器的西瓜数据集 2.0 预测分类_第十章:利用Python实现朴素贝叶斯模型
免责声明:本文是通过网络收集并结合自身学习等途径合法获取,仅作为学习交流使用,其版权归出版社或者原创作者所有,并不对涉及的版权问题负责.若原创作者或者出版社认为侵权,请联系及时联系,我将立即删除文章, ...
最新文章
- 基于Linux的视频传输系统(上大学时參加的一个大赛的论文)
- 成为计算机视觉工程师的第一个月,我都学会了什么?
- shell shocked什么意思_shell脚本从入门到放弃
- android 看AP 国家代码,Android WiFi 获取国家码
- 面试被问mysql扩展性设计相关的点,你知道该如何回答吗
- doe全称是什么意思_QA、QC、QE…都是什么意思
- Linux平台kafaka安装及使用
- CodeUI Test:UIMap录制文件分析一
- 解压tar.gz文件与tar.bz2文件
- 2016-4-18 ICMPv6协议[RFC2463]--报文详解
- laravel 递归 无限层级分类
- Java 在Excel中添加水印
- 热门城市地铁svg矢量图
- JDK7官方下载地址
- Contest 1479 2018-ZZNU-ACM集训队 夏季队内积分赛 (3)K题(易水寒)
- Error: Java exception was raised during method invocation
- codeforces 884F 费用流,图解很清晰
- 关于手机系统。。。。
- 【转】模仿绘画风格的算法:A Neural Algorithm of Artistic Style
- 模型评估与改进(三)// 评估指标