算法回顾

图片来源:https://medium.com/machine-learning-101/chapter-1-supervised-learning-and-naive-bayes-classification-part-1-theory-8b9e361897d5

贝叶斯分类算法属于有监督机器学习(Supervised Learning)。贝叶斯分类器是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。其中朴素贝叶斯分分类是贝叶斯分类中最简单的,也是最常见的一种分类方法。

朴素贝叶斯分类算法的核心如下公式:

P(A):它是先验该率(Prior Probability),是A发生的概率。

P(B): 是边际可能性(Marginal Likelihood):是B发生的概率。

P(B|A):是可能性(likelihood),基于给定的A,B发生的概率,即已知A发生,B发生的概率。

P(A|B):是后验概率(Posterior Probability):基于给定的B,A发生的概率,即已知B发生,A发生的概率。

换个表达式可能理解的就会更加透彻:

以下是从Udemy上借鉴的一个例子:

假设有两个特征,分别为工资(Salary)和年龄(Age),已知有两种分类分别为:步行(Walks)和自驾(Drives),如上图所示。

当有一个新数据点进来时(如灰色点),基于给定它的特征工资和年龄,应该把它分为哪类?

其中,$P(Walks) = {10} \over {30}$,$P(Drives)={20} \over {30}$。

首先计算P(Walks|X)的概率,可以参见如下公式:

首先,需要自定义一个参考集,如下图中虚线所示。

  • 先验概率(步行上班发生的概率)为:$P(Walks)={10} \over {40}$;
  • 边际可能性为:$P(X)={4} \over {30}$;
  • 可能性为:$P(X|Walks)={3} \over {10}$;
  • 后验概率(给定特征情况下,步行上班发生的概率)为:$P(Walks|X) = {0.3 * 0.25} \over {4 \over 30} = 0.75$。

计算$P(Walks|X)$后计算$P(Drivers|X)$,通过比较两个概率的大小,来决定灰色点属于哪类(Walks 或者 Drives)。通过比较不难得出灰色点属于“步行上班”类别(此处省略计算过程)。

在机器学习中,朴素贝叶斯分类器是基于贝叶斯理论(该理论中有很强的特征间独立性假设)的一个简单“概率分类”的家族。因此,朴素贝叶斯分类算法属于概率的机器学习(probabilistic machine learning),并且可应用于很多分类的任务中。典型的应用有垃圾邮件筛选(filtering spam),分类文件(classifying documents),情绪预测(sentiment prediction)。

在scikit-learn中,一共提供三种朴素贝叶斯的方法,分别为高斯朴素贝叶斯(Gaussian Naive Bayes)、二项式朴素贝叶斯(Multinomial Naive Bayes),伯努利朴素贝叶斯(Bernoulli Naive Bayes)和补足朴素贝叶斯(Complement Naive Bayes)。官方文档中给出以高斯朴素贝叶斯为例的代码,示例如下:

>>> from sklearn.datasets import load_iris
>>> from sklearn.model_selection import train_test_split
>>> from sklearn.naive_bayes import GaussianNB
>>> X, y = load_iris(return_X_y=True)
>>> X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)
>>> gnb = GaussianNB()
>>> y_pred = gnb.fit(X_train, y_train).predict(X_test)
>>> print("Number of mislabeled points out of a total %d points : %d"
...       % (X_test.shape[0], (y_test != y_pred).sum()))
Number of mislabeled points out of a total 75 points : 4 

概率校正

分类概率在一些机器模型中应用广泛,在scikit-learn中,大多数机器学习算法通过使用predict_proba函数,允许计算样本各类别的概率。这个功能对于一些情况下是极为有效的,例如,如果某一类的模型预测概率是大于欧90%的。但是,包括朴素贝叶斯等模型,它的模型预测概率与现实中的概率不尽相同。例如,函数predict_proba预测某个样本属于某类的样本概率是70%,而实际只有0.1或者0.99。尤其对于朴素贝叶斯模型而言,尽管不同目标类的预测概率有效(valid),但原始概率往往采用接仅0和1的极端值。

为了得到有意义的预测概率,需要采用模型“校正”(calibration)。在scikit-learn中,使用CalibratedClassifierCV分类,通过k折交叉验证(k-fold cross-validation)来生成“好的”校正的预测概率。在CalibratedClassifierCV中,训练集用于训练模型,测试集用于矫正模型预测概率。返回的预测概率是k-fold的均值。详见参考 文章。

代码示例如下:

# 导入相关的库
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
from sklearn.calibration import CalibratedClassifierCV
​
# 载入莺尾花数据集
iris = datasets.load_iris()
X = iris.data
y = iris.target
​
# 构建朴素贝叶斯分类对象
clf = GaussianNB()
​
# 构建校正器
clf_sigmoid = CalibratedClassifierCV(clf, cv=2, method='sigmoid')
​
# 构建带有校正概率的分类器
clf_sigmoid.fit(X, y)
​
# 构建新样本
new_observation = [[ 2.6,  2.6,  2.6,  0.4]]
​
# 得到矫正后的概率
clf_sigmoid.predict_proba(new_observation) 

根据Alexandru和Rich在2005年发表的题为“Predicting Good Probabilities With Supervised Learning”论文[1]中指出:对于朴素贝叶斯模型而言,对于不同校正集合的大小,Isotonic Regression的表现都优于Platt Scaling方法(在CalibratedClassifierCV中,用参数method定义)。因此,这对朴素贝叶斯模型的参数设置,可以优先考虑Isotonic Regression方法。

参考文章:

[1] Niculescu-Mizil, A., & Caruana, R. (2005, August). Predicting good probabilities with supervised learning. In Proceedings of the 22nd international conference on Machine learning (pp. 625-632).

(1)获取更多优质内容及精彩资讯,可前往:https://www.cda.cn/?seo

(2)了解更多数据领域的优质课程:

朴素贝叶斯(Naive Bayes)和校正曲线(Calibration Curve)相关推荐

  1. 朴素贝叶斯(naive bayes)

    朴素贝叶斯(naive bayes) 标签: Python 机器学习 主要參考资料:<机器学习实战><统计学习方法> 1.朴素贝叶斯分类原理 朴素贝叶斯法是基于贝叶斯定理和特征 ...

  2. 机器学习一:朴素贝叶斯(Naive Bayes)

    朴素贝叶斯 Naive Bayes 1. Introduction 1.1 离散属性 1.2 连续属性 1.2.1 Gaussian Naive Bayes 1.2.2 Multinomial Nai ...

  3. 【手写算法实现】 之 朴素贝叶斯 Naive Bayes 篇

    [手写算法实现] 之 朴素贝叶斯 Naive Bayes 篇 朴素贝叶斯模型(naive bayes)属于分类模型,也是最为简单的概率图模型,对于之后理解HMM.CRF等模型,大有裨益.这里手写算法介 ...

  4. 机器学习:基于朴素贝叶斯(Naive Bayes)的分类预测

    目录 一.简介和环境准备 简介: 环境: 二.实战演练 2.1使用葡萄(Wine)数据集,进行贝叶斯分类 1.数据导入 2.模型训练 3.模型预测 2.2模拟离散数据集–贝叶斯分类 1.数据导入.分析 ...

  5. 机器学习笔记——朴素贝叶斯(Naive Bayes)

    1贝叶斯算法简介 贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法.在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算 ...

  6. 朴素贝叶斯(Naive Bayes),“Naive”在何处?

    加上条件独立假设的贝叶斯方法就是朴素贝叶斯方法(Naive Bayes). Naive的发音是"乃一污",意思是"朴素的"."幼稚的".&q ...

  7. 西瓜书+实战+吴恩达机器学习(八)监督学习之朴素贝叶斯 Naive Bayes

    文章目录 0. 前言 1. 朴素贝叶斯算法 2. 半朴素贝叶斯算法 2.1. ODE 2.2. SPODE 2.3. TAN 2.4. AODE 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔 ...

  8. 机器学习算法: 朴素贝叶斯(Naive Bayes)

    朴素贝叶斯的介绍 朴素贝叶斯算法(Naive Bayes, NB) 是应用最为广泛的分类算法之一.它是基于贝叶斯定义和特征条件独立假设的分类器方法.由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数 ...

  9. 机器学习(十)分类算法之朴素贝叶斯(Naive Bayes)算法

    贝叶斯定理 首先我们来了解一下贝叶斯定理: 贝叶斯定理是用来做什么的?简单说,概率预测:某个条件下,一件事发生的概率是多大? 了解一下公式 事件B发生的条件下,事件A发生的概率为: 这里写图片描述 同 ...

  10. spark mllib 朴素贝叶斯 naive bayes

    为什么80%的码农都做不了架构师?>>>    数据源说明 第一列每行的标签,其他列为特征 运行代码如下 package spark.logisticRegressionimport ...

最新文章

  1. 王飞跃:平行汽车到平行驾驶,从“功能汽车”到“智能汽车”
  2. 使用OpenCV进行标定(Python)
  3. python perl 日本的应用_将perl-soap应用程序移植到python
  4. python有没有三元运算符_Python基础入门:从变量到异常处理(1)
  5. SpringMVC莫名其妙出现No bean named 'cacheManager' is defined错误
  6. 【人体姿态估计2】Real-time Multi-person 2d pose estimation using part affinity fields_2017
  7. captcha库_将CAPTCHA添加到您的GWT应用程序
  8. C语言面试-指针和引用的使用场景?
  9. OpenCV访问像素点的灰度值
  10. ModelMap和ModelAndView的作用
  11. 软件项目管理原则谈-转自51testing
  12. java集合框架中迭代器的作用_JAVA集合框架:Iterator迭代器
  13. 配置元件--HTTP授权管理器
  14. currentTarget与target的区别
  15. MMUlinux内核开启
  16. C# Color颜色RGB对照表
  17. PS2019渐变工具、油漆桶工具、3D材质拖放工具
  18. 从源数据库抽取数据到中间库
  19. decelerate(decelerates)
  20. 人体常用穴位按摩保健方法(动画图解)

热门文章

  1. 构造函数与方法的区别
  2. win10系统谷歌浏览器实现鼠标滚轮切换标签
  3. HCIE Datacom认证学什么内容
  4. 阿里云安骑士免费基础版和付费企业版功能区别及作用
  5. linux curl h 命令,Linux curl命令http cookie详解
  6. js匹配正则匹配手机号/固话/带括号区号固话
  7. Java8 Stream:2万字20个实例,玩转集合的筛选、归约、分组、聚合
  8. WeX5数据组件详解
  9. 人才外包公司中一个外包人员的成本分析
  10. 2022-2028年中国激光加工设备制造行业市场调查研究及发展前景规划报告