朴素贝叶斯（Naive Bayes）和校正曲线（Calibration Curve）

算法回顾

图片来源：https://medium.com/machine-learning-101/chapter-1-supervised-learning-and-naive-bayes-classification-part-1-theory-8b9e361897d5

贝叶斯分类算法属于有监督机器学习（Supervised Learning）。贝叶斯分类器是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。其中朴素贝叶斯分分类是贝叶斯分类中最简单的，也是最常见的一种分类方法。

朴素贝叶斯分类算法的核心如下公式：

P(A)：它是先验该率（Prior Probability），是A发生的概率。

P(B)：是边际可能性（Marginal Likelihood）：是B发生的概率。

P(B|A)：是可能性（likelihood），基于给定的A，B发生的概率，即已知A发生，B发生的概率。

P(A|B)：是后验概率（Posterior Probability）：基于给定的B，A发生的概率，即已知B发生，A发生的概率。

换个表达式可能理解的就会更加透彻：

以下是从Udemy上借鉴的一个例子：

假设有两个特征，分别为工资（Salary）和年龄（Age），已知有两种分类分别为：步行（Walks）和自驾（Drives），如上图所示。

当有一个新数据点进来时（如灰色点），基于给定它的特征工资和年龄，应该把它分为哪类？

其中，$P(Walks) = {10} \over {30}$，$P(Drives)={20} \over {30}$。

首先计算P(Walks|X)的概率，可以参见如下公式：

首先，需要自定义一个参考集，如下图中虚线所示。

先验概率（步行上班发生的概率）为：$P(Walks)={10} \over {40}$；
边际可能性为：$P(X)={4} \over {30}$；
可能性为：$P(X|Walks)={3} \over {10}$；
后验概率（给定特征情况下，步行上班发生的概率）为：$P(Walks|X) = {0.3 * 0.25} \over {4 \over 30} = 0.75$。

计算$P(Walks|X)$后计算$P(Drivers|X)$，通过比较两个概率的大小，来决定灰色点属于哪类（Walks 或者 Drives）。通过比较不难得出灰色点属于“步行上班”类别（此处省略计算过程）。

在机器学习中，朴素贝叶斯分类器是基于贝叶斯理论（该理论中有很强的特征间独立性假设）的一个简单“概率分类”的家族。因此，朴素贝叶斯分类算法属于概率的机器学习（probabilistic machine learning），并且可应用于很多分类的任务中。典型的应用有垃圾邮件筛选（filtering spam），分类文件（classifying documents），情绪预测（sentiment prediction）。

在scikit-learn中，一共提供三种朴素贝叶斯的方法，分别为高斯朴素贝叶斯（Gaussian Naive Bayes）、二项式朴素贝叶斯（Multinomial Naive Bayes），伯努利朴素贝叶斯（Bernoulli Naive Bayes）和补足朴素贝叶斯（Complement Naive Bayes）。官方文档中给出以高斯朴素贝叶斯为例的代码，示例如下：

>>> from sklearn.datasets import load_iris
>>> from sklearn.model_selection import train_test_split
>>> from sklearn.naive_bayes import GaussianNB
>>> X, y = load_iris(return_X_y=True)
>>> X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)
>>> gnb = GaussianNB()
>>> y_pred = gnb.fit(X_train, y_train).predict(X_test)
>>> print("Number of mislabeled points out of a total %d points : %d"
...       % (X_test.shape[0], (y_test != y_pred).sum()))
Number of mislabeled points out of a total 75 points : 4

概率校正

分类概率在一些机器模型中应用广泛，在scikit-learn中，大多数机器学习算法通过使用predict_proba函数，允许计算样本各类别的概率。这个功能对于一些情况下是极为有效的，例如，如果某一类的模型预测概率是大于欧90%的。但是，包括朴素贝叶斯等模型，它的模型预测概率与现实中的概率不尽相同。例如，函数predict_proba预测某个样本属于某类的样本概率是70%，而实际只有0.1或者0.99。尤其对于朴素贝叶斯模型而言，尽管不同目标类的预测概率有效（valid），但原始概率往往采用接仅0和1的极端值。

为了得到有意义的预测概率，需要采用模型“校正”（calibration）。在scikit-learn中，使用CalibratedClassifierCV分类，通过k折交叉验证（k-fold cross-validation）来生成“好的”校正的预测概率。在CalibratedClassifierCV中，训练集用于训练模型，测试集用于矫正模型预测概率。返回的预测概率是k-fold的均值。详见参考文章。

代码示例如下：

# 导入相关的库
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
from sklearn.calibration import CalibratedClassifierCV

# 载入莺尾花数据集
iris = datasets.load_iris()
X = iris.data
y = iris.target

# 构建朴素贝叶斯分类对象
clf = GaussianNB()

# 构建校正器
clf_sigmoid = CalibratedClassifierCV(clf, cv=2, method='sigmoid')

# 构建带有校正概率的分类器
clf_sigmoid.fit(X, y)

# 构建新样本
new_observation = [[ 2.6,  2.6,  2.6,  0.4]]

# 得到矫正后的概率
clf_sigmoid.predict_proba(new_observation)

根据Alexandru和Rich在2005年发表的题为“Predicting Good Probabilities With Supervised Learning”论文[1]中指出：对于朴素贝叶斯模型而言，对于不同校正集合的大小，Isotonic Regression的表现都优于Platt Scaling方法（在CalibratedClassifierCV中，用参数method定义）。因此，这对朴素贝叶斯模型的参数设置，可以优先考虑Isotonic Regression方法。

参考文章：

[1] Niculescu-Mizil, A., & Caruana, R. (2005, August). Predicting good probabilities with supervised learning. In Proceedings of the 22nd international conference on Machine learning (pp. 625-632).

（1）获取更多优质内容及精彩资讯，可前往：https://www.cda.cn/?seo

（2）了解更多数据领域的优质课程：

朴素贝叶斯（Naive Bayes）和校正曲线（Calibration Curve）相关推荐

朴素贝叶斯(naive bayes)
朴素贝叶斯(naive bayes) 标签: Python 机器学习主要參考资料:<机器学习实战><统计学习方法> 1.朴素贝叶斯分类原理朴素贝叶斯法是基于贝叶斯定理和特征 ...
机器学习一：朴素贝叶斯(Naive Bayes)
朴素贝叶斯 Naive Bayes 1. Introduction 1.1 离散属性 1.2 连续属性 1.2.1 Gaussian Naive Bayes 1.2.2 Multinomial Nai ...
【手写算法实现】之朴素贝叶斯 Naive Bayes 篇
[手写算法实现] 之朴素贝叶斯 Naive Bayes 篇朴素贝叶斯模型(naive bayes)属于分类模型,也是最为简单的概率图模型,对于之后理解HMM.CRF等模型,大有裨益.这里手写算法介 ...
机器学习：基于朴素贝叶斯(Naive Bayes)的分类预测
目录一.简介和环境准备简介: 环境: 二.实战演练 2.1使用葡萄(Wine)数据集,进行贝叶斯分类 1.数据导入 2.模型训练 3.模型预测 2.2模拟离散数据集–贝叶斯分类 1.数据导入.分析 ...
机器学习笔记——朴素贝叶斯(Naive Bayes)
1贝叶斯算法简介贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法.在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算 ...
朴素贝叶斯(Naive Bayes)，“Naive”在何处？
加上条件独立假设的贝叶斯方法就是朴素贝叶斯方法(Naive Bayes). Naive的发音是"乃一污",意思是"朴素的"."幼稚的".&q ...
西瓜书+实战+吴恩达机器学习（八）监督学习之朴素贝叶斯 Naive Bayes
文章目录 0. 前言 1. 朴素贝叶斯算法 2. 半朴素贝叶斯算法 2.1. ODE 2.2. SPODE 2.3. TAN 2.4. AODE 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔 ...
机器学习算法: 朴素贝叶斯(Naive Bayes)
朴素贝叶斯的介绍朴素贝叶斯算法(Naive Bayes, NB) 是应用最为广泛的分类算法之一.它是基于贝叶斯定义和特征条件独立假设的分类器方法.由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数 ...
机器学习（十）分类算法之朴素贝叶斯(Naive Bayes)算法
贝叶斯定理首先我们来了解一下贝叶斯定理: 贝叶斯定理是用来做什么的?简单说,概率预测:某个条件下,一件事发生的概率是多大? 了解一下公式事件B发生的条件下,事件A发生的概率为: 这里写图片描述同 ...
spark mllib 朴素贝叶斯 naive bayes
为什么80%的码农都做不了架构师?>>> 数据源说明第一列每行的标签,其他列为特征运行代码如下 package spark.logisticRegressionimport ...

朴素贝叶斯（Naive Bayes）和校正曲线（Calibration Curve）

概率校正

朴素贝叶斯（Naive Bayes）和校正曲线（Calibration Curve）相关推荐

最新文章

热门文章