机器学习 --- 朴素贝叶斯分类器 python

简介
朴素贝叶斯分类算法是基于贝叶斯理论和特征条件独立假设的分类算法。对于给定的训练集，首先基于特征条件独立假设学习数据的概率分布。然后基于此模型，对于给定的特征数据x，利用贝叶斯定理计算出标签y。朴素贝叶斯分类算法实现简单，预测效率很高，是一种常用的分类算法。
本实训项目的主要内容是基于 Python 语言搭建朴素贝叶斯分类器，并使用sklearn 实现新闻文本进行主题分类的功能。

朴素贝叶斯分类算法流程

import numpy as npclass NaiveBayesClassifier(object):def __init__(self):'''self.label_prob表示每种类别在数据中出现的概率例如，{0:0.333, 1:0.667}表示数据中类别0出现的概率为0.333，类别1的概率为0.667'''self.label_prob = {}'''self.condition_prob表示每种类别确定的条件下各个特征出现的概率例如训练数据集中的特征为 [[2, 1, 1],[1, 2, 2],[2, 2, 2],[2, 1, 2],[1, 2, 3]]标签为[1, 0, 1, 0, 1]那么当标签为0时第0列的值为1的概率为0.5，值为2的概率为0.5;当标签为0时第1列的值为1的概率为0.5，值为2的概率为0.5;当标签为0时第2列的值为1的概率为0，值为2的概率为1，值为3的概率为0;当标签为1时第0列的值为1的概率为0.333，值为2的概率为0.666;当标签为1时第1列的值为1的概率为0.333，值为2的概率为0.666;当标签为1时第2列的值为1的概率为0.333，值为2的概率为0.333,值为3的概率为0.333;因此self.label_prob的值如下：     {0:{0:{1:0.52:0.5}1:{1:0.52:0.5}2:{1:02:13:0}}1:{0:{1:0.3332:0.666}1:{1:0.3332:0.666}2:{1:0.3332:0.3333:0.333}}}'''self.condition_prob = {}def fit(self, feature, label):'''对模型进行训练，需要将各种概率分别保存在self.label_prob和self.condition_prob中:param feature: 训练数据集所有特征组成的ndarray:param label:训练数据集中所有标签组成的ndarray:return: 无返回'''#********* Begin *********#row_num = len(feature)col_num = len(feature[0])for c in label:if c in self.label_prob:self.label_prob[c] += 1else:self.label_prob[c] = 1for key in self.label_prob.keys():# 计算每种类别在数据集中出现的概率self.label_prob[key] /= row_num# 构建self.condition_prob中的keyself.condition_prob[key] = {}for i in range(col_num):self.condition_prob[key][i] = {}for k in np.unique(feature[:, i], axis=0):self.condition_prob[key][i][k] = 0for i in range(len(feature)):for j in range(len(feature[i])):if feature[i][j] in self.condition_prob[label[i]]:self.condition_prob[label[i]][j][feature[i][j]] += 1else:self.condition_prob[label[i]][j][feature[i][j]] = 1for label_key in self.condition_prob.keys():for k in self.condition_prob[label_key].keys():total = 0for v in self.condition_prob[label_key][k].values():total += vfor kk in self.condition_prob[label_key][k].keys():#计算每种类别确定的条件下各个特征出现的概率self.condition_prob[label_key][k][kk] /= total#********* End *********#def predict(self, feature):'''对数据进行预测，返回预测结果:param feature:测试数据集所有特征组成的ndarray:return:'''# ********* Begin *********#result = []#对每条测试数据都进行预测for i, f in enumerate(feature):#可能的类别的概率prob = np.zeros(len(self.label_prob.keys()))ii = 0for label, label_prob in self.label_prob.items():#计算概率prob[ii] = label_probfor j in range(len(feature[0])):prob[ii] *= self.condition_prob[label][j][f[j]]ii += 1#取概率最大的类别作为结果result.append(list(self.label_prob.keys())[np.argmax(prob)])return np.array(result)#********* End *********#

拉普拉斯平滑

import numpy as npclass NaiveBayesClassifier(object):def __init__(self):'''self.label_prob表示每种类别在数据中出现的概率例如，{0:0.333, 1:0.667}表示数据中类别0出现的概率为0.333，类别1的概率为0.667'''self.label_prob = {}'''self.condition_prob表示每种类别确定的条件下各个特征出现的概率例如训练数据集中的特征为 [[2, 1, 1],[1, 2, 2],[2, 2, 2],[2, 1, 2],[1, 2, 3]]标签为[1, 0, 1, 0, 1]那么当标签为0时第0列的值为1的概率为0.5，值为2的概率为0.5;当标签为0时第1列的值为1的概率为0.5，值为2的概率为0.5;当标签为0时第2列的值为1的概率为0，值为2的概率为1，值为3的概率为0;当标签为1时第0列的值为1的概率为0.333，值为2的概率为0.666;当标签为1时第1列的值为1的概率为0.333，值为2的概率为0.666;当标签为1时第2列的值为1的概率为0.333，值为2的概率为0.333,值为3的概率为0.333;因此self.label_prob的值如下：     {0:{0:{1:0.52:0.5}1:{1:0.52:0.5}2:{1:02:13:0}}1:{0:{1:0.3332:0.666}1:{1:0.3332:0.666}2:{1:0.3332:0.3333:0.333}}}'''self.condition_prob = {}def fit(self, feature, label):'''对模型进行训练，需要将各种概率分别保存在self.label_prob和self.condition_prob中:param feature: 训练数据集所有特征组成的ndarray:param label:训练数据集中所有标签组成的ndarray:return: 无返回'''#********* Begin *********#row_num = len(feature)col_num = len(feature[0])unique_label_count = len(set(label))for c in label:if c in self.label_prob:self.label_prob[c] += 1else:self.label_prob[c] = 1for key in self.label_prob.keys():# 计算每种类别在数据集中出现的概率，拉普拉斯平滑self.label_prob[key] += 1self.label_prob[key] /= (unique_label_count+row_num)# 构建self.condition_prob中的keyself.condition_prob[key] = {}for i in range(col_num):self.condition_prob[key][i] = {}for k in np.unique(feature[:, i], axis=0):self.condition_prob[key][i][k] = 1for i in range(len(feature)):for j in range(len(feature[i])):if feature[i][j] in self.condition_prob[label[i]]:self.condition_prob[label[i]][j][feature[i][j]] += 1for label_key in self.condition_prob.keys():for k in self.condition_prob[label_key].keys():#拉普拉斯平滑total = len(self.condition_prob[label_key].keys())for v in self.condition_prob[label_key][k].values():total += vfor kk in self.condition_prob[label_key][k].keys():# 计算每种类别确定的条件下各个特征出现的概率self.condition_prob[label_key][k][kk] /= total#********* End *********#def predict(self, feature):'''对数据进行预测，返回预测结果:param feature:测试数据集所有特征组成的ndarray:return:'''result = []# 对每条测试数据都进行预测for i, f in enumerate(feature):# 可能的类别的概率prob = np.zeros(len(self.label_prob.keys()))ii = 0for label, label_prob in self.label_prob.items():# 计算概率prob[ii] = label_probfor j in range(len(feature[0])):prob[ii] *= self.condition_prob[label][j][f[j]]ii += 1# 取概率最大的类别作为结果result.append(list(self.label_prob.keys())[np.argmax(prob)])return np.array(result)

新闻文本主题分类

from sklearn.feature_extraction.text import CountVectorizer  # 从sklearn.feature_extraction.text里导入文本特征向量化模块
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfTransformerdef news_predict(train_sample, train_label, test_sample):'''训练模型并进行预测，返回预测结果:param train_sample:原始训练集中的新闻文本，类型为ndarray:param train_label:训练集中新闻文本对应的主题标签，类型为ndarray:test_sample:原始测试集中的新闻文本，类型为ndarray'''# ********* Begin *********#vec = CountVectorizer()train_sample = vec.fit_transform(train_sample)test_sample = vec.transform(test_sample)tfidf = TfidfTransformer()train_sample = tfidf.fit_transform(train_sample)test_sample = tfidf.transform(test_sample)mnb = MultinomialNB(alpha=0.01)  # 使用默认配置初始化朴素贝叶斯mnb.fit(train_sample, train_label)  # 利用训练数据对模型参数进行估计predict = mnb.predict(test_sample)  # 对参数进行预测return predict# ********* End *********#

感谢大家的支持！！！！！记得点赞！！！

机器学习 --- 朴素贝叶斯分类器 python相关推荐

朴素贝叶斯分类器原理介绍及python代码实现
目录频率学派和贝叶斯学派朴素贝叶斯分类器 python实现朴素贝叶斯分类器频率学派和贝叶斯学派说起概率统计,不得不提到频率学派和贝叶斯学派,通过对概率的不同理解而演变的两个不同的概率学派. 频 ...
多项式朴素贝叶斯分类器_多项式朴素贝叶斯分类器的主题预测
多项式朴素贝叶斯分类器 In Analytics Vidhya, Hackathon, there was a problem statement for text prediction of top ...
机器学习：基于概率的朴素贝叶斯分类器详解--Python实现以及项目实战
前言前篇基础理论知识:机器学习:贝叶斯分类器详解(一)-贝叶斯决策理论与朴素贝叶斯这篇主要使用代码实现贝叶斯分类. 一.准备数据创建一个bayes.py程序,从文本中构建词向量,实现词表向向量转 ...
机器学习（十一）-Naïve Bayes Classifier朴素贝叶斯分类器及Python实现
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080 本次代码的环境: 运行平台: Windows Python版本: ...
用Python开始机器学习（6：朴素贝叶斯分类器）
朴素贝叶斯分类器是一个以贝叶斯定理为基础,广泛应用于情感分类领域的优美分类器.本文我们尝试使用该分类器来解决上一篇文章中影评态度分类. 1.贝叶斯定理假设对于某个数据集,随机变量C表示样本为C类的概 ...
【机器学习算法-python实现】扫黄神器-朴素贝叶斯分类器的实现
1.背景以前我在外面公司实习的时候,一个大神跟我说过,学计算机就是要一个一个贝叶斯公式的套用来套用去.嗯,现在终于用到了.朴素贝叶斯分类器据说是好多扫黄软件使用的算法,贝叶斯公式也比较简单 ...
机器学习：伯努利朴素贝叶斯分类器（原理+python实现）
伯努利朴素贝叶斯分类器主要用于文本分类,下面我们以一个具体的例子,来讲述下伯努利朴素贝叶斯的原理和实现逻辑. 具体例子: 已知我们有八个句子以及每个句子对应的类别,即中性或侮辱性.那么再给出一个句子, ...
【火炉炼AI】机器学习013-用朴素贝叶斯分类器估算个人收入阶层
[火炉炼AI]机器学习013-用朴素贝叶斯分类器估算个人收入阶层 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matp ...
（数据科学学习手札30）朴素贝叶斯分类器的原理详解Python与R实现
一.简介要介绍朴素贝叶斯(naive bayes)分类器,就不得不先介绍贝叶斯决策论的相关理论: 贝叶斯决策论(bayesian decision theory)是概率框架下实施决策的基本方法.对分 ...

机器学习 --- 朴素贝叶斯分类器 python

机器学习 --- 朴素贝叶斯分类器 python相关推荐

最新文章

热门文章