Machine Learning | 机器学习简介

Machine Learning | (1) Scikit-learn与特征工程

Machine Learning | (2) sklearn数据集与机器学习组成

Machine Learning | (3) Scikit-learn的分类器算法-k-近邻

Machine Learning | (4) Scikit-learn的分类器算法-逻辑回归

Machine Learning | (5) Scikit-learn的分类器算法-朴素贝叶斯


朴素贝叶斯

朴素贝叶斯(Naive Bayes)是一个非常简单,但是实用性很强的分类模型。朴素贝叶斯分类器的构造基础是贝叶斯理论。

概率论基础

概率定义为一件事情发生的可能性。事情发生的概率可以 通过观测数据中的事件发生次数来计算,事件发生的概率等于改事件发生次数除以所有事件发生的总次数。举一些例子:

  • 扔出一个硬币,结果头像朝上
  • 某天是晴天
  • 某个单词在未知文档中出现

我们将事件的概率记作P(X),那么假设这一事件为X属于样本空间中的一个类别,那么0≤P(X)≤1。

联合概率与条件概率

  • 联合概率

是指两件事情同时发生的概率。那么我们假设样本空间有一些天气数据:

是指两件事情同时发生的概率。那么我们假设样本空间有一些天气数据:

编号 星期几 天气
1 2 晴天
2 1 下雨
3 3 晴天
4 4 晴天
5 1 下雨
6 2 下雪
7 3 下雪

a = "life is short,i like python"
b = "life is too long,i dislike python"
c = "yes,i like python"
label=[1,0,1]

词袋法的特征值计算

若使用词袋法,且以训练集中的文本为词汇表,即将训练集中的文本中出现的单词(不重复)都统计出来作为词典,那么记单词的数目为n,这代表了文本的n个维度。以上三个文本在这8个特征维度上的表示为:

  life is i short long like dislike too python yes
a' 1 1 1 1 0 1 0 0 1 0
b' 1 1 1 0 1 0 1 1 1 0
c' 0 0 1 0 0 1 0 0 1 1

上面a',b'就是两个文档的词向量的表现形式,对于贝叶斯公式,从label中我们可以得出两个类别的概率为:

P(c​i​​=1)=0.5,P(c​i​​=0)=0.5

对于一个给定的文档类别,每个单词特征向量的概率是多少呢?

提供一种TF计算方法,为类别y_ky​k​​每个单词出现的次数N_iN​i​​,除以文档类别y_ky​k​​中所有单词出现次数的总数NN:

P​i​​=​N​​/N​i​​​​

首先求出现总数,对于1类别文档,在a'中,就可得出总数为1+1+1+1+1+1=6,c'中,总共1+1+1+1=4,故在1类别文档中总共有10次

每个单词出现总数,假设是两个列表,a'+c'就能得出每个单词出现次数,比如P(w=python)=​2​​/10=0.20000000,同样可以得到其它的单词概率。最终结果如下:

# 类别1文档中的词向量概率
p1 = [0.10000000,0.10000000,0.20000000,0.10000000,0,0.20000000,0,0,0.20000000,0.10000000]
# 类别0文档中的词向量概率
p0 = [0.16666667,0.16666667,0.16666667,0,0.16666667,0,0.16666667,0.16666667,0.16666667,0]

拉普拉斯平滑系数

为了避免训练集样本对一些特征的缺失,即某一些特征出现的次数为0,在计算P(X​1​​,X​2​​,X​3​​,...,X​n​​∣Y​i​​)的时候,各个概率相乘最终结果为零,这样就会影响结果。我们需要对这个概率计算公式做一个平滑处理:

P​i​​=​N+α∗m​​ / N​i​​+α​​

其中mm为特征词向量的个数,\alphaα为平滑系数,当\alpha{=}1α=1,称为拉普拉斯平滑

sklearn.naive_bayes.MultinomialNB

class sklearn.naive_bayes.MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)""":param alpha:float,optional(default = 1.0)加法(拉普拉斯/ Lidstone)平滑参数(0为无平滑)"""

互联网新闻分类

读取20类新闻文本的数据细节

from sklearn.datasets import fetch_20newsgroupsnews = fetch_20newsgroups(subset='all')print news.data[0]

上述代码得出该数据共有18846条新闻,但是这些文本数据既没有被设定特征,也没有数字化的亮度。因此,在交给朴素贝叶斯分类器学习之前,要对数据做进一步的处理。

20类新闻文本数据分割

from sklearn.cross_validation import train_test_splitX_train,X_test,y_train,y_test = train_test_split(news.data,news.target,test_size=0.25,random_state=42)

文本转换为特征向量进行TF特征抽取

from sklearn.feature_extraction.text import CountVectorizervec = CountVectorizer()
# 训练数据输入,并转换为特征向量
X_train = vec.fit_transform(X_train)
# 测试数据转换
X_test = vec.transform(X_test)

朴素贝叶斯分类器对文本数据进行类别预测

from sklearn.naive_bayes import MultinomialNB# 使用平滑处理初始化的朴素贝叶斯模型
mnb = MultinomialNB(alpha=1.0)# 利用训练数据对模型参数进行估计
mnb.fit(X_train,y_train)# 对测试验本进行类别预测。结果存储在变量y_predict中
y_predict = mnb.predict(X_test)

性能测试

  • 特点分析

朴素贝叶斯模型被广泛应用于海量互联网文本分类任务。由于其较强的特征条件独立假设,使得模型预测所需要估计的参数规模从幂指数量级想线性量级减少,极大的节约了内存消耗和计算时间。到那时,也正是受这种强假设的限制,模型训练时无法将各个特征之间的联系考量在内,使得该模型在其他数据特征关联性较强的分类任务上的性能表现不佳

参考资料

Machine Learning | (5) Scikit-learn的分类器算法-朴素贝叶斯相关推荐

  1. Hands On Machine Learning with Scikit Learn and TensorFlow(第三章)

    MNIST 从sklearn自带函数中导入NMIST 第一次导入可能会出错,从这里下载https://github.com/amplab/datascience-sp14/blob/master/la ...

  2. 【机器学习算法-朴素贝叶斯、支持向量机】

    机器学习算法-朴素贝叶斯算法 1.朴素贝叶斯算法 2.支持向量机 2.1SVM基本综述 1.朴素贝叶斯算法 朴素贝叶斯是生成模型,需要根据已有的数据求出先验概率. 1.联合概率 2.条件概率 3.相互 ...

  3. a*算法的优缺点_轻松理解机器学习算法-朴素贝叶斯

    1.预备知识 贝叶斯定理(Bayes' theorem)是概率论中的一个定理,它跟随机变量的条件概率以及边缘概率分布有关.通常事件A在事件B发生的条件下的概率,与事件B在事件A发生的条件下的概率是不一 ...

  4. python推荐系统算法朴素贝叶斯_机器学习经典算法之朴素贝叶斯分类

    很多人都听说过贝叶斯原理,在哪听说过?基本上是在学概率统计的时候知道的.有些人可能会说,我记不住这些概率论的公式,没关系,我尽量用通俗易懂的语言进行讲解. 贝叶斯原理是英国数学家托马斯·贝叶斯提出的. ...

  5. 贝叶斯算法c语言,01 贝叶斯算法 - 朴素贝叶斯

    引子: 1.孩子的性别问题 已知一对夫妻生了2个孩子,其中一个是女孩,那么另一个也是女孩的概率的多少? 普遍大家会觉得生男生女都一样,所以另一个也是女孩的概率是1/2.而另一部分稍微聪明一点的人认为: ...

  6. 基础算法-朴素贝叶斯分类器

    一.算法简介 1.1 背景 监督学习分为生成模型 (generative model) 与判别模型 (discriminative model),贝叶斯方法正是生成模型的代表 (还有隐马尔科夫模型). ...

  7. 机器学习算法 - 朴素贝叶斯分类器

    ​ 一.算法简介 1.1 背景 监督学习分为生成模型 (generative model) 与判别模型 (discriminative model) 判别模型:SVM, LR, KNN, NN, CR ...

  8. 0基础讲解机器学习算法-朴素贝叶斯分类器

    朴素贝叶斯分类器可以说是最经典的基于统计的机器学习模型了.首先,暂且不管贝叶斯是什么意思,朴素这个名字放在分类器中好像有所深意. 一查,发现这个分类器的英文是"Naïve Bayes&quo ...

  9. python机器学习案例系列教程——文档分类器,朴素贝叶斯分类器,费舍尔分类器

    全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 github地址:https://github.com/626626cdllp/data-mining/tree/master/Bay ...

最新文章

  1. ubuntu14.04安装hadoop2.6.0(伪分布模式)
  2. eclipse下新建py文件的辅助信息设置
  3. 常见通信协议HTTP、TCP、UDP的简单介绍
  4. openshift 部署_在OpenShift上部署Java EE微服务
  5. WordPress更改“固定链接”后 页面404原因及解决方法(Nginx版)
  6. 照片看3秒就销毁的软件_3.9秒破百,比亚迪汉EV到店实拍:实车比照片更好看
  7. form的get与post方式的区别(转)
  8. 毕业论文封面LaTeX模板
  9. 光盘DOS启动盘制作
  10. php家乡介绍网页,家乡网站设计与实现.doc
  11. 简繁体计算机术语对照表
  12. 基于易班API的Java开发入门教程
  13. 为什么叫区块链存储?兼谈IPFSFilecoin, Chia
  14. Tesseract OCR简介(三)--安装及参数使用
  15. (3)tesorflow 计算模型复杂度
  16. 问题 sparksql Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded
  17. Etcd部分常用命令+采坑
  18. SNS(社交类)的评论排序问题汇总
  19. 用自卑感塑造更好地自己
  20. 计算机大赛响亮口号,登山比赛团队名称和团队口号

热门文章

  1. 小型企业Exchange server 2010高可用性方案要注意咯!
  2. WINDOWS SERVER 2003从入门到精通之配置DHCP服务器(上)
  3. UNICODE字符集表
  4. 分布式缓存的选择及问题
  5. 互联网大厂月饼哪家强?我看了之后,口水流了一地!
  6. 真正的在线教育,开始萌芽了
  7. 企业如何突破增长瓶颈?
  8. 三次握手+四次挥手,一文搞定所有!历史最佳剖析!
  9. 来客推商城V3多用户uni-app商城源码如何搭建?盈利模式怎么样的?
  10. 数组-删除排序数组中的重复项(双指针法)