实战是学习一门技术最好的方式,也是深入了解一门技术唯一的方式。因此,NLP专栏计划推出一个实战专栏,让有兴趣的同学在看文章之余也可以自己动手试一试。

本篇介绍自然语言处理中一种比较简单,但是有效的文本分类手段:朴素贝叶斯模型。

作者&编辑 | 小Dream哥

1 朴素贝叶斯介绍 

贝叶斯决策论是在统计概率框架下进行分类决策的基本方法。对于分类任务来说,在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来预测分类。

朴素贝叶斯模型在训练过程,利用数据集D,计算P(c),P(x_i|c)。在预测时,输入样本,利用贝叶斯公式,计算n个类别的概率,最后输出概率最大的那个类别,作为预测的类别。

朴素贝叶斯模型分类的理论相关知识,在文章中有详细的介绍,感兴趣或者不清楚的朋友可以出门左转,再看一下。

假如我们有语料集D,文本可分为(c_1,c_2,...,c_n)个类别,我们根据语料集D,计算每个类别出现的概率P(c_i),以及当文本类别为c_i时,词x_i出现的概率P(x_i|c_i)。这样一个由m个词构成的文本(x_1,x_2,...,x_m)就可以根据上述公式预测出文本是各个类别的概率。

2 NLTK

Natural Language Toolkit,NLTK是一个开源的项目,包含:Python模块,数据集和教程,用于NLP的研究和开发,是一个不错的python工具包。此次我们介绍用NLTK里的NaiveBayesClassifier模块,来进行文本分类。

3 数据集准备

因为是文本分类任务,所以数据集是按类别分好的一系列文本,如下图所示:

这里因为只是展示,数据集比较简单,只有3个类别。在一个类别内,每条数据之间用分号隔开。

4 数据读取

数据读取的代码如下所示:

#1 进行数据读取

def read_data(filename):# 最后返回的是一个列表,结构如下[('我要打车','get_a_taxi'),('明天天气怎么样','get_weather')。。。]

数据读取过程的任务很简单,就是从语料文件中将语料读到内存中,组织成一个列表,列表中每一项组成为(data,label),如('明天天气怎么样','get_weather')。

5 特征选择及训练数据集构建

利用分词后的词性作为训练数据特征。最后喂给模型的数据是一个类似这样的列表

[({“t”:“明天”,“n”:“天气”,“r”:“怎么样” }, 'get_weather') ,... ]

#2.1 停用词处理#2 进行特征选择,这里利用分词后的词性作为特征

#3 构建训练数据集

6 训练及预测

训练及预测的过程很简单,就是调用NLTK的NaiveBayesClassifier模块,代码如下:

#训练模型

classifier = nltk.NaiveBayesClassifier.train(

get_features_sets('data.txt') )

#预测某一个文本的类别

print(predict_label)    ## get_weather

#预测某一个文本为某一个类别的概率print(classifier.prob_classify(get_word_features('请问明天的天气怎么样?')).prob(predict_label)) # 0.995154

我们展示一下预测的结果:

至此,介绍了如何利用NLTK的NaiveBayesClassifier模块进行文本分类,代码在我们有三AI的github可以下载:

https://github.com/longpeng2008/yousan.ai/tree/master/natural_language_processing

找到intention文件夹,执行python3 intent_recognition.py就可以运行了。

总结

文本分类常常用于情感分析、意图识别等NLP相关的任务中,是一个非常常见的任务,朴素贝叶斯本质上统计语料中对应类别中相关词出现的频率,并依此来预测测试文本。总的来说,它是一种非常便捷,效果可以接受的方法。

我们也会在知识星球讨论其他文本分类方法,感兴趣扫描下面的二维码了解。

读者们可以留言,或者加入我们的NLP群进行讨论。感兴趣的同学可以微信搜索jen104,备注"加入有三AI NLP群"

下期预告:命名实体识别实践

知识星球推荐

扫描上面的二维码,就可以加入我们的星球,助你成长为一名合格的自然语言处理算法工程师。

知识星球主要有以下内容:

(1) 聊天机器人。考虑到聊天机器人是一个非常复杂的NLP应用场景,几乎涵盖了所有的NLP任务及应用。所以小Dream哥计划以聊天机器人作为切入点,通过介绍聊天机器人的原理和实践,逐步系统的更新到大部分NLP的知识,会包括语义匹配,文本分类,意图识别,语义匹配命名实体识别、对话管理以及分词等。

(2) 知识图谱。知识图谱对于NLP各项任务效果好坏的重要性,就好比基础知识对于一个学生成绩好坏的重要性。他是NLP最重要的基础设施,目前各大公司都在着力打造知识图谱,作为一个NLP工程师,必须要熟悉和了解他。

(3) NLP预训练模型。基于海量数据,进行超大规模网络的无监督预训练。具体的任务再通过少量的样本进行Fine-Tune。这样模式是目前NLP领域最火热的模式,很有可能引领NLP进入一个全新发展高度。你怎么不深入的了解?

转载文章请后台联系

侵权必究

往期精选

【NLP实战系列】朴素贝叶斯文本分类实战相关推荐

  1. 八、朴素贝叶斯中文分类实战

    1.朴素贝叶斯中文分类实战 文本分类的流程如下图所示: 朴素贝叶斯中文分类的目录结构 中文分类的目录机构包括停用词文件.训练集文件和和测试集文件,具体内容如下图所示: 2 数据准备与处理 2.1 数据 ...

  2. 朴素贝叶斯文本分类java_朴素贝叶斯文本分类简单介绍

    本文介绍朴素贝叶斯算法如何对文本进行分类.比如,每个用户的购物评论就是一篇文本,识别出这篇文本属于正向评论还是负面评论 就是分类的过程,而类别就是:{正面评论,负面评论}.正面评论为Positive, ...

  3. 朴素贝叶斯文本分类(python代码实现)

    朴素贝叶斯(naive bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法. 优点:在数据较少的情况下仍然有效,可以处理多分类问题. 缺点:对入输入数据的准备方式较为敏感. 使用数据类型:标称 ...

  4. 朴素贝叶斯文本分类java_基于朴素贝叶斯的文本分类算法

    基于朴素贝叶斯的文本分类算法 摘要:常用的文本分类方法有支持向量机.K-近邻算法和朴素贝叶斯.其中朴素贝叶斯具有容易实现,运行速度快的特点,被广泛使用.本文详细介绍了朴素贝叶斯的基本原理,讨论多项式模 ...

  5. 机器学习实战:朴素贝叶斯算法在新闻文本数据上的分类表现

    https://www.toutiao.com/a6647102437532369421/ 2019-01-17 08:01:00 大家好,今天跟大家学习一下通过sklearn的朴素贝叶斯模型实战.前 ...

  6. 【白话机器学习】算法理论+实战之朴素贝叶斯

    1. 写在前面 如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,常见的机器学习算法: 监督学习算法:逻辑回归,线性回归,决策树,朴素贝叶斯,K近邻,支持向量机,集成算法Ad ...

  7. 白话 贝叶斯公式_【白话机器学习】算法理论+实战之朴素贝叶斯

    来自于: AI蜗牛车团队(作者:Miracle8070) 公众号: AI蜗牛车 原文链接:[白话机器学习]算法理论+实战之朴素贝叶斯​mp.weixin.qq.com 有兴趣的同学可以关注我的公众号: ...

  8. 贝叶斯与朴素贝叶斯入门及实战

    文章目录 什么是贝叶斯 朴素贝叶斯 原理 朴素贝叶斯优点 朴素贝叶斯缺点 贝叶斯模型 高斯分布朴素贝叶斯 多项式分布朴素贝叶斯 伯努利分布朴素贝叶斯 总结 贝叶斯实战 生成式模型和判别式模型的区别 什 ...

  9. 机器学习实战之朴素贝叶斯

    机器学习实战之朴素贝叶斯 一.朴素贝叶斯算法概述 1.贝叶斯决策理论 2.条件概率 3.全概率公式 4.贝叶斯推断 5.朴素贝叶斯推断 二.实战 三.总结 1.朴素贝叶斯推断的一些优点: 2.朴素贝叶 ...

最新文章

  1. 为窗口添加滚动条事件
  2. python gui开发工具_深入解析Python,透析应用开发,涵盖9大应用领域的Python框架...
  3. C/C++数组名与指针区别深入探索
  4. POJ 1821 Fence ★(单调队列优化DP)
  5. 思想实验(逻辑思维)解题
  6. VTK:网格之SimpleElevationFilter
  7. 前端学习(616):变量的定义
  8. JAVA零碎要点015---java BigDecimal常见操作_加减乘除操作_比较_取几位小数四舍五入_随时更新
  9. django 1.8 官方文档翻译: 2-1-3 模型元选项
  10. java语言的一些小语法
  11. LINUX下载编译redis
  12. qq空间把android改成iphone,qq空间改iPhone6 Plus方法 qq空间改手机型号教程
  13. 前端数据可视化之使用 canvas、svg、zrender画图
  14. 哈利波特AR游戏-巫师联盟 深度解析
  15. PPPOE和IPOE
  16. 常见的内存错误java_Java虚拟机常见内存溢出错误汇总,Java中常见的坑看了可以少走点弯路...
  17. 顺序图-循环和分支-操作符的使用
  18. 2022年淘宝女王节预售活动时间介绍
  19. 购物车-前后端分离版
  20. IELTS writing skills——学习笔记

热门文章

  1. 深入理解Java虚拟机-如何利用VisualVM对高并发项目进行性能分析
  2. 算法--06年华为面试:求两个数组的最小差值(Java实现)
  3. LeetCode 04寻找两个正序数组的中位数(困难)二分法
  4. pycharm 修改成中文教程(图文简单记录)
  5. typescript设置默认值_TypeScript 中神奇的 this 类型声明
  6. ccf-csp #201709-2 公共钥匙盒
  7. gcc-linux6.3,[环境配置]Ubuntu16.04下编译安装gcc6.3.0
  8. html伪类选择器代码,CSS3中结构性伪类选择器—:first-of-type实现名言标签(代码实例 )...
  9. 【教程】手把手企业FTP搭建实例
  10. 100+人的企业IP怎么进行安全配置 ?