七、朴素贝叶斯中文文本分类
1.朴素贝叶斯中文文本分类
- 中文分词
- 停用词
- 朴素贝叶斯中文分类举例:新闻文档分类
- 朴素贝叶斯中文分类的具体过程:加载停用词、中文分词、文本向量化、模型训练和保存、模型的加载和预测。
2 中文分词
2.1 中文的分词的作用
- 在中文自然语言处理中,词是最小的能够独立活动的有意义的语言成分。汉语是以字为基本书写单位,词语之间没有明显的区分标记,因此进行中文自然语言处理通常是先将汉语文本中的字符串切分成合理的词语序列,然后再在此基础上进行其它分析处理。
2.2 对文档分词
- 常用的分词工具包括:jieba、THULAC和pkuseg
- 一篇文档是由若干词汇组成的,也就是文档的主要信息是词汇。
- 可以使用一些关键词来描述文档,提取文档中的关键词,就需要对文档进行分词
2.3 jieba分词
- jieba是一款非常流行中文开源分词包,具有高性能、准确率、可扩展性等特点。
- jieba支持四种分词模式:精确模式、搜索引擎模式、全模式和paddle模式。
3 结巴分词的实现
在这里插入代码片
import jieba# jieba分词
def method():seg_list = jieba.cut("我们正在学习自然语言处理", cut_all=False)print("【精确模式】:\t" + "/ ".join(seg_list)) # 精确模式,默认seg_list = jieba.cut_for_search("我们正在学习自然语言处理")print("【搜索引擎模式】:\t" + "/ ".join(seg_list)) # 搜索引擎模式seg_list = jieba.cut("我们正在学习自然语言处理", cut_all=True)print("【全模式】:\t\t" + "/".join(seg_list)) # 全模式seg_list = jieba.cut("我们正在学习自然语言处理", use_paddle=True) # 使用paddle模式print("【paddle模式】:\t" + '/ '.join(list(seg_list)))# main方法
def main():method()if __name__ == '__main__':main()
4 停用词
4.1 停用词的作用
- 停用词是一些非常普遍使用的词语,对文档分析作用不大,在文档分析之前需要将这些词去掉 。
- 中文停用词:“你,我,他,它,的,了” 等。
- 英文停用词:“is,a,the,this,that” 等。
- 停用词文件:停用词一般保存在文件中,需要自行读取。
5 新闻文档分类
5.1 中文分别分类:新闻文档分类
- 新闻文档报道,假设主题有三种类型:娱乐、政治、体育,假设现在有一篇新闻文档x,请预测x属于哪种新闻类型?
具体思路
- 计算x属于娱乐新闻,政治新闻,体育新闻的三个概率值,然后比较哪个概率值大,就把X分到这个类别中。
贝叶斯公式计算可得:
步骤一:
搜集10000篇关于娱乐,政治,体育三类新闻文档作为训练样本:
步骤二:计算类条件概率
步骤三:
- 根据概率,判断对应文档的类别
七、朴素贝叶斯中文文本分类相关推荐
- 基于朴素贝叶斯的文本分类算法
基于朴素贝叶斯的文本分类算法 摘要:常用的文本分类方法有支持向量机.K-近邻算法和朴素贝叶斯.其中朴素贝叶斯具有容易实现,运行速度快的特点,被广泛使用.本文详细介绍了朴素贝叶斯的基本原理,讨论多项式模 ...
- 朴素贝叶斯网络matlab实现_基于朴素贝叶斯的文本分类方法实战
基于朴素贝叶斯的文本分类方法 一.朴素贝叶斯原理的介绍 二.朴素贝叶斯分类器的代码实现 分类器有时会产生错误结果,这时可以要求分类器给出一个最优的类别猜测结果,同时会给出这个猜测的概率估计值.朴素贝叶 ...
- 基于朴素贝叶斯实现文本分类
基于朴素贝叶斯实现文本分类 数据集介绍 数据集为网上公开的新闻数据,其中数据集包含10个类别. 模型选择 贝叶斯分类 贝叶斯公式 朴素贝叶斯 拉普拉斯平滑引入 某个属性的条件概率为0,则会导致整体概率 ...
- python朴素贝叶斯的文本分类_自给自足,完全手写一个朴素贝叶斯分类器,完成文本分类...
Part 1: 本文解决的问题: 我在有这样的一个数据集,里面存放了人们对近期播放电影的评价,当然评价也就分成两部分,好评和差评.我们想利用这些数据训练一个模型,然后可以自动的对影评做出判断,到底是好 ...
- 朴素贝叶斯基于朴素贝叶斯的文本分类算法
朴素贝叶斯 以及 基于朴素贝叶斯的文本分类算法 参考文章: https://www.cnblogs.com/jorbin/articles/1915888.html
- 朴素贝叶斯文本分类java_基于朴素贝叶斯的文本分类算法
基于朴素贝叶斯的文本分类算法 摘要:常用的文本分类方法有支持向量机.K-近邻算法和朴素贝叶斯.其中朴素贝叶斯具有容易实现,运行速度快的特点,被广泛使用.本文详细介绍了朴素贝叶斯的基本原理,讨论多项式模 ...
- (三)朴素贝叶斯运用——文本分类
1.贝叶斯理论 当我们有样本(包含特征和类别)的时候,我们非常容易通过 p(x)p(y|x)=p(y)p(x|y) p ( x ) p ( y | x ) = p ( y ) p ( x | y ) ...
- python文本分类算法_python编写朴素贝叶斯用于文本分类
朴素贝叶斯估计 朴素贝叶斯是基于贝叶斯定理与特征条件独立分布假设的分类方法.首先根据特征条件独立的假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出 ...
- NLP系列(3)_用朴素贝叶斯进行文本分类(下)
作者: 龙心尘 && 寒小阳 时间:2016年2月. 出处:http://blog.csdn.net/longxinchen_ml/article/details/50629110 h ...
最新文章
- 一文吃透JAVA定时器格式
- 删除git中无用的大文件
- java-unrar-0.3.jar_unrar.jar解压缩rar文件
- Linux 下 mail、mailx 和 sendmail、postfix的区别
- 绵阳python培训_《绵》字意思读音、组词解释及笔画数 - 新华字典 - 911查询
- 谷歌浏览器出现方格xp系统_win10系统谷歌浏览器扩展程序打不开的解决方案
- 额,你在main.xml中加了一个id以后,要右键点save,才会将这个id加入到R中,否则是没有的。。。R里的东西是程序自动生成的~~~...
- threadgroup_Java ThreadGroup类的checkAccess()方法和示例
- android 侧滑删除功能,200行代码让你在Android中完美实现iOS版侧滑删除效果
- 《SLAM十四讲》知识点梳理
- 20 位行业专家共话选型经验,CSDN「选型智囊团高端研讨会」圆满落幕!
- 精彩回顾 | Apache Flink Meetup · 北京站(附PPT下载)
- easyui添加删除表格任意行(2)
- 1024为大家带来个猜数字游戏
- iOS苹果个人开发者账号购买流程 2018 版
- (完美)华为nova2 PIC-AL00的USB调试模式在哪里打开的流程
- 红米4鸿蒙系统刷机包,小米红米(移动版)刷机包 基于官方4.2.1 极简稳定纯净 完整root权限 V4.0...
- 法官批准离婚申请 布兰妮正式恢复“单身”(图)
- linux下的tree命令介绍
- 茶旅云团建之旅,就选安化云台山风景区
热门文章
- RabbitMq 本地连接报错 org.springframework.amqp.AmqpIOException: java.io.IOException
- HTML的a标签置灰不可点击
- Linux安装PHP报错Sorry, I cannot run apxs. Possible reasons follow:
- Mysql判断字符串存在性find_in_set
- Yii的查询后缀限定
- html设置表格宽度最小,css如何设置表格宽度?
- mysql 5.7.13安装_安装MySQL 5.7.13
- php获取日期中的月份,年份
- 计算机组成与结构第二章ppt,计算机组成原理(华科版)第二章 运算方法与运算器.ppt...
- 蓝凌ekp开发_新华教育集团战略升级,携手蓝凌量身定制数字化办公平台