Python入门:jieba库的使用
jieba
库是一款优秀的 Python 第三方中文分词库,jieba
支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。
精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析
全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据
搜索引擎模式:在精确模式的基础上,对长词再次进行切分
一、jieba
库的安装
因为 jieba
是一个第三方库,所有需要我们在本地进行安装。
Windows 下使用命令安装:在联网状态下,在命令行下输入 pip install jieba
进行安装,安装完成后会提示安装成功
在 pyCharm 中安装:打开 settings
,搜索 Project Interpreter
,在右边的窗口选择 +
号,点击后在搜索框搜索 jieba
,点击安装即可
二、jieba
三种模式的使用
# -*- coding: utf-8 -*-
import jiebaseg_str = "好好学习,天天向上。"print("/".join(jieba.lcut(seg_str))) # 精简模式,返回一个列表类型的结果
print("/".join(jieba.lcut(seg_str, cut_all=True))) # 全模式,使用 'cut_all=True' 指定
print("/".join(jieba.lcut_for_search(seg_str))) # 搜索引擎模式
分词效果:
三、jieba
分词简单应用
需求:使用 jieba
分词对一个文本进行分词,统计次数出现最多的词语,这里以三国演义为例
# -*- coding: utf-8 -*-
import jiebatxt = open("三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt) # 使用精确模式对文本进行分词
counts = {} # 通过键值对的形式存储词语及其出现的次数for word in words:if len(word) == 1: # 单个词语不计算在内continueelse:counts[word] = counts.get(word, 0) + 1 # 遍历所有词语,每出现一次其对应的值加 1items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True) # 根据词语出现的次数进行从大到小排序for i in range(3):word, count = items[i]print("{0:<5}{1:>5}".format(word, count))
统计结果:
你可以随便找一个文本文档,也可以到 https://github.com/coderjas/python-quick 下载上面例子中的文档。
四、扩展:英文单词统计
上面的例子统计实现了中文文档中出现最多的词语,接着我们就来统计一下一个英文文档中出现次数最多的单词。原理同上
# -*- coding: utf-8 -*-def get_text():txt = open("1.txt", "r", encoding='UTF-8').read()txt = txt.lower()for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':txt = txt.replace(ch, " ") # 将文本中特殊字符替换为空格return txtfile_txt = get_text()
words = file_txt.split() # 对字符串进行分割,获得单词列表
counts = {}for word in words:if len(word) == 1:continueelse:counts[word] = counts.get(word, 0) + 1 items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True) for i in range(5):word, count = items[i]print("{0:<5}->{1:>5}".format(word, count))
统计结果:
Python入门:jieba库的使用相关推荐
- NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码
NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之情感分析:基于python编程(jieba库)实现中文文本情 ...
- python 入门题库————python语句和基础数理
python 入门题库 python 题库 Python使用符号_______表示注释 Python不支持的数据类型有 查看python版本的命令是 在Python中,print(type(16/4) ...
- python的jieba库第一次中文分词记录
python的jieba库第一次中文分词记录 记录一下最基本的jieba分词程序 1.通过cut import jiebaseg = jieba.cut("这是一段中文字符", c ...
- NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码
NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之TEA:基于python编程(jieba库)实现中文文本情感分 ...
- NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)
NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分) 目录 输出结果 设计思路 相关资料 1.关于代码 2.关于数据集 关于留言 1.留言内容的注意事项 2.如 ...
- Python中jieba库的使用
jieba库是一款优秀的 Python 第三方中文分词库,利用一个中文词库,确定汉字之间的关联概率,汉字间概率大的组成词组,形成分词结果 目录 jieba库的安装与引用 安装 引用 jiaba库分词功 ...
- python中jieba库的安装
jieba库的作用主要用于中文分词,是一种不错的中文分词组件. python中的库可以理解为有三种:python自带的,自己定义的,第三方库(别人写好的,如jieba库,要从网上下载,进行安装) 常用 ...
- Python安装jieba库的具体步骤
1.在具体地址上下载jieba--第三方中文分词函数库 下载地址:https://pypi.org/project/jieba/#files 2.在命令提示符里面输入命令来安装jieba库 首先定位到 ...
- Python安装jieba库教程
安装jieba库教程 jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式.全模式和搜索引擎模式,下面是三种模式的特点. 精确模式:试图将语句最精确的切分, ...
- python的jieba库和词云图
1.安装第三方库 首先要实现中文分词和词云图,先要安装jieba库和wordcloud库,安装截图为jupyter notebook 安装的截图. 指令为: pip install wordcloud ...
最新文章
- lighttpd缓存配置
- 在51aspx收集的农历日期类
- leetcode 22. 括号生成
- Java dispose()函数窗口无法关闭
- ubuntu18安装32位库
- 互联网推广方案:如何提高企业网站排名!
- Redis源码剖析(十)简单动态字符串sds
- FPGA的Veilog HDL语法、框架总结
- C#使用Xamarin开发可移植移动应用进阶篇(9.混淆代码,防止反编译)
- C#和NewSQL更配 —— CockroachDB入门
- Tensorflow笔记(一)
- 不得不爱开源 Wijmo jQuery 插件集(10)-【Expander】(附页面展示和源码)
- git pull拉取远程指定分支
- C# 以MDF文件连接数据库
- 如何进入mysql命令界面
- java spring security详解
- Character Controller角色控制器组件
- 电脑开启麦克风有回音,录音声音太小怎么办?
- 唯品会web前端实习生一面二面经
- 阿里发布虚拟美女“俪知”,会说东北话、四川话、河南话和粤语等
热门文章
- 家政服务微信小程序开发
- 设置计算机名和ip 一键,批量设置IP地址和计算机名
- WRF,WPS 安装记录
- 5个不可多得的黑科技网站,让你在办公中如有神助,请低调收藏
- ae运动模糊插件安装教程_AEPR运动模糊插件(RSMB) REVisionFX ReelSmart Motion Blur Pro v4.2.3...
- Mybatis源码导入
- 下载SVN上的文件到本地
- 怎么更改自己IP地址 切换电脑本机IP软软件哪个好用
- Maven cmd 打包命令
- linux 中文排版,Latex中文排版——XeLatex的用法