jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。

精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析

全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据

搜索引擎模式:在精确模式的基础上,对长词再次进行切分

一、jieba库的安装

因为 jieba 是一个第三方库,所有需要我们在本地进行安装。

Windows 下使用命令安装:在联网状态下,在命令行下输入 pip install jieba 进行安装,安装完成后会提示安装成功

在 pyCharm 中安装:打开 settings,搜索 Project Interpreter,在右边的窗口选择 + 号,点击后在搜索框搜索 jieba,点击安装即可

二、jieba三种模式的使用

# -*- coding: utf-8 -*-
import jiebaseg_str = "好好学习,天天向上。"print("/".join(jieba.lcut(seg_str)))    # 精简模式,返回一个列表类型的结果
print("/".join(jieba.lcut(seg_str, cut_all=True)))      # 全模式,使用 'cut_all=True' 指定
print("/".join(jieba.lcut_for_search(seg_str)))     # 搜索引擎模式

分词效果:

三、jieba 分词简单应用

需求:使用 jieba 分词对一个文本进行分词,统计次数出现最多的词语,这里以三国演义为例

# -*- coding: utf-8 -*-
import jiebatxt = open("三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)     # 使用精确模式对文本进行分词
counts = {}     # 通过键值对的形式存储词语及其出现的次数for word in words:if len(word) == 1:    # 单个词语不计算在内continueelse:counts[word] = counts.get(word, 0) + 1    # 遍历所有词语,每出现一次其对应的值加 1items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)    # 根据词语出现的次数进行从大到小排序for i in range(3):word, count = items[i]print("{0:<5}{1:>5}".format(word, count))

统计结果:

你可以随便找一个文本文档,也可以到 https://github.com/coderjas/python-quick 下载上面例子中的文档。

四、扩展:英文单词统计

上面的例子统计实现了中文文档中出现最多的词语,接着我们就来统计一下一个英文文档中出现次数最多的单词。原理同上

# -*- coding: utf-8 -*-def get_text():txt = open("1.txt", "r", encoding='UTF-8').read()txt = txt.lower()for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':txt = txt.replace(ch, " ")      # 将文本中特殊字符替换为空格return txtfile_txt = get_text()
words = file_txt.split()    # 对字符串进行分割,获得单词列表
counts = {}for word in words:if len(word) == 1:continueelse:counts[word] = counts.get(word, 0) + 1 items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)      for i in range(5):word, count = items[i]print("{0:<5}->{1:>5}".format(word, count))

统计结果:

Python入门:jieba库的使用相关推荐

  1. NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码

    NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之情感分析:基于python编程(jieba库)实现中文文本情 ...

  2. python 入门题库————python语句和基础数理

    python 入门题库 python 题库 Python使用符号_______表示注释 Python不支持的数据类型有 查看python版本的命令是 在Python中,print(type(16/4) ...

  3. python的jieba库第一次中文分词记录

    python的jieba库第一次中文分词记录 记录一下最基本的jieba分词程序 1.通过cut import jiebaseg = jieba.cut("这是一段中文字符", c ...

  4. NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码

    NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之TEA:基于python编程(jieba库)实现中文文本情感分 ...

  5. ​​​​​​​NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)

    NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分) 目录 输出结果 设计思路 相关资料 1.关于代码 2.关于数据集 关于留言 1.留言内容的注意事项 2.如 ...

  6. Python中jieba库的使用

    jieba库是一款优秀的 Python 第三方中文分词库,利用一个中文词库,确定汉字之间的关联概率,汉字间概率大的组成词组,形成分词结果 目录 jieba库的安装与引用 安装 引用 jiaba库分词功 ...

  7. python中jieba库的安装

    jieba库的作用主要用于中文分词,是一种不错的中文分词组件. python中的库可以理解为有三种:python自带的,自己定义的,第三方库(别人写好的,如jieba库,要从网上下载,进行安装) 常用 ...

  8. Python安装jieba库的具体步骤

    1.在具体地址上下载jieba--第三方中文分词函数库 下载地址:https://pypi.org/project/jieba/#files 2.在命令提示符里面输入命令来安装jieba库 首先定位到 ...

  9. Python安装jieba库教程

    安装jieba库教程 jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式.全模式和搜索引擎模式,下面是三种模式的特点. 精确模式:试图将语句最精确的切分, ...

  10. python的jieba库和词云图

    1.安装第三方库 首先要实现中文分词和词云图,先要安装jieba库和wordcloud库,安装截图为jupyter notebook 安装的截图. 指令为: pip install wordcloud ...

最新文章

  1. lighttpd缓存配置
  2. 在51aspx收集的农历日期类
  3. leetcode 22. 括号生成
  4. Java dispose()函数窗口无法关闭
  5. ubuntu18安装32位库
  6. 互联网推广方案:如何提高企业网站排名!
  7. Redis源码剖析(十)简单动态字符串sds
  8. FPGA的Veilog HDL语法、框架总结
  9. C#使用Xamarin开发可移植移动应用进阶篇(9.混淆代码,防止反编译)
  10. C#和NewSQL更配 —— CockroachDB入门
  11. Tensorflow笔记(一)
  12. 不得不爱开源 Wijmo jQuery 插件集(10)-【Expander】(附页面展示和源码)
  13. git pull拉取远程指定分支
  14. C# 以MDF文件连接数据库
  15. 如何进入mysql命令界面
  16. java spring security详解
  17. Character Controller角色控制器组件
  18. 电脑开启麦克风有回音,录音声音太小怎么办?
  19. 唯品会web前端实习生一面二面经
  20. 阿里发布虚拟美女“俪知”,会说东北话、四川话、河南话和粤语等

热门文章

  1. 家政服务微信小程序开发
  2. 设置计算机名和ip 一键,批量设置IP地址和计算机名
  3. WRF,WPS 安装记录
  4. 5个不可多得的黑科技网站,让你在办公中如有神助,请低调收藏
  5. ae运动模糊插件安装教程_AEPR运动模糊插件(RSMB) REVisionFX ReelSmart Motion Blur Pro v4.2.3...
  6. Mybatis源码导入
  7. 下载SVN上的文件到本地
  8. 怎么更改自己IP地址 切换电脑本机IP软软件哪个好用
  9. Maven cmd 打包命令
  10. linux 中文排版,Latex中文排版——XeLatex的用法