jieba库初识与运用

一.jieba库初识

jieba是Python中的一个重要的第三方中文分词函数库

#以下是jieba库的简单运用：

二.jieba库的安装

1、下载jieba库：https://pypi.org/project/jieba/

2、将其解压到某一文件夹下：

3、运行cmd，进入jieba-0.39文件夹：

4、执行命令：python3 setup.py install 回车

5、测试jieba是否安装成功（运行出现分词，则安装成功，结果如下：）

输入import jieba没有问题，安装成功。

三.jieba库常用的分词函数

1.jieba.cut(s) 精准模式，返回一个可迭代的数据类型

2.jieba.cut(s,cut_all=True) 全模式，输出文本s中所有可能的单词

3.jieba.cut_for_search(s) 搜索引擎模式，适合搜索引擎建立索引的分词结果

4.jieba.lcut(s) 精准模式，返回一个列表类型，建议使用

5.jieba.lcut(s,cut_all=True) 全模式，返回一个列表类型，建议使用

6.jieba.cut_for_search(s) 搜索引擎模式，返回一个列表类型，建议使用

7.jieba.add_word(w) 向分词词典中增加新词w

四.文本词频条统计

《三国演义》人物出场统计

首先从网上下载《三国演义》文本

 1 #三国演义人物出场次数统计
 2 import jieba
 3 excludes = {"将军","却说","荆州","二人","不可","不能","如此","商议","军士","如何",
 4             "主公","军马","左右",}
 5 txt = open("./三国演义.txt", "r", encoding='utf-8').read()
 6 words  = jieba.lcut(txt)
 7 counts = {}
 8 for word in words:
 9     if len(word) == 1:
10         continue
11     elif word == "诸葛亮" or word == "孔明曰":
12         rword = "孔明"
13     elif word == "关公" or word == "云长":
14         rword = "关羽"
15     elif word == "玄德" or word == "玄德曰":
16         rword = "刘备"
17     elif word == "孟德" or word == "丞相":
18         rword = "曹操"
19     else:
20         rword = word
21     counts[rword] = counts.get(rword,0) + 1
22 for word in excludes:
23     del counts[word]
24 items = list(counts.items())
25 items.sort(key=lambda x:x[1], reverse=True)
26 for i in range(5):
27     word, count = items[i]
28     print ("{0:<10}{1:>5}".format(word, count))

运行结果如下：

《三国演义》文本下载：

链接：https://pan.baidu.com/s/1FfDO9H8nczSLBkTHxPIINg
提取码：nfw6
复制这段内容后打开百度网盘手机App，操作更方便哦

转载于:https://www.cnblogs.com/yyp-20190107/p/10652571.html

jieba库初识与运用相关推荐

Python_note6 组合数据类型+jieba库+文本词频统计
集合类型和操作集合元素不可修改,由不可变数据类型组成,元素不可重复 a = {"python",123,("python",123)}使用{}建立集合 b = ...
如何在Python上用jieba库分析TXT文件的词频
准备: 1.win10系统 2.Python3.7(已安装jieba库) 步骤: 1.先将准备好的文件放入指定位置 2.将代码打入IDLE 3.运行检测上图即为运行成功的结果 (p.s.Python ...
mysql调用jieba库_jieba库的使用及实例
安装: cmd模式下输入 pip install jieba anaconda对应环境 conda install jieba 分词原理: Jieba分词依靠中文词库 -利用一个中文词库,确定汉字之间 ...
python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词
python用来批量处理一些数据的第一步吧. 对于我这样的的萌新.这是第一步. #encoding=utf-8 file='test.txt'fn=open(file,"r")pr ...
NLP之情感分析：基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码
NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码目录全部代码相关文章 NLP之情感分析:基于python编程(jieba库)实现中文文本情 ...
NLP：基于nltk和jieba库对文本实现提取文本摘要(两种方法实现：top_n_summary和mean_scored_summary)
NLP:基于nltk和jieba库对文本实现提取文本摘要(两种方法实现:top_n_summary和mean_scored_summary) 目录输出结果设计思路核心代码输出结果 1.测试文本 ...
jieba是python中一个重要的标准函数库_python——Jieba库整理（基础知识+实例）
先上目录,1.Jieba库是什么 2.Jieba库的使用(常见方法及函数) 3.实例--英文文本解析和中文文本解析 1.Jieba库是什么 Jieba库是优秀的中文分词第三方库,中文文本需要通过分词获 ...
jieba库的使用和好看的词元
一.jieba库的使用与说明 1.jieba库基本介绍 jieba库是优秀的中文分词第三方库 -中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安 ...
python jieba库下载_Python中jieba库安装步骤及失败原因解析
Python 中 jieba 库安装步骤及失败原因解析作为计算机小白, Python 的流行也让我蠢蠢欲动, 在请教计算机专业同学后,开始上网课自学 Python 基础知识.今天老师简单的一句话 ...
与自定义词典分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...
jieba库在中文分词中很常用,做一个简单的介绍和运用~ 需求1:打开本地的十九大报告文本,并采用jieba分词器进行分词,最后将分词结果存入名为segresult的文本文件中. 注释:①jieba库 ...

jieba库初识与运用

jieba库初识与运用相关推荐

最新文章

热门文章