一.jieba库初识

jieba是Python中的一个重要的第三方中文分词函数库

#以下是jieba库的简单运用:

二.jieba库的安装

1、下载jieba库:https://pypi.org/project/jieba/

2、将其解压到某一文件夹下:

3、运行cmd,进入jieba-0.39文件夹:

4、执行命令:python3 setup.py install 回车

5、测试jieba是否安装成功(运行出现分词,则安装成功,结果如下:)

输入import jieba没有问题,安装成功。

三.jieba库常用的分词函数

1.jieba.cut(s)     精准模式,返回一个可迭代的数据类型

2.jieba.cut(s,cut_all=True)     全模式,输出文本s中所有可能的单词

3.jieba.cut_for_search(s)   搜索引擎模式,适合搜索引擎建立索引的分词结果

4.jieba.lcut(s)     精准模式,返回一个列表类型,建议使用

5.jieba.lcut(s,cut_all=True)     全模式,返回一个列表类型,建议使用

6.jieba.cut_for_search(s)   搜索引擎模式,返回一个列表类型,建议使用

7.jieba.add_word(w)  向分词词典中增加新词w

四.文本词频条统计

《三国演义》人物出场统计

首先从网上下载《三国演义》文本

 1 #三国演义人物出场次数统计
 2 import jieba
 3 excludes = {"将军","却说","荆州","二人","不可","不能","如此","商议","军士","如何",
 4             "主公","军马","左右",}
 5 txt = open("./三国演义.txt", "r", encoding='utf-8').read()
 6 words  = jieba.lcut(txt)
 7 counts = {}
 8 for word in words:
 9     if len(word) == 1:
10         continue
11     elif word == "诸葛亮" or word == "孔明曰":
12         rword = "孔明"
13     elif word == "关公" or word == "云长":
14         rword = "关羽"
15     elif word == "玄德" or word == "玄德曰":
16         rword = "刘备"
17     elif word == "孟德" or word == "丞相":
18         rword = "曹操"
19     else:
20         rword = word
21     counts[rword] = counts.get(rword,0) + 1
22 for word in excludes:
23     del counts[word]
24 items = list(counts.items())
25 items.sort(key=lambda x:x[1], reverse=True)
26 for i in range(5):
27     word, count = items[i]
28     print ("{0:<10}{1:>5}".format(word, count))

运行结果如下:

《三国演义》文本下载:

链接:https://pan.baidu.com/s/1FfDO9H8nczSLBkTHxPIINg
提取码:nfw6
复制这段内容后打开百度网盘手机App,操作更方便哦

转载于:https://www.cnblogs.com/yyp-20190107/p/10652571.html

jieba库初识与运用相关推荐

  1. Python_note6 组合数据类型+jieba库+文本词频统计

    集合类型和操作 集合元素不可修改,由不可变数据类型组成,元素不可重复 a = {"python",123,("python",123)}使用{}建立集合 b = ...

  2. 如何在Python上用jieba库分析TXT文件的词频

    准备: 1.win10系统 2.Python3.7(已安装jieba库) 步骤: 1.先将准备好的文件放入指定位置 2.将代码打入IDLE 3.运行检测 上图即为运行成功的结果 (p.s.Python ...

  3. mysql调用jieba库_jieba库的使用及实例

    安装: cmd模式下输入 pip install jieba anaconda对应环境 conda install jieba 分词原理: Jieba分词依靠中文词库 -利用一个中文词库,确定汉字之间 ...

  4. python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词

    python用来批量处理一些数据的第一步吧. 对于我这样的的萌新.这是第一步. #encoding=utf-8 file='test.txt'fn=open(file,"r")pr ...

  5. NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码

    NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之情感分析:基于python编程(jieba库)实现中文文本情 ...

  6. NLP:基于nltk和jieba库对文本实现提取文本摘要(两种方法实现:top_n_summary和mean_scored_summary)

    NLP:基于nltk和jieba库对文本实现提取文本摘要(两种方法实现:top_n_summary和mean_scored_summary) 目录 输出结果 设计思路 核心代码 输出结果 1.测试文本 ...

  7. jieba是python中一个重要的标准函数库_python——Jieba库整理(基础知识+实例)

    先上目录,1.Jieba库是什么 2.Jieba库的使用(常见方法及函数) 3.实例--英文文本解析和中文文本解析 1.Jieba库是什么 Jieba库是优秀的中文分词第三方库,中文文本需要通过分词获 ...

  8. jieba库的使用和好看的词元

    一.jieba库的使用与说明 1.jieba库基本介绍 jieba库是优秀的中文分词第三方库 -中文文本需要通过分词获得单个的词语          - jieba是优秀的中文分词第三方库,需要额外安 ...

  9. python jieba库下载_Python中jieba库安装步骤及失败原因解析

    Python 中 jieba 库安装步骤及失败原因解析 作为计算机小白, Python 的流行也让我蠢蠢欲动, 在请教计算机 专业同学后,开始上网课自学 Python 基础知识.今天老师简单的一 句话 ...

  10. 与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...

    jieba库在中文分词中很常用,做一个简单的介绍和运用~ 需求1:打开本地的十九大报告文本,并采用jieba分词器进行分词,最后将分词结果存入名为segresult的文本文件中. 注释:①jieba库 ...

最新文章

  1. 手机号中间四位处理为‘****’
  2. CentOS环境下tomcat启动超级慢的解决方案
  3. AB1601烧程序时注意事项
  4. C#winform抓取百度,Google搜索关键词结果
  5. const与指针变量
  6. mysql 按时间分库分表_sharding-jdbc 按时间分库分表
  7. UIPIckerView现实城市选择
  8. Juniper ScreenOS 路由策略配置
  9. 颜值大比拼,用数据告诉你中国哪里美女多?
  10. [翻译]Convolutional Two-Stream Network Fusion for Video Action Recognition
  11. MFC中VC6.0工程项目中文乱码的显示处理
  12. 排序篇:直接插入、希尔、直接选择和堆排序(C语言)
  13. matlab 版 数独小游戏 GUI界面设计
  14. 网神SecVSS 3600漏洞扫描系统
  15. 网络天才网页中文版_网络天才网页版akinato
  16. sqlmap的使用 (以封神台题目为例)
  17. web前端工程师怎么写月报_Web开发人员月报2018年9月
  18. 修改MacOS的内置无线网卡的mac地址
  19. excel做地图热力图_地图慧|如何很快的制作炫目的数据分布热力图?
  20. [转载]从Android源代码来看WiFi直连

热门文章

  1. 由捧哏巨匠谈创新的难度
  2. msys2编译ffmpeg:ERROR: libx264 not found
  3. VirtualBox 6.1.4的共享剪贴板确实有问题,6.1.0正常
  4. LINUX下载编译libxml2
  5. SVN中,A项目如何共享B项目的内容
  6. VirtualBox一类系统只能出现一个?
  7. LINUX下用C判断一个进程是否活着
  8. 上传苹果版本时错误解决办法:No suitable application records were found. Verify your bundle identifier
  9. canvas动画科技园_16个富有创意的HTML5 Canvas动画特效集合
  10. python从入门到_python从入门到项目实践 (明日科技) 配套视频教程+源码