jieba库初识与运用
一.jieba库初识
jieba是Python中的一个重要的第三方中文分词函数库
#以下是jieba库的简单运用:
二.jieba库的安装
1、下载jieba库:https://pypi.org/project/jieba/
2、将其解压到某一文件夹下:
3、运行cmd,进入jieba-0.39文件夹:
4、执行命令:python3 setup.py install 回车
5、测试jieba是否安装成功(运行出现分词,则安装成功,结果如下:)
输入import jieba没有问题,安装成功。
三.jieba库常用的分词函数
1.jieba.cut(s) 精准模式,返回一个可迭代的数据类型
2.jieba.cut(s,cut_all=True) 全模式,输出文本s中所有可能的单词
3.jieba.cut_for_search(s) 搜索引擎模式,适合搜索引擎建立索引的分词结果
4.jieba.lcut(s) 精准模式,返回一个列表类型,建议使用
5.jieba.lcut(s,cut_all=True) 全模式,返回一个列表类型,建议使用
6.jieba.cut_for_search(s) 搜索引擎模式,返回一个列表类型,建议使用
7.jieba.add_word(w) 向分词词典中增加新词w
四.文本词频条统计
《三国演义》人物出场统计
首先从网上下载《三国演义》文本
1 #三国演义人物出场次数统计 2 import jieba 3 excludes = {"将军","却说","荆州","二人","不可","不能","如此","商议","军士","如何", 4 "主公","军马","左右",} 5 txt = open("./三国演义.txt", "r", encoding='utf-8').read() 6 words = jieba.lcut(txt) 7 counts = {} 8 for word in words: 9 if len(word) == 1: 10 continue 11 elif word == "诸葛亮" or word == "孔明曰": 12 rword = "孔明" 13 elif word == "关公" or word == "云长": 14 rword = "关羽" 15 elif word == "玄德" or word == "玄德曰": 16 rword = "刘备" 17 elif word == "孟德" or word == "丞相": 18 rword = "曹操" 19 else: 20 rword = word 21 counts[rword] = counts.get(rword,0) + 1 22 for word in excludes: 23 del counts[word] 24 items = list(counts.items()) 25 items.sort(key=lambda x:x[1], reverse=True) 26 for i in range(5): 27 word, count = items[i] 28 print ("{0:<10}{1:>5}".format(word, count))
运行结果如下:
《三国演义》文本下载:
链接:https://pan.baidu.com/s/1FfDO9H8nczSLBkTHxPIINg
提取码:nfw6
复制这段内容后打开百度网盘手机App,操作更方便哦
转载于:https://www.cnblogs.com/yyp-20190107/p/10652571.html
jieba库初识与运用相关推荐
- Python_note6 组合数据类型+jieba库+文本词频统计
集合类型和操作 集合元素不可修改,由不可变数据类型组成,元素不可重复 a = {"python",123,("python",123)}使用{}建立集合 b = ...
- 如何在Python上用jieba库分析TXT文件的词频
准备: 1.win10系统 2.Python3.7(已安装jieba库) 步骤: 1.先将准备好的文件放入指定位置 2.将代码打入IDLE 3.运行检测 上图即为运行成功的结果 (p.s.Python ...
- mysql调用jieba库_jieba库的使用及实例
安装: cmd模式下输入 pip install jieba anaconda对应环境 conda install jieba 分词原理: Jieba分词依靠中文词库 -利用一个中文词库,确定汉字之间 ...
- python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词
python用来批量处理一些数据的第一步吧. 对于我这样的的萌新.这是第一步. #encoding=utf-8 file='test.txt'fn=open(file,"r")pr ...
- NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码
NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之情感分析:基于python编程(jieba库)实现中文文本情 ...
- NLP:基于nltk和jieba库对文本实现提取文本摘要(两种方法实现:top_n_summary和mean_scored_summary)
NLP:基于nltk和jieba库对文本实现提取文本摘要(两种方法实现:top_n_summary和mean_scored_summary) 目录 输出结果 设计思路 核心代码 输出结果 1.测试文本 ...
- jieba是python中一个重要的标准函数库_python——Jieba库整理(基础知识+实例)
先上目录,1.Jieba库是什么 2.Jieba库的使用(常见方法及函数) 3.实例--英文文本解析和中文文本解析 1.Jieba库是什么 Jieba库是优秀的中文分词第三方库,中文文本需要通过分词获 ...
- jieba库的使用和好看的词元
一.jieba库的使用与说明 1.jieba库基本介绍 jieba库是优秀的中文分词第三方库 -中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安 ...
- python jieba库下载_Python中jieba库安装步骤及失败原因解析
Python 中 jieba 库安装步骤及失败原因解析 作为计算机小白, Python 的流行也让我蠢蠢欲动, 在请教计算机 专业同学后,开始上网课自学 Python 基础知识.今天老师简单的一 句话 ...
- 与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...
jieba库在中文分词中很常用,做一个简单的介绍和运用~ 需求1:打开本地的十九大报告文本,并采用jieba分词器进行分词,最后将分词结果存入名为segresult的文本文件中. 注释:①jieba库 ...
最新文章
- 手机号中间四位处理为‘****’
- CentOS环境下tomcat启动超级慢的解决方案
- AB1601烧程序时注意事项
- C#winform抓取百度,Google搜索关键词结果
- const与指针变量
- mysql 按时间分库分表_sharding-jdbc 按时间分库分表
- UIPIckerView现实城市选择
- Juniper ScreenOS 路由策略配置
- 颜值大比拼,用数据告诉你中国哪里美女多?
- [翻译]Convolutional Two-Stream Network Fusion for Video Action Recognition
- MFC中VC6.0工程项目中文乱码的显示处理
- 排序篇:直接插入、希尔、直接选择和堆排序(C语言)
- matlab 版 数独小游戏 GUI界面设计
- 网神SecVSS 3600漏洞扫描系统
- 网络天才网页中文版_网络天才网页版akinato
- sqlmap的使用 (以封神台题目为例)
- web前端工程师怎么写月报_Web开发人员月报2018年9月
- 修改MacOS的内置无线网卡的mac地址
- excel做地图热力图_地图慧|如何很快的制作炫目的数据分布热力图?
- [转载]从Android源代码来看WiFi直连
热门文章
- 由捧哏巨匠谈创新的难度
- msys2编译ffmpeg:ERROR: libx264 not found
- VirtualBox 6.1.4的共享剪贴板确实有问题,6.1.0正常
- LINUX下载编译libxml2
- SVN中,A项目如何共享B项目的内容
- VirtualBox一类系统只能出现一个?
- LINUX下用C判断一个进程是否活着
- 上传苹果版本时错误解决办法:No suitable application records were found. Verify your bundle identifier
- canvas动画科技园_16个富有创意的HTML5 Canvas动画特效集合
- python从入门到_python从入门到项目实践 (明日科技) 配套视频教程+源码