jieba的简单使用
本文涉及jieba.cut、jieba.addword、jieba.load_userdict这3个函数
运行环境:IPython
import jieba;for w in jieba.cut("我爱Python"):print(w)
输出:
Building prefix dict from the default dictionary ...
Loading model from cache D:\TEMP\jieba.cache
Loading model cost 1.150 seconds.
Prefix dict has been built succesfully.
我
爱
Python
可以看到,该句的分词成功。
接下来来对分词界中一个很污很难的测试样例进行分词:
for w in jieba.cut("工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"):print(w)
输出:
工信处
女干事
每月
经过
下属
科室
都
要
亲口
交代
24
口
交换机
等
技术性
器件
的
安装
工作
输出结果表示准确率很高。
seg_list = jieba.cut("真武七截阵和天罡北斗阵哪个更厉害呢?")
for w in seg_list:print(w)
输出结果:
真武
七截阵
和
天罡
北斗
阵
哪个
更
厉害
呢
?
从这里可以看到,一些比较偏的(比如这里小说中的特殊词汇——武功招式)就不可以被正确分词了,add_word函数提供了解决方法:
jieba.add_word('真武七截阵') #add_word保证添加的词语不会被cut掉
jieba.add_word('天罡北斗阵')
seg_list = jieba.cut("真武七截阵和天罡北斗阵哪个更厉害呢?")
for w in seg_list:print(w)
输出结果:
真武七截阵
和
天罡北斗阵
哪个
更
厉害
呢
?
那么自然就会想到,如果靠add_word人工添加词,这样的效率实在太低了,load_userdic提供了解决方法:
jieba.load_userdict('金庸武功招式.txt')
#添加词库矫正jieba分词 #“金庸武功招式”所在词库地址:http://pinyin.sogou.com/dict/,下载到的是.scel格式文件,可使用 深蓝词库转换 将文件格式转换为txt格式
jieba的简单使用相关推荐
- 中文分词jieba的简单使用
import jieba jieba.lcut("你好世界") 输出:
- 简单粗暴认识jieba(结巴)
转载:https://blog.csdn.net/comeonyangzi/article/details/80500509 jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做 ...
- NLP自然语言 - jieba分词库
jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 1.安装jieba pip install jieba 2.简单用法 结巴分词分为三种模式:精确模式(默认). ...
- python微信好友分析_基于python实现微信好友数据分析(简单)
一.功能介绍 本文主要介绍利用网页端微信获取数据,实现个人微信好友数据的获取,并进行一些简单的数据分析,功能包括: 1.爬取好友列表,显示好友昵称.性别和地域和签名, 文件保存为 xlsx 格式 2. ...
- python词频统计西游记_使用python简单实现《西游记》文本分析,通过词频对比探索西游记的主角...
使用jieba模块简单统计西游记词频,并进行同义词处理(如合并 行者,大圣为悟空)及排除词处理. [code]import jieba with open('西游记.txt','r',encoding ...
- 使用python简单实现《西游记》文本分析,通过词频对比探索西游记的主角
使用jieba模块简单统计西游记词频,并进行同义词处理(如合并 行者,大圣为悟空)及排除词处理. import jieba with open('西游记.txt','r',encoding='utf- ...
- jieba库的安装和应用
目录 一.jieba库 二. jieba库的安装 三.jieba三种模式的使用 四.jieba 分词简单应用 五.扩展 ...
- python jieba库不存在_Python入门:jieba库的使用
jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式.全模式和搜索引擎模式,下面是三种模式的特点. 精确模式:试图将语句最精确的切分,不存在冗余数据,适合做 ...
- Python初学13——jieba库简介与使用
目录 一.jieba库基本介绍 二.jieba库的使用说明(三种模式.lcut().lcut_for_search().add_word() ) 三."文本词频统计"实例 一.ji ...
最新文章
- R包stringr处理字符串
- Tweaked Identical Binary Trees - Medium
- onedrive下载
- Hosts文件实际应用 配置内部服务器提高访问效率和速度
- 1049. Counting Ones (30)
- BZOJ3476 : [Usaco2014 Mar]The Lazy Cow
- 快速傅里叶变换python_【原创】OpenCV-Python系列之傅里叶变换(三十八)
- Linux系统安装Apache 2.4.6
- 【2019牛客暑期多校训练营(第二场)- F】Partition problem(dfs,均摊时间优化)
- LeetCode 2053. 数组中第 K 个独一无二的字符串(哈希)
- php多站点共享用户表,php – Zend_Auth:允许用户登录到多个表/身份
- Ext.grid.Panel一定要有renderTo或autoRender属性,不然页面为空
- Java,使用泛型构建自己的工具包——包装System.out
- python第三方库介绍和安装
- JSP(二):JSP页面组成部分
- Python中的*self,*self._args, **kwargs
- WebUI Case(1): www.swt-designer.com 首页 (续)
- postman接口测试
- 计算机有线无线都无法上网,有线能上网无线不能上网 有线能用无线不能用
- 为计算机技术奉献一生语录,乐于奉献的名言警句40句
热门文章
- 斐波那契序列递归方法_斐波那契和卢卡斯序列
- win11旗舰版安装WSL子系统和环境-12配置SSH(Win远程连接)
- 语音播报警示器技术要求
- HTTP状态码--1XX
- [原]as3 flash web 应用 (2)批量上传之php页面接收flash传递的数据
- Win10系统QQ无法登录,00001错误解决办法
- 数通(DataCom)--路由交换技术学习笔记
- IOS开发 阅读器类APP可用开源框架介绍(2)
- python电话号码_Python有效电话号码
- 关于4G转wifi路由器模块与4G转有线模块的原理