本文涉及jieba.cut、jieba.addword、jieba.load_userdict这3个函数

运行环境:IPython

import jieba;for w in jieba.cut("我爱Python"):print(w)

输出:

Building prefix dict from the default dictionary ...
Loading model from cache D:\TEMP\jieba.cache
Loading model cost 1.150 seconds.
Prefix dict has been built succesfully.
我
爱
Python

可以看到,该句的分词成功。

接下来来对分词界中一个很污很难的测试样例进行分词:

for w in jieba.cut("工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"):print(w)

输出:

工信处
女干事
每月
经过
下属
科室
都
要
亲口
交代
24
口
交换机
等
技术性
器件
的
安装
工作

输出结果表示准确率很高。

seg_list = jieba.cut("真武七截阵和天罡北斗阵哪个更厉害呢?")
for w in seg_list:print(w)

输出结果:

真武
七截阵
和
天罡
北斗
阵
哪个
更
厉害
呢
?

从这里可以看到,一些比较偏的(比如这里小说中的特殊词汇——武功招式)就不可以被正确分词了,add_word函数提供了解决方法:

jieba.add_word('真武七截阵') #add_word保证添加的词语不会被cut掉
jieba.add_word('天罡北斗阵')
seg_list = jieba.cut("真武七截阵和天罡北斗阵哪个更厉害呢?")
for w in seg_list:print(w)

输出结果:

真武七截阵
和
天罡北斗阵
哪个
更
厉害
呢
?

那么自然就会想到,如果靠add_word人工添加词,这样的效率实在太低了,load_userdic提供了解决方法:

jieba.load_userdict('金庸武功招式.txt')
#添加词库矫正jieba分词 #“金庸武功招式”所在词库地址:http://pinyin.sogou.com/dict/,下载到的是.scel格式文件,可使用 深蓝词库转换 将文件格式转换为txt格式

jieba的简单使用相关推荐

  1. 中文分词jieba的简单使用

    import jieba jieba.lcut("你好世界") 输出:

  2. 简单粗暴认识jieba(结巴)

    转载:https://blog.csdn.net/comeonyangzi/article/details/80500509 jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做 ...

  3. NLP自然语言 - jieba分词库

    jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 1.安装jieba pip install jieba 2.简单用法 结巴分词分为三种模式:精确模式(默认). ...

  4. python微信好友分析_基于python实现微信好友数据分析(简单)

    一.功能介绍 本文主要介绍利用网页端微信获取数据,实现个人微信好友数据的获取,并进行一些简单的数据分析,功能包括: 1.爬取好友列表,显示好友昵称.性别和地域和签名, 文件保存为 xlsx 格式 2. ...

  5. python词频统计西游记_使用python简单实现《西游记》文本分析,通过词频对比探索西游记的主角...

    使用jieba模块简单统计西游记词频,并进行同义词处理(如合并 行者,大圣为悟空)及排除词处理. [code]import jieba with open('西游记.txt','r',encoding ...

  6. 使用python简单实现《西游记》文本分析,通过词频对比探索西游记的主角

    使用jieba模块简单统计西游记词频,并进行同义词处理(如合并 行者,大圣为悟空)及排除词处理. import jieba with open('西游记.txt','r',encoding='utf- ...

  7. jieba库的安装和应用

    目录         一.jieba库         二. jieba库的安装          三.jieba三种模式的使用         四.jieba 分词简单应用         五.扩展 ...

  8. python jieba库不存在_Python入门:jieba库的使用

    jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式.全模式和搜索引擎模式,下面是三种模式的特点. 精确模式:试图将语句最精确的切分,不存在冗余数据,适合做 ...

  9. Python初学13——jieba库简介与使用

    目录 一.jieba库基本介绍 二.jieba库的使用说明(三种模式.lcut().lcut_for_search().add_word() ) 三."文本词频统计"实例 一.ji ...

最新文章

  1. R包stringr处理字符串
  2. Tweaked Identical Binary Trees - Medium
  3. onedrive下载
  4. Hosts文件实际应用 配置内部服务器提高访问效率和速度
  5. 1049. Counting Ones (30)
  6. BZOJ3476 : [Usaco2014 Mar]The Lazy Cow
  7. 快速傅里叶变换python_【原创】OpenCV-Python系列之傅里叶变换(三十八)
  8. Linux系统安装Apache 2.4.6
  9. 【2019牛客暑期多校训练营(第二场)- F】Partition problem(dfs,均摊时间优化)
  10. LeetCode 2053. 数组中第 K 个独一无二的字符串(哈希)
  11. php多站点共享用户表,php – Zend_Auth:允许用户登录到多个表/身份
  12. Ext.grid.Panel一定要有renderTo或autoRender属性,不然页面为空
  13. Java,使用泛型构建自己的工具包——包装System.out
  14. python第三方库介绍和安装
  15. JSP(二):JSP页面组成部分
  16. Python中的*self,*self._args, **kwargs
  17. WebUI Case(1): www.swt-designer.com 首页 (续)
  18. postman接口测试
  19. 计算机有线无线都无法上网,有线能上网无线不能上网 有线能用无线不能用
  20. 为计算机技术奉献一生语录,乐于奉献的名言警句40句

热门文章

  1. 斐波那契序列递归方法_斐波那契和卢卡斯序列
  2. win11旗舰版安装WSL子系统和环境-12配置SSH(Win远程连接)
  3. 语音播报警示器技术要求
  4. HTTP状态码--1XX
  5. [原]as3 flash web 应用 (2)批量上传之php页面接收flash传递的数据
  6. Win10系统QQ无法登录,00001错误解决办法
  7. 数通(DataCom)--路由交换技术学习笔记
  8. IOS开发 阅读器类APP可用开源框架介绍(2)
  9. python电话号码_Python有效电话号码
  10. 关于4G转wifi路由器模块与4G转有线模块的原理