python使用结巴分词(jieba)创建自己的词典/词库
原文地址:https://ptorch.com/news/204.html
为什么需要在python
使用结巴分词(jieba
)创建自己的词典/词库,因为很多时候分词给我们的结果了能刚好相反,如:不回家
变成了不,回家
;从上一篇文章文章我们已经讲诉了python使用结巴中文分词以及训练自己的分词词典,基本的安装和基本使用大家直接去看那篇文章即可,我们主要介绍如何python
创建自己的词典。
一、创建分词字典
1、准备词典
创建一个dict.txt
,然后写入你的分词,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。
不处理 nr
不还款
中国银行
根本打不开
2、编写python代码
在分词前通过jieba.load_userdict(file_name)
来加载分词字典:
#-*- coding:utf-8 -*-
import jiebajieba.load_userdict("./dict.txt")
word_list = jieba.cut("我今天不处理逾期信用贷款,因为你们中国银行的APP根本打不开")
print("|".join(word_list))
3、分词对比
第一张,未添加字典
第二张:添加了字典
可以看出,我们更加明确了用户的意图,不处理
我们识别为处理
,这样的事情在识别意图的时候还是比较坑的!
二、使用add_word和suggest_freq
- 使用
add_word(word, freq=None, tag=None)
和del_word(word)
可在程序中动态修改词典。 - 使用
suggest_freq(segment, tune=True)
可调节单个词语的词频,使其能(或不能)被分出来。
实现代码:
#-*- coding:utf-8 -*-
import jiebajieba.suggest_freq('不处理',True)
jieba.add_word('不处理',tag='d')
jieba.add_word('中国银行APP',tag='d')
word_list = jieba.cut("我今天不处理逾期信用贷款,因为你们中国银行APP根本打不开")
print("|".join(word_list))
实现的结果和上面的相同,所以不做过多的对比描述
注意:
add_word
只是一次性的添加分词字典,不是直接将内容添加到结巴库中了;同时此方法的代码可能比较多,所以感觉没有方法一好
python使用结巴分词(jieba)创建自己的词典/词库相关推荐
- Ansj中文分词Java开发自定义和过滤词库
Ansj中文分词应用时,需要自定义词库,比如城中村,分词成城.中.村,需自定义词库,有时,也需要过滤单词.具体代码如下,可以结合执行结果看代码效果. 1.过滤词库 package csc.ansj;i ...
- 我用纯C语言开发的中英文混合分词服务器3.0正式发布,词库190多万词,每秒切分5万+,同时提供 c、java、C#、delphi、js调用范例
我用纯C语言开发的中英文混合分词服务器3.0正式发布,词库190多万词,每秒切分5万+,同时提供 c.java.C#.delphi.js调用范例 百万商业圈中英文混合分词服务器3.0正式发布, 绝对稳 ...
- python结巴分词实例_python 结巴分词(jieba)详解
"结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese ...
- python 结巴分词(jieba)详解
[转自:https://www.cnblogs.com/jackchen-Net/p/8207009.html] "结巴"中文分词:做最好的 Python 中文分词组件 " ...
- python 结巴分词(jieba)学习
来源:http://www.gowhich.com/blog/147?utm_source=tuicool&utm_medium=referral 源码下载的地址:https://github ...
- 【python】结巴分词案例(英文词组识别)
本人菜鸡一只,今天来写写结巴分词! 哇,距离上一次写文章已经20天过去了,最近这些天还真是挺忙的,主要是上上周到了跑月数据的节点,然后上周原始数据出了问题,我调了一周多才把这个错误解决了,还修复了一个 ...
- 结巴分词jieba添加自定义词典
结巴分词添加自定义词典,有时候很有必要.比如下面这段话: test_text = """ 我们的健康码也是绿色的,这凭什么就限制我们的就医!""&qu ...
- 结巴分词(jieba)
源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式: a,精确模式,试 ...
- 结巴分词 - - - jieba库
本篇文章主要描述一下结巴库的基本使用方式有哪些: 目录 Python里面可以使用的第三方中文分词库有哪些? jieba库目的? jieba分词的原理 jieba库使用说明 关键词提取 词性标注 路径: ...
最新文章
- 利用PowerDesigner比较2个数据库
- java不同进程的相互唤醒_Java线程生命周期与状态切换
- android 属性动画实例,Android 属性动画Animator工具类代码案例
- 57. mysqli 扩展库(4)
- 扇贝编程python是干嘛的-扇贝新推出的python课程值得买吗?
- MS Office/Visio 2003 sp1 下载
- 2022五一数学建模C题思路分享
- 萤石云全栈开放,亿级终端背后的萤石云平台突显硬核“软”实力
- it培训机构包就业是啥套路?it培训骗局,it培训班学出来有用吗?
- java钝化_黑马day14 监听器之javaBean对象的活化和钝化
- 结构化、半结构化和非结构化数据
- SEO搜索引擎优化步骤建议
- [c++] 常成员函数
- 厦理Java期末训练题【附带每题答案,非标准但可通过PTA】
- 蕴含命题遇到的疑惑和解答
- 全球与中国云监控软件市场深度研究分析报告(2021)
- 美团和大众点评早期分别以交易和用户评价进军团购行业
- mac的rubywoo怎么读_迪奥999和mac ruby woo哪个更好看_有什么区别
- 使用K-Fold训练和预测XGBoost模型的方法
- python处理嵌套字典写入Excel