原文地址:https://ptorch.com/news/204.html

为什么需要在python使用结巴分词(jieba)创建自己的词典/词库,因为很多时候分词给我们的结果了能刚好相反,如:不回家变成了不,回家;从上一篇文章文章我们已经讲诉了python使用结巴中文分词以及训练自己的分词词典,基本的安装和基本使用大家直接去看那篇文章即可,我们主要介绍如何python创建自己的词典。

一、创建分词字典

1、准备词典

创建一个dict.txt,然后写入你的分词,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。

不处理 nr
不还款
中国银行
根本打不开

2、编写python代码

在分词前通过jieba.load_userdict(file_name)来加载分词字典:

#-*- coding:utf-8 -*-
import jiebajieba.load_userdict("./dict.txt")
word_list = jieba.cut("我今天不处理逾期信用贷款,因为你们中国银行的APP根本打不开")
print("|".join(word_list))

3、分词对比

第一张,未添加字典

第二张:添加了字典

可以看出,我们更加明确了用户的意图,不处理我们识别为处理,这样的事情在识别意图的时候还是比较坑的!

二、使用add_word和suggest_freq

  • 使用add_word(word, freq=None, tag=None)del_word(word)可在程序中动态修改词典。
  • 使用suggest_freq(segment, tune=True)可调节单个词语的词频,使其能(或不能)被分出来。

实现代码:

#-*- coding:utf-8 -*-
import jiebajieba.suggest_freq('不处理',True)
jieba.add_word('不处理',tag='d')
jieba.add_word('中国银行APP',tag='d')
word_list = jieba.cut("我今天不处理逾期信用贷款,因为你们中国银行APP根本打不开")
print("|".join(word_list))

实现的结果和上面的相同,所以不做过多的对比描述

注意:
add_word只是一次性的添加分词字典,不是直接将内容添加到结巴库中了;同时此方法的代码可能比较多,所以感觉没有方法一好

python使用结巴分词(jieba)创建自己的词典/词库相关推荐

  1. Ansj中文分词Java开发自定义和过滤词库

    Ansj中文分词应用时,需要自定义词库,比如城中村,分词成城.中.村,需自定义词库,有时,也需要过滤单词.具体代码如下,可以结合执行结果看代码效果. 1.过滤词库 package csc.ansj;i ...

  2. 我用纯C语言开发的中英文混合分词服务器3.0正式发布,词库190多万词,每秒切分5万+,同时提供 c、java、C#、delphi、js调用范例

    我用纯C语言开发的中英文混合分词服务器3.0正式发布,词库190多万词,每秒切分5万+,同时提供 c.java.C#.delphi.js调用范例 百万商业圈中英文混合分词服务器3.0正式发布, 绝对稳 ...

  3. python结巴分词实例_python 结巴分词(jieba)详解

    "结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese ...

  4. python 结巴分词(jieba)详解

    [转自:https://www.cnblogs.com/jackchen-Net/p/8207009.html] "结巴"中文分词:做最好的 Python 中文分词组件 " ...

  5. python 结巴分词(jieba)学习

    来源:http://www.gowhich.com/blog/147?utm_source=tuicool&utm_medium=referral 源码下载的地址:https://github ...

  6. 【python】结巴分词案例(英文词组识别)

    本人菜鸡一只,今天来写写结巴分词! 哇,距离上一次写文章已经20天过去了,最近这些天还真是挺忙的,主要是上上周到了跑月数据的节点,然后上周原始数据出了问题,我调了一周多才把这个错误解决了,还修复了一个 ...

  7. 结巴分词jieba添加自定义词典

    结巴分词添加自定义词典,有时候很有必要.比如下面这段话: test_text = """ 我们的健康码也是绿色的,这凭什么就限制我们的就医!""&qu ...

  8. 结巴分词(jieba)

    源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式: a,精确模式,试 ...

  9. 结巴分词 - - - jieba库

    本篇文章主要描述一下结巴库的基本使用方式有哪些: 目录 Python里面可以使用的第三方中文分词库有哪些? jieba库目的? jieba分词的原理 jieba库使用说明 关键词提取 词性标注 路径: ...

最新文章

  1. 利用PowerDesigner比较2个数据库
  2. java不同进程的相互唤醒_Java线程生命周期与状态切换
  3. android 属性动画实例,Android 属性动画Animator工具类代码案例
  4. 57. mysqli 扩展库(4)
  5. 扇贝编程python是干嘛的-扇贝新推出的python课程值得买吗?
  6. MS Office/Visio 2003 sp1 下载
  7. 2022五一数学建模C题思路分享
  8. 萤石云全栈开放,亿级终端背后的萤石云平台突显硬核“软”实力
  9. it培训机构包就业是啥套路?it培训骗局,it培训班学出来有用吗?
  10. java钝化_黑马day14 监听器之javaBean对象的活化和钝化
  11. 结构化、半结构化和非结构化数据
  12. SEO搜索引擎优化步骤建议
  13. [c++] 常成员函数
  14. 厦理Java期末训练题【附带每题答案,非标准但可通过PTA】
  15. 蕴含命题遇到的疑惑和解答
  16. 全球与中国云监控软件市场深度研究分析报告(2021)
  17. 美团和大众点评早期分别以交易和用户评价进军团购行业
  18. mac的rubywoo怎么读_迪奥999和mac ruby woo哪个更好看_有什么区别
  19. 使用K-Fold训练和预测XGBoost模型的方法
  20. python处理嵌套字典写入Excel

热门文章

  1. Codeforces Round #791 (Div. 2)(A-D)
  2. Multisim--软件相关使用技巧
  3. 2014中国信用卡报告
  4. Windows Installer和即点即用版本的Office程序不能并行的问题
  5. 【码上实战】【立体匹配系列】经典AD-Census: (6)多步骤视差优化
  6. 上海市证券、保险公司一览
  7. 大数据东风下,Clickhouse这坨屎是怎么上天的
  8. 用户福利-ArchSummit全球架构师峰会 优惠码
  9. NX二次开发 内部函数获得part文件信息
  10. Java久居第一是因为这些