今天研究了一下结巴自定义词典的使用,稍作记录后续了解原理再修正。

我们添加自定义的词无非有4种

1、添加词完全不同于原词典的词

这时候,uaerdict.txt中添加词的词频随意设定3即可

2、添加词包含了原词典的词(例如奔驰500ML就包含了奔驰)

这时候,同1

3、添加词被包含于原词典词(例如QQ就包含于QQ号)

这个时候的词频需要设置比较大,具体如何设定笔者没有研究,QQ这个例子大概词频要设定到5000词频才可以分得开。

4、添加词包含特殊字符(例如空格)

我们可以通过改jieba包init.py中几个正则表达式来解决这个问题。用户词典中词词性用@@ 分隔。

1. 搜索

re_han_default = re.compile(“([\u4E00-\u9FD5a-zA-Z0-9+#&._]+)”, re.U)

改成

re_han_default = re.compile(“(.+)”, re.U)

2. 搜索

re_userdict = re.compile(‘^(.+?)( [0-9]+)?( [a-z]+)?$’, re.U)

改成

re_userdict = re.compile(‘^(.+?)(\u0040\u0040[0-9]+)?(\u0040\u0040[a-z]+)?$’, re.U)

3. 搜索

word, freq = line.split(’ ‘)[:2]

改成

word, freq = line.split(‘\u0040\u0040’)[:2]

4.补充:若用全模式继续改。

搜索

re_han_cut_all = re.compile(“([\u4E00-\u9FD5]+)”, re.U)

改成

re_han_cut_all = re.compile(“(.+)”, re.U)

附录:

另外发现在win中运行时,程序调用结巴后会在C:\Users\Acer\AppData\Local\Temp产生一个缓存文件。这个缓存文件会缓存结巴原生的dict.txt,但不会缓存user_dict.txt,所以user_dict.txt的修正可以随时生效,也意味着速度会比较慢。大家用的时候自己斟酌。

jieba 同义词_jieba 自定义词典相关推荐

  1. jieba 同义词_Jieba库实现词性标注及小说人物角色抽取

    4年人力资源从业经验,情报学硕士,主要内容涵盖python.数据分析和人力资源相关内容 本文运用自然语言处理技术,对中文小说<神雕侠侣>人物角色进行抽取,为使用通过社会网络分析法对人物关系 ...

  2. 与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...

    jieba库在中文分词中很常用,做一个简单的介绍和运用~ 需求1:打开本地的十九大报告文本,并采用jieba分词器进行分词,最后将分词结果存入名为segresult的文本文件中. 注释:①jieba库 ...

  3. ik分词和jieba分词哪个好_Python 中文 文本分析 实战:jieba分词+自定义词典补充+停用词词库补充+词频统计...

    最近项目需要,实现文本的词频分析,折腾了几天才完成任务,有点成就感,最后整理总结一下这部分的内容,希望更多同僚受益. 一.使用前准备 环境:Python3.6 安装结巴:pip install ji ...

  4. 如何在jieba分词中加自定义词典_Pyspark Word2Vec + jieba 训练词向量流程

    摘要:用商品描述为语料库训练商品词向量为例,分享一下用pyspark自带word2vec+jieba分词训练词向量的流程. 工具:python,pyspark,jieba,pandas,numpy 数 ...

  5. jieba分词自定义词典

    从语料库down下来的词频表,结合业务实际分词进行调优,添加云计算(jieba无法准确划分该词)等词及词频,down的文件格式使用python的文件读写进行调整: with open(file='./ ...

  6. Elasticsearch2.4.4自定义词典同义词配置

    自定义词典: 一.添加词典 mkdir -p elasticsearch-2.4.4/plugins/analysis-ik/config/custom vi elasticsearch-2.4.4/ ...

  7. jieba使用自定义词典_如何在Word 2013中使用自定义词典

    jieba使用自定义词典 If you have the option on for checking spelling as you type in Word 2013, you can easil ...

  8. 如何在jieba分词中加自定义词典_R-数据挖掘 | jiebaR 分词

    一.jiebaR主要函数 1.worker():加载jiebaR库的分词引擎 worker(type = "mix", dict = DICTPATH, hmm = HMMPATH ...

  9. 如何在jieba分词中加自定义词典_Python实践129-jieba分词和pkuseg分词

    jieba分词 jieba是非常有名的Python中文分词组件 jieba分词的特点是:支持3种分词模式:精确模式.全模式.搜索引擎模式.支持繁体分词.支持自定义词典. 安装: pip install ...

最新文章

  1. python输入输出流详解_Python 初体验之 输入输出流
  2. GitHub 推出 2020 宇宙新功能:Dark Mode!从此深夜搞开源不再被亮瞎了!
  3. 筱玛爱游戏——线性基
  4. 【opencv】边缘提取或通过二值图片提取对应的三维图像(python)
  5. navicate 导出批量插入语句
  6. 【BZOJ3110】【codevs1616】K大数查询,权值线段树套普通线段树
  7. 深入分析之Cluster层
  8. SAP License:雾里看花系列——SAP应用应该更关注业务过程
  9. 【笑话】骂人的最高境界
  10. Android--Activity中使用Intent传值
  11. java权限管理与用户角色权限设计
  12. 微信僵尸粉源码php,清除微信僵尸粉工具源码
  13. 黑盒测试的常见测试方法
  14. php svg 汉字 笔顺,html5 svg汉字书写笔画特效
  15. 移动H5手势密码解锁插件--demo
  16. 各级政府发布的BIM标准指南37套免费下载
  17. 如何选出好用的仓库库存管理系统软件?看文章就知道了
  18. 放鸡蛋问题:相同元素分配到相同的空间
  19. linux bond服务是什么,linux 查看bond
  20. Python分析《武林外传》 -----转载

热门文章

  1. Android.mk介绍(一)
  2. 《缠中说禅108课》104:几何结构与能量动力结构 1
  3. 数学不好能不能学好编程?
  4. 如何整合内心的冲突和混乱,构建、形成自己的思维体系?
  5. 西单,王府井购物小记
  6. UVA 1589 Xiangqi——模拟
  7. Windows Media Player播放器(VC++ 2008)
  8. Backtrader系列教程③:指标篇
  9. 从草根到百万年薪程序员的十年风雨之路,实战解析
  10. PHP 计算两数的百分比