jieba 同义词_jieba 自定义词典
今天研究了一下结巴自定义词典的使用,稍作记录后续了解原理再修正。
我们添加自定义的词无非有4种
1、添加词完全不同于原词典的词
这时候,uaerdict.txt中添加词的词频随意设定3即可
2、添加词包含了原词典的词(例如奔驰500ML就包含了奔驰)
这时候,同1
3、添加词被包含于原词典词(例如QQ就包含于QQ号)
这个时候的词频需要设置比较大,具体如何设定笔者没有研究,QQ这个例子大概词频要设定到5000词频才可以分得开。
4、添加词包含特殊字符(例如空格)
我们可以通过改jieba包init.py中几个正则表达式来解决这个问题。用户词典中词词性用@@ 分隔。
1. 搜索
re_han_default = re.compile(“([\u4E00-\u9FD5a-zA-Z0-9+#&._]+)”, re.U)
改成
re_han_default = re.compile(“(.+)”, re.U)
2. 搜索
re_userdict = re.compile(‘^(.+?)( [0-9]+)?( [a-z]+)?$’, re.U)
改成
re_userdict = re.compile(‘^(.+?)(\u0040\u0040[0-9]+)?(\u0040\u0040[a-z]+)?$’, re.U)
3. 搜索
word, freq = line.split(’ ‘)[:2]
改成
word, freq = line.split(‘\u0040\u0040’)[:2]
4.补充:若用全模式继续改。
搜索
re_han_cut_all = re.compile(“([\u4E00-\u9FD5]+)”, re.U)
改成
re_han_cut_all = re.compile(“(.+)”, re.U)
附录:
另外发现在win中运行时,程序调用结巴后会在C:\Users\Acer\AppData\Local\Temp产生一个缓存文件。这个缓存文件会缓存结巴原生的dict.txt,但不会缓存user_dict.txt,所以user_dict.txt的修正可以随时生效,也意味着速度会比较慢。大家用的时候自己斟酌。
jieba 同义词_jieba 自定义词典相关推荐
- jieba 同义词_Jieba库实现词性标注及小说人物角色抽取
4年人力资源从业经验,情报学硕士,主要内容涵盖python.数据分析和人力资源相关内容 本文运用自然语言处理技术,对中文小说<神雕侠侣>人物角色进行抽取,为使用通过社会网络分析法对人物关系 ...
- 与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...
jieba库在中文分词中很常用,做一个简单的介绍和运用~ 需求1:打开本地的十九大报告文本,并采用jieba分词器进行分词,最后将分词结果存入名为segresult的文本文件中. 注释:①jieba库 ...
- ik分词和jieba分词哪个好_Python 中文 文本分析 实战:jieba分词+自定义词典补充+停用词词库补充+词频统计...
最近项目需要,实现文本的词频分析,折腾了几天才完成任务,有点成就感,最后整理总结一下这部分的内容,希望更多同僚受益. 一.使用前准备 环境:Python3.6 安装结巴:pip install ji ...
- 如何在jieba分词中加自定义词典_Pyspark Word2Vec + jieba 训练词向量流程
摘要:用商品描述为语料库训练商品词向量为例,分享一下用pyspark自带word2vec+jieba分词训练词向量的流程. 工具:python,pyspark,jieba,pandas,numpy 数 ...
- jieba分词自定义词典
从语料库down下来的词频表,结合业务实际分词进行调优,添加云计算(jieba无法准确划分该词)等词及词频,down的文件格式使用python的文件读写进行调整: with open(file='./ ...
- Elasticsearch2.4.4自定义词典同义词配置
自定义词典: 一.添加词典 mkdir -p elasticsearch-2.4.4/plugins/analysis-ik/config/custom vi elasticsearch-2.4.4/ ...
- jieba使用自定义词典_如何在Word 2013中使用自定义词典
jieba使用自定义词典 If you have the option on for checking spelling as you type in Word 2013, you can easil ...
- 如何在jieba分词中加自定义词典_R-数据挖掘 | jiebaR 分词
一.jiebaR主要函数 1.worker():加载jiebaR库的分词引擎 worker(type = "mix", dict = DICTPATH, hmm = HMMPATH ...
- 如何在jieba分词中加自定义词典_Python实践129-jieba分词和pkuseg分词
jieba分词 jieba是非常有名的Python中文分词组件 jieba分词的特点是:支持3种分词模式:精确模式.全模式.搜索引擎模式.支持繁体分词.支持自定义词典. 安装: pip install ...
最新文章
- python输入输出流详解_Python 初体验之 输入输出流
- GitHub 推出 2020 宇宙新功能:Dark Mode!从此深夜搞开源不再被亮瞎了!
- 筱玛爱游戏——线性基
- 【opencv】边缘提取或通过二值图片提取对应的三维图像(python)
- navicate 导出批量插入语句
- 【BZOJ3110】【codevs1616】K大数查询,权值线段树套普通线段树
- 深入分析之Cluster层
- SAP License:雾里看花系列——SAP应用应该更关注业务过程
- 【笑话】骂人的最高境界
- Android--Activity中使用Intent传值
- java权限管理与用户角色权限设计
- 微信僵尸粉源码php,清除微信僵尸粉工具源码
- 黑盒测试的常见测试方法
- php svg 汉字 笔顺,html5 svg汉字书写笔画特效
- 移动H5手势密码解锁插件--demo
- 各级政府发布的BIM标准指南37套免费下载
- 如何选出好用的仓库库存管理系统软件?看文章就知道了
- 放鸡蛋问题:相同元素分配到相同的空间
- linux bond服务是什么,linux 查看bond
- Python分析《武林外传》 -----转载