结巴分词 java_Java版结巴分词自定义词库
Java版结巴分词项目地址:https://github.com/huaban/jieba-analysis
1. 加载依赖
使用Maven构建项目
com.huabangroupId>
jieba-analysisartifactId>
1.0.2version>
dependency>
2. 加载用户自定义词典
// 词典路径为Resource/dicts/jieba.dict
val path = Paths.get(new File(getClass.getClassLoader.getResource("dicts/jieba.dict").getPath).getAbsolutePath)
WordDictionary.getInstance().loadUserDict(path)
3. 进行分词
import scala.collection.JavaConverters._
import com.huaban.analysis.jieba.{JiebaSegmenter, SegToken, WordDictionary}
import com.huaban.analysis.jieba.JiebaSegmenter.SegMode
import scala.collection.mutable
val segmenter = new JiebaSegmenter()
val line = "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱Python和C++。"
val list: mutable.Buffer[SegToken] = segmenter.process(line, SegMode.SEARCH).asScala
用户自定义分词字典描述
三列数据:
词
词频
词性
分隔符:\t或空格
附分析过程如下:
1、展开源码分析,JiebaSegmenter是分词器,WordDictionary这个就是词典了。
2、分析方法,loadUserDict很明显是加载用户自定义的词典
3、public void loadUserDict(Path userDict) 需要传入字典文件对应的nio.Path
结巴分词 java_Java版结巴分词自定义词库相关推荐
- Elasticsearch 之(24)IK分词器配置文件讲解以及自定义词库
1.ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用来配置自定义词库 main.dic:ik原生内置的中文词库,总共有27万多条, ...
- 结巴分词完全禁用默认词库(仅使用自定义词库)
有时候需要使用自定义的词库,不使用默认的词库.比如做敏感词分词时, 完全禁用掉默认词库. jieba 分词里面可以这样处理,通过set_dictionary 来设置自定义词库,从而禁用掉默认词库. i ...
- python使用结巴分词(jieba)创建自己的词典/词库
原文地址:https://ptorch.com/news/204.html 为什么需要在python使用结巴分词(jieba)创建自己的词典/词库,因为很多时候分词给我们的结果了能刚好相反,如:不回家 ...
- Jieba分词模式详解、词库的添加与删除、自定义词库失败的处理
文章目录 1 Jieba的搜索模式 1.1 全模式 1.2 精确模式 1.3 搜索引擎模式 1.4 分词结果的形式选择 2 词库的添加与删除 2.1 添加单个词语 2.2 添加自定义词典 2.3 词库 ...
- 白话Elasticsearch29-IK中文分词之IK分词器配置文件+自定义词库
文章目录 概述 ik配置文件 IK自定义词库 自定义词库 Step1 : 新建自定义分词库 Step2 : 添加到ik的配置文件中 Step3 :重启es ,查看分词 自定义停用词库 Step1 : ...
- 30_ElasticSearch IK分词器配置文件 以及自定义词库
ElasticSearch IK分词器配置文件 以及自定义词库 更多干货 分布式实战(干货) spring cloud 实战(干货) mybatis 实战(干货) spring boot 实战(干货) ...
- ElasticSearch 中文分词器ik的安装、测试、使用、自定义词库、热更新词库
文章目录 # 实验环境 # ik分词器的下载.安装.测试 ## 安装方法一:使用elasticsearch-plugin 安装 ## 安装方法二:下载编译好的包进行安装 1.下载 2.安装 3.重启` ...
- Elasticsearch配置ik中文分词器自定义词库
1.IK配置文件 在config目录下: IKAnalyzer.cfg.xml:配置自定义词库 main.dic:分词器自带的词库,索引会按照里面的词创建 quantifier.dic:存放计量单位词 ...
- IK分词器使用自定义词库
2019独角兽企业重金招聘Python工程师标准>>> 1.拷贝IKAnalyzer.cfg.xml到WEB-INF/classes下,拷贝IKAnalyzer2012FF_u1.j ...
- 我用纯C语言开发的中英文混合分词服务器3.0正式发布,词库190多万词,每秒切分5万+,同时提供 c、java、C#、delphi、js调用范例
我用纯C语言开发的中英文混合分词服务器3.0正式发布,词库190多万词,每秒切分5万+,同时提供 c.java.C#.delphi.js调用范例 百万商业圈中英文混合分词服务器3.0正式发布, 绝对稳 ...
最新文章
- linux脚本编写记录
- 【敏捷个人俱乐部-北京】及【免费敏捷结果线下练习】报名帖
- php protobuf 性能,php中使用protobuffer
- 『ACM C++』 PTA 天梯赛练习集L1 | 016-017
- linux tar.gz文件安装
- 2018/5/14~2018/5/18 周记
- [bzoj4568][Scoi2016]幸运数字
- Unity 使用LitJson 解析Json数据
- 一级计算机考试比分,人工智能期末考试模拟试题一01
- 力扣739题:每日温度
- 在OpenStack私有云上安装配置虚拟机
- day 1-requests基础用法和网页基础学习总结
- 基于javaweb的二手自行车商城系统(java+jsp+javascript+servlet+mysql)
- Micron内存DDR3型号查询 memory part
- 数据库读写分离(单主单从+双主双从)
- 马化腾演讲、张勇内部讲话暴露两大巨头云上端倪
- 水仙花数的实现(Java)
- 用户故事需求+验收标准
- 我的世界改服务器mod文件夹,我的世界如何修改MOD配置文件
- 《计算机视觉之三维重建》笔记3-单视几何