Java版结巴分词项目地址:https://github.com/huaban/jieba-analysis

1. 加载依赖

使用Maven构建项目

com.huabangroupId>

jieba-analysisartifactId>

1.0.2version>

dependency>

2. 加载用户自定义词典

// 词典路径为Resource/dicts/jieba.dict

val path = Paths.get(new File(getClass.getClassLoader.getResource("dicts/jieba.dict").getPath).getAbsolutePath)

WordDictionary.getInstance().loadUserDict(path)

3. 进行分词

import scala.collection.JavaConverters._

import com.huaban.analysis.jieba.{JiebaSegmenter, SegToken, WordDictionary}

import com.huaban.analysis.jieba.JiebaSegmenter.SegMode

import scala.collection.mutable

val segmenter = new JiebaSegmenter()

val line = "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱Python和C++。"

val list: mutable.Buffer[SegToken] = segmenter.process(line, SegMode.SEARCH).asScala

用户自定义分词字典描述

三列数据:

词频

词性

分隔符:\t或空格

附分析过程如下:

1、展开源码分析,JiebaSegmenter是分词器,WordDictionary这个就是词典了。

2、分析方法,loadUserDict很明显是加载用户自定义的词典

3、public void loadUserDict(Path userDict) 需要传入字典文件对应的nio.Path

结巴分词 java_Java版结巴分词自定义词库相关推荐

  1. Elasticsearch 之(24)IK分词器配置文件讲解以及自定义词库

    1.ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用来配置自定义词库 main.dic:ik原生内置的中文词库,总共有27万多条, ...

  2. 结巴分词完全禁用默认词库(仅使用自定义词库)

    有时候需要使用自定义的词库,不使用默认的词库.比如做敏感词分词时, 完全禁用掉默认词库. jieba 分词里面可以这样处理,通过set_dictionary 来设置自定义词库,从而禁用掉默认词库. i ...

  3. python使用结巴分词(jieba)创建自己的词典/词库

    原文地址:https://ptorch.com/news/204.html 为什么需要在python使用结巴分词(jieba)创建自己的词典/词库,因为很多时候分词给我们的结果了能刚好相反,如:不回家 ...

  4. Jieba分词模式详解、词库的添加与删除、自定义词库失败的处理

    文章目录 1 Jieba的搜索模式 1.1 全模式 1.2 精确模式 1.3 搜索引擎模式 1.4 分词结果的形式选择 2 词库的添加与删除 2.1 添加单个词语 2.2 添加自定义词典 2.3 词库 ...

  5. 白话Elasticsearch29-IK中文分词之IK分词器配置文件+自定义词库

    文章目录 概述 ik配置文件 IK自定义词库 自定义词库 Step1 : 新建自定义分词库 Step2 : 添加到ik的配置文件中 Step3 :重启es ,查看分词 自定义停用词库 Step1 : ...

  6. 30_ElasticSearch IK分词器配置文件 以及自定义词库

    ElasticSearch IK分词器配置文件 以及自定义词库 更多干货 分布式实战(干货) spring cloud 实战(干货) mybatis 实战(干货) spring boot 实战(干货) ...

  7. ElasticSearch 中文分词器ik的安装、测试、使用、自定义词库、热更新词库

    文章目录 # 实验环境 # ik分词器的下载.安装.测试 ## 安装方法一:使用elasticsearch-plugin 安装 ## 安装方法二:下载编译好的包进行安装 1.下载 2.安装 3.重启` ...

  8. Elasticsearch配置ik中文分词器自定义词库

    1.IK配置文件 在config目录下: IKAnalyzer.cfg.xml:配置自定义词库 main.dic:分词器自带的词库,索引会按照里面的词创建 quantifier.dic:存放计量单位词 ...

  9. IK分词器使用自定义词库

    2019独角兽企业重金招聘Python工程师标准>>> 1.拷贝IKAnalyzer.cfg.xml到WEB-INF/classes下,拷贝IKAnalyzer2012FF_u1.j ...

  10. 我用纯C语言开发的中英文混合分词服务器3.0正式发布,词库190多万词,每秒切分5万+,同时提供 c、java、C#、delphi、js调用范例

    我用纯C语言开发的中英文混合分词服务器3.0正式发布,词库190多万词,每秒切分5万+,同时提供 c.java.C#.delphi.js调用范例 百万商业圈中英文混合分词服务器3.0正式发布, 绝对稳 ...

最新文章

  1. linux脚本编写记录
  2. 【敏捷个人俱乐部-北京】及【免费敏捷结果线下练习】报名帖
  3. php protobuf 性能,php中使用protobuffer
  4. 『ACM C++』 PTA 天梯赛练习集L1 | 016-017
  5. linux tar.gz文件安装
  6. 2018/5/14~2018/5/18 周记
  7. [bzoj4568][Scoi2016]幸运数字
  8. Unity 使用LitJson 解析Json数据
  9. 一级计算机考试比分,人工智能期末考试模拟试题一01
  10. 力扣739题:每日温度
  11. 在OpenStack私有云上安装配置虚拟机
  12. day 1-requests基础用法和网页基础学习总结
  13. 基于javaweb的二手自行车商城系统(java+jsp+javascript+servlet+mysql)
  14. Micron内存DDR3型号查询 memory part
  15. 数据库读写分离(单主单从+双主双从)
  16. 马化腾演讲、张勇内部讲话暴露两大巨头云上端倪
  17. 水仙花数的实现(Java)
  18. 用户故事需求+验收标准
  19. 我的世界改服务器mod文件夹,我的世界如何修改MOD配置文件
  20. 《计算机视觉之三维重建》笔记3-单视几何

热门文章

  1. leetcode做题过程中遇到的神bug
  2. Power BI 中文版下载方式
  3. Python爬虫——用正则表达式爬取小说内容
  4. JAVA抓取商品价格_使用JAVA爬取京东商品价格
  5. “物联网开发实战”学习笔记-(三)通过感知光线开关电灯
  6. 第 7 章 —— 代理模式
  7. 对国内基金行业的一些思考 【投资干货】
  8. 学生用台灯什么光对眼睛好?开学季精选真正适合孩子的护眼台灯
  9. 必须了解的网络运维知识
  10. feil在java里什么意思_JAVA 中的 - 是什么意思?