文章目录

  • 前言
  • 正事

前言

Hanlp是很好用的分词,下文描述了的比较好(是转载)

文末BAT面试题

正事

要使用hanlp加载自定义词典可以通过修改配置文件hanlp.properties来实现。
要注意的点是:
  1. root根路径的配置:
    hanlp.properties中配置如下:
      #本配置文件中的路径的根目录,根目录+其他路径=完整路径(支持相对路径,请参考:https://github.com/hankcs/HanLP/pull/254)
      #Windows用户请注意,路径分隔符统一使用/
      root=D:/Project/public_sentiment_monitor/plugin/hanlp1.6.8/

2. 自定义词典路径的配置,配置文件中已经指明了相应的用法。
    hanlp.properties中配置如下:
      #自定义词典路径,用;隔开多个自定义词典,空格开头表示在同一个目录,使用“文件名 词性”形式则表示这个词典的词性默认是该词性。优先级递减。
      #所有词典统一使用UTF-8编码,每一行代表一个单词,格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] … 如果不填词性则表示采用词典的默认词性。
      CustomDictionaryPath=data/dictionary/custom/hanlp_custom.txt; 搜狗金融词库.txt n; CustomDictionary.txt; 现代汉语补充词库.txt; 全国地名大全.txt ns; 人名词典.txt

3. 配置文件做好以后,自定义词典不起作用问题

(1). 需要先删除custom文件夹下的所有bin文件,然后再使用hanlp,hanlp会自动加载一个新的bin文件,自定义词典就可以使用了。
貌似加载出的bin文件只有CustomDictionaryPath这一行配置中的第一个文件对应的bin,但是内容应该是将所有的自定义词典都包含了的。

(2). 如果自定义词典txt文件中存在含有空格的词, 比如说"16 金立债 nz 100"这种配置,回导致自定义词典加载程序将"16"认为是词,"金立债"认为是词性,"nz"认为是词频,然后出现Java报错:
      java.lang.NumberFormatException: For input string: “nz”
      虽然仍然生成了bin文件,但是实际上自定义词典中的所有词都是无法使用的。所以在生成自定义词典txt文件的过程中,一定要注意词中是否含有空格,是否符合"词 词性 词频"的格式。

(3)如何将含有空格的词加入自定义词典中:
      CustomDictionary = JClass(‘com.hankcs.hanlp.dictionary.CustomDictionary’)
      CustomDictionary.add(‘攻城 狮’)

JavaPub参考巨人:https://www.cnblogs.com/hufulinblog/p/10025933.html

推荐文章

今年不论对于国家还是我们个人都是决胜之年,特此安排 2021 JavaPub版 面试题及题解详细参考(全网搜:JavaPub版),包括:

基础,JVM,容器,多线程,反射,异常,网络,对象拷贝,JavaWeb,设计模式,Spring-Spring MVC,Spring Boot / Spring Cloud,Mybatis / Hibernate,Kafka,RocketMQ,Zookeeper,MySQL,Redis,Elasticsearch,Lucene。订阅不迷路,2021奥利给。

做一道BAT面试题

BAT

在使用Hanlp配置自定义词典时遇到的问题相关推荐

  1. 基于JAVA词典设计碰到的问题,Hanlp配置自定义词典遇到的问题与解决方法

    本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题,同时针对这些问题,也提供另一些解决的方案以及思路.这里分享给大家学习参考. 要使用hanlp加载自定义词典可以通过修改配置文件han ...

  2. Hanlp配置自定义词典遇到的问题与解决方法

    本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题,同时针对这些问题,也提供另一些解决的方案以及思路.这里分享给大家学习参考. 要使用hanlp加载自定义词典可以通过修改配置文件han ...

  3. Hanlp中自定义词典的配置、引用以及问题解决

    文章目录 如何阅读本文? Hanlp用户自定义词典引用简介 操作步骤 环境创建 编辑词典文件 将用户自定义词典路径加入配置文件 删除缓存文件 如何阅读本文? 首先我们对Hanlp用户词典进行简介,推荐 ...

  4. HanLP的自定义词典使用方式与注意事项介绍

    [环境]python 2.7 方法一:使用pyhanlp,具体方法如下: pip install pyhanlp  # 安装pyhanlp 进入python安装包路径,如 /usr/lib/pytho ...

  5. HanLP的自定义词典使用方式与注意事项介绍 1

    [环境]python 2.7 方法一:使用pyhanlp,具体方法如下: pip install pyhanlp  # 安装pyhanlp 进入python安装包路径,如 /usr/lib/pytho ...

  6. jieba使用自定义词典_如何在Word 2013中使用自定义词典

    jieba使用自定义词典 If you have the option on for checking spelling as you type in Word 2013, you can easil ...

  7. 最新LVGL8.3.7版本汉字输入法的使用,使用自定义词典。

    访问LVGL官网:https://lvgl.io/,下载最新版8.3.7. 参考:https://blog.csdn.net/qq_59953808/article/details/126445608 ...

  8. HanLP自定义词典注意事项

    对于词典,直接加载文本会很慢,所以HanLP对于文本文件做了一些预处理,生成了后缀名为.txt.bin的二进制文件. 这些二进制文件相当于缓存,避免了每次加载去读取多个文件. 通过这种txt和bin结 ...

  9. elasticsearch-analysis-ik中文分词插件安装及配置Ik自定义词典+拼音分词

    在Elasticsearch中默认的分词器对中文的支持不好,会分隔成一个一个的汉字.而IK分词器对中文的支持比较好,主要有两种模式"ik_smart"和"ik_max_w ...

最新文章

  1. EJSS: 南土所梁玉婷组-生境决定了土壤植物系统中细菌、抗性基因和可移动元件间的关系...
  2. 【PM模块】维护处理的控制和报告
  3. 在文件中读取列表功能
  4. 大叔公开课~微服务与持久集成
  5. java 判断int类型为空
  6. 软考 计算机网络,软考-计算机网络总复习
  7. 41 MM配置-采购-采购订单-STO配置-定义凭证类型和可用性检查设置
  8. 3PAR副总裁谈09年存储虚拟化
  9. word文档中页眉页脚的设置问题
  10. 经济学原理_宏观经济学,微观经济学合集 N.格里高利·曼昆PDF
  11. 数据挖掘实战—航空公司客户价值分析
  12. 电脑如何接受邮件服务器,如何设置邮箱服务器?IMAP、POP3有何区别?
  13. 互联网热点自动获取工具的实现
  14. 如何使用CK-S610-A01擦写RI-TRP-DR2B-40玻璃管标签的数据信息
  15. 短视频剪辑的三大要点教程,适合刚入门的小白
  16. 简述思科、华为交换机型号字母代表的意思
  17. HashSet线程不安全,1、 使用JUC中的CopyOnWriteArraySet底层还是使用CopyOnWriteArrayList进行实例化 2、使用工具类中的Collections.synch
  18. The Things Network LoRaWAN Stack V3 学习笔记 2.5 LoRa节点配置接入
  19. Kmeans聚类时K值选择的方法
  20. 微信小程序-如何实现input等输入框禁止输入空格【亲测有效】

热门文章

  1. 基于JSP的银行柜员绩效考核系统【数据库设计、源码、开题报告】
  2. hp服务器电脑进水维修,HP惠普DV6笔记本电脑进水维修整机拆解教程
  3. Python3小白爬虫入门(一)
  4. (winform)菜单栏添加快捷键以及按钮添加快捷键方法
  5. java 8安装教程
  6. 踩坑 - 关于 “ authentication failed “的解决方法 --- 已解决
  7. 关于CommandTimeOut 【转】
  8. winbox定时重启adsl的方法
  9. 安卓手机安装BurpSuite证书
  10. android-基础知识解析