本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题,同时针对这些问题,也提供另一些解决的方案以及思路。这里分享给大家学习参考。

要使用hanlp加载自定义词典可以通过修改配置文件hanlp.properties来实现。

要注意的点是:

1.root根路径的配置:

hanlp.properties中配置如下:

#本配置文件中的路径的根目录,根目录+其他路径=完整路径(支持相对路径)

#Windows用户请注意,路径分隔符统一使用/

root=D:/Project/public_sentiment_monitor/plugin/hanlp1.6.8/

2.自定义词典路径的配置,配置文件中已经指明了相应的用法。

hanlp.properties中配置如下:

#自定义词典路径,用;隔开多个自定义词典,空格开头表示在同一个目录,使用“文件名 词性”形式则表示这个词典的词性默认是该词性。优先级递减。

#所有词典统一使用UTF-8编码,每一行代表一个单词,格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] ... 如果不填词性则表示采用词典的默认词性。

CustomDictionaryPath=data/dictionary/custom/hanlp_custom.txt; 搜狗金融词库.txt n; CustomDictionary.txt; 现代汉语补充词库.txt; 全国地名大全.txt ns; 人名词典.txt

3.配置文件做好以后,自定义词典不起作用问题

(1). 需要先删除custom文件夹下的所有bin文件,然后再使用hanlp,hanlp会自动加载一个新的bin文件,自定义词典就可以使用了。

貌似加载出的bin文件只有CustomDictionaryPath这一行配置中的第一个文件对应的bin,但是内容应该是将所有的自定义词典都包含了的。

(2). 如果自定义词典txt文件中存在含有空格的词, 比如说"16 金立债 nz 100"这种配置,回导致自定义词典加载程序将"16"认为是词,"金立债"认为是词性,"nz"认为是词频,然后出现Java报错:

java.lang.NumberFormatException: For input string: "nz"

      虽然仍然生成了bin文件,但是实际上自定义词典中的所有词都是无法使用的。所以在生成自定义词典txt文件的过程中,一定要注意词中是否含有空格,是否符合"词 词性 词频"的格式。

(3)如何将含有空格的词加入自定义词典中:

CustomDictionary = JClass('com.hankcs.hanlp.dictionary.CustomDictionary')

CustomDictionary.add('攻城 狮')

Hanlp配置自定义词典遇到的问题与解决方法相关推荐

  1. 基于JAVA词典设计碰到的问题,Hanlp配置自定义词典遇到的问题与解决方法

    本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题,同时针对这些问题,也提供另一些解决的方案以及思路.这里分享给大家学习参考. 要使用hanlp加载自定义词典可以通过修改配置文件han ...

  2. 在使用Hanlp配置自定义词典时遇到的问题

    文章目录 前言 正事 前言 Hanlp是很好用的分词,下文描述了的比较好(是转载) 文末BAT面试题 正事 要使用hanlp加载自定义词典可以通过修改配置文件hanlp.properties来实现. ...

  3. 在启用sharepoint portal server 2003的SSO时,提示“无法连接到数据库服务器,请检查配置账户的权利”的问题的解决方法...

    在启用sharepoint portal server 2003的SSO时,提示"无法连接到数据库服务器,请检查配置账户的权利"的问题的解决方法 这是微软的一个windows in ...

  4. MATLAB 安装 问题 配置Microsoft Visual C++ 2008 Redistributable 的解决方法

    1.安装时,可以参考安装教程,在百度里面搜你所需要的版本的安装教程,按照步骤进行就可以了! 2.在安装时,有时出现这种问题: 当双击setup.exe,弹出窗口,显示需要windows的许可Windo ...

  5. Spring配置数据源没有maxActive和maxWait参数解决方法

    Spring配置数据源没有maxActive和maxWait参数解决方法 也许你会出现像我这样的情况 原因:Apache 在2.0版本以上已经做了一次升级,在dbcp的修改日志显示:change &q ...

  6. Ubuntu18.04配置carla0.9.11踩坑与解决方法总结,同时解决安装carla-ros-bridge遇到的问题,并复现OpenCDA成功与ros关联

    Ubuntu18.04配置carla0.9.11踩坑与解决方法总结,同时解决安装carla-ros-bridge遇到的问题,并复现OpenCDA成功与ros关联 背景: 主要是为了复现叶小飞的Open ...

  7. 创建虚拟机时提示“已拒绝虚拟机配置。请参见浏览器控制”的解决方法

    创建虚拟机时提示"已拒绝虚拟机配置.请参见浏览器控制"的解决方法 上面的问题出现在 VMwareESXi 6.5u2和VMwareESXi 6.7环境下,当然其他环境也会出现 这个 ...

  8. Hanlp中自定义词典的配置、引用以及问题解决

    文章目录 如何阅读本文? Hanlp用户自定义词典引用简介 操作步骤 环境创建 编辑词典文件 将用户自定义词典路径加入配置文件 删除缓存文件 如何阅读本文? 首先我们对Hanlp用户词典进行简介,推荐 ...

  9. HanLP的自定义词典使用方式与注意事项介绍

    [环境]python 2.7 方法一:使用pyhanlp,具体方法如下: pip install pyhanlp  # 安装pyhanlp 进入python安装包路径,如 /usr/lib/pytho ...

最新文章

  1. react滑动切换tab动画效果_Swiper - 免费开源、功能强大的触摸滑动js特效插件
  2. python中可选参数_带可选参数的Python函数
  3. IDEA查看Maven路径
  4. Python之数据分析(random模块的正确用法)
  5. ScriptObject的坑人之处
  6. php 批量下载网页文件,批量下载文件(以xxx网站为例)
  7. 博客思听-中文有声书摘更新地址
  8. 数据库必看--WYL篇
  9. 今日头条后台止步一面
  10. 在Word2007文档中设置页面边框
  11. [JavaScript]只需一行代码,轻松搞定快捷留言-V2升级版javascript
  12. 北大四大“疯人院”到底有多牛?天才、怪才在这儿遍地都是!
  13. 【知乎高赞】软件测试工程师应该怎样规划自己?成为年薪30W+测试工程师(乾坤未定,皆是黑马)
  14. 学习Java的第十周
  15. 【最全面教程】搞定配置MySQL的各种幺蛾子!!
  16. C++如何创建对角矩阵
  17. Scala 获取时间,时间戳,时间差
  18. 算法与数据结构 第四章 树与二叉树
  19. unity非常好用的路径生成软件 unity3d Curvy Splines 8[8.2.1]
  20. ubuntu安装budgie桌面

热门文章

  1. 未定义的标识符:IplImage
  2. Java 9版本之后Base64Encoder和Base64Decoder无法继续使用解决办法
  3. 坐标转换软件OpenCoord V1.1.1正式发布,欢迎下载使用
  4. 隧道工具proxytunnle
  5. Excel对比两列数据相同的在第三列打印出来
  6. Sketch哪个版本好用啊?
  7. 利用多态特性,创建一个手机类Phones,定义打电话的方式call,创建三个子类,并在各自的方法中重写方法,编写程序入口main()方法,实现多种手机打电话...
  8. Java基于nfs-client包实现NFS协议连接linux服务器进行文件上传与下载操作源码
  9. 计算机等级考试证件照可以自己制作
  10. 解决-IDEA搭配maven无法从中央仓库下载jar包,或者下载失败的问题