HanLP汉语言处理包的主要作用是对分词后的文本进行停用词的去除和标注

下面将用两种方式介绍HanLP的配置方式

方式一:maven 仓库

步骤:1直接在pom.xm中加入HanLP的坐标即可使用基本功能((由字构词、依存句法分析外的全部功能)。

<dependency><groupId>com.hankcs</groupId><artifactId>hanlp</artifactId><version>portable-1.7.8</version>
</dependency>

若用户需要自定义配置通过在resources文件下创建hanlp.properties文件即可

方式二、下载jar、data、hanlp.properties

HanLP将数据与程序分离,给予用户自定义的自由。

1、下载:data.zip

下载后解压到任意目录,接下来通过配置文件告诉HanLP数据包的位置。

HanLP中的数据分为词典模型,其中词典是词法分析必需的,模型是句法分析必需的。

data
│
├─dictionary
└─model

用户可以自行增删替换,如果不需要句法分析等功能的话,随时可以删除model文件夹。

  • 模型跟词典没有绝对的区别,隐马模型被做成人人都可以编辑的词典形式,不代表它不是模型。
  • GitHub代码库中已经包含了data.zip中的词典,直接编译运行自动缓存即可;模型则需要额外下载。

2、下载jar和配置文件:hanlp-release.zip

配置文件的作用是告诉HanLP数据包的位置,只需修改第一行

root=D:/JavaProjects/HanLP/

为data的父目录即可,比如data目录是/Users/hankcs/Documents/data,那么root=/Users/hankcs/Documents/ 。

最后将hanlp.properties放入classpath即可,对于多数项目,都可以放到src或resources目录下,编译时IDE会自动将其复制到classpath中。除了配置文件外,还可以使用环境变量HANLP_ROOT来设置root。安卓项目请参考demo。

如果放置不当,HanLP会提示当前环境下的合适路径,并且尝试从项目根目录读取数据集。

附:本地jar包加入maven仓库并添加词库

起因:用maven方式不管配不配置hanlp.properties进行标准切词发现有些词语都切不出来,如“毛呢”会被分开,如下图

因项目使用的是maven方式来统一管理jar包,故采用本地jar包加入maven仓库并添加词库的方式来做。

1、按照方式二下载data以及jar包和配置文件

  • hanlp-1.7.8-sources.jar: 这个包可以不要

2、将下载的jar包导入maven仓库

install:install-file -Dfile=<Jar包的地址>

           -DgroupId=<Jar包的GroupId>

           -DartifactId=<Jar包的引用名称>

           -Dversion=<Jar包的版本>

           -Dpackaging=<Jar的打包方式>

install:install-file -Dfile=D:\hanlp-1.7.8.jar  -DgroupId=com.hankcs   -DartifactId=hanlp  -Dversion=hanlp-1.7.8   -Dpackaging=jar

成功后会在本地maven仓库看到加入的jar包

3、pom.xml中添加依赖

<!--自定义本地jar包使用python词典-->
<dependency><groupId>com.hankcs</groupId><artifactId>hanlp</artifactId><version>hanlp-1.7.8</version>
</dependency>

4、hanlp.properties配置data路径

/home/jar/Dict为linux上的路径,因为jar包是要上传到集群的

5、切词测试

将项目打成jar包,在hive中创建临时函数,测试

参考自:HanLP 下载和配置 - 勤奋的园 - 博客园

HanLP汉语言处理包 下载和配置相关推荐

  1. 淘淘商城 本地仓库配置和仓库jar包下载

    SVN服务器的搭建请查看该文:<Win7 x64 svn 服务器搭建> 1:仓库包存放位置: 2:setting.xml 文件配置信息 1 <?xml version="1 ...

  2. windows下php包下载及环境配置

    php开发环境包下载:https://windows.php.net/download 然后解压 将php.ini-development文件修改成php.ini(php配置文件) 打开php.ini ...

  3. Maven的mirror、repository、server和proxy配置以及jar包下载逻辑

    一.相关概念解析 Maven的settings.xml文件里面有proxy.server.repository.mirror的配置,在配置仓库地址的时候容易混淆. proxy是服务器不能直接访问外网时 ...

  4. 2022最新版超详细的Maven下载配置教程、IDEA中集成maven(包含图解过程)、以及导入项目时jar包下载不成功的问题解决

    文章目录 1.maven下载 2.maven环境变量的配置 3.查看maven是否配置成功 4.配置文件的修改 5.IDEA集成maven 6.导入项目时jar包下载不成功的问题解决 maven教程: ...

  5. idea新版:Java连接MySQL mysql-connector-java-bin.jar驱动包下载配置(全)

    目录 前言 1. 下载 2. 配置 前言 具体所需要使用的工具: 工具:idea编译器 包:jdbc的jar驱动包 idea连接数据库的时候需要使用的一个驱动包 同理其他编译器 1. 下载 通过官网下 ...

  6. Mac mysql8.0 java配置 jar包下载

    一.jar包下载 https://dev.mysql.com/downloads/connector/j/点击进入官网下载 拉到最下面 选择Platform Independent 点击Downloa ...

  7. HanLP自然语言处理包开源(包含源码)

    HanLP自然语言处理包开源(包含源码) 支持中文分词(N-最短路分词.CRF分词.索引分词.用户自定义词典.词性标注),命名实体识别(中国人名.音译人名.日本人名.地名.实体机构名识别),关键词提取 ...

  8. HanLP自然语言处理包介绍

    支持中文分词(N-最短路分词.CRF分词.索引分词.用户自定义词典.词性标注),命名实体识别(中国人名.音译人名.日本人名.地名.实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换, ...

  9. redis的rpm包下载安装

    1.下载rpm包 下载路径:https://raw.githubusercontent.com/bazingafraser/cv/master/rpm/redis-3.2.3-1.x86_64.rpm ...

最新文章

  1. mysql 插入删除操作_MySQL——增删改操作
  2. Jupidator 0.8.0 发布,Java 应用自动更新框架
  3. 敏捷软件开发12条原则(译)
  4. 切换回Chrome上的上次标签及打开设置快捷键
  5. 数据库中的范式 Normal Form(用最简单的语言描述!)
  6. paip.python 调用qt ui 总结
  7. python绘制密度散点图
  8. 北航超算运行matlab,计算性能超50万亿次破纪录,北航荣获ASC19世界大学生超算竞赛最高计算性能奖...
  9. 2019JAVA面试题附答案,很实用
  10. RT-Thread源码-__rt_ffs函数剖析
  11. Android程序员必备,offer拿到手软
  12. NAV导航网格寻路(4) -- 生成nav网格
  13. 360cdn能挡住cc攻击_关于本站8.11→8.13遭受大型CC攻击和CDN恶意流量攻击,已向公安部报警...
  14. 排序评估指标——NDCG和MAP
  15. dwz ajax分页,DWZ table的原生分页浅谈
  16. 《哈利波特》电影全集+有声书免费领取!带你重返儿时魔法世界……
  17. 《触摸屏游戏设计》——4.1节 起名字
  18. Package jdk.jshell
  19. kotlin 读取json文件_Kotlin数据类及json解析
  20. Maven可选依赖与排除依赖

热门文章

  1. 机器学习1:关联分析及频繁模式挖掘Association rule mining(基于R language)
  2. Elasticsearch+Kibana集群部署(3节点)
  3. 大学三年狂拿国内外十几个3D挑战赛大奖?!国内CG新星崛起
  4. 共享售货机取代人工是便利店的天生优势
  5. linux命令-进程(服务)管理
  6. 长安链ChainMaker:一、使用自定义组织节点docker启动链
  7. 首席新媒体黎想教程:如何做一场完成度较高的活动?
  8. 印象笔记和海云笺使用体验比较
  9. buu axb_2019_fmt32(格串)
  10. 创建 Excel 仪表板的 3 个简单步骤