word中文分词 一
前言:这篇笔记算是 word中文分词 java库的入门笔记,记录下word分词的基本配置,和一个由于经验浅而踩的坑。
感谢word分词 的作者,word分词的github地址:https://github.com/ysc/word
1、maven依赖
<dependency><groupId>org.apdplat</groupId><artifactId>word</artifactId><version>1.3</version>
</dependency>
2、自定义词典和停用词配置
1)、在classpath目录下新建名为 word.local.conf的文本文件(没有txt后缀) (文件是utf-8编码)
2)、新建自定义词典文件 mydic.txt,新建停用词词典文件 mystopword.txt。(文件使用utf-8编码,尽量英文文件名)
3)、word.local.conf增加自定义词典配置,添加一行 "dic.path=H:/mydic.txt ",路径名称随意,文件名就是步骤2新建的
文件,也可以使用classpath指定,classpath不能有空格,绝对路径也不能有空格(踩过的坑)。。。
4)、word.local.conf增加自定义停用词配置,添加一行 stopwords.path= "dic.path=H:/mystopword.txt ",,路径名称随
意,文件名就是步骤2新建的文件,也可以使用classpath指定,
classpath不能有空格,绝对路径也不能有空格(踩过的坑)。。。
5)、接下来就算是入门了。。。。。。
word中文分词 一相关推荐
- word中文分词器使用
2019独角兽企业重金招聘Python工程师标准>>> 一.pom.xml <!-- 分词库 --><dependency><groupId>or ...
- Java分布式中文分词组件 - word分词
Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义.能准确识别英文.数字,以及日期.时间等 ...
- Java分布式中文分词组件 - word分词(转自 https //github com/ysc/word)
首先给大家分享一个巨牛巨牛的人工智能教程,是我无意中发现的.教程不仅零基础,通俗易懂,而且非常风趣幽默,还时不时有内涵段子,像看小说一样,哈哈-我正在学习中,觉得太牛了,所以分享给大家!点这里可以跳转 ...
- Java分布式中文分词组件 - word分词(转自:https://github.com/ysc/word)
###Java分布式中文分词组件 - word分词 ####word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义.能准确识别英文.数字,以 ...
- Java中文分词组件 - word分词(skycto JEEditor)
转自:https://my.oschina.net/apdplat/blog/228619#OSC_h4_8 Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文 ...
- Macropodus中文分词方法综述详解(CWS, chinese word segment)
一.Macropodus简介 Macropodus自然语言处理工具(Albert+BiLSTM+CRF) 拥有中文分词 命名实体识别 新词发现 关键词 文本摘要 计算器 中文 数字阿拉伯数字转换等算法 ...
- 中文分词基于CNN和Word Embeddings
基于字符的序列标记框架对于中文分词是非常搞笑灵活的. 论文:Convolutional Neural Network with Word Embeddings for Chinese Word Seg ...
- PyTorch 高级实战教程:基于 BI-LSTM CRF 实现命名实体识别和中文分词
20210607 https://blog.csdn.net/u011828281/article/details/81171066 前言:译者实测 PyTorch 代码非常简洁易懂,只需要将中文分词 ...
- Python第三方库jieba(中文分词)入门与进阶(官方文档)
jieba "结巴"中文分词:做最好的 Python 中文分词组件 github:https://github.com/fxsjy/jieba 特点 支持三种分词模式: 精确模式, ...
最新文章
- 初等数论--整除--公因数一定是最大公因数的因数
- maplet, power set, domain subtraction,
- python3 随机数 质数 素数 文件操作
- Java优雅的记录日志:log4j实战篇
- JQuery的Ajax跨域请求的解决方案
- 以汉字开头,以某个词结尾的一段文字的正则
- 值得收藏的50个学习C语言的源代码网站
- 英国电信推出FTTP和G.fast新试点项目
- erstudio安装
- Dorado7之AjaxAction
- protobuf 微信小程序_微信小程序使用Protobuf
- [iOS]高德地图SDK开发--准备篇
- SpringCloud 之 注册中心
- 读《人脑连接组研究:脑结构网络和脑功能网络》
- 赵小楼《天道》《遥远的救世主》深度解析(37)丁元英参加酒局前的小插曲:从冯世杰的刁难找茬说说“心是愿望,神是境界”
- Flash常见问题与解答
- react中使用AlipayJSBridge 支付宝支付调用接口在H5网页的应用
- 利用净现值(NPV)分析对比方案的可行性
- vs2017无法下载安装文件,请检查internet连接
- 迪杰斯特拉算法-(.c)