前言:这篇笔记算是 word中文分词 java库的入门笔记,记录下word分词的基本配置,和一个由于经验浅而踩的坑。

感谢word分词 的作者,word分词的github地址:https://github.com/ysc/word

1、maven依赖

<dependency><groupId>org.apdplat</groupId><artifactId>word</artifactId><version>1.3</version>
</dependency>

2、自定义词典和停用词配置

1)、在classpath目录下新建名为 word.local.conf的文本文件(没有txt后缀) (文件是utf-8编码)

        2)、新建自定义词典文件 mydic.txt,新建停用词词典文件 mystopword.txt。(文件使用utf-8编码,尽量英文文件名)

3)、word.local.conf增加自定义词典配置,添加一行 "dic.path=H:/mydic.txt ",路径名称随意,文件名就是步骤2新建的

文件,也可以使用classpath指定,classpath不能有空格,绝对路径也不能有空格(踩过的坑)。。。

        4)、word.local.conf增加自定义停用词配置,添加一行  stopwords.path= "dic.path=H:/mystopword.txt ",,路径名称随

意,文件名就是步骤2新建的文件,也可以使用classpath指定,

                 classpath不能有空格,绝对路径也不能有空格(踩过的坑)。。。

5)、接下来就算是入门了。。。。。。

word中文分词 一相关推荐

  1. word中文分词器使用

    2019独角兽企业重金招聘Python工程师标准>>> 一.pom.xml <!-- 分词库 --><dependency><groupId>or ...

  2. Java分布式中文分词组件 - word分词

    Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义.能准确识别英文.数字,以及日期.时间等 ...

  3. Java分布式中文分词组件 - word分词(转自 https //github com/ysc/word)

    首先给大家分享一个巨牛巨牛的人工智能教程,是我无意中发现的.教程不仅零基础,通俗易懂,而且非常风趣幽默,还时不时有内涵段子,像看小说一样,哈哈-我正在学习中,觉得太牛了,所以分享给大家!点这里可以跳转 ...

  4. Java分布式中文分词组件 - word分词(转自:https://github.com/ysc/word)

    ###Java分布式中文分词组件 - word分词 ####word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义.能准确识别英文.数字,以 ...

  5. Java中文分词组件 - word分词(skycto JEEditor)

    转自:https://my.oschina.net/apdplat/blog/228619#OSC_h4_8 Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文 ...

  6. Macropodus中文分词方法综述详解(CWS, chinese word segment)

    一.Macropodus简介 Macropodus自然语言处理工具(Albert+BiLSTM+CRF) 拥有中文分词 命名实体识别 新词发现 关键词 文本摘要 计算器 中文 数字阿拉伯数字转换等算法 ...

  7. 中文分词基于CNN和Word Embeddings

    基于字符的序列标记框架对于中文分词是非常搞笑灵活的. 论文:Convolutional Neural Network with Word Embeddings for Chinese Word Seg ...

  8. PyTorch 高级实战教程:基于 BI-LSTM CRF 实现命名实体识别和中文分词

    20210607 https://blog.csdn.net/u011828281/article/details/81171066 前言:译者实测 PyTorch 代码非常简洁易懂,只需要将中文分词 ...

  9. Python第三方库jieba(中文分词)入门与进阶(官方文档)

    jieba "结巴"中文分词:做最好的 Python 中文分词组件 github:https://github.com/fxsjy/jieba 特点 支持三种分词模式: 精确模式, ...

最新文章

  1. 初等数论--整除--公因数一定是最大公因数的因数
  2. maplet, power set, domain subtraction,
  3. python3 随机数 质数 素数 文件操作
  4. Java优雅的记录日志:log4j实战篇
  5. JQuery的Ajax跨域请求的解决方案
  6. 以汉字开头,以某个词结尾的一段文字的正则
  7. 值得收藏的50个学习C语言的源代码网站
  8. 英国电信推出FTTP和G.fast新试点项目
  9. erstudio安装
  10. Dorado7之AjaxAction
  11. protobuf 微信小程序_微信小程序使用Protobuf
  12. [iOS]高德地图SDK开发--准备篇
  13. SpringCloud 之 注册中心
  14. 读《人脑连接组研究:脑结构网络和脑功能网络》
  15. 赵小楼《天道》《遥远的救世主》深度解析(37)丁元英参加酒局前的小插曲:从冯世杰的刁难找茬说说“心是愿望,神是境界”
  16. Flash常见问题与解答
  17. react中使用AlipayJSBridge 支付宝支付调用接口在H5网页的应用
  18. 利用净现值(NPV)分析对比方案的可行性
  19. vs2017无法下载安装文件,请检查internet连接
  20. 迪杰斯特拉算法-(.c)

热门文章

  1. 10大网络美女排行榜(组图)(*^__^*) ……
  2. golang 执行命令行
  3. HDU 5445:Food Problem
  4. sql 2008 r2使用
  5. 微信小程序宠物商城项目源码来了~
  6. Linux学习19-gitlab配置邮箱postfix(新用户激活邮件)
  7. CTF相关网站收集(自用)
  8. Photozoom图像放大的技术一二事
  9. MacOS Monterey从源码构建安装opencv 4.5.5
  10. 医院实验室lis系统开发带源码