Lucene(八)拓展1-结巴分词(java版) jieba-analysis
GitHub地址:https://github.com/huaban/jieba-analysis
结巴分词(java版) jieba-analysis
首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴 分词. 同时也感谢jieba分词java版本的实现团队huaban,他们的努力使得Java也能直接做出效果很棒的分词。
不过由于huaban已经没有再对java版进行维护,所以我自己对项目进行了开发。除了结巴分词(java版)所保留的原项目针对搜索引擎分词的功能(cutforindex、cutforsearch),我加入了tfidf的关键词提取功能,并且实现的效果和python的jieba版本的效果一模一样!
(以下内容在基于jieba-java版本README.md的基础上,加入了对我新加入的tfidf关键词提取模块的相关说明)
1.项目引入
<dependency><groupId>com.huaban</groupId><artifactId>jieba-analysis</artifactId><version>1.0.2</version></dependency>
2.demo
import com.huaban.analysis.jieba.JiebaSegmenter;
import com.huaban.analysis.jieba.SegToken;
import org.junit.Test;import java.util.List;public class TestJieBa {//声明一个分词对象private static JiebaSegmenter jiebaSegmenter=new JiebaSegmenter();@Testpublic void testJieBa(){String content="首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴 分词. 同时也感谢jieba分词java版本的实现团队huaban,他们的努力使得Java也能直接做出效果很棒的分词";/*** @Description:* 参数1 要分词的内容* 参数2:分词模式*/List<SegToken> tokens = jiebaSegmenter.process(content, JiebaSegmenter.SegMode.SEARCH);for (SegToken token : tokens) {System.out.println(token.word);}System.out.println("分词完成!"+"\n"+tokens.size());}
}
搜索速度的提升
之前:是需要把数据库做一个全表的扫描
现在:直接通过计算hash值定位 值,在非常理想的情况下。他的速度,只计算一次
Lucene(八)拓展1-结巴分词(java版) jieba-analysis相关推荐
- 结巴分词(java版) jieba-analysis
结巴分词(java版) jieba-analysis jieba-analysis 首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴 分词,更不会有现在的java版本. ...
- mysql使用结巴语句_结巴分词 java 高性能实现,是 huaban jieba 速度的 2倍
Segment Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现. 创作目的 分词是做 NLP 相关工作,非常基础的一项功能. jieba-analysis 作为一款非常 ...
- 中科院NLPIR中文分词java版
中科院NLPIR中文分词java版 中科院NLPIR中文分词java版
- java版JieBa分词源码走读
JieBa使用 List<SegToken> process = segmenter.process("今天早上,出门的的时候,天气很好", JiebaSegmente ...
- java结巴分词如何提高运行速度_结巴分词 java 高性能实现,优雅易用的 api 设计,性能优于 huaban jieba 分词...
Segment Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现. 创作目的 分词是做 NLP 相关工作,非常基础的一项功能. jieba-analysis 作为一款非常 ...
- 结巴分词 java 权重_结巴分词 (转载)
转自一个很不错的博客,结合自己的理解,记录一下. 作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! https:// ...
- 结巴分词 java 权重_结巴分词原理介绍
转自一个很不错的博客,结合自己的理解,记录一下.作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 结巴分词的原理,结 ...
- java nlpir_中科院NLPIR中文分词java版
摘要:为解决中文搜索的问题,最开始使用 版 SCWS ,但是处理人名和地名时,会出现截断人名地名出现错误.开始使用 NLPIR 分词,在分词准确性上效果要比 SCWS 好.本文介绍如何在 系统下 JA ...
- 结巴(jieba)分词 java 实现
结巴分词 java版本实现方式 前言 1引入 pom 依赖 普通分词实现代码 2 加载自定义词典 2.1 情况 2.2自定义 词典 `dict.txt` 2.3 加载自定义词典 3关于词性的问题 3. ...
最新文章
- vc 只有顶级窗口可以弹出窗口_如果你刚换了新电脑,这几个地方记得设置一下,电脑可以多用几年...
- (转载)查看Oracle字符集及怎样修改字符集
- UI超实用通用图标素材模板
- Javascript备忘复习笔记2
- 深入了解VPP关键技术有哪些?
- 业务流程图的绘制流程分享(一)
- 总结自己设计带POE的八口交换机的过程和踩坑
- ESP8266模块搭建最小系统原理图
- x内存满白苹果解决_苹果x出现白苹果的现象及解决办法
- 39.安装PH5\PH7
- 联想产品标准保修承诺
- 【诊断数据库文件-CDD】创建速成班-北汇信息小课堂(二)
- 如何从Google Play下载应用到电脑
- 论文翻译-Clicks can be Cheating: Counterfactual Recommendation for Mitigating Clickbait Issue
- AndroidP HIDL 转载
- tcp业务层粘包和半包理解及处理
- 网站怎么赚钱? 靠流量赚钱吗? 广告吗? 建什么网站赚钱
- [sig14]《正当防卫3》的Clustered Shading光照技术
- AcWing 666. 三角形类型
- 共享wifi到底应该怎么样去运营呢?