GitHub地址:https://github.com/huaban/jieba-analysis

结巴分词(java版) jieba-analysis

首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴 分词. 同时也感谢jieba分词java版本的实现团队huaban,他们的努力使得Java也能直接做出效果很棒的分词。

不过由于huaban已经没有再对java版进行维护,所以我自己对项目进行了开发。除了结巴分词(java版)所保留的原项目针对搜索引擎分词的功能(cutforindex、cutforsearch),我加入了tfidf的关键词提取功能,并且实现的效果和python的jieba版本的效果一模一样!

(以下内容在基于jieba-java版本README.md的基础上,加入了对我新加入的tfidf关键词提取模块的相关说明)

1.项目引入

    <dependency><groupId>com.huaban</groupId><artifactId>jieba-analysis</artifactId><version>1.0.2</version></dependency>

2.demo

import com.huaban.analysis.jieba.JiebaSegmenter;
import com.huaban.analysis.jieba.SegToken;
import org.junit.Test;import java.util.List;public class TestJieBa {//声明一个分词对象private static JiebaSegmenter jiebaSegmenter=new JiebaSegmenter();@Testpublic void testJieBa(){String content="首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴 分词. 同时也感谢jieba分词java版本的实现团队huaban,他们的努力使得Java也能直接做出效果很棒的分词";/*** @Description:* 参数1  要分词的内容* 参数2:分词模式*/List<SegToken> tokens = jiebaSegmenter.process(content, JiebaSegmenter.SegMode.SEARCH);for (SegToken token : tokens) {System.out.println(token.word);}System.out.println("分词完成!"+"\n"+tokens.size());}
}

搜索速度的提升

之前:是需要把数据库做一个全表的扫描

现在:直接通过计算hash值定位 值,在非常理想的情况下。他的速度,只计算一次

Lucene(八)拓展1-结巴分词(java版) jieba-analysis相关推荐

  1. 结巴分词(java版) jieba-analysis

    结巴分词(java版) jieba-analysis jieba-analysis 首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴 分词,更不会有现在的java版本. ...

  2. mysql使用结巴语句_结巴分词 java 高性能实现,是 huaban jieba 速度的 2倍

    Segment Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现. 创作目的 分词是做 NLP 相关工作,非常基础的一项功能. jieba-analysis 作为一款非常 ...

  3. 中科院NLPIR中文分词java版

    中科院NLPIR中文分词java版 中科院NLPIR中文分词java版

  4. java版JieBa分词源码走读

    JieBa使用 List<SegToken> process = segmenter.process("今天早上,出门的的时候,天气很好", JiebaSegmente ...

  5. java结巴分词如何提高运行速度_结巴分词 java 高性能实现,优雅易用的 api 设计,性能优于 huaban jieba 分词...

    Segment Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现. 创作目的 分词是做 NLP 相关工作,非常基础的一项功能. jieba-analysis 作为一款非常 ...

  6. 结巴分词 java 权重_结巴分词 (转载)

    转自一个很不错的博客,结合自己的理解,记录一下. 作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! https:// ...

  7. 结巴分词 java 权重_结巴分词原理介绍

    转自一个很不错的博客,结合自己的理解,记录一下.作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 结巴分词的原理,结 ...

  8. java nlpir_中科院NLPIR中文分词java版

    摘要:为解决中文搜索的问题,最开始使用 版 SCWS ,但是处理人名和地名时,会出现截断人名地名出现错误.开始使用 NLPIR 分词,在分词准确性上效果要比 SCWS 好.本文介绍如何在 系统下 JA ...

  9. 结巴(jieba)分词 java 实现

    结巴分词 java版本实现方式 前言 1引入 pom 依赖 普通分词实现代码 2 加载自定义词典 2.1 情况 2.2自定义 词典 `dict.txt` 2.3 加载自定义词典 3关于词性的问题 3. ...

最新文章

  1. vc 只有顶级窗口可以弹出窗口_如果你刚换了新电脑,这几个地方记得设置一下,电脑可以多用几年...
  2. (转载)查看Oracle字符集及怎样修改字符集
  3. UI超实用通用图标素材模板
  4. Javascript备忘复习笔记2
  5. 深入了解VPP关键技术有哪些?
  6. 业务流程图的绘制流程分享(一)
  7. 总结自己设计带POE的八口交换机的过程和踩坑
  8. ESP8266模块搭建最小系统原理图
  9. x内存满白苹果解决_苹果x出现白苹果的现象及解决办法
  10. 39.安装PH5\PH7
  11. 联想产品标准保修承诺
  12. 【诊断数据库文件-CDD】创建速成班-北汇信息小课堂(二)
  13. 如何从Google Play下载应用到电脑
  14. 论文翻译-Clicks can be Cheating: Counterfactual Recommendation for Mitigating Clickbait Issue
  15. AndroidP HIDL 转载
  16. tcp业务层粘包和半包理解及处理
  17. 网站怎么赚钱? 靠流量赚钱吗? 广告吗? 建什么网站赚钱
  18. [sig14]《正当防卫3》的Clustered Shading光照技术
  19. AcWing 666. 三角形类型
  20. 共享wifi到底应该怎么样去运营呢?

热门文章

  1. 渐变蓝底证件照如何制作?教你两招搞定
  2. 【分布式系统】docker安装FastDFS分布式文件系统
  3. Bandzip官网下载
  4. Outlook 突然打不开
  5. 充电桩“坟场”出现,物联卡该如何赋能?
  6. C语言中随机数的生成(rand函数和srand函数)
  7. C# .NET Core3.0+TopShelf 搭建服务程序 实现进程守护技术
  8. 银行卡实名认证标准版API开发文档
  9. 论程序员如何画水粉画
  10. 仿微信查找聊天记录自动搜索关键字